监控告警项说明
概述
Rainbond 监控服务由组件 rbd-monitor
完成,在 monitor 组件中采用 Sidecar 设计模式思想整合 Prometheus 服务,并基于 ETCD动态发现 需要监控的 targets,自动配置与管理 Prometheus 服务。monitor 会定期到每个 targets 刮取指标数据,并将数据持久化在本地,提供灵活的PromQL查询与RESTful API查询。
架构图:
访问方式
默认监听端口9999,默认安装已添加 Service 对象,在集群获取到 ServiceIP
后在平台添加 第三方服务 打开对外端口即可访问。
获取 ServiceIP
方式
$ kubectl get service rbd-monitor -n rbd-system
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
rbd-monitor ClusterIP 10.68.140.5 <none> 9999/TCP 7h11m
具体监控报警项请访问 rbd-monitor 查看,以下仅作为参考。
监控项
节点资源监控项
监控项 | 所属组件 | 说明 |
---|---|---|
cadvisor_version_info | cadvisor | 节点系统信息 |
machine_memory_bytes | cadvisor | 当前主机内存大小 |
machine_cpu_cores | cadvisor | 当前节点CPU数目 |
node_filesystem_size | node | 存储 |
node_load1 | node | 负载1m |
node_load5 | node | 负载5m |
node_load5 | node | 负载15m |
node_memory_MemTotal | node | 节点内存total |
node_memory_MemFree | node | 节点内存free |
node_uname_info | node | 节点信息 |
Rainbond服务组件监控项
监控项 | 所属组件 | 说明 |
---|---|---|
acp_mq_dequeue_number | rbd-mq | |
acp_mq_enqueue_number | rbd-mq | |
acp_mq_exporter_health_status | rbd-mq | |
acp_mq_exporter_last_scrape_error | rbd-mq | |
acp_mq_exporter_scrapes_total | rbd-mq | |
builder_exporter_builder_task_error | rbd-chaos | 源码构建任务失败数 |
builder_exporter_builder_task_number | rbd-chaos | 源码构建任务数 |
builder_exporter_health_status | rbd-chaos | 组件状态1为健康 |
event_log_exporter_chan_cache_size | rbd-eventlog | |
event_log_exporter_collector_duration_seconds | rbd-eventlog | |
event_log_exporter_container_log_store_cache_barrel_count | rbd-eventlog | |
event_log_exporter_container_log_store_log_count | rbd-eventlog | |
event_log_exporter_event_store_barrel_count | rbd-eventlog | |
event_log_exporter_event_store_cache_barrel_count | rbd-eventlog | |
event_log_exporter_event_store_log_count | rbd-eventlog | |
event_log_exporter_health_status | rbd-eventlog | |
event_log_exporter_last_scrape_error | rbd-eventlog | |
event_log_exporter_monitor_store_barrel_count | rbd-eventlog | |
event_log_exporter_monitor_store_log_count | rbd-eventlog | |
event_log_exporter_scrapes_total | rbd-eventlog | |
gateway_request_duration_seconds_bucket | rbd-gateway | 在规定请求时间(bucket)内, 客户端请求的数量 |
gateway_request_duration_seconds_count | rbd-gateway | 客户端请求的总数 |
gateway_request_duration_seconds_sum | rbd-gateway | 客户端请求时间的总数 |
gateway_request_size_bucket | rbd-gateway | 在规定出请求大小(bucket)内, 满足条件的请求的数量 |
gateway_request_size_count | rbd-gateway | 客户端请求的总数 |
gateway_request_size_sum | rbd-gateway | 客户端请求大小的总数 |
gateway_requests | rbd-gateway |