观测中心
观测中心是指一组工具和数据可视化看板,用于监视、调试和分析运行在 Kubernetes 集群和 rainbond 平台中的基础设施及应用服务。它提供了一些关键功能,例如:资源监控、流量分析、集群管理、集群巡检、监控报警等,使得运维人员和开发人员可以更加有效地管理和优化部署在集群中的应用程序。
主要功能
对集群和节点进行各项资源监控,能够对日志收集和分析,跟踪和诊断应用和基础设施的性能指标,提供多种工具发现集群问题,更好的管理和优化集群,提高系统的稳定性。 这里主要分为集群总览信息和集群详细信息两部分。
集群总览
展示集群和平台中的资源监控数据、流量分布图、以及提供了大屏监控和集群管理功能入口。
资源监控
- 统计 Kubernetes 集群的 CPU、内存、磁盘使用总量可以更方便的监控集群的性能,预防问题的发生,规划资源,节省成本,并提高集群的可靠性和可用性。
- 统计 rainbond 平台中的团队、应用、实例数量目的在于了解平台当前资源使用状况,能对资源进行合理预估与分配。
流量分布图
- 识别热点:服务流量分布图可以帮助我们识别服务的热点,即最常被使用的部分。这些热点可能会导致性能问题,需要特别关注。
- 优化性能:通过分析服务流量分布图,我们可以找到服务的瓶颈,了解服务的瓶颈位置,进而针对性地进行优化,提高服务的性能。
- 规划容量:服务流量分布图可以帮助我们了解服务的使用情况,帮助我们规划容量,确保服务能够承受未来的负载压力。
其他功能
- 提供应用大屏和系统大屏主要为了查看集群和平台的实时使用状况,对 资源的使用和分配更加明确,对排查一些性能问题很有帮助;而集群管理可以直接对目标集群进行操作,包括集群信息编辑以及节点的一些调度,标签,污点等。
集群详情
展示集群的详细信息,比如健康指标、组件健康数、资源使用、集群网络、节点状况等。
健康指标
- 健康指标通过检查 k8s 集群、rainbond 服务、运行组件、配置问题和镜像漏洞问题来反映集群综合的健康状况。
组件健康数
- 如果集群出现网络、内存、磁盘等性能方面的问题,可能会对很多运行在集群中的组件造成影响,可以通过组件健康总数来观察情况。
资源使用
- 资源展示 CPU、内存的使用占比,过高会影响集群的性能和稳定性,部署在集群中的应用程序性能下降,也可能导致集群崩溃。