监控配置问题：监控配置错误，导致监控数据不准确-蛰蕴论坛

1. 明确监控配置的关键点

在排查和优化监控配置时，需要重点关注以下内容：

数据采集频率：是否过于频繁或过低。
采集目标：是否覆盖了所有需要监控的资源（如 CPU、内存、磁盘、网络等）。
过滤规则：是否正确排除了无关数据。
阈值设置：告警阈值是否合理。
时间同步：服务器时间是否一致，避免因时间偏差导致数据错乱。

示例配置检查清单：

配置项	检查内容
数据采集频率	是否与业务需求匹配
采集目标	是否遗漏关键资源
过滤规则	是否正确排除无关数据
阈值设置	是否合理（例如 CPU 使用率 > 80% 触发告警）
时间同步	是否使用 NTP 同步时间

2. 校准监控工具

通过工具自带的功能或第三方工具校准监控配置，确保数据采集的准确性。

（1）Prometheus 校准

检查 scrape_interval 和 evaluation_interval 是否合理。

# 示例：调整 Prometheus 的采集频率
scrape_configs:
  - job_name: 'node'
    scrape_interval: 30s
    static_configs:
      - targets: ['localhost:9100']

（2）Zabbix 校准

检查 Update interval 和 History storage period 是否合理。

# 示例：调整 Zabbix 的更新间隔 
Update interval: 60s 
History storage period: 90 days

（3）Netdata 校准

检查 update_every 参数是否合理。

# 示例：调整 Netdata 的更新频率
[global]
    update every = 5

3. 验证数据采集的准确性

通过对比不同工具的数据，验证监控数据的准确性。

（1）手动对比

使用命令行工具（如 top、iostat、sar）与监控工具的数据进行对比。

# 查看 CPU 使用率
top -b -n 1 | grep "Cpu(s)"
 
# 查看磁盘 I/O
iostat -dx 1 10

（2）自动化对比脚本

编写脚本自动对比监控工具和系统命令的数据。

#!/bin/bash
 
# 获取系统 CPU 使用率
cpu_usage=$(top -b -n 1 | grep "Cpu(s)" | awk '{print $2 + $4}')
 
# 获取监控工具的 CPU 使用率（假设 Prometheus）
prometheus_cpu=$(curl -s http://localhost:9090/api/v1/query?query=100-rate(node_cpu_seconds_total{mode="idle"}[1m]) | jq '.data.result[0].value[1]'  | awk '{print int($1)}')
 
# 对比数据
if [ "$cpu_usage" -ne "$prometheus_cpu" ]; then
    echo "CPU 数据不一致：系统 $cpu_usage%，Prometheus $prometheus_cpu%" >> /var/log/monitoring_validation.log  
fi

4. 优化过滤规则

通过过滤规则排除无关数据，减少误报和噪声。

（1）Prometheus 过滤规则

使用 PromQL 编写过滤规则。

# 示例：仅监控生产环境的服务器
up{environment="production"}

（2）Zabbix 过滤规则

在触发器中添加过滤条件。

# 示例：仅监控 CPU 使用率超过 80% 的生产服务器
{Template OS Linux:system.cpu.util[,user].avg(5m)}>80  and {Host group}="Production"

5. 设置合理的阈值

根据业务需求和历史数据分析，设置合理的告警阈值。

（1）动态阈值

基于历史数据计算动态阈值。

# 示例：计算过去 7 天的平均 CPU 使用率
sar -u -f /var/log/sa/sa08 | awk '/Average:/ {sum += $3 + $5; count++} END {print sum/count}'

（2）固定阈值

根据经验值设置固定阈值。

# 示例：Prometheus 告警规则
groups:
- name: example
  rules:
  - alert: HighMemoryUsage 
    expr: (node_memory_MemTotal_bytes - node_memory_MemFree_bytes) / node_memory_MemTotal_bytes * 100 > 90
    for: 5m
    labels:
      severity: critical
    annotations:
      summary: "High memory usage on {{ $labels.instance  }}"
      description: "Memory usage is above 90% for more than 5 minutes."

6. 定期测试和优化

通过模拟故障场景测试监控配置，并根据实际需求优化。

（1）模拟故障

使用工具（如 stress-ng）模拟高负载或网络中断。

# 模拟高负载
stress-ng --cpu 4 --timeout 60s 
 
# 模拟网络中断
iptables -A INPUT -p tcp --dport 80 -j DROP

（2）记录测试结果

将测试结果记录到日志中，便于后续分析。

#!/bin/bash
 
# 测试监控配置
test_monitoring_config() {
    echo "开始测试监控配置..."
    stress-ng --cpu 4 --timeout 60s
    if [ $? -eq 0 ]; then
        echo "测试成功" >> /var/log/monitoring_test.log 
    else
        echo "测试失败" >> /var/log/monitoring_test.log 
    fi 
}
 
test_monitoring_config

文章版权归作者所有，未经允许请勿转载。

THE END