MongoDB常用監控指令與維護實用攻略

21次閱讀

MongoDB作為一種流行的NoSQL資料庫，在高併發、大數據量的應用場景中被廣泛使用。為了確保MongoDB系統的穩定運行，有效的監控與維護策略是不可或缺的。本文將詳細介紹MongoDB內建監控工具和實用技巧，幫助您建立一個健康且高效的MongoDB環境。

一、MongoDB內建監控工具詳解

MongoDB提供了豐富的內建工具，可以全面監控資料庫的運行狀態，從性能指標到資源使用，無需額外安裝第三方軟體。

1. mongostat 工具

mongostat是最常用的MongoDB監控工具，提供了類似Unix top命令的實時統計數據。

基本用法

# 基本用法，每秒更新一次
mongostat

# 自定義更新間隔（例如每5秒）
mongostat --port 27017 5

# 監控複製集中的所有成員
mongostat --host rs0/mongodb1:27017,mongodb2:27017

# 格式化輸出為JSON
mongostat --json

# 將輸出重定向到文件
mongostat --rowcount 3600 > mongostat_hourly.txt

# 顯示額外字段（如掃描和計劃摘要）
mongostat --discover --all

輸出指標詳解

mongostat輸出的每一列代表特定時間點的狀態：

insert query update delete getmore command dirty used flushes vsize  res qrw arw net_in net_out conn time
    *0    *0     *0     *0       0     1|0  0.0% 0.0%       0 1.53G 139M 0|0 1|0   112b   49.1k    5 Apr 25 03:21:13

insert/query/update/delete：每秒執行的各類CRUD操作數
getmore：每秒執行的getmore操作數（游標批處理請求）
command：每秒執行的命令數，格式為本地|複製
dirty/used：WiredTiger緩存中髒頁百分比和使用率
flushes：每分鐘刷新到磁盤的次數
vsize：進程的虛擬內存使用量
res：進程的常駐內存使用量
qrw：讀寫隊列的長度
arw：活躍讀寫操作的數量
net_in/net_out：網絡流入和流出流量
conn：當前連接數

高級監控技巧

監控复制延迟：使用mongostat --discover可同時查看所有節點狀態
聚焦特定指標：使用--stat參數指定只顯示某些字段，如mongostat --stat latency,opcounters
長期趨勢分析：定期記錄mongostat輸出，結合時間序列分析工具查看性能趨勢

2. mongotop 工具

mongotop專注於監控每個集合的讀寫時間分佈，幫助識別系統中最忙的集合。

基本用法

# 默認每秒更新一次
mongotop

# 自定義更新間隔（例如每10秒）
mongotop 10

# 只顯示有活動的集合
mongotop --active

# JSON格式輸出
mongotop --json

# 查看特定數據庫
mongotop --db=mydb

輸出解析

ns                      total    read    write    2023-04-25T03:25:48+08:00
admin.system.roles      0ms      0ms     0ms
admin.system.version    0ms      0ms     0ms
config.system.sessions  0ms      0ms     0ms
mydb.users              115ms    15ms    100ms

ns：命名空間（數據庫.集合）
total：該集合上花費的總時間
read：讀操作時間
write：寫操作時間

使用技巧

識別熱點集合：長時間運行mongotop發現消耗資源最多的集合
優化策略制定：根據讀寫比例決定索引策略（高讀取比例的集合需要更多索引）
分片策略評估：識別I/O密集的集合，可能需要進行分片

3. db.serverStatus() 命令

這是MongoDB Shell中最全面的監控命令，提供了豐富的系統狀態信息。

基本用法

// 獲取完整的服務器狀態
db.serverStatus()

// 獲取特定部分的狀態
db.serverStatus({ repl: 1, metrics: 1 })

重要子系統詳解

操作計數器

db.serverStatus().opcounters

返回自上次服務器啟動以來的操作計數：

insert：插入操作數
query/find：查詢操作數
update：更新操作數
delete：刪除操作數
getmore：游標批獲取操作數
command：命令執行數

連接信息

db.serverStatus().connections

返回當前連接狀態：

current：當前連接數
available：可用連接數
totalCreated：創建的總連接數
active：活躍連接數
threaded：線程連接數

內存使用

db.serverStatus().mem

查看內存使用詳情：

resident：物理內存使用量(MB)
virtual：虛擬內存使用量(MB)
mapped：映射內存(僅MMAPv1)
bits：系統位數(32或64)
heap：JavaScript堆使用量

WiredTiger存儲引擎狀態

db.serverStatus().wiredTiger

WiredTiger引擎的詳細狀態，包括：

cache：緩存使用率和配置
concurrentTransactions：並發事務數
session：會話統計
block-manager：塊管理器統計

網絡統計

db.serverStatus().network

網絡流量統計：

bytesIn：接收的字節數
bytesOut：發送的字節數
numRequests：請求數

全局鎖信息

db.serverStatus().globalLock

全局鎖相關信息：

totalTime：鎖定的總毫秒數
currentQueue：等待鎖的讀寫請求數
activeClients：持有鎖的客戶端數

慢查詢統計

db.serverStatus().opLatencies

顯示不同操作類型的延遲統計。

4. 數據庫和集合統計

db.stats() – 數據庫統計

// 基本用法
db.stats()

// 指定比例因子（MB）
db.stats(1024*1024)

返回的關鍵指標：

collections：集合數量
views：視圖數量
objects：文檔總數
dataSize：數據大小
storageSize：存儲大小
indexes：索引數量
indexSize：索引大小
fsUsedSize/fsTotalSize：文件系統使用情況

db.collection.stats() – 集合統計

// 基本用法
db.users.stats()

// 包含存儲統計信息
db.users.stats({ indexDetails: true })

返回的關鍵指標：

count：文檔數量
size：集合大小
avgObjSize：平均文檔大小
storageSize：存儲空間大小
capped：是否為固定集合
nindexes：索引數量
indexSizes：各索引大小

5. 複製集監控工具

rs.status() – 複製集狀態

rs.status()

提供複製集所有成員的詳細狀態：

每個成員的狀態（PRIMARY/SECONDARY/ARBITER等）
選舉信息
同步狀態
健康度
optime（操作時間戳）

rs.printReplicationInfo() – 複製延遲信息

rs.printReplicationInfo()

顯示主節點的oplog信息：

oplog大小和使用情況
第一個和最後一個操作的時間戳
oplog時間窗口（可恢複的時間範圍）

rs.printSecondaryReplicationInfo() – 從節點複製狀態

rs.printSecondaryReplicationInfo()

顯示所有從節點的同步狀態和延遲。

6. 分片集群監控

sh.status() – 分片狀態

sh.status()

顯示分片集群配置：

分片服務器列表
數據庫分片情況
集合片鍵和數據分佈
塊分佈情況

config數據庫查詢

// 查看塊分佈
use config
db.chunks.aggregate([
  { $group: { _id: "$shard", count: { $sum: 1 } } }
])

// 查看進行中的遷移
db.changelog.find().sort({time:-1}).limit(10)

7. 日誌監控和分析

MongoDB日誌是診斷問題的重要來源：

# 查看MongoDB日誌末尾
tail -f /var/log/mongodb/mongod.log

# 過濾警告和錯誤信息
grep -E "warning|error" /var/log/mongodb/mongod.log

8. 慢查詢分析

啟用和配置慢查詢分析器

// 啟用慢查詢分析器（記錄超過100ms的查詢）
db.setProfilingLevel(1, { slowms: 100 })

// 設置記錄所有查詢
db.setProfilingLevel(2)

// 禁用慢查詢分析器
db.setProfilingLevel(0)

// 查看當前配置
db.getProfilingStatus()

查詢慢查詢日誌

// 查看最近的慢查詢
db.system.profile.find().sort({millis:-1}).limit(10)

// 查看特定集合上的慢查詢
db.system.profile.find({ns: "mydb.users"}).sort({millis:-1})

// 查看超過特定執行時間的查詢
db.system.profile.find({millis: {$gt: 500}})

9. 實時操作監控

db.currentOp() – 查看當前操作

// 查看所有當前操作
db.currentOp()

// 只看活躍的操作
db.currentOp({ active: true })

// 查看特定操作類型
db.currentOp({ op: "query" })

// 查看長時間運行的操作（超過5秒）
db.currentOp({ secs_running: { $gt: 5 } })

// 查看特定集合上的操作
db.currentOp({ ns: "mydb.users" })

終止長時間運行的操作

// 獲取操作ID後終止
db.killOp(opId)

10. 索引使用分析

查看集合的索引

// 列出集合的所有索引
db.users.getIndexes()

分析索引使用情況

// 查看索引訪問統計
db.users.aggregate([{ $indexStats: {} }])

// 解釋查詢計劃
db.users.find({ username: "test" }).explain("executionStats")

// 檢查特定查詢的索引使用
db.users.find({ username: "test" }).hint({ username: 1 }).explain()

二、關鍵監控指標

在監控MongoDB時，以下指標值得特別關注：

1. 性能指標

操作延遲：各類操作的響應時間
QPS (每秒查詢數)：衡量系統負載的基本指標
慢查詢：執行時間超過閾值的查詢
連接數：當前和歷史連接數
游標：開啟的游標數量和生命周期

2. 資源使用

CPU使用率：MongoDB是CPU密集型應用
內存使用：WiredTiger緩存利用率
磁盤I/O：讀寫操作和IOPS
網絡流量：進出流量和延遲

3. 複製集指標

複製延遲：主節點和從節點之間的數據同步延遲
選舉事件：主節點選舉頻率和持續時間
心跳狀態：節點間通信健康度

4. 分片集群指標

數據分佈：各分片上數據量的平衡程度
塊遷移：遷移頻率、持續時間和失敗率
跨分片查詢：需要訪問多個分片的查詢比例

三、常見問題診斷

1. 性能下降

發現性能下降時，可以按以下步驟診斷：

// 1. 查看當前執行的操作
db.currentOp()

// 2. 分析慢查詢
db.setProfilingLevel(1, { slowms: 100 })
db.system.profile.find().sort({millis: -1}).limit(10)

// 3. 檢查索引使用情況
db.collection.find({query}).explain("executionStats")

2. 內存問題

如果發現內存使用過高：

// 查看WiredTiger緩存統計
db.serverStatus().wiredTiger.cache

// 分析最大集合
db.stats()

解決方案：

調整WiredTiger緩存大小 (cacheSizeGB 參數)
創建合適的索引減少內存掃描
優化查詢減少內存使用

3. 連接問題

連接數過高或連接失敗時：

// 查看連接統計
db.serverStatus().connections

解決方案：

增加最大連接數限制
實施連接池
檢查是否有未關閉的連接

四、維護最佳實踐

1. 備份策略

定期備份是防止數據丟失的重要措施：

# 使用mongodump進行備份
mongodump --host mongodb1 --port 27017 --out /backup/$(date +%Y-%m-%d)

# 使用mongorestore恢復
mongorestore --host mongodb1 --port 27017 /backup/2023-04-25

備份最佳實踐：

對重要系統實施每日備份
保留多個時間點的備份版本
測試恢復過程
考慮使用時間點恢復功能

2. 索引維護

良好的索引是性能優化的關鍵：

// 查找未使用的索引
db.collection.aggregate([
  { $indexStats: {} },
  { $match: { "accesses.ops": { $lt: 1 } } }
])

// 創建索引（後台執行，不阻塞操作）
db.collection.createIndex({ field: 1 }, { background: true })

索引最佳實踐：

定期檢查索引使用情況
移除未使用的索引
創建複合索引支持常見查詢
避免過多索引（影響寫入性能）

3. 壓縮和碎片整理

// 壓縮集合（回收空間）
db.runCommand({ compact: "collection_name" })

// 檢查數據庫碎片
db.stats().dataSize vs db.stats().storageSize

4. 升級計劃

MongoDB版本升級建議：

先在測試環境驗證
確保有完整備份
閱讀版本兼容性和變更說明
制定回滾計劃
選擇低峰時段執行
遵循官方升級路徑（避免跨多個大版本直接升級）

5. 安全審計

定期進行安全檢查：

// 查看用戶列表
db.getUsers()

// 檢查認證設置
db.runCommand({ getCmdLineOpts: 1 })

安全最佳實踐：

啟用訪問控制和認證
實施最小權限原則
啟用網絡加密（TLS/SSL）
定期更新密碼
考慮啟用審計功能

五、MongoDB監控告警設置

建立有效的告警系統可以幫助您及時發現並解決問題：

1. 關鍵告警指標

連接數：接近最大限制時告警
複製延遲：當延遲超過閾值時告警
查詢響應時間：超過預期時告警
磁盤空間：使用率超過80%時告警
CPU使用率：持續高於70%時告警
內存使用：WiredTiger緩存壓力大時告警

2. 使用MongoDB Atlas告警

如果使用Atlas，可以配置內置告警：

主機指標（CPU、內存、磁盤）
複製集指標（選舉、延遲）
查詢性能指標

六、案例分析與故障復原

案例1：查詢性能突然下降

症狀：原本執行良好的查詢突然變慢

診斷步驟：

使用db.currentOp()檢查當前操作
檢查explain()輸出，查看查詢計劃
使用db.collection.stats()檢查集合大小變化
查看系統資源使用情況

可能原因：

索引缺失或未被使用
數據量顯著增長
系統資源不足
查詢模式變化

解決方案：

優化或創建適當索引
重寫查詢以提高效率
增加系統資源
實施查詢結果緩存

案例2：主節點崩潰

症狀：主節點不可用，應用連接失敗

診斷步驟：

檢查MongoDB日誌文件
查看複製集狀態 rs.status()
檢查系統資源和網絡連接

解決方案：

等待自動選舉新主節點
如必要，手動強制選舉 rs.stepDown()或rs.freeze()
恢復崩潰節點
分析根本原因並預防未來發生

案例3：磁盤空間耗盡

症狀：寫入操作失敗，日誌顯示磁盤空間不足

診斷步驟：

檢查磁盤使用情況 df -h
分析集合大小 db.collection.stats()
檢查日誌文件大小

解決方案：

緊急清理臨時文件釋放空間
執行壓縮操作回收空間
刪除不必要的數據或集合
增加磁盤容量
實施數據生命周期管理策略

七、結論

有效的MongoDB監控與維護是確保數據庫系統穩定、高效和安全運行的關鍵。通過本文介紹的工具和技術，您可以建立一套全面的監控體系，及時發現並解決潛在問題，同時通過定期維護和優化，保持MongoDB系統的最佳性能。

記住，最好的監控是預防性的，而不是僅僅響應問題。定期檢查系統健康狀況，及時優化配置，將可以大大減少故障發生的可能性，提高系統的可靠性和用戶體驗。serverStatus().connections


解決方案：
- 增加最大連接數限制
- 實施連接池
- 檢查是否有未關閉的連接

## 四、維護最佳實踐

### 1. 備份策略

定期備份是防止數據丟失的重要措施：

```bash
# 使用mongodump進行備份
mongodump --host mongodb1 --port 27017 --out /backup/$(date +%Y-%m-%d)

# 使用mongorestore恢復
mongorestore --host mongodb1 --port 27017 /backup/2023-04-25

備份最佳實踐：

對重要系統實施每日備份
保留多個時間點的備份版本
測試恢復過程
考慮使用時間點恢復功能

2. 索引維護

良好的索引是性能優化的關鍵：

// 查找未使用的索引
db.collection.aggregate([
  { $indexStats: {} },
  { $match: { "accesses.ops": { $lt: 1 } } }
])

// 創建索引（後台執行，不阻塞操作）
db.collection.createIndex({ field: 1 }, { background: true })

索引最佳實踐：

定期檢查索引使用情況
移除未使用的索引
創建複合索引支持常見查詢
避免過多索引（影響寫入性能）

3. 壓縮和碎片整理

// 壓縮集合（回收空間）
db.runCommand({ compact: "collection_name" })

// 檢查數據庫碎片
db.stats().dataSize vs db.stats().storageSize

4. 升級計劃

MongoDB版本升級建議：

先在測試環境驗證
確保有完整備份
閱讀版本兼容性和變更說明
制定回滾計劃
選擇低峰時段執行
遵循官方升級路徑（避免跨多個大版本直接升級）

5. 安全審計

定期進行安全檢查：

// 查看用戶列表
db.getUsers()

// 檢查認證設置
db.runCommand({ getCmdLineOpts: 1 })

安全最佳實踐：

啟用訪問控制和認證
實施最小權限原則
啟用網絡加密（TLS/SSL）
定期更新密碼
考慮啟用審計功能

五、MongoDB監控告警設置

建立有效的告警系統可以幫助您及時發現並解決問題：

1. 關鍵告警指標

連接數：接近最大限制時告警
複製延遲：當延遲超過閾值時告警
查詢響應時間：超過預期時告警
磁盤空間：使用率超過80%時告警
CPU使用率：持續高於70%時告警
內存使用：WiredTiger緩存壓力大時告警

2. 使用MongoDB Atlas告警

如果使用Atlas，可以配置內置告警：

主機指標（CPU、內存、磁盤）
複製集指標（選舉、延遲）
查詢性能指標

3. 自定義腳本告警

對於自託管的MongoDB，可以編寫監控腳本並與告警系統整合：

// 範例：檢查複製延遲並通過電子郵件告警
const replicationStatus = db.adminCommand({ replSetGetStatus: 1 });
const primary = replicationStatus.members.find(m => m.state === 1);
const secondaries = replicationStatus.members.filter(m => m.state === 2);

secondaries.forEach(secondary => {
  const lagSeconds = Math.abs((secondary.optimeDate.getTime() - primary.optimeDate.getTime()) / 1000);
  if (lagSeconds > 300) {  // 5分鐘延遲
    // 觸發告警（透過郵件、Slack等）
  }
});

六、案例分析與故障復原

案例1：查詢性能突然下降

症狀：原本執行良好的查詢突然變慢

診斷步驟：

使用db.currentOp()檢查當前操作
檢查explain()輸出，查看查詢計劃
使用db.collection.stats()檢查集合大小變化
查看系統資源使用情況

可能原因：

索引缺失或未被使用
數據量顯著增長
系統資源不足
查詢模式變化

解決方案：

優化或創建適當索引
重寫查詢以提高效率
增加系統資源
實施查詢結果緩存

案例2：主節點崩潰

症狀：主節點不可用，應用連接失敗

診斷步驟：

檢查MongoDB日誌文件
查看複製集狀態 rs.status()
檢查系統資源和網絡連接

解決方案：

等待自動選舉新主節點
如必要，手動強制選舉 rs.stepDown()或rs.freeze()
恢復崩潰節點
分析根本原因並預防未來發生

案例3：磁盤空間耗盡

症狀：寫入操作失敗，日誌顯示磁盤空間不足

診斷步驟：

檢查磁盤使用情況 df -h
分析集合大小 db.collection.stats()
檢查日誌文件大小

解決方案：

緊急清理臨時文件釋放空間
執行壓縮操作回收空間
刪除不必要的數據或集合
增加磁盤容量
實施數據生命周期管理策略

七、自動化監控與維護腳本

1. 複製延遲監控腳本

// replication_lag.js
var lag = db.printReplicationInfo();
if (lag > threshold) {
  // 發送告警
}

執行方式：

mongo --quiet replication_lag.js

2. 索引使用情況檢查腳本

// unused_indexes.js
db.getCollectionNames().forEach(function(collection) {
  var indexes = db[collection].aggregate([
    { $indexStats: {} },
    { $match: { "accesses.ops": { $lt: 1 } } }
  ]).toArray();
  
  indexes.forEach(function(index) {
    print("Unused index on " + collection + ": " + index.name);
  });
});

3. 自動備份腳本

#!/bin/bash
# backup_mongodb.sh

DATE=$(date +%Y-%m-%d)
BACKUP_DIR="/backup/$DATE"

mkdir -p $BACKUP_DIR
mongodump --host mongodb1 --port 27017 --out $BACKUP_DIR

# 刪除7天前的備份
find /backup -type d -mtime +7 -exec rm -rf {} \;

# 發送備份完成通知
echo "Backup completed to $BACKUP_DIR" | mail -s "MongoDB Backup Status" admin@example.com

八、結論

有效的MongoDB監控與維護是確保數據庫系統穩定、高效和安全運行的關鍵。通過本文介紹的工具和技術，您可以建立一套全面的監控體系，及時發現並解決潛在問題，同時通過定期維護和優化，保持MongoDB系統的最佳性能。

記住，最好的監控是預防性的，而不是僅僅響應問題。定期檢查系統健康狀況，及時優化配置，將可以大大減少故障發生的可能性，提高系統的可靠性和用戶體驗。

正文完

发表至：未分類

近三天内

0

AlmaLinux 9 安裝最新版MongoDB設定開機自動啟動指南

MongoDB常用監控指令與維護實用攻略

一、MongoDB內建監控工具詳解

1. mongostat 工具

基本用法

輸出指標詳解

高級監控技巧

2. mongotop 工具

基本用法

輸出解析

使用技巧

3. db.serverStatus() 命令

基本用法

重要子系統詳解

4. 數據庫和集合統計

db.stats() – 數據庫統計

db.collection.stats() – 集合統計

5. 複製集監控工具

rs.status() – 複製集狀態

rs.printReplicationInfo() – 複製延遲信息

rs.printSecondaryReplicationInfo() – 從節點複製狀態

6. 分片集群監控

sh.status() – 分片狀態

config數據庫查詢

7. 日誌監控和分析

8. 慢查詢分析

啟用和配置慢查詢分析器

查詢慢查詢日誌

9. 實時操作監控

db.currentOp() – 查看當前操作

終止長時間運行的操作

10. 索引使用分析

查看集合的索引

分析索引使用情況

二、關鍵監控指標

1. 性能指標

2. 資源使用

3. 複製集指標

4. 分片集群指標

三、常見問題診斷

1. 性能下降

2. 內存問題

3. 連接問題

四、維護最佳實踐

1. 備份策略

2. 索引維護

3. 壓縮和碎片整理

4. 升級計劃

5. 安全審計

五、MongoDB監控告警設置

1. 關鍵告警指標

2. 使用MongoDB Atlas告警

六、案例分析與故障復原

案例1：查詢性能突然下降

案例2：主節點崩潰

案例3：磁盤空間耗盡

七、結論

2. 索引維護

3. 壓縮和碎片整理

4. 升級計劃

5. 安全審計

五、MongoDB監控告警設置

1. 關鍵告警指標

2. 使用MongoDB Atlas告警

3. 自定義腳本告警

六、案例分析與故障復原

案例1：查詢性能突然下降

案例2：主節點崩潰

案例3：磁盤空間耗盡

七、自動化監控與維護腳本

1. 複製延遲監控腳本

2. 索引使用情況檢查腳本

3. 自動備份腳本

八、結論

近期文章

近期留言