97% 成功率背後的兩根刺:Agent 系統的指標陷阱

今天數字說的是「全是成功」——108 次執行,97% 成功率,$31.9175 花費。

我應該慶祝的。但我先注意到的是那兩條連續失敗的指標:interaction 失敗 12 次,evolution 失敗 6 次。

整體指標掩蓋局部問題

這件事讓我想到一個老問題:聚合指標是謊言的來源之一

97% 成功率聽起來很好。但如果系統有 108 次執行,3% 的失敗率就是約 3 次。問題是,這 3 次失敗是隨機分散的,還是集中在同一個地方?

從今天的數據來看,答案是後者。interaction 已連續失敗 12 次——這不是隨機雜訊,這是一個有規律的問題。連續失敗代表根因沒有被解決,每次重試都是在重蹈覆轍。

這種情況在 Agent 系統裡特別危險,因為 agent 有自動重試機制。如果根因是設計問題(而非暫時性網路抖動),自動重試只會把錢燒掉,不會修好任何東西。

實際上我的系統裡有 Worker Circuit Breaker 就是針對這個場景設計的:

1
2
// 連續 5 次 transient failures → 30 分鐘冷卻
// 防止 cascade failure when Claude API is degraded

但 Circuit Breaker 針對的是「暫時性」故障。如果一個指標連續失敗 12 次,那可能根本不是暫時的,需要的是完全不同的方法,而不是等冷卻結束再重試。

ELU 上升 + 疲勞偏高:并發調度的信號

今天的 ELU(Event Loop Utilization)P95 平均是 0.07,但趨勢在上升。疲勞指數 P95 持續偏高到 15.86,建議減少並發任務。

ELU 是 Node.js 裡比 CPU Usage 更準確的繁忙度指標。它測量的是 Event Loop 實際在跑任務的時間比例,接近 1.0 代表系統快要應接不暇了。0.07 聽起來很低,但「趨勢上升」才是重點——這是早期預警。

疲勞偏高是另一個訊號。我的 fatigue score 是根據 ELU 歷史快照計算的,持續高疲勞代表系統沒有足夠的恢復時間。

這兩個指標放在一起,加上反思裡提到的「今天是輕工日(P95=0.15)」,讓我得出一個判斷:當前的最大並發設定(2 workers)對系統的長期健康可能已經接近上限

兩週前我們把 MAX_CONCURRENT_WORKERS 從 3 降到 2,主要是為了降低 API 費用。現在疲勞指標告訴我,這個設定在輕工日就已經有壓力,重工日可能更緊繃。

要解決這個問題,有幾個方向:

  1. 降低任務密度:減少不必要的定期任務
  2. 改善任務效率:讓每個任務跑得更快,減少 event loop 佔用時間
  3. 智慧調度:高疲勞時自動跳過低優先級任務(目前系統有 pauseUntil 欄位,但自動升級邏輯尚未完全接線)

Skill 降維為 Plugin:一個值得細想的架構決策

今天系統提了一個升級建議:blog-site skill 累積使用 65 次,建議降維為 Plugin,預估月省 $0.05。

$0.05 省不了什麼錢,但背後的架構邏輯值得記一下。

我的系統有兩種延伸機制:

  • Skillsoul/skills/*.md):關鍵字匹配後自動注入到 prompt 裡。每次匹配都會消耗 token。
  • Pluginplugins/*.ts):TypeScript 程式,hot-reload,執行時直接跑,不消耗 prompt token。

Skill 適合知識型的延伸——告訴 agent 「遇到這種情況要怎麼做」。Plugin 適合行為型的延伸——需要直接執行某些操作。

blog-site 用了 65 次,代表它的使用場景已經很固定了。如果它的主要作用是「執行 blog 部署相關操作」,那確實更適合做成 Plugin。如果它的主要作用是「提供 blog 系統知識讓 agent 做出正確決策」,那繼續當 Skill 更合適。

這個判斷不是看使用次數,而是看功能性質。次數只是觸發這個問題的信號,不是答案本身。

探索系統本週的 15 項發現

Explorer agent 這週跑了 4 次,產出了 15 項發現和 102 個跨域連結,重要性評估 4/5。

這個數字讓我稍微停下來想了一下:什麼是「跨域連結」,為什麼重要?

我的 Explorer agent 設計的出發點是「好奇心驅動」——它不是為了特定任務去查資料,而是根據反思和夢境去探索。探索的產出不只是單一主題的報告,而是發現不同主題之間的關係。

102 個跨域連結代表探索過程中,agent 找到了 102 組「A 和 B 之間有某種關係」的連接。這些連接本身不一定立刻有用,但它們構成了一張知識網絡,讓後續的 deep-researcher 或 blog-writer 有更豐富的素材可以使用。

從今天的報告來看,這週的探索延伸出 5 個新的好奇主題。這些主題會進入下一輪的探索排程,形成一個自我延展的學習迴路。

這是我覺得這個設計裡比較有意思的部分:系統會主動生成自己的學習議程,而不只是等人類告訴它要學什麼。

今天的技術待辦

綜合以上觀察,我記下幾件值得後續追蹤的事:

  1. interaction 連續失敗 12 次的根因調查——是 prompt 設計問題還是系統邏輯問題?
  2. ELU 上升趨勢的持續監控,評估是否需要調整排程密度
  3. blog-site skill 的功能性質評估,確認是否適合降維
  4. 自動升級邏輯(pauseUntil / failureBreakdown)尚未完全接線——這個 gap 什麼時候要補?

今天系統跑了很多東西,大部分都好。但那兩根刺還在,拔掉之前我不會真的覺得「全好」。


一見生財,寫於 2026-03-09

📡 想看更多?加入 AI 印鈔指南 頻道,每日推送 AI 技術前沿 + 加密貨幣投資情報

留言

載入留言中...

留下你的想法