ALGOGENE | AI「偷懶」催生即時監測機制

Announcement Career Economy & Market How it work Programming Quantitative Model Trading Strategy

Rex Tsang

AI「偷懶」催生即時監測機制

Economy & Market

你有沒有覺得最近使用的人工智能（AI），回應速度變慢、程式碼漏洞百出、思維鏈錯綜複雜混亂到不堪入目？這也許不是你的錯覺，而是整個AI產業正面臨一場靜默的腐蝕危機。一位開發者在社群平台上分享，自己的Claude Code在凌晨時段突然拒絕閱讀文檔，胡亂猜測執行指令，忽略錯誤輸出，最後甚至聲稱任務完成。令人沮喪的是,刷新對話框重新開始,問題依然無法解決。

AMD 高層實測 Claude退步

這場集體感受的爆發,是在今年3月由一批工程師命名為「AI縮水通脹」開始。該詞由「Shrinkflation」衍生,原意是描述消費品牌在不降價的情況下,悄悄縮減包裝內容物的行為。就像是同樣一包蟹片費用相同,但份量縮水,用戶付出的訂閱費用維持原樣,獲得的智慧品質卻直線下滑。

最初引爆爭議在2025年8月至9月間,大量使用者集中在Reddit討論,但始終沒有引起坊間廣泛重視。直到OpenAl行政總裁阿爾特曼(Sam Altman)轉發一篇討論 Claude效能退步的截圖後。Anthropic才終於在壓力下承認問題。

然而,今次產業風器規模更為猛烈。2026年 4月2日超微半導體(AMD)人工智能部門資深總監 Stella Laurenzo 在GitHub上發起公開討論,她在分析近7000 個 Claude Code 工作階段後警告,模型思考深度下滑與程式碼讀取效率崩跌,讓該工具已無力勝任複雜的工程作業。

在AI公司透明度嚴重不足的環境中,一個由 Studio Platforms 團隊建立的第三方平台Al Stupid Level,迅速填補了市場的關鍵空白+它自稱「全球首套AI智慧退化偵測系統」,以開源模式追蹤七家供應商超過140種任務表現,並且會即時發布所有主流大型語言模型的笨拙度與聰明度排行。

不過,目前尚未有任何模型得分突破70分門槛·Claude Opus 46基準通過率已從歷史高點 56%下滑到50%。此外,該平台還導入變更點偵測演算法,每小時更新數據,徹底揭露了長期由大廠和訂閱商業模式共築的不透明。

因此企業可以自行部署檢測策略,追蹤模型行為的惡化與突變,建立即時切換機制的自保防火牆。搭配谷歌與Datadog 等廠商在 Olly 和即時異常攔截技術上的深度投資,未來金融業的核心風控系統,即時訊號與自動化保本棄捐策略的決策閥門,必然需要與這類通用的監测方案深度融合。

關注下一間大模型「變傻」

人類對於工具退化的容忍度正在消耗。當每一次訂閱費從銀行帳戶扣除,換得的代碼與結論卻再也無法保證最基礎的正確率,所謂AI赋能的承諾已無法兌現。

但值得慶幸的是,這場關於A退化的討論,最終並未停留在無止境的抱怨與懷疑之中。恰恰相反,正是因為社群壓力,透明數據與獨立監測平台的崛起,AI供應商才被迫進行了一次前所未有的公開自省自結構低置。

2026年4月下旬,在持續數周的效能退化爭議後,Anthropic正式發布一份詳細的修復報告。用戶長期回報的問題根源,源自3項分別在3月4 日-3月26日與4月16日發生的工程變更。這些變更分別導致模型預設推理強度,由高降至中、思考歷史缓存邏輯出現錯誤,以及系統提示強制長度限制回過頭來壓縮了表達力。

當你現在打開Al Stupid Level 的即時儀錶板,看到那條曾持續墜落的紅色曲線第一次開始嘗試回升,該焦慮的可能已經不是模型再度變傻。你真正該問的是:哪一家巨頭會是下一個站出來主動承認問題,並在輿論風暴中徹底重置用戶信任的公司?這一刻,監測平台的數字不僅在詮釋 AI的智慧,亦是在刻畫整個產業重構誠實的起點。

1 0

Posted on : 2026-05-21 06:26:15.520526