【IBM咨詢2026深耕者系列談】將邀請IBM咨詢的各行業領軍者,不只談觀點,更傳遞一線實干經驗,分享在行業變革中解決最為復雜難題的真功夫。深耕者,是懂技術、能實戰,與企業一道在場、并肩成長的同行伙伴。
北京2026年4月11日 /美通社/ -- OpenClaw("龍蝦")火了。
2026年初,DeepSeek的余溫尚未散去,龍蝦的火辣開場又席卷全球。這一次,AI不再只是"更會聊天",而是展示了一種全新的可能性:你給它一個目標,它自己想辦法完成——自己規劃路徑、選擇工具、處理異常,不用你一步步指揮。"讓AI自己干活",一夜之間成了企業AI討論里最熱的敘事。
興奮之余,一個更現實的問題浮出水面。對于需要處理采購訂單、審批流程、客戶承諾的企業來說,"AI自己干活"聽上去誘人,但緊接著的追問是:它干錯了怎么辦?它碰了不該碰的數據怎么辦?它做了一個涉及資金的決定但沒人審批怎么辦?
自主到什么程度才是對的?邊界畫在哪里?這恐怕是龍蝦熱潮留給每一家企業最值得認真回答的問題。圍繞這一話題,IBM大中華區AI咨詢服務總經理葉劍與技術總監陸子睿,分別從業務判斷和技術實現兩個維度,闡述IBM的觀點。
葉劍從"為什么是L3"以及"圍欄該畫在哪里"的角度出發——這是戰略層的選擇;陸子睿則回答了"技術上如何讓AI懂業務"以及"如何給智能體加上韁繩"——這是工程層的落地。兩者合在一起,才構成企業從"想明白"到"做得到"的完整路徑。
做L3,不急L4!
龍蝦很好,它打開了一扇門。但企業今天真正要解決的問題,不是"AI能不能自己干",而是"它懂不懂你在干什么"。自主是手段,融入業務才是目的。
這個判斷來自IBM自身的實踐。我們在內部推行"零號客戶"計劃,先拿自己當試驗田——在HR、財務、銷售、供應鏈等九個業務領域做了115個AI應用,一年省下來45億美元運營成本。做下來最大的體會是:AI的價值不取決于它多自主,取決于它嵌入業務有多深、被管理得有多好。
要討論"自主到什么程度合適"?目前,大家為AI的發展定義了L1到L4的能力分級——從聊天、推理、執行任務,到成為一個創新者。L1和L2比較好理解——L1就是固定流程里加上AI做內容識別,比如自動提取發票信息;L2是AI幫你在預設的幾條路里選一條走,比如客服工單自動分流。這兩級大多數企業已經在做了,確定性強,風險可控。
真正要討論的是L3和L4的區別
L4是龍蝦所代表的方向:你給它一個目標——比如"優化下季度華東區供應鏈成本"——它自己去拉數據、分析問題、擬方案、協調執行。沒有預設的路徑,沒有預設的邊界。這個能力是真實的,也是令人振奮的。
但L4當然值得關注,今天大多數企業先別急著追那個終局。我們做了不少項目,發現真正卡住落地的,往往不是AI的自主能力不夠,而是企業本身還沒準備好讓AI這么自主。我更建議企業聚焦L3——有限自主。
L3是什么?AI可以自己規劃怎么完成一個任務——比如做一次采購決策輔助,它自己去查供應商、比價格、評估交期風險、寫推薦報告——但到了"下單"這一步,必須由采購經理點頭。再比如設備維修排程,AI可以根據運行數據和備件庫存自己排方案,但涉及停機,得交給生產主管決定。
可以把L3想象成:給AI一個足夠大的操場,讓它自己跑,但圍欄的位置是你定的。哪些工具能用、每次最多做幾步、什么級別的動作必須等人審——這些圍欄畫清楚了,AI的自主性才真正可用。
AI不懂你的生意,給它再多自主權也沒用
很多企業第一反應是先看模型大小、看Agent框架,但我們做下來發現,真正卡住落地的往往不是這個。這里舉兩個場景:
第一個是供應鏈。一家零部件供應商著了火,你需要AI能馬上告訴你:哪些原料受影響、哪幾條產線的排產要調、哪些客戶的交付承諾兌現不了、該啟動哪一級應急響應。這些判斷的前提是什么?是AI知道"供應商"、"原料"、"產線"、"排產計劃"、"客戶訂單"之間的關系。它不知道這些關系,就算給它最強的模型,它也只能給你一堆泛泛而談的建議。
第二個是財務。一家礦業企業做損益分析,利潤波動了,原因是什么?要沿著"礦種→礦山→產量→國際大宗商品價格→匯率"一路往下追,每一層的關系都要對。大模型什么都能聊兩句,但它不知道"銅礦"的產量跟"LME銅價"跟"澳元匯率"之間到底怎么聯動。
AI進流程,這是入場券,能體現價值。但AI要真正發揮價值,它得懂你的業務。龍蝦讓"自主規劃"不再是瓶頸了,但"懂業務"和"嵌入流程"才是企業AI落地的勝負手。
圍欄怎么建,L4什么時候能做?
圍欄畫在哪里?我認為有四條線。
第一條是權限。AI能調哪些工具、能碰哪些數據,有白名單。每次任務最多做幾步,有上限。超了就自動停下來等人介入。
第二條是角色。這不是彈一個確認框那么簡單。在企業里,什么人能批什么事是有規矩的——操作員能確認的事、經理能確認的事、風控能確認的事,層級分明。AI的審批流也得照著這套規矩來,本質上就是把企業原有的授權體系延伸到了AI執行層。
第三條是可追溯。AI每一步用了什么工具、看了什么數據、做了什么判斷,都得有記錄。不是出了事再去補日志,而是執行過程中就實時留痕。
第四條是評估。不能只看準確率。任務完成了沒有、中間退回了幾次、出了多少異常、每次任務到底幫公司省了錢還是添了麻煩——這些要有數。沒有這套評估,就不知道L3這個圍欄該縮還是該擴。
L4什么時候能做?不是幻想,但有硬前提。管理制度和審批流程得全面數字化;核心業務流程得面向AI重新設計過;企業內部的各種業務系統得能被AI調用。說白了,只有企業內部的業務變得"全面可計算"——流程是數字化的、服務是API化的、數據接口是標準的、工作流是可編排的——L4才有基礎。否則放一個L4級別的智能體進去,它連內部審批該找誰都不知道。
IBM商業價值研究院的數據也佐證了這一點:79%的高管預期AI到2030年能顯著貢獻收入,但只有24%說得清楚錢從哪來。這個落差不是技術問題,是路徑問題。
2026年是一個分水嶺。企業要從做Demo變成真正運營AI。三件事需要一起干:
L3不是L4的將就。它是今天企業AI最扎實的立足點。把L3做透了,同時一步步推動業務的"全面可計算",L4自然水到渠成,別反過來。
讓AI懂業務:把隱性的業務邏輯變成機器可推理的結構
當前多數企業AI項目的技術路徑是接入RAG、調優Prompt、選擇模型,但往往忽略了一個前置問題:AI并不天然理解一家企業的業務邏輯。供應商供應哪些物料、物料適配哪些產線、每個供應商的資質認證狀態、不同訂單類型的交付承諾周期、一張工單從創建到完工要經過哪些狀態節點和審批角色——這些信息分散在ERP、MES、SRM等多個系統中,大量以隱性知識的形態存在于業務專家的經驗里。
企業需要做的,是把這些隱性的業務對象、關系和約束規則,轉化為一套機器可查詢、可推理的結構化模型。業界通常稱之為業務本體或領域模型。它的作用,類似于數字孿生之于物理世界——不是復制一個業務系統,而是為AI構建一層可計算的業務語義層,使智能體在規劃和執行時能夠基于真實的業務關系做推理,而不是基于語言模式做猜測。
企業級智能體平臺需要補齊的管控能力
企業對智能體的治理,除了關注它生成的內容是否準確可靠,更要關注它的行為鏈條——調用了哪些工具、訪問了哪些數據、在什么節點做出了什么決策、最終觸發了哪些業務動作。當智能體開始執行業務操作而非僅僅回答問題時,行為鏈條的管控就成為治理的核心。龍蝦類框架的推理循環和工具調用能力已經相當成熟,但其設計假設是單用戶、無權限邊界、無審計要求。企業需要在這個能力內核之上,補齊一層完整的運營管控機制:
第一,技能注冊與權限矩陣。智能體可調用的每一個工具在平臺上注冊并標注風險等級,同時建立角色-工具權限矩陣,與企業現有的組織授權體系對齊,確保不同崗位的AI助手擁有差異化的工具訪問范圍。
第二,動作門控與步數預算。每次任務設定動作步數上限以防止無限循環。按動作影響程度分級管控:只讀查詢自動放行,涉及資金、客戶承諾或合規判斷的高影響動作,根據動作類型和金額閾值動態路由至企業審批鏈中對應的審批節點。
第三,結構化推理日志。區別于普通文本日志,每一步執行記錄包含工具調用、參數傳遞、返回結果以及AI選擇下一步的推理依據,支持全鏈路回放和定位。同時,這些日志可供評估流水線消費——統計各環節耗時、異常率和通過率——為智能體的持續優化提供量化依據。
第四,熔斷與降級。當出現外部接口超時、返回格式異常或連續推理邏輯矛盾時,系統自動暫停任務、保存執行現場并通知運營人員介入。在個人場景中AI出錯影響有限,但在企業場景中,異常狀態下的繼續執行可能直接觸發錯誤的業務操作。
技能注冊、權限矩陣、動作門控、推理日志、熔斷降級——我們把這套能力統稱為智能體的Harness工程,即給智能體加上"韁繩"的系統性工程。它不是限制AI的能力,而是讓AI的能力在企業環境中可控地釋放。這是企業級智能體平臺與個人Agent框架之間的本質差異。
寫在最后
龍蝦打開了一扇門,讓我們看到了AI智能體自主規劃、自主執行的巨大潛力。但對于企業而言,穿過這扇門之后面對的不是一條直道,而是一個需要邊界感的新世界。
葉劍和陸子睿兩位專家從不同角度給出了同一個判斷:企業AI智能體的規模化落地,關鍵不在于追求最高級別的自主性,而在于找到自主能力與業務管控之間的平衡點。L3——有限自主——正是這個平衡點所在。在L3的圍欄內,讓AI充分發揮自主規劃的價值;在圍欄之外,保持企業對關鍵決策的控制權。同時,持續投入業務語義建模和智能體Harness工程建設,為最終走向L4積累條件。
在一個AI能力日新月異的時代,比追新更重要的,或許是想清楚一個問題:什么該交給AI,什么必須留在人手里。畫好這條線,企業才能真正放開手腳。
媒體聯絡人
李波
libole@cn.ibm.com
IBM中國