北京2026年3月23日 /美通社/ -- 近日,銀河通用機器人與真人選手的連續(xù)自主網(wǎng)球?qū)Υ蛞曨l刷爆全網(wǎng)。
這背后是銀河通用機器人發(fā)布的最新成果——全球首個面向網(wǎng)球?qū)沟娜诵螜C器人全身實時智能規(guī)控算法:LATENT。
不靠預編程,銀河通用世界范圍內(nèi)首次攻克人形機器人在長程、高動態(tài)對抗場景中的實時決策與復雜運動難題。
視頻一經(jīng)發(fā)布,央視新聞第一時間進行報道點贊;
相關(guān)內(nèi)容在海外社交平臺爆火,馬斯克看到后立即關(guān)注回復;
AI 知名研究員 Andrej Karpathy 自發(fā)評論表示驚嘆,一度"懷疑"視頻是由 AI 生成。
然而,視頻呈現(xiàn)的是一場真實"對抗":人類與人形機器人在場地中連續(xù)多回合對拉。
但真正打動大家的,不止是"機器人能打網(wǎng)球",而是:機器人不是在執(zhí)行預先編程的動作,而是在像人一樣——全場跑動、自主決策、精確擊打。
在所有運動場景中,網(wǎng)球是人形機器人最難的考題:
高速來球逼迫瞬時判斷,全身協(xié)同決定回球質(zhì)量,滿場奔跑則持續(xù)考驗爆發(fā)力與控制力。
那么,當機器人真正站上球場,它能否像人類運動員一樣完成判斷、移動與連續(xù)回合擊球?
畫面中,機器人迅速移動腳步調(diào)整站位,上下半身協(xié)同揮拍擊球,并將球精準回擊到指定位置。面對各種來球,它能夠持續(xù)調(diào)整身體姿態(tài)與擊球時機,與不同水平的網(wǎng)球?qū)κ滞瓿啥嗷睾线B續(xù)對拉。
在網(wǎng)球這樣的高動態(tài)、高對抗環(huán)境中,機器人面對的是時速超過幾十公里的來球、變幻莫測的落點軌跡,以及對手不斷變化的擊球節(jié)奏。
更重要的是,這一能力并非依賴預編程動作實現(xiàn),而是機器人通過深度強化學習自主習得——
全球首次在人形機器人上實現(xiàn)高動態(tài)網(wǎng)球?qū)Υ颍瑱C器人正在實現(xiàn)從"機械復刻動作"向"智能決策響應(yīng)"的底層跨越。
這背后,是來自銀河通用與清華大學聯(lián)合提出的新研究:
LATENT(Learning Athletic Humanoid Tennis Skills from Imperfect Human Motion Data)。
研究團隊提出了一種新的機器人運動學習方法,使人形機器人能夠從不完美的人類動作數(shù)據(jù)中學習復雜的運動技能,并在真實世界中完成高動態(tài)、高敏捷的網(wǎng)球擊球與對打任務(wù)。
這其中的關(guān)鍵在于:
LATENT 并沒有沿用傳統(tǒng)"高質(zhì)量遙操數(shù)據(jù)進行模仿學習"的路徑,而是從現(xiàn)實世界更可獲取的數(shù)據(jù)出發(fā),重新設(shè)計了運動能力的學習方式。
從不完美的人類數(shù)據(jù)中,構(gòu)建支持高動態(tài)、高敏捷全身運動能力的"運動小腦"
傳統(tǒng)的人形機器人運動學習,往往依賴高質(zhì)量遙操作數(shù)據(jù)進行模仿學習。但在網(wǎng)球這樣的高動態(tài)運動場景中,這類數(shù)據(jù)幾乎難以獲取。
一方面,完整記錄一場網(wǎng)球比賽的人體運動,需要高精度、大范圍動作捕捉系統(tǒng);另一方面,擊球過程中手部細節(jié)的捕捉要求極高,使得數(shù)據(jù)采集成本極高且技幾乎不可獲得。
LATENT 提供了一種完全不同的思路:
它不依賴昂貴且?guī)缀醪豢色@得的運動員全場比賽跑動數(shù)據(jù),也不依賴精確的擊球手部軌跡,而是僅通過收集前后移動、正反手揮拍、橫向步伐等碎片化動作,讓機器人自主學習運動技能。
這些數(shù)據(jù),在 LATENT 中被構(gòu)建為"運動小腦",從而解鎖大范圍跑動、急停調(diào)整,以及對各種來球的穩(wěn)定回擊能力。
換句話說,LATENT 從源頭上解決了一個長期限制機器人發(fā)展的關(guān)鍵問題:
如何利用可獲得的數(shù)據(jù),學習復雜且不可簡化的運動能力,從而打通機器人運動技能的可擴展學習路徑。
定義"運動技能空間",讓動作既自然又可控
僅僅擁有動作片段,并不足以完成復雜運動任務(wù)。真正的關(guān)鍵在于:如何將這些零散經(jīng)驗組織成可執(zhí)行、可泛化的運動能力。
為此,研究團隊在隱空間中構(gòu)建了一個"運動技能空間"。
在這一空間中:
碎片化的人類動作被組織為可組合、可泛化的技能結(jié)構(gòu);
在訓練過程中,對關(guān)鍵自由度引入隨機擾動,使技能具備可修正、可探索能力。
這一空間帶來了一個非常關(guān)鍵的效果:
機器人不再只是復刻已有動作,而是獲得了一種既保留自然運動風格、又允許細節(jié)優(yōu)化的技能表示。
在強化學習驅(qū)動下,規(guī)劃器可以在這個技能空間中進行采樣與組合。面對不同來球,機器人可以基于球速、落點、自身姿態(tài)等信息,對步伐、揮拍節(jié)奏和身體姿態(tài)進行實時規(guī)劃,在保持自然運動風格的同時實現(xiàn)穩(wěn)定擊球。
同時,在執(zhí)行過程中,機器人還會根據(jù)實時感知進行微調(diào),尤其是在擊球末端對揮拍軌跡進行修正,從而實現(xiàn)對回球方向與落點的精細控制。
"隱空間動作屏障":像人類網(wǎng)球運動員般優(yōu)雅的擊球
在網(wǎng)球這樣的高動態(tài)對抗中,一個常見問題是:如果完全依賴強化學習進行探索,系統(tǒng)往往會發(fā)展出"投機策略"。
例如,通過抖動、非自然動作勉強完成擊球——任務(wù)完成了,但動作質(zhì)量嚴重下降。
為了解決這一問題,研究團隊提出了隱空間動作屏障(Latent Action Barrier, LAB)。
LAB 為策略學習提供了一種約束但不僵化的探索機制:
一方面,允許策略針對不同來球、自主跑位、擊球動作靈活調(diào)整動作;另一方面,限制其不會輕易偏離人類自然運動模式。
這種"有約束的探索",使機器人在訓練過程中既能不斷適應(yīng)復雜環(huán)境,又不會犧牲動作的自然性與穩(wěn)定性。
最終結(jié)果是:機器人不僅"能打到球",而且能夠在高動態(tài)環(huán)境中以接近人類運動員的方式完成穩(wěn)定擊球,且動作流暢、節(jié)奏自然。
實驗驗證:LATENT 不僅打得準,并且打得絲滑!
為了驗證 LATENT 的性能,研究團隊將策略部署在 29 自由度的人形機器人上,并在仿真與真實環(huán)境中進行了大量測試。
首先,實驗系統(tǒng)對比了 LATANT 與經(jīng)典基線算法例如:PPO、AMP 的性能表現(xiàn)。
LATANT 在擊球成功率(SR),回球落點精準性(DE),關(guān)節(jié)順滑程度(Smth)與關(guān)節(jié)力矩(Torque)上展現(xiàn)出了絕對優(yōu)勢:LATENT 不僅打得準,并且打得絲滑!
在真實世界測試中,機器人完成了連續(xù) 20 局的人實驗類-機器人網(wǎng)球?qū)荣悾采w機器人正手擊球、反手擊球、網(wǎng)前擊球、后場擊球等多種場景。
真實世界復雜多變,為了在不同場地、不同材質(zhì)的網(wǎng)球地面上進行穩(wěn)定擊打,研究者在仿真中對地面彈性系數(shù)、空氣阻力、網(wǎng)球質(zhì)量、機器人本體動力學性質(zhì)等多個方面進行了隨機擾動,并借助 GPU 進行大規(guī)模強化學習訓練:
實驗顯示,機器人在真實世界與人類進行網(wǎng)球?qū)校殖晒β食^ 90%,反手接近 80%,網(wǎng)前成功率接近 90%,底線附近擊球成功率超過 80%。
實驗證明了 LATENT 在不同球場位置、不同擊球動作的表現(xiàn)下均有著較高的擊球成功率和擊球精準度,而研究者發(fā)現(xiàn)域隨機化的加入和訓練中觀察噪聲的引入對機器人在真機上的性能表現(xiàn)起到關(guān)鍵作用,測試時,機器人展現(xiàn)出了極強的運動自然性和穩(wěn)定性。
更進一步,銀河通用團隊在仿真中統(tǒng)計了機器人 400 輪的網(wǎng)球回擊過程中的機器人全場跑動范圍,并可視化了機器人在網(wǎng)球場上的跑動范圍和擊球軌跡:
實驗證明,搭載 LATENT 的策略的跑動范圍覆蓋全場,有能力接到來自各個方向的刁鉆擊球!
除了人與機器人的對打,研究團隊還展示了兩個機器人之間的連續(xù)對練場景。這不禁讓人聯(lián)想到十年前通過自我博弈不斷提升棋力、最終戰(zhàn)勝柯潔的 AlphaGo。
雖然兩者技術(shù)路徑并不相同,但機器人之間的互動對練,也為未來機器人的自主學習與持續(xù)能力進化帶來了更多想象空間。
當機器人能夠像人類一樣移動、判斷并完成復雜運動任務(wù)時,人形機器人的應(yīng)用邊界也將進一步擴展。從運動娛樂到家庭服務(wù),再到各種復雜的人機協(xié)作場景,具身智能正在逐漸走出實驗室,進入真實世界。
從"打網(wǎng)球",到具身智能的下一步
值得關(guān)注的是,這一突破依托于銀河通用已構(gòu)建的全身全手端到端具身大模型"銀河星腦(AstraBrain)"。
人形機器人實現(xiàn)與人類網(wǎng)球?qū)Υ颍倾y河通用在人形機器人大小腦方面探索的關(guān)鍵一步,這一突破也為其后續(xù)在復雜場景中的落地應(yīng)用展現(xiàn)了巨大的潛力與價值。
它所驗證的是,人形機器人在復雜動態(tài)環(huán)境中已經(jīng)實現(xiàn)實時感知、決策與全身協(xié)同控制的能力。
這種寶貴能力,是真實世界任務(wù)共同依賴的技術(shù)基礎(chǔ)。
無論是在工業(yè)場景中的精細操作,還是在零售、服務(wù)等開放環(huán)境中的持續(xù)交互,乃至走進家庭面對更加多變的生活環(huán)境,核心都在于機器人能否在變化中保持穩(wěn)定判斷,在運動中自主完成閉環(huán)決策。
從這個角度看,網(wǎng)球并非應(yīng)用終點,而是一個高度濃縮的動態(tài)能力測試場。
機器人所對應(yīng)的高速移動、連續(xù)對抗與實時決策,正是復雜場景所共同具備的特征。LATENT 在這一場景中的表現(xiàn),為未來更廣泛的場景應(yīng)用提供了堅實的能力驗證。
這是全球范圍內(nèi)人形機器人在真實對抗環(huán)境中實現(xiàn)全自主運動的重要突破,更標志著銀河通用機器人正引領(lǐng)行業(yè),開啟人形機器人運動全自主、無編排,走向場景應(yīng)用的新時代。