前不久,上海一場以“勞動最光榮”為主題的技能大賽,用同臺競技的方式,以一場壓力測試,讓我們看到,機器人距離真實場景落地還有多遠(yuǎn)距離要走。無疑,仍處于發(fā)展早期階段的具身智能,無論是大腦、小腦還是本體,尚有大量瓶頸待突破。
大腦不夠聰明,訓(xùn)練數(shù)據(jù)不夠,那就使用更多合成數(shù)據(jù);機器人通用性難實現(xiàn),那就先聚焦在一些特定場景的應(yīng)用……行業(yè)喧囂熱鬧,方興未艾,創(chuàng)業(yè)者們紛紛選擇自己的生態(tài)位,以“沿途拾蛋”的方式,共同推動這一未來產(chǎn)業(yè)的加速成熟。
賽事從“表演型”向“實用型”進發(fā)
與單純追求視覺表現(xiàn)力和沖擊力不同,中國人形機器人產(chǎn)業(yè)正以“好用、管用”為導(dǎo)向,加速商業(yè)化落地進程。前不久,以“勞動最光榮”為主題的國際人形機器人技能大賽在上海舉辦。可以看到,隨著人工智能、傳感器技術(shù)迭代升級,人形機器人正從實驗室走進更多工廠和家庭,逐步從“表演型”邁向“實用型”。
翻開賽事手冊可以看到,汽車貼標(biāo)、零部件上下料、衣服折疊、垃圾清理、商品掃碼等工業(yè)、家庭、商業(yè)場景實現(xiàn)全覆蓋。如果只看比賽項目,或許會以為這是一項人類勞動技能比賽。
剛剛完成比賽的機器人操控者王思浩告訴記者:“比如疊衣服這個動作,對人來說可能很簡單,但對于機器人來說,卻需要調(diào)動視覺、觸覺等各個系統(tǒng),非常復(fù)雜。但也因為如此復(fù)雜,人形機器人才可以在日常生活中真正幫到人類?!?/p>
更多具身智能產(chǎn)業(yè)企業(yè)也不再單純追求“人形”。在一家主做仿生手的企業(yè)展位,記者了解到,該企業(yè)的產(chǎn)品并不一定需要裝在人形機器人身上,搭載在一個平臺上即可完成從1萬元現(xiàn)金中抽取出5張紙幣等銀行柜員的基本操作。
以賽事為橋梁,拉近了機器人公司和場景應(yīng)用方之間的距離。觀看了商業(yè)場景賽事后,來自上海的朱先生立馬向參賽隊伍提出訴求?!拔疫@邊有1萬多臺自動售賣機。機器人能不能跟我的自動售賣機配合,在辦公樓里完成下單、支付、取貨、配送的完整工作流程?”
回顧來看,從北京的人形機器人半程馬拉松賽,到無錫的具身智能機器人運動會,到杭州全球人形機器人格斗大賽,再到此次上海舉辦的國際人形機器人技能大賽,今年以來,人形機器人迎來了多場賽事。
“以往賽事更多聚焦機器人的運動能力,我們更看重讓機器人具備進入各類場景,乃至千家萬戶去作業(yè)的能力。隨著去年年底‘模塑申城’方案的全面實施,上海積極發(fā)揮場景應(yīng)用優(yōu)勢,幫助人形機器人‘解鎖’新技能,推動軟硬件產(chǎn)品實現(xiàn)多元場景落地?!鄙虾J腥斯ぶ悄苄袠I(yè)協(xié)會秘書長鐘俊浩這樣介紹此次大賽的“上海特色”。
不可否認(rèn),人形機器人仍處在發(fā)展初期,從實驗室走向工廠、走向家庭,仍有諸多技術(shù)難點待突破。通過這場賽事構(gòu)建出的基于真實場景的壓力測試場,我們看到了人形機器人率先在某些特定場景中應(yīng)用的可能,以“沿途拾蛋”的方式不斷積累數(shù)據(jù)、成熟技術(shù)。
近日,在武漢市蔡甸區(qū)花博匯景區(qū)舉行的“世界機器人嘉年華”活動中,游客觀看機器人表演。 新華社記者 杜子璇 攝
腦部進化 行業(yè)突圍“數(shù)據(jù)荒”
從賽事來看,人形機器人在精度、速度、泛化度等維度仍顯笨拙。行業(yè)人士表示,訓(xùn)練數(shù)據(jù)的不足,是當(dāng)下阻礙機器人進化的一大瓶頸。
以ChatGPT、DeepSeek為代表的大語言模型,其智能的涌現(xiàn),離不開巨量的文本數(shù)據(jù)。具身智能模型能力的提升,同樣有賴于大量訓(xùn)練數(shù)據(jù)的輸入。不過,與文本數(shù)據(jù)相比,具身智能的訓(xùn)練數(shù)據(jù)十分稀缺,尤其是多模態(tài)數(shù)據(jù)?!皵?shù)量上可能有百萬倍的差距?!敝袊こ淘和饧菏繌埥▊フf。
為了解決訓(xùn)練數(shù)據(jù)缺乏的問題,機構(gòu)和企業(yè)紛紛行動。比如,特斯拉Optimus的訓(xùn)練數(shù)據(jù)是讓人在遠(yuǎn)程操作機器人的過程中,將操作動作和環(huán)境感知數(shù)據(jù)進行記錄;谷歌DeepMind聯(lián)手斯坦福大學(xué)等推出了Open X-Embodiment Dataset,包含100多萬條真實機器人軌跡。國內(nèi)人形機器人頭部企業(yè)智元也發(fā)布了百萬真機數(shù)據(jù)集開源項目AgiBot World。
不過,百萬體量的數(shù)據(jù),對于訓(xùn)練具身智能大模型來說,遠(yuǎn)遠(yuǎn)不夠。
“頭部車廠每天回流的數(shù)據(jù)在1億條左右。但在具身智能領(lǐng)域,如今我們采集到的最大數(shù)據(jù)集也只有百萬條規(guī)模。當(dāng)人形機器人的存量尚未達(dá)到自動駕駛領(lǐng)域百萬級設(shè)備的規(guī)模時,依賴海量真實數(shù)據(jù)訓(xùn)練不僅成本高昂,而且周期冗長,極大制約了大模型的訓(xùn)練效率與場景適應(yīng)能力?!北本┿y河通用機器人有限公司創(chuàng)始人兼CTO王鶴說。
行業(yè)解決數(shù)據(jù)難題的路徑之一,是合成數(shù)據(jù)。合成數(shù)據(jù)(Synthetic Data)是一種模仿真實世界數(shù)據(jù)的非人工創(chuàng)建的數(shù)據(jù),它是由基于生成式人工智能技術(shù)的計算算法和模擬創(chuàng)建而成。在前不久舉辦的2025張江具身智能開發(fā)者大會上,銀河通用通過完全基于合成數(shù)據(jù)的端到端抓取基礎(chǔ)大模型GraspVLA,以及導(dǎo)航大模型,展示了合成數(shù)據(jù)的價值。
據(jù)悉,GraspVLA采用10億級別的合成大數(shù)據(jù)進行訓(xùn)練。目前銀河通用安裝了上述大模型的人形機器人已經(jīng)用于24小時無人藥店?!?0多平方米的藥店里面,有5000多種藥品,6000多個貨道,可全都由機器人完成取貨,打包后送至外賣柜等待上門領(lǐng)取?!蓖斛Q介紹,目前由人形機器人運營的24小時無人藥店已有6家在北京實現(xiàn)常態(tài)化運營,今年年底預(yù)計全國擴張至100家。
當(dāng)然,合成數(shù)據(jù)方法并非沒有局限性。雖然目前生成視覺數(shù)據(jù)的能力相對成熟,但生成其他模態(tài)的數(shù)據(jù),包括觸覺、溫度和聲音數(shù)據(jù)等,仍然是一項重大挑戰(zhàn)。此外,關(guān)于合成數(shù)據(jù)路線,行業(yè)也有不少擔(dān)憂,比如“Sim2Real Gap”,也即仿真環(huán)境與真實世界匹配度不夠,導(dǎo)致合成數(shù)據(jù)訓(xùn)練存在有效性問題。
方興未艾的具身智能:關(guān)于未來我們可以期待什么
從全球視野來看,具身智能產(chǎn)業(yè)發(fā)展呈現(xiàn)出創(chuàng)新活躍的多元競爭態(tài)勢。美國以頂尖科研機構(gòu)與科技企業(yè)為核心,在算法、芯片等核心技術(shù)領(lǐng)域取得突破;歐洲持續(xù)推進具身智能在工業(yè)場景中的應(yīng)用探索。中國則得益于完整的產(chǎn)業(yè)鏈優(yōu)勢,集合了本體制造、算法優(yōu)化,再到落地場景驗證的全棧式技術(shù)儲備,成為具身智能產(chǎn)業(yè)的一處高地。
“我國人形機器人初步建立了‘大腦、小腦、肢體’的創(chuàng)新體系,而這也成為世界范圍內(nèi)被廣泛應(yīng)用的技術(shù)體系。目前,我國人形機器人整機產(chǎn)品達(dá)到國際先進水平,涌現(xiàn)了宇樹、智元、傅利葉、星動紀(jì)元、銀河通用等一批企業(yè)。在CS2025上,英偉達(dá)CEO黃仁勛身后的14臺人形機器人,4臺來自美國,6臺來自中國?!眹毓步ㄈ诵螜C器人創(chuàng)新中心首席科學(xué)家江磊介紹。
江磊表示,在核心零部件方面,我國已經(jīng)實現(xiàn)了安全有效的供給,尤其是在感知、控制、驅(qū)動、傳動模塊,在低成本約束下具有一定的領(lǐng)先優(yōu)勢。創(chuàng)新生態(tài)也逐漸完善,形成跨領(lǐng)域企業(yè)、本體初創(chuàng)企業(yè)、高校科研院所、上游部組件企業(yè)以及地方政府支持下的創(chuàng)新中心等5類創(chuàng)新主體。
“整體來看,我國具身智能產(chǎn)業(yè)規(guī)模爬升迅速,示范應(yīng)用仍在培育階段。”江磊說。
仍處于早期階段的具身智能產(chǎn)業(yè),無論是大腦、小腦還是本體,都面臨諸多瓶頸。比如,在應(yīng)用方面,目前更多是抓取、擺放、組裝等一些“原子”技能的訓(xùn)練,難以完成長序列任務(wù)。在技術(shù)路線上,也存在諸多爭議,比如到底是“數(shù)據(jù)驅(qū)動”還是“模型驅(qū)動”,是做通用型機器人,還是做“專用”機器人。
分歧終將收斂于實踐。目前我國已有超過100家人形機器人整機企業(yè),這些企業(yè)紛紛尋找自己的生態(tài)位,做出不同的選擇,有些聚焦于工業(yè)場景,提升負(fù)載和電池容量;有些聚焦于商用服務(wù)行業(yè),提出用“崗位化”理念生產(chǎn)“專用”型機器人;有些結(jié)合自身原有業(yè)務(wù)優(yōu)勢,聚焦康復(fù)醫(yī)療場景……
談及未來5到10年人形機器人的發(fā)展,張建偉表示,在做技術(shù)預(yù)測時,人們傾向于對近期目標(biāo)過分悲觀,對遠(yuǎn)期目標(biāo)又過分樂觀?!叭騺砜矗瑥?0世紀(jì)80年代的美國,后來到日本,再到韓國,機器人‘狼來了’的故事已經(jīng)喊過多遍。人工智能的發(fā)展為機器人自主學(xué)習(xí)能力提升帶來了巨大想象空間,我們也隨之來到了一個新的時點?!?/p>
“能夠在家庭護理、工廠等多場景工作的通用型機器人,可能仍需10年、20年的時間來打磨。但未來5年,在抓取、裝配等場景中,具身智能應(yīng)該可以完成第一批示范場景應(yīng)用。在很多B端場景,如工廠、社區(qū)醫(yī)院、農(nóng)業(yè)等,圍繞收割、殺蟲打藥、采摘,以及一些簡單的家務(wù)任務(wù),應(yīng)該逐漸有專業(yè)機器人出現(xiàn)。”張建偉說。