從視覺模型剖析人形機器人進展
來源:工商時報網
文/集邦科技(TrendForce)
現今人形機器人模型發展重點包含視覺-動作學習模型(VLA)的優化,以及結合多元數據、提升指令解讀與理解人類意圖。在訓練數據方面,主要透過世界模型、人類影片與VR遠端訓練等方式,並更著重「第一人稱視角」,以增強其感知能力。儘管人形機器人的最終目標是實現通用性,但模型發展仍面臨諸多挑戰,導致歐美與中國廠商發展出不同的路徑。
早期機器人設計多是功能導向,設計框架以模組化為核心,但往往因採用特定情境的數據,模型泛化能力較弱,使機器人適應新環境的能力有限。目前雖有視覺語言模型(VLM)強化模型的感知理解、推理能力,卻常發生難以將抽象推論轉化成符合物理世界行為的情況,模型發展因此逐漸轉向視覺-VLA。
VLA模型如同模擬人類在重複動作中,會不斷調整運作策略以實現運動控制和協調,能幫助機器人在不依賴經驗和知識的情況下,嘗試適應新環境。現階段VLA模型主要藉由合成數據拓展場景多樣性,並結合世界模型增強對重力、碰撞等物理現象和行為的理解及應用,藉此提升在不同場景執行任務的效率。然而,合成數據和世界模型在高精度影像或複雜的互動行為,仍不及人工收集的數據。
過去機器視覺或自駕技術等視覺模型,多以第三人稱的鳥瞰視角(BEV)為設計核心,但BEV可能不利機器人的動作協調與辨識效率。舉例來說,人類會踮腳、轉頭確認櫃子裡是否還有置物空間,然多數基於BEV的模型常簡化視差和景深,加上以相對距離建立環境辨識易影響聚焦,降低機器人的辨識、抓握能力。
隨著視角的問題浮現,VR或手機影像被視為以第一人稱視角訓練模型的重要方式,以實現機器人更自然的遞交、避讓等「微行為」。2024年美國UCSD與MIT共同開發通用框架Open-TeleVision,以Apple Vision Pro訓練機器人。今年Apple也公布「HAT(Human Action Transformer)模型」強化機器人的模仿學習,並和美國諸多大學合作推出「PH2D」資料集,涵蓋抓取、傳遞、傾倒等日常動作。
數據多元性與視角問題是模型從實驗室走向實際部署的關鍵,而模型將直接影響人形機器人效能,已成為廠商產品差異化與競爭力關鍵。目前中國廠商主打「端到端」架構,強調底層多模態協作提升機器人的靈活性,並以具身AI為發展方向。例如中國星動紀元於去年底推出原生端對端機器人大模型ERA-42,讓機器人具備即時的適應能力。
相較之下,歐美廠商展現更專業的分工型態,AI大廠和新創多聚焦開發通用大模型,機器人廠商則專注於垂直領域。如Google DeepMind今年6月推出「Gemini Robotics On-Device」,開放開發者進行微調,強調僅需50~100次的演示,即可讓模型學會適應新任務,並適用於不同的機器人。
Tesla和Boston Dynamics則聚焦製造領域,Agility Robotics著重於物流倉儲,皆是應用明確的場景。廠商不僅能從中累積專用數據,建立「護城河」,在數據管理與模型設計上,模組化的模型架構更容易合乎產業標準與法規要求。
敬邀參加114年9月份台商張老師「中、南部」現場預約駐診諮詢服務,
敬請事先報名才能保留座位,歡迎踴躍參加
*台商張老師季刊自103年起轉為「月刊」發行囉!有需要的朋友可填寫索閱登記表喔!
詳情請至以下網址:https://www.chinabiz.org.tw/Ads/ShowC?id=34
|