威尼斯人娱乐网开户-澳门威尼斯人lv-沙龙国际网上

首頁(yè) 學(xué)術(shù)動(dòng)態(tài)

學(xué)院講壇：VLA?on?Wheels:?Empowering?Vision-language-action?Models?for?Mobile?Manipulation

來(lái)源：計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院（軟件學(xué)院）發(fā)布時(shí)間：2025-10-21

瀏覽次數(shù)：10

一、報(bào)告主題：VLA?on?Wheels:?Empowering?Vision-language-action?Models?for?Mobile?Manipulation

二、報(bào)告人：王子為

三、報(bào)告時(shí)間：2025年10月22日（周三）下午15:00-16:00

四、報(bào)告地址：計(jì)算機(jī)大樓D501

五、報(bào)告摘要：

視覺(jué)-語(yǔ)言-動(dòng)作（VLA,?Vision-Language-Action）模型憑借龐大的參數(shù)規(guī)模和大規(guī)模訓(xùn)練數(shù)據(jù)，展現(xiàn)出極強(qiáng)的泛化能力與高成功率。然而，在許多實(shí)際應(yīng)用場(chǎng)景中，如家庭服務(wù)與倉(cāng)儲(chǔ)管理，機(jī)器人需要具備移動(dòng)操作能力，即在不同位置與物體交互。目前的?VLA?模型多為固定基座操作設(shè)計(jì)，因此在移動(dòng)操作任務(wù)中的應(yīng)用仍然受限。為賦能?VLA?模型適用于移動(dòng)操作，提出了一種高效的適配方法，包括：1.全身運(yùn)動(dòng)規(guī)劃框架，用于從?VLA?模型輸出中生成理想的操作軌跡；2.幾何場(chǎng)景圖表示，用于輔助選擇底座?？奎c(diǎn)。該機(jī)器人操作系統(tǒng)顯著拓展了?VLA?模型的應(yīng)用場(chǎng)景，使其能夠在需要移動(dòng)性的任務(wù)中高效完成復(fù)雜操作。

六、報(bào)告人簡(jiǎn)介：

王子為老師現(xiàn)為南洋理工大學(xué)（NTU）電氣與電子工程學(xué)院助理教授。加入NTU之前，他曾在卡內(nèi)基梅隆大學(xué)機(jī)器人研究所擔(dān)任博士后研究員。他分別于?2023?年和?2018?年獲得清華大學(xué)自動(dòng)化系博士學(xué)位與物理系學(xué)士學(xué)位。他的研究目標(biāo)是構(gòu)建面向機(jī)器人的基礎(chǔ)模型（Foundation?Models,?FMs），包括將FMs與物理場(chǎng)景對(duì)齊（grounding）以及在資源受限的機(jī)器人平臺(tái)上部署?FMs。他已在人工智能、機(jī)器人學(xué)與計(jì)算機(jī)視覺(jué)的頂級(jí)期刊與會(huì)議上發(fā)表?50?余篇論文，并擔(dān)任多個(gè)國(guó)際會(huì)議與期刊的常任審稿人。

工大校報(bào)
教育基金會(huì)
校區(qū)班車(chē)
信息公開(kāi)

SSLVPN |
校園電子地圖 |