這是德國(guó)弗勞恩霍夫智能分析和信息系統(tǒng)研究所數(shù)據(jù)科學(xué)家亞歷山大·措恩的資料照片。新華社發(fā)(受訪者供圖)
新華社柏林6月10日電 專訪|讓AI智能體真正“看懂”世界——訪德國(guó)弗勞恩霍夫研究所數(shù)據(jù)專家
新華社記者褚怡 杜哲宇
在AI加速融入現(xiàn)實(shí)世界的進(jìn)程中,虛擬空間正逐步成為智能系統(tǒng)發(fā)展的重要“試驗(yàn)場(chǎng)”。2025年聯(lián)合國(guó)虛擬世界日活動(dòng)前夕,德國(guó)弗勞恩霍夫智能分析和信息系統(tǒng)研究所數(shù)據(jù)科學(xué)家亞歷山大·措恩在接受新華社記者書面采訪時(shí)說,AI智能體可以構(gòu)建出一套通用能力體系,使其既能在虛擬環(huán)境中高效運(yùn)行,也能勝任復(fù)雜的現(xiàn)實(shí)世界任務(wù)。
“現(xiàn)實(shí)與虛擬的結(jié)合極具價(jià)值?!彼f,通過感知現(xiàn)實(shí)環(huán)境并在數(shù)字孿生中完成還原,AI智能體可以在實(shí)際應(yīng)用之前,先在虛擬環(huán)境中進(jìn)行模擬演練,評(píng)估操作的可行性,從而提升整體系統(tǒng)的可靠性。
措恩指出,許多運(yùn)行在虛擬環(huán)境中的AI智能體,其核心算法與控制現(xiàn)實(shí)機(jī)器人使用的是同一類大語(yǔ)言模型。這意味著,AI智能體在虛擬空間中獲得的經(jīng)驗(yàn)和能力,可以較為順暢地遷移至現(xiàn)實(shí)環(huán)境。
作為弗勞恩霍夫智能分析和信息系統(tǒng)研究所自然語(yǔ)言理解團(tuán)隊(duì)負(fù)責(zé)人,措恩長(zhǎng)期從事基于大語(yǔ)言模型的機(jī)器人控制與自動(dòng)編程研究。他說,團(tuán)隊(duì)開發(fā)的AI智能體可通過自然語(yǔ)言與人類交流,并將任務(wù)自動(dòng)拆解為一系列更小的子任務(wù)。
“對(duì)于每個(gè)子任務(wù),系統(tǒng)會(huì)自動(dòng)生成一段通常為Python語(yǔ)言的簡(jiǎn)潔代碼,既用于調(diào)用其他AI智能體,也能直接給出機(jī)器人或自動(dòng)化設(shè)備的具體控制策略?!彼f,當(dāng)一個(gè)子任務(wù)執(zhí)行完畢后,主智能體將對(duì)執(zhí)行結(jié)果進(jìn)行評(píng)估,并決定下一步操作,以逐步推進(jìn)并完成整體目標(biāo)。
措恩認(rèn)為,與傳統(tǒng)自動(dòng)化系統(tǒng)相比,AI智能體具備更高的“性價(jià)比”。目前,許多中小企業(yè)在引入自動(dòng)化技術(shù)時(shí)常面臨高成本、高技術(shù)門檻和環(huán)境復(fù)雜多變等難題。“基于AI智能體的自動(dòng)化系統(tǒng),能夠在很大程度上緩解這些問題。”措恩說,該系統(tǒng)依托先進(jìn)的大型基礎(chǔ)模型,具備廣泛的通用知識(shí)儲(chǔ)備,即使沒有特定行業(yè)經(jīng)驗(yàn),也能理解并完成任務(wù)。例如,僅憑一句“將蘋果和梨分別放入不同的盒子”,AI智能體就可以理解任務(wù)意圖,識(shí)別物體類別,并控制機(jī)械臂正確完成動(dòng)作。
措恩指出,要實(shí)現(xiàn)更高程度的自主能力,AI智能體所依賴的基礎(chǔ)模型必須具備接收并理解其所處環(huán)境的能力,尤其是在涉及現(xiàn)實(shí)任務(wù)的場(chǎng)景中。“系統(tǒng)要在真實(shí)世界中運(yùn)行,首先得真正‘看懂’這個(gè)世界?!彼f,將高精度的三維場(chǎng)景數(shù)據(jù)與多路傳感器數(shù)據(jù)輸入模型,以便其在空間中進(jìn)行推理和判斷,是當(dāng)前人工智能研究的前沿方向之一,但這項(xiàng)工作仍面臨諸多挑戰(zhàn)。
“目前的大語(yǔ)言模型本質(zhì)上是為處理文字而設(shè)計(jì)的,擅長(zhǎng)語(yǔ)言理解與生成。”措恩說,“而來自現(xiàn)實(shí)世界的感知數(shù)據(jù),比如三維點(diǎn)云,只是一些無序的坐標(biāo)集合,并不自帶語(yǔ)義結(jié)構(gòu)?!彼硎荆屇P驼嬲袄斫狻边@些數(shù)據(jù),必須開發(fā)新的數(shù)據(jù)表示方式和訓(xùn)練機(jī)制,將“非語(yǔ)言”信息轉(zhuǎn)化為模型能夠真正識(shí)別和處理的形式。
措恩還談到了AI智能體應(yīng)用過程中最本質(zhì)的問題——信任。他認(rèn)為,AI智能體之所以能夠獲得用戶信任,關(guān)鍵在于其決策路徑具有高透明性和可審查性。與單一語(yǔ)言模型不同,AI智能體會(huì)將復(fù)雜問題拆解為多個(gè)明確的小任務(wù),每一步都有清晰的邏輯和執(zhí)行過程,更容易被理解和驗(yàn)證。
“用戶可以清楚看到智能體是如何逐步推進(jìn)任務(wù)、規(guī)劃解決方案的,這有助于增強(qiáng)他們對(duì)結(jié)果的信心?!彼f,在進(jìn)入現(xiàn)實(shí)世界之前,智能體在高度還原真實(shí)環(huán)境的虛擬世界中先“完成驗(yàn)證”,這種信任感會(huì)進(jìn)一步加深。