AI大模型,無疑是2023年以來最炙手可熱的名詞。
在AI的快速迭代下,各行各業(yè)都掀起了變革的巨浪。每個人都屏住呼吸,期待著下一個被AI顛覆的行業(yè)。
微軟、阿里、谷歌這些科技巨頭們最近的動作表明,下一個迎來革命的行業(yè),可能就是工業(yè)機(jī)器人。
而人機(jī)交互,就是革命的突破口。
工業(yè)機(jī)器人在過去的幾十年發(fā)展迅猛,但短板依然明顯:需要有專家教它們怎么工作。自機(jī)器人誕生以來,教機(jī)器人做事的方法完全沒有變化:一個專業(yè)程序員團(tuán)隊需要花費成百上千個小時,手動編碼讓工業(yè)機(jī)器人完成特定的動作。
此外,操控不同的機(jī)器人還需要掌握不同的編程語言。這讓調(diào)教機(jī)器人的技術(shù)門檻變得極高。
在現(xiàn)實落地中,這個團(tuán)隊還需要對生產(chǎn)場景有足夠的理解,對機(jī)器人進(jìn)行反復(fù)調(diào)試,機(jī)器人才能在不同環(huán)境下順暢運作。如果機(jī)器人工作環(huán)境出現(xiàn)了變化,一線工作者還需要聯(lián)系專業(yè)技術(shù)人員進(jìn)行處理。這種人機(jī)交互模式的高昂成本始終是工業(yè)機(jī)器人普及的主要障礙。
AI大模型,就是清除這個障礙的最佳工具。
能夠用日常的語言和人類交流,正是ChatGPT的出圈爆火的重要原因。一個對AI一竅不通的用戶也能夠自如地與它溝通,向它下達(dá)指令。
如果將這種能力運用到工業(yè)機(jī)器人上,一個一線工人就能隨時根據(jù)現(xiàn)場的需要,用日常對話的方式來指揮機(jī)器人。人機(jī)交互的改進(jìn),對于制造業(yè)而言,無疑是一場革命。
頭部AI大公司很快就嗅到了其中的商機(jī),紛紛嘗試用AI為工業(yè)機(jī)器人“注入靈魂”。
作為OpenAI的長期合作伙伴,微軟首先進(jìn)軍這一領(lǐng)域。在今年年初,微軟的研究人員就宣布他們在通過自然語言命令機(jī)器人單獨完成特定任務(wù),其中包括讓機(jī)器人識別不同物體,以及控制“無人機(jī)以之字形的路徑檢查貨架”。
更讓人驚奇的是,面對人類沒有說清楚的模糊問題,機(jī)器人搭載的AI會進(jìn)一步地詢問,以搞清楚研究者的真實目的。
例如當(dāng)研究者要求AI 為他找飲料時,AI會先問清楚具體想要哪一種飲料。當(dāng)研究者不直接告訴 AI 選哪個,而是說:“我剛從健身房回來,請幫我找個健康點兒的飲料?!盇I會猜測研究者或許想要喝椰子水,并開始指揮無人機(jī)去取椰子水。
這種溝通方式打開了人機(jī)交互的一扇新的大門,人類不僅可以用自然語言與機(jī)器人直接溝通,機(jī)器人甚至能根據(jù)現(xiàn)場環(huán)境與用戶需求,提供相應(yīng)的建議。
這意味著,一方面,程序員與機(jī)器人的交互效率將有一個飛躍。另一方面,不懂編程,但對應(yīng)用場景理解更深入的人也能參與調(diào)試,創(chuàng)造出效率更高的解決方案。
這在工業(yè)產(chǎn)線上尤為重要,因為同時精通生產(chǎn)需求與編程技術(shù)的工作人員鳳毛麟角。如果AI能清晰地理解一線工作人員的需求,并根據(jù)具體生產(chǎn)環(huán)境實現(xiàn)需求,那么,實現(xiàn)降本增效將是一件輕而易舉的事情。
面對微軟勾畫的未來宏圖,谷歌馬上給予回應(yīng)。
微軟公布論文不久后,谷歌與柏林工業(yè)大學(xué)共同推出了史上最大的視覺語言模型PaLM-E。據(jù)研究團(tuán)隊介紹,該模型隨后將運用到工業(yè)機(jī)器人上。
PaLM-E最為業(yè)界關(guān)注的技術(shù)是,PaLM-E能夠通過分析接收到的視覺圖像,執(zhí)行研究者的指令,而無需任何人類引導(dǎo)。例如在演示視頻中,谷歌團(tuán)隊向機(jī)器人發(fā)出“把抽屜里的薯片拿給我”的指令時,PaLM-E通過分析來自攝像頭采集的周圍空間以及桌子的圖像數(shù)據(jù),生成了行動計劃,然后機(jī)器人從抽屜中取出薯片,放置在指定位置。
在整個過程中,研究者既沒有預(yù)先處理場景表示,也沒有對其進(jìn)行引導(dǎo)。只要用自然語言向機(jī)器人下指令,它們就能隨機(jī)應(yīng)變地完成任務(wù)。甚至,研究人員好幾次故意“搗亂”,把機(jī)器人拿出來的薯片袋又放了回去,但它總能重新找到薯片袋并完成任務(wù)。
谷歌的計劃,是將機(jī)器人從對環(huán)境變化不知所措的“人工智障”,成為能夠根據(jù)環(huán)境變化,尋找相應(yīng)行動方案的”人工智能“。
無獨有偶,一個多月后,阿里也高調(diào)宣布入局AI+機(jī)器人的賽道。
在第六屆數(shù)字中國建設(shè)峰會上,阿里巴巴董事會主席兼CEO、阿里云智能集團(tuán)CEO張勇宣布:阿里云正在實驗將千問大模型接入工業(yè)機(jī)器人。
在當(dāng)天發(fā)布的演示視頻里,工程師通過釘釘對話框向機(jī)器人發(fā)出指令,機(jī)器人立即理解了指令內(nèi)容并回答,“好的,我找找有什么喝的?!彪S后,機(jī)器人開始識別周邊環(huán)境,從附近找到一瓶水,并自動完成抓取、配送等一系列動作,將水遞送給工程師。
工程師還介紹稱,千問大模型為機(jī)器人執(zhí)行任務(wù)提供了推理決策的能力,一線工人只需發(fā)送一段文字,千問就能理解其意圖,指揮機(jī)器執(zhí)行任務(wù),有效提升生產(chǎn)效率。
從這三家科技巨頭公布的具體成果來看,用自然語言與機(jī)器人交流,是他們不約而同選擇的展示重點。他們認(rèn)為讓機(jī)器人理解人類的命令,并選擇行動方案,也即”輸入”環(huán)節(jié)與“決策”環(huán)節(jié),才是這次"AI+革命"的突破口,而工業(yè)機(jī)器人則是AI則是未來最可能的應(yīng)用場景。
其實,這也在情理之中。一方面,目前工業(yè)機(jī)器人部分技術(shù)已經(jīng)逐漸成熟,在部分場景單一,作業(yè)難度不大的領(lǐng)域,AI的落地可行性相對較大。另一方面,人機(jī)交互的革命性改進(jìn)能為制造業(yè)降低大量成本,因此這類AI+機(jī)器人的商業(yè)化落地可能性更大,更有利于刺激資本后續(xù)對該項技術(shù)的投入。
然而,科技巨頭們的野心遠(yuǎn)不止于此。
具身智能,才是AI+機(jī)器人的終極形態(tài),它也將徹底改變當(dāng)前制造業(yè)。
得益于英偉達(dá)創(chuàng)始人黃仁勛最近的豪言“AI的下一個浪潮將是具身智能”,這個概念快速進(jìn)入了大眾的視野。
具身智能,指的就是能夠感知并理解周邊環(huán)境,通過自主學(xué)習(xí)完成任務(wù)的智能體。其中的“智能”一詞,指的就是與環(huán)境交互,同時在環(huán)境中行動的功能。
根據(jù)研究人員的設(shè)想,當(dāng)人類下達(dá)指令時,一臺具身智能機(jī)器人能夠聽懂人類的語言,“觀察”自己所處的物理環(huán)境,然后通過理解、推理并與環(huán)境互動,完成相應(yīng)任務(wù)。
換句話說,具身智能就是讓機(jī)器人的感知、決策與行動更像人,能夠完成目前只有人類才能完成的復(fù)雜任務(wù)。
那么,為什么具身智能將會沖擊當(dāng)前制造業(yè)的形態(tài)呢?
現(xiàn)在的機(jī)器人,依然需要人類告訴它完成任務(wù)的方法,例如按照特定工序組裝機(jī)械。另外,機(jī)器人將一直遵照這個方法,不會改動。
但具身智能機(jī)器人,能夠在與環(huán)境的互動中,一次次地迭代成長,自主學(xué)習(xí)并發(fā)現(xiàn)最優(yōu)的行動策略。而最優(yōu)的策略,可能遠(yuǎn)比人類制定的方法高效許多。
在未來,無論是生產(chǎn)工藝的改進(jìn)、產(chǎn)線設(shè)計,還是AGV/AMR的集群調(diào)度,人類除了一開始的指導(dǎo)與監(jiān)督以外,只要把總?cè)蝿?wù)告知具身智能機(jī)器人,它們就能夠?qū)崿F(xiàn)全程無人化生產(chǎn)。同時在生產(chǎn)過程中,它們還會根據(jù)環(huán)境與當(dāng)前生產(chǎn)效率,不斷迭代升級生產(chǎn)的策略,且中間的調(diào)整完全無需人類參與。
正如中國工程院院士李德毅教授所說,可交互、會學(xué)習(xí)、自成長是具身智能的核心。
這或許就是制造業(yè)的終極形態(tài):完全無人化,且會不斷學(xué)習(xí)成長的全自動工廠。
有批評者認(rèn)為,具身智能依然還是個遙遠(yuǎn)的夢想,距離大規(guī)模落地還有很長一段距離。例如具身智能機(jī)器人目前和陌生物體互動時,依然表現(xiàn)不佳。此外,目前具身智能無法完成長序列的復(fù)雜動作,如烘焙或洗碗等。
但一項技術(shù)在爆發(fā)期時的發(fā)展速度,往往比人們想像快得多,這類故事在人類科技史上數(shù)不勝數(shù),最近的例子就是圍棋AI。
自計算機(jī)發(fā)明以來,人們一直認(rèn)為,圍棋由于其高復(fù)雜度,是無法用人工智能模擬的棋類運動。
AlphaGo在2014年橫空出世,那時候表現(xiàn)最佳的圍棋AI甚至無法擊敗業(yè)余棋手,更不用說代表人類頂尖水平的職業(yè)棋手。
但AlphaGo在2015年就首次擊敗了圍棋職業(yè)棋手,2016年更戰(zhàn)勝了代表人類頂級水平的李世乭九段。從此以后,人類再也沒有望AI項背。今天,圍棋選手推翻了千年以來人類總結(jié)的對弈經(jīng)驗,而將AI的一招一式奉為圭臬。
這一切發(fā)生在3年之內(nèi)。
當(dāng)機(jī)器人搭載了AI大模型之后,他們又會花多久時間,推翻人類上千年的知識積累,重塑制造業(yè),乃至于重塑整個人類社會?
上一篇: 防爆球機(jī)與防爆云臺的區(qū)別
下一篇: 工業(yè)物聯(lián)網(wǎng)及其應(yīng)用:概念、架構(gòu)、關(guān)鍵技術(shù)、應(yīng)用及挑戰(zhàn)
違法和不良信息舉報投訴電話:0377-62377728 舉報郵箱:fbypt@m.4729d.com
網(wǎng)絡(luò)警察提醒你 a>
中國互聯(lián)網(wǎng)舉報中心
網(wǎng)絡(luò)舉報APP下載
掃黃打非網(wǎng)舉報專區(qū)