PG(中國(guó)大陸)官方網(wǎng)站-電子AI輔助平臺(tái)

日韩精品无码一区AAA片,入室强伦轩人妻电影,男人用嘴添女人私密视频

国产成人无码专区,国产亚洲精品久久久久蜜臀,色琪影院八戒无码,午夜精品白在线观看

PG新聞
分類

對(duì)話李想:在AI面前所有的人性都應(yīng)該得以保留

發(fā)布時(shí)間:2025-05-08 22:11:37    瀏覽:

[返回]

  

對(duì)話李想:在AI面前所有的人性都應(yīng)該得以保留

  理想汽車創(chuàng)始人李想在接受采訪時(shí)表示,自動(dòng)駕駛領(lǐng)域應(yīng)該是VLA最早實(shí)現(xiàn)的,因?yàn)橐?guī)則清楚且具有確定性。

  3.為了解決數(shù)據(jù)獲取難題,理想汽車采用了世界模型和生成數(shù)據(jù)訓(xùn)練的方法,大幅降低了驗(yàn)證成本。

  4.此外,李想強(qiáng)調(diào)關(guān)注人,尤其是關(guān)注親密關(guān)系的人,以提升自己的能量和吸引更多能量。

  5.最后,他表示,所有的人性都應(yīng)該得以保留,包括好的和壞的,以創(chuàng)造一個(gè)有生命力的世界。

  距離上次《獨(dú)家與李想的三小時(shí)訪談》發(fā)布過(guò)去了130多天,人工智能的世界翻天覆地,我與理想CEO李想決定,再坐下來(lái)聊聊對(duì)人工智能的全新觀察。

  這次訪談的話題包括:過(guò)去五個(gè)月的AI王國(guó)變幻、中國(guó)AI出現(xiàn)的最大變量DeepSeek與梁文鋒、理想還做基座模型嗎、輔助駕駛的新模型VLA(視覺(jué)語(yǔ)言行動(dòng)模型)以及李想對(duì)AI與人性的哲思。

  在AI面前,什么是值得被保留的人性?李想說(shuō):“所有的人性都應(yīng)該得以保留。無(wú)論是好的和壞的。”

  在他看來(lái):“沒(méi)有壞的,就沒(méi)有好的。你可以把好的東西和不好的東西都當(dāng)成一種特質(zhì)——它是文化的特質(zhì),它是生命的特質(zhì),它是性格的特質(zhì),它是能力的特質(zhì)——這樣才是一個(gè)有生命力的世界,才是活生生的人?!?/p>

  張小珺:距離上次AI Talk 過(guò)去 130 天,你最大進(jìn)步是什么?你有成為一個(gè)更智能的李想嗎?

  李想:這 130 天我更高興看到整個(gè)中國(guó)進(jìn)步。包括DeepSeek、通義千問(wèn)。可以讓中國(guó)無(wú)論是基座模型,還是推理模型、多模態(tài),已經(jīng)跟美國(guó)的距離基本上拉近,或者基本上在一個(gè)水平線。

  中國(guó)的企業(yè)做出來(lái)這些模型效率也更高,無(wú)論在訓(xùn)練的層面,還是在后邊整個(gè)推理層面,我們做了很多深層工程改造。也讓中國(guó)人工智能領(lǐng)域更有信心。也包含后邊我看到一些比較驚喜的,在 Agent(智能體)上面的突破,無(wú)論是Manus還是Genspark,非常驚喜。

  今天大家在講語(yǔ)言模型,但我還是認(rèn)為語(yǔ)言模型只是世界的重要組成部分,并不是全部。我們要想理解物理世界,要想讓一個(gè)終端或者一個(gè)機(jī)器人能在物理世界和數(shù)字世界運(yùn)行,要做的工作還非常多。這讓我們也更加堅(jiān)信,這條路走下去是對(duì)的。

  李想:沒(méi)有那么大變化。如果從實(shí)際角度,人工智能發(fā)展這么好,我每天工作時(shí)間并沒(méi)有減少,還是在增加。

  AI作為一個(gè)信息工具不是完美的,因?yàn)樗詈笠欢ㄒo你next token(下個(gè)詞元),一定要給你一個(gè)結(jié)果。

  大家今天使用的時(shí)候會(huì)先點(diǎn)上聯(lián)網(wǎng)搜索,先去通過(guò)Rag(檢索增強(qiáng)生成)聯(lián)網(wǎng)搜索一些索引信息。但往往索引的信息源,已經(jīng)失真和不準(zhǔn)確了,所以最后推理的過(guò)程,(雖然)很認(rèn)真在做推理,但你明顯看到這個(gè)過(guò)程和結(jié)果已經(jīng)開(kāi)始有問(wèn)題。所以如果我們不對(duì)這套機(jī)制進(jìn)行一個(gè)改造,它仍然在做熵增,在增加大量無(wú)效信息、無(wú)效結(jié)果、無(wú)效結(jié)論。

  這是一個(gè)很大挑戰(zhàn),我就在思考一個(gè)問(wèn)題,還是要站在真正用戶價(jià)值的角度。如果大家在拼命使用AI,大家在為AI做投資,但我的工作時(shí)長(zhǎng)并沒(méi)有減少,我的工作結(jié)果也沒(méi)有變好,這個(gè)問(wèn)題到底在哪里?——這也是過(guò)去幾個(gè)月我跟很多人在聊,在思考,我們內(nèi)部在討論非常多的一個(gè)問(wèn)題。

  很多時(shí)候不要把東西纏繞到一起。我們可以先做一個(gè)分類,因?yàn)槿祟悮v史上也會(huì)有類似這些的分類:

  今天,通過(guò)一個(gè)對(duì)話的方式,無(wú)論文本多么長(zhǎng),它都是信息工具,信息工具對(duì)大家更重要的是參考作用。

  再往下,AI 變好了以后,它會(huì)變成輔助工具。我們今天做的輔助駕駛,大家在車上用人工智能的語(yǔ)音方式進(jìn)行導(dǎo)航,來(lái)查找美團(tuán)、調(diào)取音樂(lè),會(huì)讓效率更高,但它仍然離不開(kāi)我們。這種角色比較像什么呢?它比原來(lái)的使用體驗(yàn)會(huì)更好了,但它是輔助工具。

  什么時(shí)候才能真正改變我們的工作成果以及減少工作時(shí)長(zhǎng),它必須變成生產(chǎn)工具。我自己認(rèn)為Agent(智能體)最重要的評(píng)判條件是,它是否是生產(chǎn)工具、它是否真正能替代我完成專業(yè)工作、它是否在產(chǎn)生有效的生產(chǎn)力、它是否真的解決我工作中最重要的 8 小時(shí)?

  這是我接下來(lái)對(duì)Agent(智能體)最重要的衡量,也是Agent(智能體)的意義所在。

  李想:對(duì),國(guó)際環(huán)境在發(fā)生重大的變化,技術(shù)也在發(fā)生變化,但技術(shù)最大變化還是中國(guó)在人工智能方面帶來(lái)的變化。美國(guó)的變化反而沒(méi)那么大。

  李想:DeepSeek我能學(xué)到最好的一個(gè)方式是:DeepSeek運(yùn)用了人類的最佳實(shí)踐,它極簡(jiǎn)地運(yùn)用了人的最佳實(shí)踐。

  它在做DeepSeek V3的時(shí)候,V3 是一個(gè)MoE(混合專家模型),671B的一個(gè)模型。MoE(混合專家模型)是非常好的架構(gòu)。它相當(dāng)于把一堆專家組合在一起,每個(gè)是一個(gè)專家能力。

  這個(gè)專家能力是怎么構(gòu)建的?挺明顯的,當(dāng)我們想去構(gòu)建能力的時(shí)候,DeepSeek給你展示一個(gè)最佳實(shí)踐——第一步要先搞研究,這非常重要;任何時(shí)候,當(dāng)我們想去改變能力和提升能力,第一步一定是搞研究,搞完研究以后才搞研發(fā);搞完研發(fā)以后,第三步是把能力表達(dá)出來(lái);第四步是能力變成業(yè)務(wù)的價(jià)值。

  這四個(gè)步驟是極簡(jiǎn)的人類最佳實(shí)踐,但我們經(jīng)常做著就忘掉,看到什么東西就直接啟動(dòng)研發(fā),而沒(méi)有搞研究。我們自己也很受益,無(wú)論我們是在端到端和VLM(視覺(jué)語(yǔ)言模型)上,還是今天做VLA(視覺(jué)語(yǔ)言行動(dòng)模型),我們的研究團(tuán)隊(duì)表現(xiàn)得非常好。

  包括你可以看國(guó)外的像李飛飛,她在引用輔助駕駛的時(shí)候,經(jīng)常會(huì)引用我們關(guān)于輔助駕駛方面的研究論文。這個(gè)挺重要。

  研究跑通了以后,研發(fā)效率會(huì)變得非常高。但研發(fā)又非常在意價(jià)值,他能夠把價(jià)值表達(dá)出來(lái),然后變成業(yè)務(wù)。這是很重要的過(guò)程。

  我印象應(yīng)該是1月20號(hào)DeepSeek R1上線的,到后邊開(kāi)源,我們也在對(duì)DeepSeek做很多研究:DeepSeek很多東西為什么做得好?包括訓(xùn)練和推理效率,也包括MoE(混合專家模型)模型部署上去對(duì)內(nèi)存占用的挑戰(zhàn)。我們自己已經(jīng)開(kāi)始在芯片上寫FP8(8 位浮點(diǎn)數(shù)格式)工程優(yōu)化了。因?yàn)槲覀冇芯幾g團(tuán)隊(duì)。

  比較有意思的一點(diǎn)是,我沒(méi)有上來(lái)敢跟模型團(tuán)隊(duì)直接聊。我先跟謝炎(理想汽車CTO)聊了一下,我說(shuō)我們本身要做VLA,VLA一個(gè)很重要的計(jì)劃是到今年9月份,能做一個(gè)非常好的語(yǔ)言模型出來(lái),才能再往下去訓(xùn)練VLA。

  但今天,我們自己預(yù)測(cè)到9月份做的模型,能力是否比DeepSeek V3加R1更強(qiáng)?我說(shuō)至少我聽(tīng)到你們說(shuō)的東西,我說(shuō)不如那個(gè)強(qiáng)。而且它開(kāi)源開(kāi)得如此徹底。

  我們是否應(yīng)該基于它的開(kāi)源,去做我們的 VLA的L(language 語(yǔ)言)的部分,并且我們基于這個(gè)L(language 語(yǔ)言)的部分,比如我在理想同學(xué)用的話可能就是個(gè)VL(視覺(jué)和語(yǔ)言),它沒(méi)有A(action 行動(dòng)),對(duì)吧?就把vision(視覺(jué))和language(語(yǔ)言)放在一起,包括做成端到端語(yǔ)音的一個(gè)方式。

  我們?cè)瓉?lái)本來(lái)應(yīng)該9月份以后才能做這些,我們是否應(yīng)該站在巨人的肩膀上就去做了?謝炎說(shuō)肯定應(yīng)該這么做。

  我們比較擔(dān)心陳偉(理想汽車基座模型負(fù)責(zé)人)會(huì)怎么想,這個(gè)壓力是挺大的。我們發(fā)現(xiàn)陳偉比我們還堅(jiān)決。他說(shuō)這會(huì)加速我們往下一步工作,我們應(yīng)該以這個(gè)為基礎(chǔ),加速VLA,加速端到端多模態(tài)進(jìn)展,研究團(tuán)隊(duì)也都在研究我們?nèi)绾卧谛酒弦才艿酵瑯拥挠?xùn)練和推理效率,大家都在同步地進(jìn)行工作。

  我跟謝炎打的電話最多,我們還有一個(gè)專門的人工智能戰(zhàn)略小組,我們就在里邊不停地聊,發(fā)現(xiàn)大家并不糾結(jié)。因?yàn)槲覀冎牢覀兤髽I(yè)的基因,還是要為用戶推出最好的產(chǎn)品和服務(wù)。

  擁抱DeepSeek的過(guò)程比我們想象得要快。今天我們VLA推出的速度也會(huì)比原來(lái)的預(yù)期要快。

  張小珺:你怎么看梁文鋒(DeepSeek創(chuàng)始人)?他是怎么找到你說(shuō)的所謂人類最佳實(shí)踐的?

  李想:我只跟他聊過(guò)一次,去年9月份,印象特別深,應(yīng)該是ChatGPT的o1發(fā)布前的幾天。

  第二,我個(gè)人認(rèn)為他是會(huì)在全世界范圍之內(nèi),去研究和學(xué)習(xí)最佳實(shí)踐和最好的方法論的這樣一個(gè)人。

  李想:自律的最大特點(diǎn)就是能夠堅(jiān)守這些你相信的東西,能夠堅(jiān)守這些最佳實(shí)踐,能跟人性的懶惰、走捷徑,這些方面做對(duì)抗。

  開(kāi)源讓我們更加敬佩他。DeepSeek的出現(xiàn)對(duì)我們加速做VLA是巨大幫助。過(guò)去我們打算要到今年年底才能做出一個(gè)像樣的,能夠滿足需求的語(yǔ)言模型,但DeepSeek一開(kāi)源,我們就加速了 9 個(gè)月時(shí)間,給我們帶來(lái)了巨大收益和幫助。我們受到了那么大的幫助,我們?cè)谙肽軐?duì)社會(huì)做點(diǎn)什么貢獻(xiàn),我們就把自研的整車操作系統(tǒng)理想星環(huán)OS給開(kāi)源了。

  沒(méi)有大家想的那么復(fù)雜,我自己內(nèi)心,包括謝炎的內(nèi)心就是:DeepSeek給我們帶來(lái)那么大的幫助,我們應(yīng)該給對(duì)社會(huì)貢獻(xiàn)點(diǎn)什么。不讓行業(yè)那么卷——說(shuō)白了純粹是感謝DeepSeek。

  我的人生經(jīng)歷——進(jìn)入了汽車行業(yè),做汽車的網(wǎng)站,一直在自己的長(zhǎng)板的延長(zhǎng)線上繼續(xù)做。從最開(kāi)始做個(gè)人網(wǎng)站,到做產(chǎn)品IT網(wǎng)站,到做汽車網(wǎng)站,最后希望能夠改變汽車行業(yè),推出更好的產(chǎn)品,汽車疊加下一代信息技術(shù)。這是我的延長(zhǎng)線。

  他(梁文鋒)的延長(zhǎng)線就是從人工智能開(kāi)始。他在浙大學(xué)的就是人工智能。那是他的延長(zhǎng)線。

  本身我也相信,量化交易的公司,對(duì)于整個(gè)模型的能力,對(duì)模型的理解,對(duì)于本身工程的能力,不會(huì)比任何互聯(lián)網(wǎng)公司差,甚至可能還要更強(qiáng)。

  張小珺:春節(jié)之后,很多人來(lái)問(wèn)我這個(gè)問(wèn)題:理想還做基座模型嗎?——既然都有DeepSeek開(kāi)源了,為什么還要做基座模型?

  我們車上要有對(duì)話,又有多模態(tài),這個(gè)仍然需要我們自己訓(xùn)練一個(gè)根據(jù)我們自己需要的基座模型。包括我要去做VLA。

  因?yàn)檫@個(gè)VLA里邊,哪怕V(vision 視覺(jué))和L(language 語(yǔ)言)都和正常的不一樣。就是這個(gè)我需要3D的vision(視覺(jué)),還有高清的2D的vision(視覺(jué)),token(詞元)要用預(yù)訓(xùn)練,必須得涉及更專業(yè)的車領(lǐng)域的語(yǔ)義語(yǔ)料,交通領(lǐng)域的語(yǔ)義語(yǔ)料,我們面向的家庭用戶的語(yǔ)義語(yǔ)料,來(lái)做訓(xùn)練。

  也包含很多時(shí)候,一個(gè)重要的是說(shuō),大家在做VLA訓(xùn)練的時(shí)候,很多時(shí)候在做基座說(shuō)我要把VL(視覺(jué)和語(yǔ)言)也連在一起,把VL(視覺(jué)和語(yǔ)言)的組合語(yǔ)料放進(jìn)去。那這些無(wú)論是OpenAI還是DeepSeek,都沒(méi)有這樣的數(shù)據(jù),也沒(méi)有這樣的場(chǎng)景和需求,也不去解決這樣的問(wèn)題,那只能我自己來(lái)做了。

  只是好處是說(shuō)VLA里邊的language(語(yǔ)言),我可以站在巨人的肩膀上,但它只是我其中的一部分。

  張小珺:所以一方面是擁抱了DeepSeek,另一方面你們把基座模型的團(tuán)隊(duì)還拆出去了,并且加大了投入,是嗎?加大投入,加了多大?

  比如我們給理想同學(xué)用的,會(huì)是一個(gè)300B模型,就大概是個(gè)3000億(參數(shù))的一個(gè)模型,我們給輔助駕駛運(yùn)用的VLA的,VL(視覺(jué)和語(yǔ)言)的部分,是個(gè)32B模型。包含我們真正工作中用的,也會(huì)去用3000億的模型。大概現(xiàn)在是這樣的兩個(gè)版本。

  如果你規(guī)則算法都做不好,你根本不知道怎么去做端到端,如果你端到端沒(méi)有做到非常極致的水平,你連VLA怎么訓(xùn)練都不知道。

  張小珺:今年2月5號(hào),也就是春節(jié)之后,你們的第一個(gè)AI的例會(huì),你說(shuō):DeepSeek更像是Linux推出,而你們要去追逐安卓時(shí)刻,你們準(zhǔn)備怎么去爭(zhēng)奪安卓時(shí)刻?

  李想:這個(gè)東西是一個(gè)比喻,比如安卓是基于Linux開(kāi)發(fā)出來(lái)的一個(gè)手機(jī)操作系統(tǒng)。

  我們以語(yǔ)言作為基礎(chǔ),我們的VLA就是把vision(視覺(jué))這部分做成最強(qiáng)的,把a(bǔ)ction(行動(dòng))也做好,借助了L(language),就是語(yǔ)言的能力。VLA就比較像在汽車或者交通領(lǐng)域的更重要的一個(gè)大模型或者操作系統(tǒng),這是我們的機(jī)會(huì)所在。

  今天的輔助駕駛走到了一個(gè)新的十字路口上,有的人甚至覺(jué)得輔助駕駛應(yīng)該被叫停。你怎么想?

  李想:我們這么多年,從規(guī)則算法,做到了端到端+VLM,今天真正邁入到VLA的階段,比較像什么?像黎明前的黑暗吧——黎明馬上就要來(lái)了,但會(huì)先經(jīng)歷一個(gè)黑暗的過(guò)程,之所以有黑暗是因?yàn)橐瓉?lái)黎明。

  正因?yàn)檩o助駕駛行業(yè)遇到了問(wèn)題,我最喜歡、最開(kāi)心的方式,是去解決行業(yè)解決不了的問(wèn)題,這是我們自己堅(jiān)決相信的。

  就跟我們推出增程,是為了解決電池成本高、充電難的問(wèn)題。我們推出5C也是為了解決充電慢、等待時(shí)間長(zhǎng)的問(wèn)題。我們?cè)敢馊ソ鉀Q各種行業(yè)問(wèn)題,包括我們做操作系統(tǒng),也是因?yàn)檫^(guò)去,傳統(tǒng)的車控和智控的操作系統(tǒng)性能差,開(kāi)發(fā)緩慢,芯片匹配周期長(zhǎng)的這些問(wèn)題。這些問(wèn)題(存在)恰恰是我們的價(jià)值所在。

  李想:只要人類會(huì)雇傭司機(jī),人工智能技術(shù)就是把類似這樣的功能和角色,去變成真正的生產(chǎn)力、生產(chǎn)工具,然后去進(jìn)行替代。

  李想:對(duì)于我們而言, VLA是一個(gè)司機(jī)大模型,像人類的司機(jī)一樣去工作的模型。

  經(jīng)歷了三個(gè)階段。第一階段是我們從2021年開(kāi)始,通過(guò)機(jī)器學(xué)習(xí)的感知,配合后邊的規(guī)則算法,包括規(guī)劃、控制、執(zhí)行這些規(guī)則算法分段式的。

  第一個(gè)階段比較像什么?像昆蟲動(dòng)物的智能。它有既定規(guī)則,還要依賴于高精地圖,就比較像螞蟻的行動(dòng)和完成任務(wù)的方式。

  它(規(guī)則算法)就這樣一個(gè)規(guī)模的腦子,包括整個(gè)模型規(guī)模大概只有幾百萬(wàn)參數(shù)。它就那么小一個(gè)腦子,你讓它去完成復(fù)雜的事情,幾乎不可能。所以你就不停地限定、限定,幾乎把它做成一個(gè)有軌交通的方式。跟螞蟻非常相似。

  第二階段是我們從2023年開(kāi)始搞研究,2024年推出端到端。端到端比較像什么?比較像哺乳動(dòng)物的智能。比如像馬戲團(tuán)的動(dòng)物,像人類學(xué)習(xí)怎么騎自行車。它學(xué)了人類的這些行為,人類怎么去做出各種行為開(kāi)車。但是它對(duì)物理世界并不理解,只是看到一個(gè)什么樣的三維圖像,知道自身的速度,并給出了一個(gè)什么樣的軌跡,所以它應(yīng)付大部分的泛化沒(méi)有問(wèn)題,去面對(duì)它從來(lái)沒(méi)有學(xué)到的、特別復(fù)雜的,就會(huì)遇到問(wèn)題。

  這時(shí)候我們也會(huì)配合,視覺(jué)語(yǔ)言模型 VLM,然后放進(jìn)來(lái)。但是我們能夠用到的視覺(jué)語(yǔ)言模型這些開(kāi)源的,用在交通上的能力都非常有限,所以只能起到一些非常有限的輔助作用。

  到了VLA,就是完全人類的運(yùn)作方式了。它會(huì)像人類一樣,用3D的vision(視覺(jué))和2D的組合,去看真實(shí)物理世界,也包含它能夠去看懂導(dǎo)航軟件,這樣的軟件是怎么在運(yùn)行的,而不是像VLM(視覺(jué)語(yǔ)言模型)那樣只能看到一張圖片。

  另一方面,它有自己的整個(gè)腦系統(tǒng),不但要看到物理世界,還能夠理解物理世界。它有l(wèi)anguage(語(yǔ)言),有CoT(思維鏈),有推理能力。

  第三,它能夠像人類一樣,真正去執(zhí)行行動(dòng)。VLA放在我們的汽車,輔助駕駛領(lǐng)域,我們把它稱之為VLA司機(jī)大模型。

  李想:第一個(gè)是訓(xùn)練環(huán)節(jié)。訓(xùn)練環(huán)節(jié)第一部分是什么呢?要訓(xùn)出來(lái)一個(gè)VL(視覺(jué)和語(yǔ)言)基座,就vision(視覺(jué))和language(語(yǔ)言)基座。

  我們目前在訓(xùn)的,當(dāng)前這個(gè)版本,是一個(gè)32B的,就是320億云端的基座模型,所以先訓(xùn)這個(gè)。這里邊,跟過(guò)去這些語(yǔ)言模型差異在于什么?第一在于我要放入更多vision(視覺(jué))的語(yǔ)料,放入vision(視覺(jué))的token(詞元)。

  vision(視覺(jué)) 里面包含兩個(gè)部分,一部分是 3D上的vision(視覺(jué)),物理世界 3D 的 vision(視覺(jué)) 要放進(jìn)去,第二個(gè)是高清的、2D的vision(視覺(jué))。因?yàn)榻裉?,大家看到各種多模態(tài)的開(kāi)源 VLM(視覺(jué)語(yǔ)言模型) 里邊,它整個(gè) 2D vision(視覺(jué))的清晰度太低,所以看的距離不夠。我們放進(jìn)去的基本上圖像分辨率提升了10倍。這是非常之重要的。這是一個(gè)部分,是vision(視覺(jué))的token(詞元)和語(yǔ)料。

  第二個(gè)是要放入language(語(yǔ)言),跟交通、駕駛相關(guān)的足夠多的這方面的語(yǔ)料。這是language(語(yǔ)言)的部分。

  第三個(gè)還有一個(gè)很重要的,是大家可能容易忽略的,就我們必須放入很多VL(視覺(jué)和語(yǔ)言)聯(lián)合的語(yǔ)料,就是三維圖像和對(duì)世界的理解語(yǔ)義要同時(shí)產(chǎn)生的。比如我舉一個(gè)例子,我要把導(dǎo)航的地圖和車輛對(duì)導(dǎo)航地圖的理解一起放進(jìn)去。

  比如我要放入一個(gè),看到導(dǎo)航以后人類做了一個(gè)什么判斷,這個(gè)判斷我們的車輛是怎么記錄的,把這個(gè)語(yǔ)料放進(jìn)去。

  整個(gè) VL (視覺(jué)和語(yǔ)言)基座模型訓(xùn)練的時(shí)候,包含了三個(gè)部分,數(shù)據(jù)是vision(視覺(jué))的數(shù)據(jù),language(語(yǔ)言)的數(shù)據(jù)和VL(視覺(jué)和語(yǔ)言)聯(lián)合的數(shù)據(jù)。它形成一個(gè)VL(視覺(jué)和語(yǔ)言)的一個(gè)基座。

  我要把這個(gè)基座干什么呢?我要蒸餾,變成一個(gè) 3.2B 端側(cè)蒸餾模型。因?yàn)槲乙WC它運(yùn)行速度足夠得快,無(wú)論是兩個(gè)Orin-X還是Thor-U上能夠流暢運(yùn)行。蒸餾下來(lái)是一個(gè)3.2B,8個(gè)專家組成的MoE(混合專家模型)模型。如果直接跑3.2B一個(gè)完整模型的話,雙Orin-X和Thor-U的幀率是達(dá)不到的,token(詞元)的整個(gè)輸出率是達(dá)不到的第一個(gè)步驟,這是預(yù)訓(xùn)練的環(huán)節(jié)。

  第二個(gè)步驟是什么?是做后訓(xùn)練。后訓(xùn)練是我把它變成VLA。我要把a(bǔ)ction(行動(dòng))放進(jìn)來(lái)。action(行動(dòng))部分后訓(xùn)練什么呢?仍然是一種模仿學(xué)習(xí)。

  特別像你去駕校學(xué)開(kāi)車,就相當(dāng)于我訓(xùn)練VLA,把它組合成一個(gè)VLA的端到端的一個(gè)方式,這是第二個(gè)部分。這個(gè)時(shí)候大概模型規(guī)模就會(huì)從3.2B大概擴(kuò)大到接近4B,大概這么一個(gè)規(guī)模。

  同時(shí),它一方面是個(gè)VLA,能夠直接從視覺(jué),到理解,到最后的輸出。但是我們的CoT(思維鏈)會(huì)很短,我不會(huì)做超長(zhǎng)CoT(思維鏈),我的CoT(思維鏈)鏈條一般兩步到三步,我不會(huì)再做更多的,否則延時(shí)太長(zhǎng),沒(méi)有辦法滿足交通或者機(jī)器人的安全。

  另外當(dāng)我 action(行動(dòng))做完以后,我還會(huì)做一個(gè)diffusion(擴(kuò)散模型)預(yù)測(cè),就是下邊會(huì)發(fā)生什么樣的時(shí)長(zhǎng)的一個(gè)場(chǎng)景。這主要根據(jù)性能會(huì)做出來(lái)4到8秒的一個(gè)diffusion(擴(kuò)散模型)的軌跡和環(huán)境的預(yù)測(cè)。這是第二個(gè)部分,比較像人去駕校學(xué)開(kāi)車這樣的一個(gè)環(huán)節(jié)。

  強(qiáng)化我們分成兩個(gè)部分,第一個(gè)部分先做RLHF(人類反饋強(qiáng)化學(xué)習(xí)),帶有人類反饋,所以我們有很多人類數(shù)據(jù)。就是當(dāng)它這樣的話,人類就會(huì)接管,當(dāng)它那樣,人類不會(huì)接管。包括人類的一些習(xí)慣,拿這塊來(lái)做一個(gè)帶有人類反饋的強(qiáng)化訓(xùn)練。

  包括我們安全的對(duì)齊都是在這個(gè)強(qiáng)化環(huán)節(jié)完成的,你除了要遵守交通規(guī)則以外,你要遵守比如中國(guó)的大家的駕駛習(xí)慣。你的開(kāi)車習(xí)慣能夠融入社會(huì),首先要開(kāi)得跟整個(gè)社會(huì)環(huán)境上的大家一樣好,不能給別人帶來(lái)麻煩,而不是像一個(gè)新手在路上,你變成一個(gè)阻礙。

  第二個(gè)部分是純粹的RL(強(qiáng)化學(xué)習(xí)),是(拿RL模型放到)我們的世界模型來(lái)做訓(xùn)練。這塊兒的目的什么呢?就是開(kāi)得比人類更好。

  這塊兒,我們中間不會(huì)給人類的反饋,只會(huì)給一個(gè)結(jié)果,就是從a點(diǎn)到b點(diǎn)要開(kāi)過(guò)去。但是會(huì)有三類的訓(xùn)練要求,第一個(gè)是我們可以通過(guò)G 值(加速度數(shù)值)來(lái)判斷舒適性,給舒適性的反饋。

  第三個(gè)是交通規(guī)則的反饋,如果它違反交通規(guī)則就沒(méi)有完成。所以是舒適、交通規(guī)則和碰撞事故,讓它自己來(lái)做整個(gè)強(qiáng)化的訓(xùn)練。當(dāng)這三個(gè)步驟完成了以后,VLA能夠跑在車端的模型就產(chǎn)生了。

  大概是這么一個(gè)方式。跟人非常像——先學(xué)習(xí)世界、交通和人類的這些知識(shí),這是預(yù)訓(xùn)練的環(huán)節(jié);后訓(xùn)練的環(huán)節(jié)相當(dāng)于去駕校,認(rèn)真地去學(xué)開(kāi)車;第三個(gè)環(huán)節(jié)相當(dāng)于到社會(huì)上開(kāi)車,也是我們訓(xùn)練的一個(gè)過(guò)程,要通過(guò)人類的RLHF(人類反饋強(qiáng)化學(xué)習(xí))跟人類做對(duì)齊,跟社會(huì)的環(huán)境來(lái)對(duì)齊。

  另外一方面,通過(guò)純RL(強(qiáng)化學(xué)習(xí))強(qiáng)化,以及我們自己在世界模型里生成的數(shù)據(jù)拿它做強(qiáng)化訓(xùn)練,從而開(kāi)得比人類更好,能夠解決更復(fù)雜的問(wèn)題,或者說(shuō),比人類的平均值要好得多,大概是這么一個(gè)過(guò)程。

  這還沒(méi)有完,這時(shí)有了VLA。但人類是怎么跟VLA工作的時(shí)候,我要搭建一個(gè)司機(jī)的Agent(智能體)。

  司機(jī)的Agent(智能體)是什么?是人類以自然語(yǔ)言的方式,就是你跟一個(gè)司機(jī)怎么說(shuō)話,你跟一個(gè)正常的駕駛員。假設(shè)你有男朋友,你男朋友在開(kāi)車,你怎么跟他說(shuō),你就怎么跟司機(jī)Agent來(lái)說(shuō)?;蛘咭粋€(gè)代駕,你怎么跟他說(shuō)就說(shuō)了。

  這里邊,如果是一些短指令,通用的短指令VLA直接就處理了,不需要再經(jīng)過(guò)云端。如果是一些復(fù)雜的指令,先要到云端的 32B那里,VL(視覺(jué)和語(yǔ)言)處理完以后,(因?yàn)樗斫饨煌ǖ囊磺校?,整個(gè)交給VLA來(lái)進(jìn)行處理,大概這么運(yùn)行的過(guò)程。

  說(shuō)白了它最后一個(gè)好處是,它能夠像人類司機(jī)一樣去理解物理世界,能夠像人類司機(jī)一樣去開(kāi)車,去處理復(fù)雜的問(wèn)題,也能像人類司機(jī)一樣跟其他人類進(jìn)行溝通。這是最后我們交付到用戶那里的產(chǎn)品。

  DeepSeek也沒(méi)走過(guò)這條路,OpenAI也沒(méi)有走過(guò)這條路,谷歌、Waymo也沒(méi)有走過(guò)這條路。

  張小珺:你們?yōu)槭裁淳脱鹤⒘诉@條路呢?VLA的技術(shù)路線還沒(méi)有收斂,為什么你們覺(jué)得你們可以?

  一是規(guī)則清楚,包括你說(shuō)做強(qiáng)化非常容易。按照每個(gè)來(lái)講,交通的世界,一個(gè)車會(huì)跑到哪里?是有規(guī)則的,雖然它很復(fù)雜,但是確定的。車又不能開(kāi)到水里,車也不能開(kāi)到空中,車只能開(kāi)到有路的地方,它是復(fù)雜但具備確定性。

  第二是車的控制,車是個(gè)3 DoF(自由度),車有三個(gè)自由度。左右是一個(gè)自由度,前后是個(gè)自由度,某種程度上還有一點(diǎn)輕微旋轉(zhuǎn),是個(gè)自由度。甚至輔助駕駛某種程度就控制兩個(gè)多,撐死就三個(gè)自由度。如果這個(gè)不能實(shí)現(xiàn),機(jī)器人的上來(lái)就是40多個(gè)自由度,那個(gè)挑戰(zhàn)就更大。

  所以這時(shí)候,我們進(jìn)行模仿學(xué)習(xí)是特別容易的。車看到的就是人看到的,人操作的就是車操作的,所以第二個(gè)它能做特別好的模仿學(xué)習(xí)。

  第三,它還能做特別好的強(qiáng)化。大家在使用的過(guò)程中不滿意的時(shí)候就接管了,如果這個(gè)跟人類沒(méi)有對(duì)齊,它就告訴你不應(yīng)該這么做,以及告訴你該怎么做,這是非常清晰的指標(biāo)。

  包含哪怕不做,包括后邊我不做人類監(jiān)督,我靠生成數(shù)據(jù)來(lái)做訓(xùn)練的時(shí)候也非常清晰。因?yàn)槭裁词鞘孢m,G值(加速度數(shù)值)是可以表達(dá)的。什么是符合交通規(guī)則是能夠表達(dá)出來(lái)的,交通規(guī)則是個(gè)清晰的規(guī)則。

  第三個(gè)是否發(fā)生碰撞是可以表達(dá)的。如果它很舒適,又不違反交通規(guī)則,然后第三個(gè),又沒(méi)有發(fā)生碰撞,a點(diǎn)到b點(diǎn)它就會(huì)開(kāi)得越來(lái)越好。它是VLA第一個(gè)重要的實(shí)驗(yàn)場(chǎng)。

  vision(視覺(jué))和action(行動(dòng))的數(shù)據(jù)是因?yàn)檐?,我們裝滿傳感器是可以收集物理世界數(shù)據(jù)的,還有人在車上開(kāi)車是我們可以收集到action(行動(dòng))數(shù)據(jù)的,這兩個(gè)是最難的,而且也沒(méi)有任何公司可以替代。

  李想:但是其他車型你有沒(méi)有建立整個(gè)基座模型、預(yù)訓(xùn)練的能力,后訓(xùn)練的能力,以及后邊強(qiáng)化的能力?因?yàn)閺?qiáng)化還需要世界模型的能力,這是不一樣的,對(duì)吧?

  包括我剛才講的,本身我們?cè)趺慈ソ鉀Q很多問(wèn)題,比如說(shuō)我講一個(gè)問(wèn)題,第一個(gè)如何提升能力剛才講清楚了,第二個(gè)是說(shuō)我如何向人類安全對(duì)齊,我如果讓它像一個(gè)職業(yè)司機(jī)一樣足夠的安全,足夠的舒適,所以我們本身能夠要建立強(qiáng)化學(xué)習(xí)的體系。我們的RLHF(人類反饋強(qiáng)化學(xué)習(xí))是很重要,我們有一個(gè)成規(guī)模的團(tuán)隊(duì)了。

  因?yàn)楹芏鄷r(shí)候一家公司如果模型能力不強(qiáng),根本不知道怎么去對(duì)齊。因?yàn)槟隳P湍芰?qiáng)的時(shí)候,你才發(fā)現(xiàn)對(duì)齊重要性,你才知道Ilya(伊爾亞·蘇茨克維,OpenAI聯(lián)合創(chuàng)始人)原來(lái)想得那么遠(yuǎn)。Ilya把很多事情想得那么遠(yuǎn)。

  李想:因?yàn)槟P湍芰υ綇?qiáng),也就意味著它胡來(lái)的可能性越高;就跟一個(gè)人能力越強(qiáng),我需要他的職業(yè)性越強(qiáng)。

  公司規(guī)模越大,越需要職業(yè)性。公司小時(shí)候不需要職業(yè)性,因?yàn)橐粋€(gè)人能力強(qiáng)的時(shí)候,他干好事也很強(qiáng),干壞事能力也很強(qiáng),所以這時(shí)候就需要職業(yè)性來(lái)約束。

  舉個(gè)例子,我不可能雇用一個(gè)職業(yè)賽車手每天給我開(kāi)車,但我要雇一個(gè)職業(yè)司機(jī),他除了開(kāi)車能力不錯(cuò)以外,他有非常強(qiáng)的職業(yè)性,保證舒適、安全、價(jià)值觀能夠?qū)R,所以這是很重要的工作,我們就能做得非常好。

  第三還有最大一個(gè)挑戰(zhàn),就是模型是一個(gè)黑盒子。怎么解決?我們做了世界模型。我們把VLA放在世界模型里,一個(gè)交通世界模型。它是一個(gè)如果不跟你說(shuō)的話,你看的跟一個(gè)真實(shí)世界是一樣的。

  我們當(dāng)時(shí)做的世界模型,或者說(shuō)是叫交通世界模型,就是我們用重建加生成的一個(gè)方式,借助我們的數(shù)據(jù),來(lái)構(gòu)建了真的、交通的一個(gè)物理世界,包含參與者、參與物、所有固定物體,是非常重要的。

  我們就可以讓,無(wú)論是最開(kāi)始的端到端還是今天的VLA,在模型里邊考試,它會(huì)模擬真實(shí)交通的參與,包括真實(shí)的這些城市,來(lái)進(jìn)行考試。而且考試跟我剛才講的強(qiáng)化訓(xùn)練非常類似。它考什么呢?a點(diǎn)到b點(diǎn),考它的舒適性、交通的合規(guī)性和安全性。

  這是我們要一直在做的這方面的工作。這時(shí)候就能非常好還原了,而且基于這樣一個(gè)我們的模型或者真實(shí)物理世界的仿真能力。我們還把整個(gè)驗(yàn)證成本大幅下降,過(guò)去我們靠人類司機(jī)來(lái)做一萬(wàn)公里驗(yàn)證,每一萬(wàn)公里成本大概在17萬(wàn)到18萬(wàn)人民幣,算上車的各種費(fèi)用,今天我們大概只需要花 4000 多塊錢人民幣,就每一萬(wàn)公里。那這4000多塊錢基本上都是算力為主的成本,而且解決問(wèn)題的效率還提升的多得多。

  為什么呢?比如說(shuō)今天,我們要解決一個(gè)問(wèn)題,這個(gè)問(wèn)題產(chǎn)生的時(shí)候,是我們自身的車輛跟多個(gè)交通參與物在不同位置上,還有不同道路上,出現(xiàn)一個(gè)問(wèn)題。但是如果你靠人類去驗(yàn)證我有沒(méi)有解決這個(gè)問(wèn)題?要把這幾個(gè)交通參與物,相同的位置、相同的速度,湊在一起,幾乎沒(méi)有可能。只能模糊的驗(yàn)證。

  但今天,我們有了世界模型,我們可以非常準(zhǔn)確地驗(yàn)證。我們修正以后的模型有沒(méi)有解決這方面的問(wèn)題,可以100%還原一模一樣的、真實(shí)的場(chǎng)景,在世界模型里,進(jìn)行驗(yàn)證。

  張小珺:我們?cè)谡f(shuō)司機(jī)Agent(智能體)的時(shí)候,它涉及到action(行動(dòng))進(jìn)入了外部世界,進(jìn)入了物理世界。怎么解決安全問(wèn)題?這個(gè)非常重要。

  李想:我們從去年年底成立了超級(jí)對(duì)齊團(tuán)隊(duì),比如說(shuō)模型能力很強(qiáng),但不遵守交通規(guī)則,去在交通擁堵中去加塞。

  它做出來(lái)一些讓人類坐在車上感覺(jué)到不安全行為,至于是否讓它碰撞,是模型能力的問(wèn)題,是否產(chǎn)生這些問(wèn)題,是這個(gè)價(jià)值觀,是這個(gè)模型要去做的對(duì)齊的這方面的。

  所以這也是剛才我講的,就是說(shuō)我們要在做強(qiáng)化,訓(xùn)練的第一個(gè)環(huán)節(jié),是我們必須把人類的這些規(guī)則、習(xí)俗、駕駛習(xí)慣,對(duì)于很多東西的判斷,變成它整個(gè)的要訓(xùn)練的反饋。這個(gè)我們必須要做的。我們有一個(gè)挺大規(guī)模的、100 多人的超級(jí)對(duì)齊團(tuán)隊(duì)。

  因?yàn)槟隳芰υ綇?qiáng)、責(zé)任越大,這是責(zé)任,或者你還可以用另外一種方式,我們把超級(jí)對(duì)齊如果拿一個(gè)人舉例子,模型相當(dāng)于是這個(gè)人的專業(yè)能力,然后超級(jí)對(duì)齊,是這個(gè)人的職業(yè)性。

  司機(jī)Agent(智能體),包括司機(jī)背后的記憶能力是如何和使用者建立信任的。

  我是否認(rèn)可一個(gè)員工,同樣是看他三個(gè):第一個(gè),是看他的專業(yè)能力,第二是看他的職業(yè)性,第三是看他對(duì)別人理解和構(gòu)建信任的能力——這三個(gè)都很好,是最卓越的員工。

  李想:是我們做到了1000萬(wàn)Clips(視頻片段)以后開(kāi)始來(lái)做的,因?yàn)槲野l(fā)現(xiàn)這時(shí)候怎么去有效的運(yùn)用模型的能力就很關(guān)鍵了。

  舉個(gè)例子,它經(jīng)常一擁堵就去加塞,這個(gè)包括它做的很多行為,雖然效率很高,但是人坐在車上是很不舒服的,因?yàn)楦祟惖囊恍┨幚矸绞交蛘吒H祟愄幚矸绞讲灰粯?,它可能學(xué)到了一些不該學(xué)的司機(jī)的行為。

  李想:是的。我一個(gè)很重要的感覺(jué)是,我們只有讓它變成一個(gè)真正的司機(jī),它才是一個(gè)生產(chǎn)力工具,不只是一個(gè)輔助工具。

  今天L2、L2+是輔助工具,輔助工具還需要人大量的參與。但如果想變成一個(gè)生產(chǎn)工具,我個(gè)人認(rèn)為并不會(huì)出現(xiàn)通用Agent(智能體),而是每個(gè)專業(yè)領(lǐng)域做專業(yè)的Agent(智能體)。

  就我剛才講的一樣,要想開(kāi)好車,它所有的vision(視覺(jué))語(yǔ)料、language(語(yǔ)言)語(yǔ)料和action(行動(dòng))都是不一樣的。你想做好一個(gè)醫(yī)生,你想做好一個(gè)律師,背后的思維鏈,所有的數(shù)據(jù)都是完全不同的。

  另一方面,如果你想變成一個(gè)生產(chǎn)工具,這時(shí)候就會(huì)和專業(yè)的人進(jìn)行比較,比如說(shuō)你是否比一個(gè)專業(yè)司機(jī)開(kāi)得更好?你是否比一個(gè)專業(yè)醫(yī)生表現(xiàn)得更好?你是否比一個(gè)專業(yè)律師表現(xiàn)得更好?你是否比一個(gè)專業(yè)程序員表現(xiàn)得更好?因?yàn)槟銜?huì)影響到它的整個(gè)生產(chǎn)、業(yè)績(jī)、工作結(jié)果,甚至它的財(cái)產(chǎn)和生命安全。

  這是我們看到的終點(diǎn),這也是為什么我們必須很耐心、很深入地去解決,哪怕一個(gè)司機(jī)的問(wèn)題。

  它并不可能通過(guò)一個(gè)泛化的大基座模型,或者一個(gè)大語(yǔ)言模型,這些東西都能實(shí)現(xiàn)了,這不現(xiàn)實(shí)。

  李想:還是把司機(jī)大模型和Agent(智能體)放在一起,這才是一個(gè)真正用戶能夠使用的一個(gè)產(chǎn)品。

  如果是一個(gè)司機(jī)大模型,跟人的判斷是一樣,就我判斷一個(gè)司機(jī),就我們家雇用了一個(gè)司機(jī),第一是他開(kāi)車水平好不好?是他模型能力強(qiáng)不強(qiáng)?第二個(gè)還是說(shuō)他是否職業(yè)?他是否職業(yè),很重要的一點(diǎn)就是我們的超級(jí)對(duì)齊這方面的工作,包括強(qiáng)化訓(xùn)練,是否做得足夠的好?第三個(gè),是否安全?第三個(gè)是他跟我之間的信任的關(guān)系,我是跟他說(shuō)什么他都聽(tīng)不明白?還是我說(shuō)上半句他就知道下半句,甚至我很多東西不說(shuō),他已經(jīng)對(duì)我的記憶里邊都可以獨(dú)自去完成了。

  我們?nèi)绾瓮ㄟ^(guò)Agent(智能體)和記憶來(lái)構(gòu)建一個(gè)更好的信任的關(guān)系和理解的關(guān)系?如果我什么都不說(shuō),他都知道我要干什么了,這個(gè)司機(jī)要同時(shí)又滿足了他開(kāi)車不錯(cuò),又很職業(yè),他又對(duì)我特別理解,我就會(huì)一直雇傭他。

  最后我們對(duì)司機(jī)的Agent(智能體),對(duì)整個(gè)的這一個(gè)司機(jī)大模型,司機(jī)Agent(智能體)的判斷也是一樣的。以后所有AI的或者Agent(智能體)的判斷都應(yīng)該是這樣的,它的專業(yè)能力,它的職業(yè)能力,以及它給你構(gòu)建信任的能力。

  李想:我們雇用人類費(fèi)用的幾分之一,至于幾分之一最后還是看把成本都算出來(lái)以后,比如說(shuō)我一個(gè)月,我雇一個(gè)司機(jī),1萬(wàn)塊錢,我是否愿意?2千到3千雇傭一個(gè)司機(jī)。

  這可能是一個(gè)比較重要的判斷,當(dāng)然它也會(huì)帶來(lái)其他商業(yè)模式的不同。比如你花2千到3千塊錢雇傭一個(gè)司機(jī),那可能你對(duì)車而言,也不需要付保險(xiǎn)費(fèi)了,保險(xiǎn)費(fèi)也包在這里邊,保險(xiǎn)費(fèi)用就財(cái)產(chǎn)的保險(xiǎn),這個(gè)財(cái)產(chǎn)險(xiǎn)的費(fèi)用也包含在里邊了。到最后算下來(lái),可能是個(gè)更劃算的一個(gè)事情。

  張小珺:有可能一步直達(dá) VLA 嗎?比如去年不推出端到端加VLM(視覺(jué)語(yǔ)言模型)那個(gè)版本,直接研發(fā)VLA。

  我說(shuō)不太好聽(tīng)的話,沒(méi)有辦法直接吃第十個(gè)包子。雖然可能大家覺(jué)得第十個(gè)包子吃飽了,但前面每個(gè)包子都跳不過(guò)去。往往很多時(shí)候,如果大家不想做前面任何包子的積累,只想吃第十個(gè)包子,很多時(shí)候非常像練葵花寶典。

  今天包括DeepSeek的出現(xiàn)并不是練葵花寶典練出來(lái)的,過(guò)去它很早就構(gòu)建這種集群的能力去做這些鏈路、基建的優(yōu)化,都是非常之重要的。所以才有了它的低成本和效率。我們特別喜歡講這種,有一個(gè)人很聰明直接吃到了第 10 個(gè)包子,但現(xiàn)實(shí)中,至少今天這個(gè)社會(huì)整個(gè)的知識(shí)文明發(fā)展得越來(lái)越好了,不是膽大大于一切,我看不到什么捷徑。

  張小珺:但是大家就覺(jué)得李想才是摘第10個(gè)包子的人,因?yàn)槟銈冏鲚o助駕駛的時(shí)間比別人晚。

  李想:但我們自研的時(shí)間并不短啊。我們從2021年,上地平線芯片的時(shí)候就開(kāi)始做自研。我們研究做得也很扎實(shí)。中國(guó)的所有企業(yè)里邊,關(guān)于輔助駕駛的論文我們應(yīng)該是發(fā)表,以及被大的會(huì)議、大的社區(qū)錄取和引用的應(yīng)該也是最多的。這個(gè)階段我們還是做的挺扎實(shí)。

  因?yàn)槲覀兪莻€(gè)用戶導(dǎo)向的公司,我們認(rèn)為技術(shù)是一種能力,我們更多的時(shí)候講的是用戶的價(jià)值。今天大家講我們是冰箱、彩電、大沙發(fā),但我們的這個(gè)冰箱、彩電、大沙發(fā)的智能化背后的基礎(chǔ),今天大家看仍然是非常強(qiáng)的,體驗(yàn)起來(lái)是完全不一樣的。

  比如舉一個(gè)例子,為什么今天大家做端到端和VLM(視覺(jué)語(yǔ)言模型)很難?是因?yàn)檫@個(gè)Orin芯片并不支持直接跑語(yǔ)言模型。我們是自己的編譯團(tuán)隊(duì),所以我們特別理解DeepSeek,一看就看明白了,比如它做FP8(8位浮點(diǎn)數(shù)格式)的優(yōu)化,能夠跑它的整個(gè)訓(xùn)練的一個(gè)架構(gòu)。

  我們做相同的事情,我們直接然后是寫了Orin-X底層,因?yàn)橛ミ_(dá)沒(méi)時(shí)間,我們自己寫的底層(推理引擎),讓它用INT4量化的方式來(lái)跑VLM(視覺(jué)語(yǔ)言模型)。

  那這跟DeepSeek做FP8(8位浮點(diǎn)數(shù)格式) 的訓(xùn)練一個(gè)道理。包括今天,我們?yōu)槭裁茨茏龅诫pOrin-X跟Thor-U都能跑VLA,可能對(duì)很多團(tuán)隊(duì)是個(gè)非常大的挑戰(zhàn),為什么呢?

  因?yàn)槲覀冏约河蟹浅?qiáng)的能力,我們有編譯團(tuán)隊(duì),我們有芯片的能力,我們有板子設(shè)計(jì)能力,有操作系統(tǒng)能力,所以我們是能夠把兩個(gè)Orin-X帶寬足夠的大,它同樣可以跑同等規(guī)模的VLA的模型。

  我們這方面的技術(shù)都是非常之扎實(shí)的。因?yàn)槲易约哼€是認(rèn)為,就是你規(guī)模小的時(shí)候無(wú)所謂,你規(guī)模大的時(shí)候基本功和能力永遠(yuǎn)是無(wú)法逾越的。

  張小珺:什么樣的corner case(長(zhǎng)尾案例)是端到端加VLM(視覺(jué)語(yǔ)言模型)架構(gòu)無(wú)法解決,而VLA是可以解決的?能不能給大家舉個(gè)例子。

  第一個(gè)問(wèn)題是它對(duì)復(fù)雜東西的理解,比如這有一個(gè)復(fù)雜的修路,如果是規(guī)則算法可能就會(huì)撞上了,如果是端到端可能停下來(lái),但它不知道該怎么干了。如果是VLA就能輕松解決了,而且這些我不需要有真實(shí)的場(chǎng)景,甚至我可以直接生成,然后來(lái)數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。

  因?yàn)樗軌蛴欣斫饽芰α?,它并不是只是看到一個(gè)景象,就做出一個(gè)結(jié)果。規(guī)則算法往往可能就會(huì)出現(xiàn),遇到一個(gè)復(fù)雜路況,復(fù)雜的、沒(méi)見(jiàn)過(guò)的,或者規(guī)則之外的它就會(huì)出現(xiàn)事故。如果是端到端的,它可能停下來(lái),但它不知道該怎么辦了,我們經(jīng)常遇到修路狀況,它在那不知道猶猶豫豫,不知道該怎么辦,對(duì)吧?但PG電子是如果VLA,它就能夠有效地去處理了,而且不需要通過(guò)海量的數(shù)據(jù)訓(xùn)練。哪怕最開(kāi)始這個(gè)場(chǎng)景沒(méi)有辦法處理,但我保證三天之內(nèi)相關(guān)的這種場(chǎng)景都能處理,因?yàn)槲铱梢阅眠@東西來(lái)生成數(shù)據(jù),生成讓數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練。這是一方面。

  另外一方面還有很難的一點(diǎn)是跟人溝通。今天端到端怎么做?就跟猴子一樣,你影響不了它。比如說(shuō)我們會(huì)經(jīng)常遇到一個(gè)什么樣的狀況,就是在一條路上三條道,最右側(cè)的車道是公交車道,然后又是限行,但是公交車道長(zhǎng)久沒(méi)有維護(hù)了,那個(gè)印刷已經(jīng)不清楚了,所以它就會(huì)在那跑,雖然你可以通過(guò)一個(gè)調(diào)整說(shuō),回到中間車道,但它過(guò)一陣又跑到那條車道上去了。

  如果是人類有了Agent(智能體)以后,因?yàn)橛辛薞LA才有Agent(智能體)能跟VLA溝通。所以我可以跟一個(gè)Agent(智能體)講說(shuō),接下來(lái)這條道路一直在中間行駛,直到它在導(dǎo)航的時(shí)候走了下一個(gè)。包含如果跟導(dǎo)航錯(cuò)失了以后,端到端就不知該怎么辦了,但是VLA在小區(qū)里可以漫游。

  在一個(gè)開(kāi)放空間里,它可以先處理完以后,最后再跟導(dǎo)航調(diào)整以后的進(jìn)行匯合,它跟人類完全一樣的了。只是今天可能它作為一個(gè)人類,能力還沒(méi)那么強(qiáng),作為一個(gè)人類能力還有一個(gè)成長(zhǎng)的過(guò)程,比如它今天像一個(gè)剛從駕校學(xué)完的新手司機(jī),有可能是這么一個(gè)狀況。

  張小珺:VLA是終極的架構(gòu)嗎?還會(huì)有下一代嗎?會(huì)不會(huì)明年這個(gè)時(shí)候又是新的架構(gòu)了呢?

  李想:我自己認(rèn)為VLA能夠解決到全自動(dòng)駕駛,但是VLA是否是一個(gè)效率最高的方式?是否有效率更高的架構(gòu)出現(xiàn)?我打個(gè)問(wèn)號(hào)。

  我認(rèn)為大概率還是會(huì)有的啊。因?yàn)閂LA還是基于TPG電子ransformer這樣子的,那Transformer是不是一個(gè)效率最高的一個(gè)架構(gòu),這個(gè)后邊不知道。

  我們雖然有模型,但我們從來(lái)不放棄工具,因?yàn)楣ぞ呤窃黾哟_定性和提高效率的。

  我還是舉一個(gè)挺清晰的一個(gè)例子,因?yàn)閳F(tuán)隊(duì)很多時(shí)候太想用模型解決一切問(wèn)題,對(duì)吧?這時(shí)候就會(huì)出現(xiàn)類似一個(gè)現(xiàn)象,比如我舉一個(gè)例子,今天當(dāng)然VLA會(huì)解決很好了,我們?cè)谑褂?VLM在解決ETC車道時(shí)候并不好。

  因?yàn)閂LM(視覺(jué)語(yǔ)言模型)對(duì)于位置的判斷是很糟糕的,它如果是兩到三個(gè)ETC車道,我怎么進(jìn)入非常容易判斷,就是這個(gè)左中右。但如果像京承高速這樣的機(jī)場(chǎng)高速那樣的十幾個(gè)ETC車道,它很多時(shí)候就不知道怎么處理了,就開(kāi)始非?;靵y,因?yàn)樗鼪](méi)有位置的判斷的能力,我們團(tuán)隊(duì)太希望用模型去解決問(wèn)題,就是說(shuō)不停地去給VLM(視覺(jué)語(yǔ)言模型)喂更多的語(yǔ)料,更多的東西,都沒(méi)有解決這個(gè)問(wèn)題,因?yàn)檫@是VLM(視覺(jué)語(yǔ)言模型)的那個(gè)架構(gòu)問(wèn)題。

  我跟團(tuán)隊(duì)說(shuō),解決ETC為什么不能用規(guī)則算法?因?yàn)樽疃嗟囊灿?5個(gè)口。 15個(gè)口對(duì)于你們而言,寫一個(gè)程序基本上一周之內(nèi)就能完成,甚至三天就能完成。但我說(shuō)很多時(shí)候我們心里有個(gè)心結(jié),因?yàn)槿祟惡芏噙\(yùn)行的時(shí)候是大模型運(yùn)行,但我說(shuō)我們作為正常的人,我們也會(huì)背乘法口則,乘法口則就是個(gè)規(guī)則算法,但是乘法口則的結(jié)果是我們消耗的腦力更少,我們消耗的token(詞元)更少,以及我們的準(zhǔn)確性更高。所以它就是個(gè)好東西,它就是個(gè)工具。

  如果是一個(gè)確定性的,能夠拿規(guī)則去解決的,它意味著更低的能量消耗、更低的算力消耗和更高的準(zhǔn)確性,為什么不用?團(tuán)隊(duì)很快就把問(wèn)題解決了,我們?cè)贓TC就非常穩(wěn)了。一周都不到就解決了,過(guò)去解決了三四個(gè)月都解決不了的,成本很高的方式解決不了的。

  所以真正往下去落的時(shí)候,很多時(shí)候還是要考慮效率,今天DeepSeek之所以受到全世界的矚目,很重要的一個(gè)原因還是因?yàn)樗男首兊酶吡恕?/p>

  李想:我們認(rèn)為,我們自己一個(gè)判斷,從實(shí)測(cè)過(guò)來(lái),他們大概在用12.5之前的模型。距離特斯拉真實(shí)能力還有巨大的差距。

  特斯拉13.0以后的能力還是非常強(qiáng)的。而且12.5之前的話應(yīng)該是這個(gè)半規(guī)則算法的能力。所以我說(shuō)不是特斯拉真實(shí)能力的體現(xiàn),但是我們能看到特斯拉基本功是非常扎實(shí)的。它的整個(gè)的感知的距離,它整個(gè)運(yùn)行的幀率,它整個(gè)的車輛的整個(gè)的控制的穩(wěn)定性。

  李想:因?yàn)槿绻苯由隙说蕉说脑挘兄袊?guó)的這些路況什么的,剛才我就像我講的,它在美國(guó)沒(méi)有學(xué)習(xí)到這些東西,再遇到這些復(fù)雜的,是還是會(huì)遇到挑戰(zhàn)的。

  李想:美國(guó)的很多的頂級(jí)公司,像蘋果,像特斯拉這種企業(yè),就是他們基本功特別扎實(shí)。

  我們真正要去學(xué)的,尤其是在今天這種內(nèi)卷的環(huán)境下,包括外部的不確定的環(huán)境下,是每個(gè)企業(yè)扎扎實(shí)實(shí)練基本功的最好的時(shí)候。

  而且到了人工智能時(shí)代,基本功就更是不可跳躍的。如果很多企業(yè)做了很多的創(chuàng)新,但是沒(méi)有基本功,不扎實(shí),所以很多創(chuàng)新就會(huì)曇花一現(xiàn)就過(guò)去了,所以這會(huì)是很大的問(wèn)題。

  因?yàn)榫退m然擁有很多錢,能發(fā)明了很多東西,就創(chuàng)造、創(chuàng)新了一些很多的功能的組合。但是你會(huì)發(fā)現(xiàn)能力強(qiáng)的公司復(fù)制的東西基本上在人工智能時(shí)代都是按周計(jì)算的就能復(fù)制過(guò)來(lái),所以那個(gè)能力的基本功還是非常重要的。

  我們?cè)谛〉臅r(shí)候沒(méi)有看明白,沒(méi)有看懂蘋果,那這個(gè)階段的時(shí)候我們可能又去認(rèn)真研究蘋果,發(fā)現(xiàn)蘋果還有很多能力值得我們?nèi)W(xué)習(xí)的。

  到今天為止,你去看一個(gè)蘋果作為一個(gè)全世界市值第一的公司,當(dāng)你做到千億收入,你再去看這種萬(wàn)億收入公司的能力的時(shí)候,你開(kāi)始模模糊糊能看懂一些了。

  但是我們小的時(shí)候,我們很小規(guī)模的時(shí)候,我們看不懂蘋果為什么這么做。最后是規(guī)模,因?yàn)橐?guī)模是一個(gè)可以確定衡量的變化,也會(huì)帶來(lái)用戶規(guī)模和用戶需求的變化,技術(shù)和產(chǎn)品的變化,也會(huì)帶來(lái)組織和能力的變化。

  張小珺:7月份是理想的十周年,站在今天回顧理想這十年走過(guò)的路,你腦海里浮現(xiàn)的最深刻的場(chǎng)景畫面是什么?

  李想:我的第一個(gè)最重要的畫面,是2018年理想ONE第一次發(fā)布,一直延續(xù)到2019年的4月份,上海車展第一次正式的展示,帶有價(jià)格的。那是一個(gè)非常重要的時(shí)刻,我們真的能做出來(lái)一輛車。

  另一個(gè)是2022年發(fā)布理想L9的時(shí)候。到了今天2025年,能看到至少有5個(gè)以上的企業(yè)是因?yàn)楫?dāng)時(shí)理想L9的成功,在打造跟理想L9相同的產(chǎn)品。

  張小珺:你腦海里浮現(xiàn)的都是幸福的時(shí)候,而不是痛苦的時(shí)候。你會(huì)回憶到痛苦的時(shí)候嗎?

  李想:太多了。剛經(jīng)歷了L9的幸福就出現(xiàn)了,那一個(gè)季度我們虧了十幾億,將近二十億,原來(lái)從沒(méi)虧過(guò)那么多——忽然從巔峰掉到谷底。

  好處還是我說(shuō)的,我們認(rèn)識(shí)到很多能力不足,我們就去補(bǔ)了很多能力。但正是因?yàn)檫@件事情,我們的調(diào)整又帶來(lái)了2023年獲得接近三倍的增長(zhǎng),我們直接做到了1200億的收入。

  反正我創(chuàng)業(yè)那么多年了,當(dāng)問(wèn)題來(lái)的很多時(shí)候,又是一個(gè)更大的機(jī)會(huì)的到來(lái)。所以我對(duì)這方面也沒(méi)那么糾結(jié)。

  我對(duì)于不正常的事情耐受力很差,但我對(duì)于一些不好的東西解決完以后,整個(gè)記憶能力也很差,會(huì)把它忘掉,但你讓我回顧還是能回顧過(guò)來(lái)的。

  李想:為了讓自己有更好的正能量,我還是盡可能的只保留那些有價(jià)值、美好的片段。

  哪怕是一個(gè)不好的東西,比如剛才講的我們被黑、被打擊,我會(huì)轉(zhuǎn)變成“看,正是因?yàn)檫@件事情我們?cè)鲩L(zhǎng)了三倍,我們獲取了其他新勢(shì)力沒(méi)有的能力,我們面臨其他新勢(shì)力沒(méi)有的挑戰(zhàn)?!边@樣的方式來(lái)表達(dá),這是一種心態(tài)。

  創(chuàng)業(yè)確實(shí)不容易,但是沒(méi)必要苦哈哈的。苦和甜。是一個(gè)硬幣的正反面,取決于你選擇看哪一面。

  張小珺:余凱博士(地平線創(chuàng)始人兼CEO)回憶跟你第一次見(jiàn)面是在杭州一起去爬山,你那天穿了一個(gè)軍大衣。我很好奇余凱博士見(jiàn)到的那個(gè)軍大衣里包裹的是一個(gè)怎樣的靈魂?它跟今天發(fā)生了什么樣的變化?

  李想:沒(méi)什么變化。我甚至認(rèn)為我今天90%的狀態(tài)、思維方式跟上高中差不多。

  遇到問(wèn)題解決問(wèn)題、解決別人不愿意解決的問(wèn)題、解決消費(fèi)者遇到的最大問(wèn)題、去找更多人學(xué)習(xí)。那時(shí)候我是個(gè)人網(wǎng)站站長(zhǎng),但我又有合伙人,是少數(shù)有小團(tuán)隊(duì)的站長(zhǎng)??孔约耗芰Σ恍械臅r(shí)候還要靠別人,繼續(xù)完善能力。到今天為止我沒(méi)變化,只是解決的問(wèn)題在變大、服務(wù)的用戶群體在變大、公司的規(guī)模在變大、組織在變大。

  張小珺:過(guò)去十年中所有的記憶里如果能改變一個(gè)記憶,改變一個(gè)程序,你想改變什么?

  李想:沒(méi)什么要改變的。能趕上這么一個(gè)時(shí)代,幾次創(chuàng)業(yè)還能一路走下來(lái),在最難的時(shí)候都有人來(lái)幫你,當(dāng)遇到問(wèn)題的時(shí)候,總是能從坑里快速爬出來(lái),一幫人齊心竭力變得更好,挺幸運(yùn)的了。

  無(wú)論是從運(yùn)氣層面,還是從能夠創(chuàng)造出來(lái)的價(jià)值層面,沒(méi)什么可后悔的。挺好的。

  張小珺:怎么讓自己成為一個(gè)更有能量的人,更強(qiáng)大的人,或者是能吸引到更多能量的人?

  第一,我會(huì)接受自己所有的優(yōu)點(diǎn)。我很多身上的特質(zhì),這么多年的積累,從DNA里帶來(lái)的,它就是我的優(yōu)勢(shì),我應(yīng)該怎么去發(fā)揚(yáng)自己的優(yōu)勢(shì)。

  第二個(gè)是要能接受自己的不足。往往不足就是優(yōu)勢(shì)的另外一面。比如這個(gè)人很擅長(zhǎng)決策,他可能就沒(méi)有辦法去做很細(xì)致的運(yùn)營(yíng),因?yàn)檫@兩件事是沖突的。有的人非常擅長(zhǎng)運(yùn)營(yíng),他可能就很難跳出來(lái),或者跳好幾個(gè)維度來(lái)去做決策。

  一個(gè)人很懶,但可能是個(gè)極品的產(chǎn)品經(jīng)理,但如果他很勤奮,應(yīng)該是個(gè)非常好的業(yè)務(wù)運(yùn)營(yíng)。每個(gè)人是不一樣的,往往我們?nèi)绻牡脑挘瑫?huì)變成一個(gè)更差的別人,以及一個(gè)更糟糕的自己。所以我說(shuō)要接受自己的不足。第三個(gè)是用成長(zhǎng)替代改變。更重要的是我有沒(méi)有成長(zhǎng),我們?cè)谧銎囍业臅r(shí)候,我說(shuō)做好業(yè)務(wù)就行了,資本根本不重要,最后我們折在了資本上。

  在做理想汽車的時(shí)候就非常注重資本,請(qǐng)最好的FA(財(cái)務(wù)顧問(wèn)),請(qǐng)最好的律所,股權(quán)架構(gòu)的設(shè)計(jì)、投票權(quán),今天大家可以看到所有的新勢(shì)力企業(yè)里面,理想汽車的股權(quán)架構(gòu)、治理結(jié)構(gòu)、資本現(xiàn)金管理都是做得最好的。我并沒(méi)有改變我的業(yè)務(wù),是增強(qiáng)了一個(gè)能力,所以它是個(gè)成長(zhǎng)。

  我們會(huì)面臨方方面面的能力成長(zhǎng),就能給自己帶來(lái)能量。你的成長(zhǎng)有自己的能量,然后你又不跟自己糾結(jié),當(dāng)有這個(gè)能力的時(shí)候,我們?cè)倏创齽e人也是一樣,我會(huì)先看別人的優(yōu)點(diǎn),這非常重要——這優(yōu)點(diǎn)能帶來(lái)什么?這優(yōu)點(diǎn)怎么讓他發(fā)揮?

  第二個(gè),當(dāng)看到別人不足的時(shí)候,根本不是問(wèn)題。我從創(chuàng)業(yè)開(kāi)始就有合伙人。樊錚就是我的互補(bǔ),是我所不具備的,秦致是我所不具備的,李鐵、馬東輝、謝炎、鄒良軍就是我所不具備的。當(dāng)看到大家這些不足的時(shí)候,反而是我的價(jià)值,我有價(jià)值能幫助到他,他有價(jià)值能幫助到我。

  第三個(gè),去看別人的成長(zhǎng),你能看到孩子的成長(zhǎng),你能看到愛(ài)人的成長(zhǎng),你能看到身邊每個(gè)同事的成長(zhǎng),這就有能量了。

  李想:對(duì),因?yàn)樽兒镁陀心芰柯?。而且你關(guān)注的是人的成長(zhǎng),不是那些事兒。所以,第一你能自己產(chǎn)生能量,第二你能夠帶給別人能量,第三你能從別人那獲取能量,因?yàn)閯e人給你能量,別人也不會(huì)丟掉能量,它是個(gè)輻射作用。所以這是我一些隨著自己的成長(zhǎng),開(kāi)始有效的一些理解。

  另外一方面很重要的是親密關(guān)系,親密關(guān)系里邊特別重要的一點(diǎn),是要關(guān)注人,我需要我的愛(ài)人,我需要我的孩子,我需要李鐵、馬東輝,我需要?jiǎng)⒔堋⒔庑l(wèi)國(guó)、范皓宇,甚至超過(guò)了他們需要我。首先是我需要他們,才是他們需要我。

  這時(shí)候這些人之間的連接就不一樣了,我們?cè)谝黄鹁湍苄纬梢粋€(gè)非常強(qiáng)的腦力、非常強(qiáng)的心力,形成特別好的能量,這個(gè)是特別重要的,而不是說(shuō)我對(duì)他們沒(méi)有需求。

  李想:在我的家里非常有意思的一點(diǎn),過(guò)去我和我老婆之間的相互支撐還是有限的,從去年年底春節(jié)過(guò)后一個(gè)最大的變化是我們家大女兒她形成了我們的第三個(gè)支撐。

  她14歲了,她對(duì)事情的理解在發(fā)生巨大的變化。她自己的三觀開(kāi)始有效、特別完善地形成,而且超出了我們的預(yù)期。而且她有能力跟我們做特別好的溝通了,關(guān)于她自己的人生規(guī)劃,她自己的喜好,她自己對(duì)人和事物的理解,這個(gè)特別有意思,我們家里實(shí)現(xiàn)了一個(gè)三人的支撐,這是個(gè)讓家里的能量大幅地提升。

  因?yàn)檫@些能量會(huì)影響到其他的孩子,雖然他們還沒(méi)有辦法做成支撐。我每次跟我老婆聊,在聊到大女兒的時(shí)候都是非常的高興,就沒(méi)想到她14歲就能和我們兩個(gè)人形成一個(gè)三人的支撐了。

  我們能跟她一起去討論很多問(wèn)題了。我們可以討論事情,可以討論人,可以討論不同的見(jiàn)解,也可以討論她的規(guī)劃,可以討論怎么出去玩,可以討論家里要解決一些什么問(wèn)題,都可以的,這個(gè)特別好。

  張小珺:我之前跟一個(gè)教授聊天,他說(shuō)他幾年前跟你聊過(guò),感覺(jué)你的心靈觀就是家庭觀,這個(gè)也反映到你的公司上,要?jiǎng)?chuàng)造“幸福的家”。他想問(wèn)的是,你有沒(méi)有更大的宇宙觀、世界觀?

  李想:我們從人出生開(kāi)始,上學(xué)到大學(xué)畢業(yè)到開(kāi)始工作,我們有多少自己想去做的事情沒(méi)有去做?我們有多少想接觸的萬(wàn)物沒(méi)有去接觸?我每天都在忙著去工作,去在做事兒。但什么是智慧呢?智慧就是我們跟萬(wàn)物的接觸。

  如果你沒(méi)有去過(guò)森林,沒(méi)有在森林里,認(rèn)真的玩、住過(guò)幾天,那你可能覺(jué)得木頭就是做筷子的,就是做紙的,就是做桌子的,而并不是意味著它是一個(gè)生命,它是跟我們不同的生命。

  你不能沒(méi)有跟孩子在一起、長(zhǎng)時(shí)間的生活體驗(yàn)跟他們一起去玩,你可能就不知道什么是親密的關(guān)系,你就沒(méi)法真正的去理解孩子,去了解孩子。

  什么是智慧?智慧就是我們和萬(wàn)物的關(guān)系。但是怎么去提升我跟萬(wàn)物的關(guān)系?首先要有足夠的時(shí)間跟萬(wàn)物去接觸。所以我在講的一個(gè)很重要的一個(gè)問(wèn)題,就是今天我們很卷,但是這是恰恰是真正的人工智能的意義。

  一個(gè)人的優(yōu)點(diǎn)的另外一面,就是它的缺點(diǎn)。一個(gè)好的另外一面就是它的不好。我們?nèi)绻幌胍玫臇|西,但放棄所有不好的東西,這件事情并不成立。你可以把好的東西和不好的東西都當(dāng)成一種特質(zhì)。

  它是文化的特質(zhì),它是生命的特質(zhì),它是性格的特質(zhì),它是能力的特質(zhì)——這樣才是一個(gè)有生命力的世界,才是活生生的人。

搜索