最近,特斯拉向在美用戶推送了版本號(hào)為V12.1.2 Beta的端到端FSD,版本推送后,海外的特斯拉車主和視頻博主上傳了一些測試視頻,測評(píng)視頻本身沒有太多好說的,真正值得關(guān)注的是「端到端」。
自馬斯克首秀基于端到端的FSD以來,自動(dòng)駕駛行業(yè)的從業(yè)者以及消費(fèi)者群體中,有很多人對(duì)端到端的自動(dòng)駕駛解決方案表現(xiàn)出了極大的討論熱情。小鵬、小米汽車等已經(jīng)開卷「端到端」技術(shù)。
那么,到底應(yīng)該怎么理解特斯拉FSD的端到端呢?
理解FSD的端到端
我們可以通過結(jié)構(gòu)、形式、原理、開發(fā)范式幾個(gè)不同的剖面,理解特斯拉FSD的端到端大模型。
結(jié)構(gòu)上,主流的自動(dòng)駕駛系統(tǒng)會(huì)采取分模塊方案,將AD系統(tǒng)按照感知、規(guī)劃和控制進(jìn)行劃分,先對(duì)周圍的動(dòng)靜態(tài)交通參與者和路網(wǎng)結(jié)構(gòu)進(jìn)行準(zhǔn)確感知,再規(guī)劃自車的行車軌跡,最后通過執(zhí)行機(jī)構(gòu)對(duì)車輛進(jìn)行閉環(huán)控制。
在分模塊方案中,模塊與模塊之間仿照人類的認(rèn)知步驟,設(shè)計(jì)了清晰的接口和界面。
而特斯拉FSD的端到端大模型,則消除了自動(dòng)駕駛系統(tǒng)的感知和定位、決策和規(guī)劃、控制和執(zhí)行之間的斷面,將三大模塊合在一起,形成了一個(gè)大的神經(jīng)網(wǎng)絡(luò)。
(圖片來自網(wǎng)絡(luò))
形式上,分模塊方案的軟件采取人工編碼和神經(jīng)網(wǎng)絡(luò)相結(jié)合的形式,且人工編碼存在較高的占比,尤其是規(guī)控環(huán)節(jié),大部分車企還依賴規(guī)則驅(qū)動(dòng)、傳統(tǒng)算法和手工編碼。
相比之下,特斯拉FSD的端到端方案采用全棧神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),直接輸入傳感器數(shù)據(jù),輸出轉(zhuǎn)向、制動(dòng)和加速信號(hào),全程沒有任何編碼。
當(dāng)然,技術(shù)的深海里隱藏著很多秘密,F(xiàn)SD端到端的全棧神經(jīng)網(wǎng)絡(luò)也許只是一種營銷上的說法,并不一定整個(gè)自動(dòng)駕駛軟件里不存在任何代碼。
畢竟,馬斯克在自動(dòng)駕駛方面向來嘴都比較大,去年第一次展示端到端FSD時(shí)就宣稱消除了所有代碼(30多萬行),但他旁邊的助手(聽口音是那位印度裔的自動(dòng)駕駛部門負(fù)責(zé)人Ashok Elluswamy)提醒道,F(xiàn)SD里頭還埋著3000多行C++代碼呢!
(圖片來自網(wǎng)絡(luò))
從原理層面看,端到端大模型是對(duì)海量駕駛視頻片段的壓縮。
最近,前特斯拉自動(dòng)駕駛部門負(fù)責(zé)人Andrej Karpathy做了一期LLM的科普視頻,AK表示,本質(zhì)上,基于大語言模型LLM的生成式GPT是將互聯(lián)網(wǎng)級(jí)別TB或PB級(jí)的數(shù)據(jù)壓縮到了GB級(jí)別的參數(shù)文件里。
類比一下,也可以認(rèn)為特斯拉端到端的FSD是將上千萬個(gè)視頻片段里包含的人類駕駛知識(shí)壓縮到了端到端神經(jīng)網(wǎng)絡(luò)的參數(shù)里;蛟S,我們可以從人類自身得到更加貼近的類比。
想想我們的一生,吹過那么多的風(fēng),淋過那么多的雨,品嘗過一次次的歡笑、淚水、幸福、痛苦,經(jīng)歷過一個(gè)又一個(gè)難眠的夜晚,人生的經(jīng)驗(yàn)不也在一次次的經(jīng)歷中被升華、提煉,并最終刻入了腦袋的神經(jīng)元和突觸里了嗎?
在開發(fā)范式上,全棧神經(jīng)網(wǎng)絡(luò)化的FSD是軟件2.0時(shí)代的產(chǎn)物,完全基于數(shù)據(jù)驅(qū)動(dòng)。
即,在神經(jīng)網(wǎng)絡(luò)層數(shù)、結(jié)構(gòu)、權(quán)重、參數(shù)、激活函數(shù)、損失函數(shù)固定下來后,訓(xùn)練數(shù)據(jù)(質(zhì)量和規(guī)模)便成了決定端到端神經(jīng)網(wǎng)絡(luò)性能表現(xiàn)的唯一因素。
分模塊方案介于軟件1.0和2.0之間,除卻采用神經(jīng)網(wǎng)絡(luò)的那部分,采用人工編碼的另一部分依然依賴于設(shè)計(jì)規(guī)則的優(yōu)劣和傳統(tǒng)算法的性能。
到這里,想必大家對(duì)端到端已經(jīng)有了一定的概念。接下來,同樣結(jié)合結(jié)構(gòu)、形式、原理,開發(fā)范式,談一談它的優(yōu)缺點(diǎn)。
端到端的優(yōu)缺點(diǎn)
特斯拉推翻了用在分模塊方案下的開發(fā)、仿真、測試、迭代手段,重構(gòu)了工具鏈,收集并整理了大量訓(xùn)練視頻片段,付出了巨大的沉沒成本,新增投入了巨大的資源。那么,以逐利為天性的資本家的卓越代表馬斯克,到底看上了端到端的什么優(yōu)點(diǎn)?
(圖片來自廣汽研究院)
我們可以借用廣汽研究院這張PPT,它很好地總結(jié)了端到端大模型相較于分模塊方案的優(yōu)缺點(diǎn)。優(yōu)點(diǎn)有三:
具備更高的技術(shù)上界;
數(shù)據(jù)驅(qū)動(dòng)解決復(fù)雜長尾問題;
消除嚴(yán)重的模塊累計(jì)誤差;
缺點(diǎn)有二:
缺乏可解釋性;
需要海量的高質(zhì)量數(shù)據(jù)。
「具備更高的技術(shù)上界」是因?yàn)榭梢赃M(jìn)行整體優(yōu)化。端到端的一體化結(jié)構(gòu)方便進(jìn)行聯(lián)合優(yōu)化、尋求整體最優(yōu)解。
端到端大模型能夠服務(wù)于整體目標(biāo)、實(shí)現(xiàn)全局最優(yōu),和它的全棧神經(jīng)網(wǎng)絡(luò)形式息息相關(guān)。一個(gè)大一統(tǒng)的感知、預(yù)測、規(guī)劃和控制網(wǎng)絡(luò),可以使用鏈?zhǔn)椒▌t無障礙地從輸出層(橫縱向控制)向輸入層(傳感器)逐層反向傳播誤差,以最小化整體損失函數(shù)為目標(biāo),更加準(zhǔn)確地更新每個(gè)網(wǎng)絡(luò)層中的參數(shù)。
這顯然是分模塊自動(dòng)駕駛方案無法實(shí)現(xiàn)的,在分模塊方案里,模塊與模塊之間存在「梯度斷開」現(xiàn)象。
看看下面這張圖就知道了,想一層層地反向傳播,必須保證中間鏈條不能斷,只要神經(jīng)網(wǎng)絡(luò)中間有一層出現(xiàn)了中斷,反向傳播就只能望河興嘆了。
(圖片來自網(wǎng)絡(luò))
「消除嚴(yán)重的模塊累計(jì)誤差」同樣來自于全棧神經(jīng)網(wǎng)絡(luò)的貢獻(xiàn)。
大家可以把具備多層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)的前向傳播理解為進(jìn)行多次函數(shù)計(jì)算,上一層和下一層之間能否傳遞全量信息是運(yùn)算是否準(zhǔn)確的關(guān)鍵。
對(duì)于分模塊方案來說,模塊和模塊之間無法傳遞全量信息,導(dǎo)致了「累計(jì)誤差」,相較之下,全棧神經(jīng)網(wǎng)絡(luò)上下層之間可以傳遞全量信息,從而消除了模塊累計(jì)誤差。
「數(shù)據(jù)驅(qū)動(dòng)解決復(fù)雜長尾問題」這個(gè)表述可能會(huì)讓很多人蒙圈,畢竟,建立數(shù)據(jù)閉環(huán),以數(shù)據(jù)驅(qū)動(dòng)覆蓋更多的corner case,是過去一兩年里國內(nèi)車企的宣傳重點(diǎn)。其實(shí)沒有矛盾,本土車企著力宣傳的BEV、Transformer、占用網(wǎng)絡(luò)面向的是基于數(shù)據(jù)驅(qū)動(dòng)的感知,但在規(guī)控層面,大部分車企還是基于規(guī)則。
和感知一樣,規(guī)控同樣面臨長尾問題。
基于規(guī)則和數(shù)據(jù)驅(qū)動(dòng)都是解決復(fù)雜長尾問題的方式。算法、算力、數(shù)據(jù)是驅(qū)動(dòng)人工智能發(fā)展的三要素,在這個(gè)框架下,可以認(rèn)為Rule based是「算法驅(qū)動(dòng)」,端到端大模型是「數(shù)據(jù)驅(qū)動(dòng)」。
與其針對(duì)層出不窮的復(fù)雜長尾問題,手工編碼規(guī)控策略,不如設(shè)計(jì)規(guī)控神經(jīng)網(wǎng)絡(luò),通過長尾場景下的訓(xùn)練數(shù)據(jù)更新模型參數(shù),從理論上來說這是更加一勞永逸的做法。
端到端「缺乏可解釋性」確實(shí)是客觀存在的缺點(diǎn)。不過,不只是FSD端到端,互聯(lián)網(wǎng)巨頭正在搞的GPT和生成式AI的可解釋性也非常差,科學(xué)家到現(xiàn)在也沒有研究明白大模型突現(xiàn)的行為和涌現(xiàn)的能力到底來自哪兒。
GPT和端到端FSD遵循的都是大算力+海量數(shù)據(jù)的暴力美學(xué),能力來源和機(jī)制目前還難以精確地解答。
不過,雖然解釋性差,互聯(lián)網(wǎng)巨頭們還是頭也不回地加碼大模型賽道,消費(fèi)者們也把它們用出了花。很多事情要知其然知其所以然,端到端和生成式大模型的機(jī)制,也許科學(xué)家們會(huì)在未來給出解答。
「需要海量的高質(zhì)量數(shù)據(jù)」與其說是一個(gè)缺點(diǎn),倒不如說是門檻。
在自動(dòng)駕駛技術(shù)的世界,訓(xùn)練算力、數(shù)據(jù)、AI人才、資金都需要門檻,而在這些要素中,數(shù)據(jù)是最重要的。
Andrej Karpathy曾經(jīng)在一次訪談中表示過,特斯拉自動(dòng)駕駛部門將3/4的精力用在采集、清洗、分類、標(biāo)注高質(zhì)量的數(shù)據(jù)上面,只有1/4的工作用于算法探索和模型創(chuàng)建,這種精力分配,足以說明數(shù)據(jù)在特斯拉自動(dòng)駕駛技術(shù)棧中的地位。
尤其是端到端這種完全數(shù)據(jù)驅(qū)動(dòng)的大模型,數(shù)據(jù)的規(guī)模和質(zhì)量比參數(shù)量更能決定模型本身的表現(xiàn)。
端到端的訓(xùn)練投入
2023年7月的特斯拉Q2財(cái)報(bào)電話會(huì)議上,馬斯克曾經(jīng)介紹過端到端FSD的訓(xùn)練規(guī)模:
「特斯拉花了大約一個(gè)季度的時(shí)間完成了1000萬個(gè)視頻片段的訓(xùn)練。訓(xùn)練了100萬個(gè)視頻case,勉強(qiáng)可以工作;200萬個(gè),稍好一些;300萬個(gè),就會(huì)感到Wow;到了1000萬個(gè),它的表現(xiàn)就變得難以置信了!
訓(xùn)練視頻片段當(dāng)然不會(huì)止步于1000萬。
事實(shí)上,訓(xùn)練工作是一直源源不斷進(jìn)行的,特斯拉一方面繼續(xù)收集高質(zhì)量的視頻片段,一方面繼續(xù)加大訓(xùn)練算力的投入,以提高訓(xùn)練效率、縮短訓(xùn)練時(shí)間。
2023年的特斯拉投資者日上,馬斯克公開表示,到2025年底,特斯拉會(huì)將訓(xùn)練算力推高到100E。和國內(nèi)廠商1-2E(華為最近的公開數(shù)據(jù)為2.8E)的訓(xùn)練算力相比,100E是一個(gè)相當(dāng)驚人的數(shù)字。
最近這段時(shí)間,Dojo負(fù)責(zé)人離職,大概率會(huì)影響「道場」的部署,而且,那么多廠商在搶英偉達(dá)的A100/H100,特斯拉未必能如愿買到那么多芯片,所以,特斯拉的訓(xùn)練算力能推高到什么程度,也許比馬斯克的預(yù)言稍微保守一些(在自動(dòng)駕駛上,馬斯克的預(yù)言一向是夸張的)。
即便如此,相比國內(nèi)廠商,特斯拉的訓(xùn)練算力依然高出一個(gè)數(shù)量級(jí),這也是為何特斯拉可以訓(xùn)練端到端大模型,而國內(nèi)車企還停留在「預(yù)研」階段的緣故。
以上講了端到端和分模塊方案的區(qū)別、端到端的優(yōu)缺點(diǎn)和門檻,再說回視頻表現(xiàn),如果不知道FSD采用了端到端,想必本土頭部車企會(huì)把特斯拉打得找不著東了,或者像少年閏土那樣眼里閃著光,將特斯拉當(dāng)成叉子下的猹一樣扎去了。
但是一旦冠以了端到端的名義,很多人就像中年的閏土見到魯迅那樣恭恭敬敬地喊起老爺來了。其實(shí)大可不必,筆者看了幾個(gè)測試視頻,端到端FSD并沒有在體驗(yàn)上超出國內(nèi)頭部車企,結(jié)合與幾位行業(yè)內(nèi)人士的交流,大家一致認(rèn)為特斯拉目前并沒有從實(shí)踐上證明端到端真的100%確定是一個(gè)值得追隨的路線。
而且,正如前文提到的,端到端的可解釋性差,萬一也存在天花板呢,目前篤定端到端路線會(huì)超過分模塊方案還早了一點(diǎn)。
大模型也是這樣,周鴻祎最近不還說原以為是個(gè)原子彈,現(xiàn)在才發(fā)現(xiàn)是個(gè)茶葉蛋嘛!
最穩(wěn)妥的方式是一邊預(yù)研,一邊觀察看看FSD一年內(nèi)的表現(xiàn)和進(jìn)展,也可以在特斯拉即將舉行的AI Day上研究一下端到端大模型的技術(shù)細(xì)節(jié)。
不過,在2023年第四季度財(cái)報(bào)電話會(huì)議上,預(yù)測特斯拉將在今年第一季度舉辦AI Day的分析師問馬斯克,可不可以對(duì)AI Day抱有期待時(shí),老馬直接表示:「我們發(fā)現(xiàn),特斯拉舉辦AI Day以后,友商們會(huì)一幀幀地觀摩我們的PPT,所以我們必須小心謹(jǐn)慎地披露我們的秘籍!
現(xiàn)在就盼著馬斯克不要那么小氣吧!
本文來源:HiEV大蒜粒車研所 三少爺
精選推薦
熱門出行排行榜
原創(chuàng)IP推薦
換一換網(wǎng)友評(píng)論
聚超值•精選
最新內(nèi)容
特斯拉Cybertruck首次在中國出現(xiàn),掛著天津綠牌上路。這款車已在二手交易平臺(tái)上轉(zhuǎn)讓,價(jià)格高達(dá)360萬人民幣。作為國內(nèi)第一臺(tái)上牌的特斯拉皮卡,它引起了廣泛關(guān)注。然而,由于車頭設(shè)計(jì)不符合中國行人保護(hù)法規(guī)定,Cybertruck目前還不能合法上路行駛。盡管如此,在低速下的靈活性和線控轉(zhuǎn)向技術(shù)仍受到車主推崇。
特斯拉Cybertruck | 平行進(jìn)口華為、極氪、蔚來和小米等國產(chǎn)品牌紛紛推出與特斯拉Model Y競爭的純電SUV,它們都主打智能化,車身尺寸相似且售價(jià)在22-30萬元。然而,特斯拉仍保持領(lǐng)先地位,在中國市場1-8月累計(jì)交付新車28.94萬輛,銷量第一。
特斯拉 |Model Y特斯拉即將發(fā)布的Robotaxi無人駕駛出租車曝光,引發(fā)網(wǎng)友熱議。根據(jù)最新曝光的圖片和專利技術(shù),這款車可能具備自動(dòng)充電和自動(dòng)清潔等黑科技功能。此外,特斯拉還透露了可旋轉(zhuǎn)座椅的設(shè)計(jì)概念,為乘客提供更多舒適性。這款無人駕駛出租車預(yù)計(jì)在10月10日發(fā)布會(huì)上亮相,并有望改變智能化領(lǐng)域競爭格局。
特斯拉 | Robotaxi中國新能源汽車品牌理想MEGA在NVH靜謐性榜單中奪得第一名,超過邁巴赫S680等頂級(jí)豪車。NVH是衡量汽車制造質(zhì)量的綜合指標(biāo),影響用戶聽覺和觸覺感受。理想MEGA通過優(yōu)化輪胎、車身結(jié)構(gòu)和空調(diào)系統(tǒng)等方面,實(shí)現(xiàn)了出色的行駛品質(zhì)和舒適性。與傳統(tǒng)車企不同,理想將NVH作為重點(diǎn)研發(fā)項(xiàng)目,并堅(jiān)持提供安靜、舒適的用車體驗(yàn)。
NVH | 理想MEGA工信部發(fā)布新規(guī),制定了新能源電耗強(qiáng)制標(biāo)準(zhǔn),將對(duì)電車進(jìn)行“能耗評(píng)級(jí)”,60%車型過關(guān)、30%升級(jí)、10%淘汰。這一舉措旨在推動(dòng)可持續(xù)能源轉(zhuǎn)變,并提高市場競爭力。
新能源車型 | 電耗強(qiáng)制標(biāo)準(zhǔn)未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制或建立鏡像,如有違反,追究法律責(zé)任。
增值電信業(yè)務(wù)經(jīng)營許可證:粵B2-20040647
網(wǎng)站備案號(hào):粵B2-20040647號(hào)-11
舉報(bào)郵箱:shenhezhiban@pconline.com.cn