達瓦爾·史洛夫和他在特斯拉的辦公桌
向人類學習
達瓦爾·史洛夫對馬斯克說:“它就像chatgpt,不過是用在車上的。”他將自己在特斯拉做的項目與openai剛剛發布的人工智能聊天機器人進行比較。openai是馬斯克在2015年與山姆·阿爾特曼共同創辦的實驗室。近10年來,馬斯克一直在研究各種形式的人工智能,包括自動駕駛車輛、optimus和neuralink腦機接口。史洛夫的項目涉及最新的機器學習前沿領域:設計一種能從人類行為中學習的自動駕駛車輛係統。史洛夫說:“我們處理了大量有關真人在複雜駕駛環境中如何行動的數據,然後我們訓練計算機的神經網絡來模仿這種行為。”
馬斯克要求會見史洛夫,因為馬斯克正在考慮說服他離開特斯拉的自動駕駛團隊,去推特工作。他曾偶爾與詹姆斯、安德魯和羅斯並肩作戰,充當第四名“火槍手”。史洛夫希望說服馬斯克相信他正在研究的項目至關重要,他不想去推特工作。在被稱為“神經網絡路徑規劃”的特斯拉自動駕駛軟件中,他研究的是“向人類學習”的組成部分。
他們安排會麵的這一天發生了太多事情,如果這次會麵也是當天“劇本”中已經寫好的一部分,那未免顯得太刻意了。2022年12月2日,周五,也就是馬特·泰比發布第一批“推特文件”的那天。當天上午,史洛夫按照要求來到推特總部,但馬斯克剛從內華達州的cybertruck發布會上趕迴來,所以他向史洛夫道歉,他忘了自己還要飛往新奧爾良與馬克龍總統會麵,討論歐洲的內容審核規定。他讓史洛夫當天晚上再來。在等待馬克龍時,馬斯克給史洛夫發了信息,把他們的會麵時間又往後推了:“我要推遲四個小時,你介意再等等嗎?”也正是在那時,他突然給巴裏·韋斯和內莉·鮑爾斯發信息,讓她們當晚飛到舊金山來與他見麵,幫著處理“推特文件”。
馬斯克在當天深夜返迴舊金山後,終於有機會與史洛夫坐在一起。史洛夫解釋了他正在研究的神經網絡路徑規劃項目的細節。他說:“我認為繼續完成我手頭的工作非常重要。”聽了他的話,馬斯克再次對這個項目產生了很大的興趣,同意讓他留任。馬斯克意識到,未來特斯拉將不僅是一家電動車公司或清潔能源公司,憑借全自動駕駛係統、optimus和能夠完成機器學習的dojo超級計算機,特斯拉將成為一家人工智能公司:不僅要在聊天機器人的虛擬世界中運營,還要在圍繞著工廠和道路環境的現實世界中運營。他已經在考慮聘請一批人工智能專家與openai展開競爭,特斯拉的神經網絡路徑規劃團隊將對他們的工作起到補充作用。
多年來,特斯拉的自動駕駛係統一直依賴基於規則的算法。該係統從車輛攝像頭獲取視覺數據,識別車道標記、行人、車輛、交通信號及8個攝像頭範圍內的所有事物,再應用一係列規則,比如紅燈停、綠燈行、保持在車道線標記正中、不越過雙黃線闖入對麵車道、通過交叉路口時保證其他車輛的行駛速度不足以撞上我方車輛。特斯拉的工程師手動編寫並更新了數十萬行c++代碼,以便將這些規則應用於更複雜的情況。
史洛夫正在做的神經網絡路徑規劃項目將把這套係統提升到新的層麵。他說:“我們不再隻根據規則確定車輛的正確行駛路線,而是通過神經網絡來確定車輛的正確行駛路線。”換句話說,這是對人類的模仿。麵對某種情況,神經網絡會根據人類在數以千計的類似情況下所做的事情規劃路徑。這就像人類學習一切行為的方式一樣——說話、開車、下棋、吃意大利麵……我們可能會被賦予一套需要遵循的規則,但我們主要是通過觀察其他人的做法來掌握這些技能。這是艾倫·圖靈在1950年發表的論文《計算機器與智能》中設想的機器學習方法。
特斯拉擁有世界上用於訓練神經網絡的最大的超級計算機之一,它由人工智能計算公司nvidia的圖形處理器(gpu)驅動。馬斯克在2023年的目標是逐漸過渡到使用dojo,dojo是特斯拉從零開始打造的一款超級計算機,它使用視頻數據訓練人工智能係統,擁有特斯拉人工智能團隊內部設計的芯片和基礎架構,每秒近800億億次浮點運算的處理能力,使其成為世界上服務於這一目標的最強大的計算機。它將用於自動駕駛軟件和optimus。馬斯克說:“把它們放在一起工作非常有意思,它們都在努力為這個世界指引前進的方向。”
到2023年年初,神經網絡路徑規劃項目已經分析了從特斯拉客戶車輛上收集的1 000萬幀視頻畫麵。這是不是意味著它隻能達到人類駕駛員的平均水平呢?史洛夫解釋說:“不,因為我們隻在人類處理各類情況處理得還不錯的時候才使用他們的數據進行學習。”紐約布法羅的人類標記員會對視頻進行評估並給出分數。馬斯克讓他們找出“uber五星司機會采取的做法”,而這些視頻就是用來訓練計算機的。
馬斯克經常在特斯拉位於帕洛阿爾托的大樓裏走來走去,自動駕駛工程師坐在開放的工作區裏,他會半跪在他們身旁,即興討論一些問題。有一天,史洛夫向他展示了他們取得的進展。馬斯克對此印象深刻,但他有一個疑問:是不是真的需要這種全新的方法呢?會不會有點兒矯枉過正呢?馬斯克的一句座右銘就是:永遠不要用導彈打蒼蠅,你應該用蒼蠅拍。為了處理一些不太可能發生的、邊邊角角的極端情況,用神經網絡來規劃路徑會不會是一種過於複雜的方式呢?
史洛夫向馬斯克展示了神經網絡路徑規劃比基於規則的方法更有效的實例。演示中的道路上到處都是垃圾桶、倒下的交通錐筒和散落的雜物。在神經網絡路徑規劃的引導下,車輛能夠繞過障礙物,越過車道線,並在必要時打破一些規則。史洛夫告訴馬斯克:“當我們從基於規則的算法轉向基於神經網絡的路徑算法時,這種情況就會發生,即使在混亂的環境中,如果你打開了這項功能,車輛也不會發生碰撞。”這種跨越到未來的感覺讓馬斯克興奮不已。他說:“我們應該做一次像007係列電影場麵的酷炫演示,四麵八方都有炸彈爆炸,不明飛行物從天而降,而這輛車飛速駛過,不會撞到任何東西。”
機器學習係統在進行自我訓練時通常需要一個目標或指標作為指導。馬斯克在管理時喜歡通過下命令的方式來決定哪些指標最重要,於是他給了他們一個標準:特斯拉全自動駕駛車輛在沒有人類幹預的情況下能夠行駛的裏程數。“我希望每次開會的第一張幻燈片都能展示每次幹預前自動行駛裏程的最新數據。”馬斯克說,“如果訓練人工智能,我們應該優化什麽?答案是提高兩次幹預之間的行駛裏程數。”他告訴他們,要像打遊戲一樣,每天都能看到自己的得分。“沒有分數的電子遊戲是無聊的,所以每天看著單次幹預前的裏程數增加就會很有幹勁兒。”
團隊成員在工作區安裝了85英寸的巨大顯示屏,實時顯示完全自動駕駛車輛在沒有幹預措施的情況下平均行駛了多少英裏。每當他們看到某一類幹預措施再次出現,比如駕駛員在變道、並線或轉彎進入複雜路口時抓住了方向盤,他們就會同時與規則團隊和神經網絡路徑規劃團隊通力合作,對這一問題進行修複。他們在辦公桌附近放了一麵鑼,每當他們成功解決了一個導致幹預出現的問題,他們就敲一次鑼。
人工智能試駕
2023年4月中旬,是時候讓馬斯克測試一下這項新的神經網絡路徑規劃技術。史洛夫和自動駕駛團隊安排了一輛試驗車,它能讓一個用神經網絡訓練的軟件模仿人類駕駛員的操作,軟件中隻有最基礎的傳統規則代碼。馬斯克就坐在這輛車裏,開始在帕洛阿爾托兜風。
馬斯克坐在駕駛座上,旁邊坐的是特斯拉自動駕駛軟件總監阿肖克·埃盧斯瓦米。史洛夫和團隊的另外兩名成員馬特·鮑赫和克裏斯·佩恩坐在後排,這三個人在特斯拉的辦公桌相鄰,已經共事了8年,他們在舊金山的住處也相距不遠。一般同事的辦公桌上會擺一張同家人的合影,而這三個人的桌上都放著同一張他們仨在萬聖節派對上的合影。詹姆斯·馬斯克曾是這個小團隊的第四名成員,埃隆·馬斯克接管推特後,把他調了過去,而史洛夫逃過了這一劫。他們駛離特斯拉的帕洛阿爾托辦公大樓的停車場前,馬斯克在地圖上選了一個目的地,點擊“完全自動駕駛”按鈕,隨後雙手離開方向盤。試驗車拐上主幹道時,第一個可怕的挑戰出現了:一名騎車人朝他們迎麵而來。“我們都屏住了唿吸,因為騎車人的行為很難預測。”史洛夫說。但馬斯克毫不在意,也沒去抓方向盤,車就自己避讓了過去。史洛夫說:“感覺就跟人類駕駛員做出的判斷一樣。”
史洛夫和他的兩名隊友詳細解釋了他們的完全自動駕駛軟件是怎麽用特斯拉用戶的車載攝像頭收集的數百萬個視頻片段進行訓練的,結果是這樣做出來的軟件堆棧比人類編程規定好數千條規則的傳統堆棧要簡單得多。史洛夫說:“它的運行速度快了10倍,可以直接刪掉30萬行代碼。”鮑赫說這就像人工智能機器人在玩一款非常無聊的視頻遊戲,馬斯克笑了起來。後來當這輛試驗車能在車流中自如穿梭時,他就掏出手機發起了推文。
有長達25分鍾,這輛車一直在快速路和街道上行駛,完成了一些複雜的轉彎,避開了各種騎車人、行人和寵物。馬斯克一直沒有碰方向盤,隻有幾次他認為車輛操作過於謹慎時,才會輕點加速踏板進行幹預,比如在看到四向停車標識時。這輛車的其中一次操作,馬斯克覺得比他自己做的還要好,他說:“哇,連我這腦袋裏的神經網絡都搞不定這種情況,但它竟然做得很不錯。”他非常高興,吹起了莫紮特《g大調第13號弦樂小夜曲》的口哨。
“幹得太棒了,夥計們!”馬斯克最後總結,“讓我大開眼界。”隨後他們一起去參加了自動駕駛團隊的周例會,20個人圍坐在會議桌旁,幾乎都穿著黑色t恤,他們準備接受馬斯克的“審判”。很多人不相信這個神經網絡路徑規劃項目能成功,但馬斯克宣布他現在徹底相信了,他們應該調集大量資源來推進這個項目。
在討論過程中,馬斯克抓住了團隊發現的一個關鍵事實:神經網絡至少得經過100萬個視頻片段的訓練才能達到良好的工作狀態,如果訓練量達到150萬個視頻片段,它就相當理想了。與其他車企和人工智能公司相比,這給特斯拉帶來了巨大的優勢。特斯拉在全球的保有量接近200萬輛,每天能收集幾十億幀視頻畫麵。埃盧斯瓦米在會上說:“我們在這方麵有著得天獨厚的優勢。”
不管是自動駕駛汽車、optimus,還是類似chatgpt的機器人,收集並分析大量實時數據信息流的能力對各種形式的人工智能都至關重要。馬斯克現在有兩個強大的實時數據采集器:一個是自動駕駛車輛拍攝的視頻,另一個是全球推特用戶每周發布的數十億條推文。馬斯克在自動駕駛會議上說他剛剛又買了1萬個gpu數據處理芯片供推特使用,他還宣布要更頻繁地召開會議,大家要討論特斯拉正在設計的、可能變得更加強大的dojo芯片。另外,他難過地承認在聖誕節期間衝動地把薩克拉門托數據中心“大卸八塊”是他犯下的一個錯誤。
列席旁聽會議的是一位人工智能領域的超級明星工程師,馬斯克在那一周剛剛招募了他,他要為馬斯克即將啟動的一個新的秘密項目效力。
向人類學習
達瓦爾·史洛夫對馬斯克說:“它就像chatgpt,不過是用在車上的。”他將自己在特斯拉做的項目與openai剛剛發布的人工智能聊天機器人進行比較。openai是馬斯克在2015年與山姆·阿爾特曼共同創辦的實驗室。近10年來,馬斯克一直在研究各種形式的人工智能,包括自動駕駛車輛、optimus和neuralink腦機接口。史洛夫的項目涉及最新的機器學習前沿領域:設計一種能從人類行為中學習的自動駕駛車輛係統。史洛夫說:“我們處理了大量有關真人在複雜駕駛環境中如何行動的數據,然後我們訓練計算機的神經網絡來模仿這種行為。”
馬斯克要求會見史洛夫,因為馬斯克正在考慮說服他離開特斯拉的自動駕駛團隊,去推特工作。他曾偶爾與詹姆斯、安德魯和羅斯並肩作戰,充當第四名“火槍手”。史洛夫希望說服馬斯克相信他正在研究的項目至關重要,他不想去推特工作。在被稱為“神經網絡路徑規劃”的特斯拉自動駕駛軟件中,他研究的是“向人類學習”的組成部分。
他們安排會麵的這一天發生了太多事情,如果這次會麵也是當天“劇本”中已經寫好的一部分,那未免顯得太刻意了。2022年12月2日,周五,也就是馬特·泰比發布第一批“推特文件”的那天。當天上午,史洛夫按照要求來到推特總部,但馬斯克剛從內華達州的cybertruck發布會上趕迴來,所以他向史洛夫道歉,他忘了自己還要飛往新奧爾良與馬克龍總統會麵,討論歐洲的內容審核規定。他讓史洛夫當天晚上再來。在等待馬克龍時,馬斯克給史洛夫發了信息,把他們的會麵時間又往後推了:“我要推遲四個小時,你介意再等等嗎?”也正是在那時,他突然給巴裏·韋斯和內莉·鮑爾斯發信息,讓她們當晚飛到舊金山來與他見麵,幫著處理“推特文件”。
馬斯克在當天深夜返迴舊金山後,終於有機會與史洛夫坐在一起。史洛夫解釋了他正在研究的神經網絡路徑規劃項目的細節。他說:“我認為繼續完成我手頭的工作非常重要。”聽了他的話,馬斯克再次對這個項目產生了很大的興趣,同意讓他留任。馬斯克意識到,未來特斯拉將不僅是一家電動車公司或清潔能源公司,憑借全自動駕駛係統、optimus和能夠完成機器學習的dojo超級計算機,特斯拉將成為一家人工智能公司:不僅要在聊天機器人的虛擬世界中運營,還要在圍繞著工廠和道路環境的現實世界中運營。他已經在考慮聘請一批人工智能專家與openai展開競爭,特斯拉的神經網絡路徑規劃團隊將對他們的工作起到補充作用。
多年來,特斯拉的自動駕駛係統一直依賴基於規則的算法。該係統從車輛攝像頭獲取視覺數據,識別車道標記、行人、車輛、交通信號及8個攝像頭範圍內的所有事物,再應用一係列規則,比如紅燈停、綠燈行、保持在車道線標記正中、不越過雙黃線闖入對麵車道、通過交叉路口時保證其他車輛的行駛速度不足以撞上我方車輛。特斯拉的工程師手動編寫並更新了數十萬行c++代碼,以便將這些規則應用於更複雜的情況。
史洛夫正在做的神經網絡路徑規劃項目將把這套係統提升到新的層麵。他說:“我們不再隻根據規則確定車輛的正確行駛路線,而是通過神經網絡來確定車輛的正確行駛路線。”換句話說,這是對人類的模仿。麵對某種情況,神經網絡會根據人類在數以千計的類似情況下所做的事情規劃路徑。這就像人類學習一切行為的方式一樣——說話、開車、下棋、吃意大利麵……我們可能會被賦予一套需要遵循的規則,但我們主要是通過觀察其他人的做法來掌握這些技能。這是艾倫·圖靈在1950年發表的論文《計算機器與智能》中設想的機器學習方法。
特斯拉擁有世界上用於訓練神經網絡的最大的超級計算機之一,它由人工智能計算公司nvidia的圖形處理器(gpu)驅動。馬斯克在2023年的目標是逐漸過渡到使用dojo,dojo是特斯拉從零開始打造的一款超級計算機,它使用視頻數據訓練人工智能係統,擁有特斯拉人工智能團隊內部設計的芯片和基礎架構,每秒近800億億次浮點運算的處理能力,使其成為世界上服務於這一目標的最強大的計算機。它將用於自動駕駛軟件和optimus。馬斯克說:“把它們放在一起工作非常有意思,它們都在努力為這個世界指引前進的方向。”
到2023年年初,神經網絡路徑規劃項目已經分析了從特斯拉客戶車輛上收集的1 000萬幀視頻畫麵。這是不是意味著它隻能達到人類駕駛員的平均水平呢?史洛夫解釋說:“不,因為我們隻在人類處理各類情況處理得還不錯的時候才使用他們的數據進行學習。”紐約布法羅的人類標記員會對視頻進行評估並給出分數。馬斯克讓他們找出“uber五星司機會采取的做法”,而這些視頻就是用來訓練計算機的。
馬斯克經常在特斯拉位於帕洛阿爾托的大樓裏走來走去,自動駕駛工程師坐在開放的工作區裏,他會半跪在他們身旁,即興討論一些問題。有一天,史洛夫向他展示了他們取得的進展。馬斯克對此印象深刻,但他有一個疑問:是不是真的需要這種全新的方法呢?會不會有點兒矯枉過正呢?馬斯克的一句座右銘就是:永遠不要用導彈打蒼蠅,你應該用蒼蠅拍。為了處理一些不太可能發生的、邊邊角角的極端情況,用神經網絡來規劃路徑會不會是一種過於複雜的方式呢?
史洛夫向馬斯克展示了神經網絡路徑規劃比基於規則的方法更有效的實例。演示中的道路上到處都是垃圾桶、倒下的交通錐筒和散落的雜物。在神經網絡路徑規劃的引導下,車輛能夠繞過障礙物,越過車道線,並在必要時打破一些規則。史洛夫告訴馬斯克:“當我們從基於規則的算法轉向基於神經網絡的路徑算法時,這種情況就會發生,即使在混亂的環境中,如果你打開了這項功能,車輛也不會發生碰撞。”這種跨越到未來的感覺讓馬斯克興奮不已。他說:“我們應該做一次像007係列電影場麵的酷炫演示,四麵八方都有炸彈爆炸,不明飛行物從天而降,而這輛車飛速駛過,不會撞到任何東西。”
機器學習係統在進行自我訓練時通常需要一個目標或指標作為指導。馬斯克在管理時喜歡通過下命令的方式來決定哪些指標最重要,於是他給了他們一個標準:特斯拉全自動駕駛車輛在沒有人類幹預的情況下能夠行駛的裏程數。“我希望每次開會的第一張幻燈片都能展示每次幹預前自動行駛裏程的最新數據。”馬斯克說,“如果訓練人工智能,我們應該優化什麽?答案是提高兩次幹預之間的行駛裏程數。”他告訴他們,要像打遊戲一樣,每天都能看到自己的得分。“沒有分數的電子遊戲是無聊的,所以每天看著單次幹預前的裏程數增加就會很有幹勁兒。”
團隊成員在工作區安裝了85英寸的巨大顯示屏,實時顯示完全自動駕駛車輛在沒有幹預措施的情況下平均行駛了多少英裏。每當他們看到某一類幹預措施再次出現,比如駕駛員在變道、並線或轉彎進入複雜路口時抓住了方向盤,他們就會同時與規則團隊和神經網絡路徑規劃團隊通力合作,對這一問題進行修複。他們在辦公桌附近放了一麵鑼,每當他們成功解決了一個導致幹預出現的問題,他們就敲一次鑼。
人工智能試駕
2023年4月中旬,是時候讓馬斯克測試一下這項新的神經網絡路徑規劃技術。史洛夫和自動駕駛團隊安排了一輛試驗車,它能讓一個用神經網絡訓練的軟件模仿人類駕駛員的操作,軟件中隻有最基礎的傳統規則代碼。馬斯克就坐在這輛車裏,開始在帕洛阿爾托兜風。
馬斯克坐在駕駛座上,旁邊坐的是特斯拉自動駕駛軟件總監阿肖克·埃盧斯瓦米。史洛夫和團隊的另外兩名成員馬特·鮑赫和克裏斯·佩恩坐在後排,這三個人在特斯拉的辦公桌相鄰,已經共事了8年,他們在舊金山的住處也相距不遠。一般同事的辦公桌上會擺一張同家人的合影,而這三個人的桌上都放著同一張他們仨在萬聖節派對上的合影。詹姆斯·馬斯克曾是這個小團隊的第四名成員,埃隆·馬斯克接管推特後,把他調了過去,而史洛夫逃過了這一劫。他們駛離特斯拉的帕洛阿爾托辦公大樓的停車場前,馬斯克在地圖上選了一個目的地,點擊“完全自動駕駛”按鈕,隨後雙手離開方向盤。試驗車拐上主幹道時,第一個可怕的挑戰出現了:一名騎車人朝他們迎麵而來。“我們都屏住了唿吸,因為騎車人的行為很難預測。”史洛夫說。但馬斯克毫不在意,也沒去抓方向盤,車就自己避讓了過去。史洛夫說:“感覺就跟人類駕駛員做出的判斷一樣。”
史洛夫和他的兩名隊友詳細解釋了他們的完全自動駕駛軟件是怎麽用特斯拉用戶的車載攝像頭收集的數百萬個視頻片段進行訓練的,結果是這樣做出來的軟件堆棧比人類編程規定好數千條規則的傳統堆棧要簡單得多。史洛夫說:“它的運行速度快了10倍,可以直接刪掉30萬行代碼。”鮑赫說這就像人工智能機器人在玩一款非常無聊的視頻遊戲,馬斯克笑了起來。後來當這輛試驗車能在車流中自如穿梭時,他就掏出手機發起了推文。
有長達25分鍾,這輛車一直在快速路和街道上行駛,完成了一些複雜的轉彎,避開了各種騎車人、行人和寵物。馬斯克一直沒有碰方向盤,隻有幾次他認為車輛操作過於謹慎時,才會輕點加速踏板進行幹預,比如在看到四向停車標識時。這輛車的其中一次操作,馬斯克覺得比他自己做的還要好,他說:“哇,連我這腦袋裏的神經網絡都搞不定這種情況,但它竟然做得很不錯。”他非常高興,吹起了莫紮特《g大調第13號弦樂小夜曲》的口哨。
“幹得太棒了,夥計們!”馬斯克最後總結,“讓我大開眼界。”隨後他們一起去參加了自動駕駛團隊的周例會,20個人圍坐在會議桌旁,幾乎都穿著黑色t恤,他們準備接受馬斯克的“審判”。很多人不相信這個神經網絡路徑規劃項目能成功,但馬斯克宣布他現在徹底相信了,他們應該調集大量資源來推進這個項目。
在討論過程中,馬斯克抓住了團隊發現的一個關鍵事實:神經網絡至少得經過100萬個視頻片段的訓練才能達到良好的工作狀態,如果訓練量達到150萬個視頻片段,它就相當理想了。與其他車企和人工智能公司相比,這給特斯拉帶來了巨大的優勢。特斯拉在全球的保有量接近200萬輛,每天能收集幾十億幀視頻畫麵。埃盧斯瓦米在會上說:“我們在這方麵有著得天獨厚的優勢。”
不管是自動駕駛汽車、optimus,還是類似chatgpt的機器人,收集並分析大量實時數據信息流的能力對各種形式的人工智能都至關重要。馬斯克現在有兩個強大的實時數據采集器:一個是自動駕駛車輛拍攝的視頻,另一個是全球推特用戶每周發布的數十億條推文。馬斯克在自動駕駛會議上說他剛剛又買了1萬個gpu數據處理芯片供推特使用,他還宣布要更頻繁地召開會議,大家要討論特斯拉正在設計的、可能變得更加強大的dojo芯片。另外,他難過地承認在聖誕節期間衝動地把薩克拉門托數據中心“大卸八塊”是他犯下的一個錯誤。
列席旁聽會議的是一位人工智能領域的超級明星工程師,馬斯克在那一周剛剛招募了他,他要為馬斯克即將啟動的一個新的秘密項目效力。