開欄語
當(dāng)人工智能的浪潮席卷全球,北京正以科技創(chuàng)新之姿,成為AI大模型領(lǐng)域的戰(zhàn)略高地。從智源研究院的“悟道”大模型問世,到“天使投資人”模式孵化頂尖學(xué)者,再到月之暗面、DeepSeek、智譜等人工智能獨角獸崛起,這座城市不僅匯聚了前沿技術(shù),更以開放生態(tài)孕育突破性成果。
如今,北京正積極打造“全球開源之都”,一大批研發(fā)機構(gòu)、企業(yè)積極擁抱開源,而開源也已深入到汽車、機器人等眾多行業(yè)。發(fā)展AI將是一場科技長征,新京報AI研究院將深度訪談此次AI浪潮的親歷者與見證人,講述AI競爭新格局與背后的故事。
劉知遠向記者講解AI技術(shù)發(fā)展歷程。 新京報貝殼財經(jīng)記者 羅亦丹 攝
邁入2025年,中國AI(人工智能)站上足以與美國分庭抗禮的戰(zhàn)略制高點。這一年,劉知遠已經(jīng)在AI追趕的路上走了近20年。
作為清華大學(xué)副教授、面壁智能聯(lián)合創(chuàng)始人兼首席科學(xué)家,五年前,他訓(xùn)練了中文預(yù)訓(xùn)練模型的第一個版本,而由他參與、智源研究院發(fā)布的“悟道2.0”也成為中國第一個萬億大模型。
彼時,一個爭論的焦點就是大模型研發(fā)應(yīng)該“從大煉模型,到煉大模型”。2023年,ChatGPT破圈宣布了“煉大模型”路線的正確。
如今,面對DeepSeek走紅,劉知遠表示,“2024年時,還有很多投資人問我‘你覺得中國AI跟美國比是越來越近,還是越來越遠’,我的回答始終是越來越近”。DeepSeek的出現(xiàn)是一個非常強有力的信號,讓人看到世界舞臺上,中國的人工智能技術(shù)已經(jīng)具有一席之地。
劉知遠親歷了符號主義黃昏下的困惑、見證了深度學(xué)習(xí)浪潮掀翻傳統(tǒng)范式,更是中國AI大模型創(chuàng)業(yè)浪潮中的深度參與者之一。2023年至今,國內(nèi)多個AI“小龍”“小虎”涌現(xiàn),大模型百花齊放。在劉知遠看來,DeepSeek成功的前提是具備了匹配資金和技術(shù)的“天才土壤”,這也是其帶給業(yè)內(nèi)的最大啟示。
在接受新京報AI研究院專訪時,劉知遠篤定,AI創(chuàng)業(yè)者的終極目標(biāo)是奔向AGI(通用人工智能),但過程絕非坦途,并提醒市場需要更多耐心:一個投資人投了“六小虎”但沒有投DeepSeek,不見得就是投錯了,難道中國不允許出現(xiàn)10個以上的DeepSeek?為什么不能等一等這些潛在的DeepSeek成長?
啟蒙·越來越近的追趕
新京報AI研究院:你從什么時候開始研究AI?AI大語言模型技術(shù)何時給你“第一次震撼”?
劉知遠:我2006年讀研究生時開始從事自然語言處理研究,那時自然語言處理還處在統(tǒng)計學(xué)習(xí)的時代,深度學(xué)習(xí)的時代尚未到來。
2011年至2012年,我的老師孫茂松教授申請了科技部的973計劃項目,這項基礎(chǔ)研究課題項目的資金額達到數(shù)千萬元,是國內(nèi)最早在自然語言處理方向上獲得大規(guī)模支持的專項之一,如果說哪一個時間點對中國AI大模型的發(fā)展具有深遠影響,這件事就是其中之一。
孫老師認為,既然要做5年的項目,就要找比較前沿性、前瞻性的方向。為了確定這筆資金的具體使用方法,他組織了北大、哈工大、中科大自動化所、百度在內(nèi)的幾個單位以及全國自然語言處理領(lǐng)域半數(shù)頂尖學(xué)者進行討論,最終定下了一個方向:深度學(xué)習(xí)。
這一項目申請成功之后,2013年,國外發(fā)布了word2vec方法。簡單來講,word2vec首先發(fā)現(xiàn)了詞可以用向量表示,這是深度學(xué)習(xí)在自然語言處理領(lǐng)域應(yīng)用上里程碑式的成功,也是深度學(xué)習(xí)對我的“第一次震撼”。于是我們立即開始跟進。當(dāng)時,我們與國外領(lǐng)先水平大概有三四年的差距。
實際上,國內(nèi)學(xué)界開始大規(guī)模認可深度學(xué)習(xí),達成共識是2015年,比2013已經(jīng)晚了兩三年,但大體上,我們一直處于不斷追趕,身位越來越近的追趕過程。
新京報AI研究院:公眾知曉大語言模型主要是在ChatGPT出現(xiàn)之后,對于學(xué)界來說,有哪些“ChatGPT時刻”?為了追趕新技術(shù),你們做了什么?
劉知遠:ChatGPT的出現(xiàn)確實沒有給我們帶來多大“震撼”,因為我們始終在關(guān)注這一領(lǐng)域。
在此之前,還有兩個技術(shù)突破的關(guān)鍵節(jié)點。
2018年,谷歌發(fā)布了BERT模型,它完成了模型從專用到通用的躍遷。此前,我們需要針對每一個任務(wù)去設(shè)計模型、準(zhǔn)備數(shù)據(jù),模型也只能做這一個任務(wù)。BERT出現(xiàn)后,模型可以學(xué)習(xí)文本上的所有知識,之后進行微調(diào)即可完成更多任務(wù)。
國內(nèi)很多團隊也發(fā)現(xiàn)了這件事的重要性。2018年起,我們決定將重點轉(zhuǎn)向預(yù)訓(xùn)練模型的研究,鼓勵團隊成員摒棄狹隘的專有任務(wù)導(dǎo)向,專注于基礎(chǔ)模型的開發(fā)。2018年底,團隊推出了首個知識增強的預(yù)訓(xùn)練模型,命名為“ERNIE”,并于2019年初將研究成果提交至ACL(國際計算語言學(xué)學(xué)會)。有趣的是,幾乎同時,百度也發(fā)布了名為“ERNIE”的預(yù)訓(xùn)練模型。(注:ERNIE與BERT均是美國動畫片“芝麻街”中的角色)。
這一巧合甚至引起了ACL評審主席的關(guān)注,他特意發(fā)來郵件詢問我們是否存在關(guān)聯(lián),以及團隊是否知曉百度的工作。我們明確表示,與百度沒有任何合作,也完全不知對方的研究。最終,這篇論文被錄用,成為團隊在預(yù)訓(xùn)練模型領(lǐng)域引用最高的研究之一。
2020年,GPT-3發(fā)布,完成了從小模型到大模型的躍遷,OpenAI使用了1萬張卡(注:GPU),這讓我們看到了差距,之后就催生了“悟道”大模型。
當(dāng)ChatGPT出現(xiàn)時,我們認為國內(nèi)和國外的差距差不多是一年;直到2024年9月OpenAI發(fā)布o(jì)1模型,我們認為差距縮小到半年,因為o1推出深度思考功能半年后,DeepSeek就成功進行了復(fù)現(xiàn)。
攻堅·既沒名也沒錢,遇上“天使投資人”
新京報AI研究院:OpenAI訓(xùn)練GPT-3使用了上萬張卡,那時國內(nèi)有這樣規(guī)模的算力資源嗎?怎么解決算力的“缺口”?
劉知遠:GPT-3出現(xiàn)后,我們覺得如果不馬上跟進,差距就會越來越大。但當(dāng)時國內(nèi)即便是一線團隊,訓(xùn)練資源也相對有限。GPT-3發(fā)布時,團隊研究條件僅能使用單臺機器,最多兩三張GPU卡進行訓(xùn)練。
那時,我正在北京智源研究院擔(dān)任青年科學(xué)家,這是北京市設(shè)立的新型研發(fā)機構(gòu),有一定資源優(yōu)勢,我向時任院長黃鐵軍提交了一份報告,詳細介紹了大模型領(lǐng)域的發(fā)展趨勢,希望能夠在智源的支持下,嘗試訓(xùn)練一個參數(shù)規(guī)模更大的模型。值得慶幸的是,智源的支持機制非常靈活,幾天后就批準(zhǔn)了申請并撥款支持,最終購置了10臺配備A100 GPU的機器,總投入達數(shù)百萬元。利用這些資源,2020年12月,我們團隊訓(xùn)練了CPM(中文預(yù)訓(xùn)練模型)的第一個版本,也讓我有機會參與到了大模型的浪潮之中。
新京報AI研究院:智源研究院被媒體視作中國AI的“黃埔軍?!?,你怎么看待其對國內(nèi)AI發(fā)展起到的作用?
劉知遠:智源研究院是2018年時任北京市市長倡導(dǎo)成立的新型研發(fā)機構(gòu),其最開始設(shè)立時的理事長由來自產(chǎn)業(yè)界的張宏江擔(dān)任,模式非常新穎,這是理念上的前瞻性,其核心是用新型方式推動人工智能加快發(fā)展。
研究院成立之后推動了智源學(xué)者項目,這跟歷史上國內(nèi)的任何一種項目都不同,主張激發(fā)卓越領(lǐng)軍人物自由探索,以提升科研原始創(chuàng)新的概率。因此,通過“小同行評議”,層層嚴(yán)苛選拔,評選出中國人工智能每個重要研究方向的代表性優(yōu)秀學(xué)者。與傳統(tǒng)科研機構(gòu)不同,類似投資領(lǐng)域中“投資就是投人”的理念,智源也成為一批頂尖人工智能學(xué)者的“天使投資人”,以更加高效靈活的方式支持面向未來的科研探索。
它相當(dāng)于在青年科學(xué)家“既沒名也沒錢”時支持了三年,相比其他科研項目中所常見的寫本子、答辯和考核等復(fù)雜操作,這種基于對人本身的信任、國內(nèi)最早以人為單位進行支持的項目,理念非常先進。
2021年,劉知遠在智源“悟道1.0”發(fā)布現(xiàn)場。 新京報貝殼財經(jīng)記者 羅亦丹 攝
弄潮·避開大廠“射程”,從局部優(yōu)勢領(lǐng)域出發(fā)
新京報AI研究院:2022年,你創(chuàng)立了面壁智能,這一年年底,ChatGPT也正式問世。大模型技術(shù)相繼“破圈”,感受到什么變化?
劉知遠:感覺2023年之后突然變忙了,節(jié)奏明顯加快。但這是正常的,因為當(dāng)一個領(lǐng)域技術(shù)成熟,特別是一些爆款出現(xiàn)后,一定會促使該領(lǐng)域的發(fā)展進入“快車道”,這是一個逐漸加速的過程,甚至我可以預(yù)見今年會更快。
對我個人來說,其實過去這十幾年的感受倒沒有太大區(qū)別,因為我們的愿景是要始終站在AI科技的最前沿去開展工作,只是之前在學(xué)校就能站在最前沿,而2018年之后,我們認為AI已經(jīng)具備一定成熟度,可以對社會產(chǎn)生廣泛的應(yīng)用價值,研發(fā)工作也開始要求有更強的系統(tǒng)工程屬性。這種情況下,一定要通過科技創(chuàng)業(yè)和產(chǎn)研結(jié)合的形式,才能夠站在技術(shù)前沿更快地往前走。
任何對人類社會產(chǎn)生深遠影響的技術(shù)發(fā)展都是這樣。例如,信息檢索技術(shù)從20世紀(jì)60年代就有人探索,而到將近2000年的時候,這項技術(shù)逐漸成熟具備商業(yè)價值,對全社會的人類有用,就產(chǎn)生了雅虎、Google這樣的公司。如果不能順應(yīng)時勢以創(chuàng)業(yè)公司或產(chǎn)研結(jié)合的形式站在合適的位置,就不能真正地推動技術(shù)發(fā)展,我們要做的就是始終站在科技創(chuàng)新的最前沿,前沿要求我們站在哪兒,我們就得站在哪兒。
新京報AI研究院:相比DeepSeek等參數(shù)龐大的大模型,面壁智能主打“小而美”的端側(cè)模型,為什么確定了這個略顯差異化的發(fā)展方向,而且有什么目標(biāo)?
劉知遠:我的目標(biāo)就是讓更多的智能終端裝上我們的模型,而AI創(chuàng)業(yè)者的終極目標(biāo)肯定是奔向AGI(通用人工智能)。
對于面壁,我們先定的英文名“model best”,即我們要做最好的模型。而中文名必須以M和B作為首字母,找來找去,我們認為面壁比較符合人工智能的目標(biāo),既有科幻氣質(zhì),又隱喻人類智能發(fā)展到最高水平應(yīng)該可以自省。
確立了最終目標(biāo)后,需要看清形勢,準(zhǔn)確預(yù)判,打好自己的每一場仗。《論持久戰(zhàn)》的思想精髓就非常值得創(chuàng)業(yè)者去借鑒,因為奔向AGI本身也是一個“持久戰(zhàn)”,在這一過程中敵人是不確定的,要跟自己PK,跟友商們PK,跟充滿不確定的未來PK,而跑到終點的才是勝利者。
我們現(xiàn)在還很弱小,如何一點點壯大,在AGI漫漫長征中不掉隊、取得最終勝利?市場本身非常大,有的公司鋪得很開,這種情況下作為創(chuàng)業(yè)公司,在資源有限、不可能擁有全面壓倒性優(yōu)勢的情況下,一定要戰(zhàn)略性找到具有相對優(yōu)勢的局部戰(zhàn)場,通過運動戰(zhàn),在合適時間、合適戰(zhàn)場,集中局部優(yōu)勢兵力,打出一場漂亮的戰(zhàn)役。唯有堅定地取得一場關(guān)鍵性戰(zhàn)役的勝利,方可占領(lǐng)根據(jù)地。
面壁懷抱著一個長期的愿景,但要有戰(zhàn)略、分階段地去實現(xiàn),尤其是避開當(dāng)前大廠的“射程”,從局部優(yōu)勢領(lǐng)域出發(fā),一步一步來。
新京報AI研究院:怎么看待人工智能高速發(fā)展中的風(fēng)險挑戰(zhàn)和相應(yīng)的監(jiān)管體系?端側(cè)模型本地化的特性所帶來的數(shù)據(jù)保護優(yōu)勢,是否為面壁發(fā)展端側(cè)模型的契機之一?
劉知遠:人工智能的高速發(fā)展與安全監(jiān)管是相輔相成的關(guān)系,需要又快又穩(wěn)的平衡。人工智能從業(yè)者既要加倍努力,全面推進人工智能科技創(chuàng)新、產(chǎn)業(yè)發(fā)展和賦能應(yīng)用,也要同時在高速發(fā)展中“系好安全帶”,推動人工智能向有益、安全、公平方向健康有序發(fā)展。
端側(cè)大模型在離用戶最近的地方,所有數(shù)據(jù)算力都在本地,得以極大保護用戶隱私,斷網(wǎng)弱網(wǎng)服務(wù)依然保持穩(wěn)定,可以更加靈敏、高效、體貼地響應(yīng)人們高頻的日常需求。尤其在汽車座艙等典型場景中,實時產(chǎn)生的大量聲音、圖片、視頻流數(shù)據(jù)在車端本地處理,需要保證車內(nèi)數(shù)據(jù)不外傳,用戶會更傾向個人隱私和數(shù)據(jù)安全高的方案。
出圈·AGI之路非坦途,資本與市場的不信任要挺住
新京報AI研究院:2024年,除了“AI六小虎”之外,面壁智能曾和DeepSeek一起躋身“6+2”,你怎么看待今年春天DeepSeek-R1的火爆?
劉知遠:DeepSeek的啟示是,面對算力限制,通過算法創(chuàng)新與高效訓(xùn)練,也有辦法做出比較好的模型,這是它的價值。
2024年時,還有很多投資人問我“你覺得中國AI跟美國比是越來越近,還是越來越遠”,我的回答始終是越來越近,但很多人還是有顧慮,認為中國算力一旦被“卡脖子”,會遠遠趕不上。DeepSeek的出現(xiàn)是一個非常強有力的信號,讓人看到世界舞臺上,中國的人工智能技術(shù)已經(jīng)具有一席之地。
未來,AI的發(fā)展有兩大主旋律,一個是能效更高,其實就是Densing(增加密度)的過程,用更低成本訓(xùn)練更好的大模型;另一個就是能力更強,具備越來越強的智能水平。未來這兩大方向相互作用,一起往前走。
過去一年,我們一直在極致地追求更高能力密度的模型。我們要做的是根據(jù)Densing Law (密度定律)不斷改進模型制造工藝、不斷提高模型的能力密度,追求一個更加陡峭的模型成長曲線,我們要通過這種方式來實現(xiàn)模型的高質(zhì)量發(fā)展,從而獲得模型在市場上的競爭力。
新京報AI研究院:當(dāng)DeepSeek走紅后,許多AI公司改變了發(fā)展方向,也有聲音質(zhì)疑投資者“為什么沒有投中DeepSeek”,對此你怎么看?
劉知遠:DeepSeek的出現(xiàn)是一次考驗。如果你認為大模型不是泡沫,那出現(xiàn)低谷時為什么要退場?低谷其實就是在讓真正對大模型有堅定信心的人留下來。
AGI之路的實現(xiàn)不是輕而易舉的,它是一次科技革命,這意味著我們不僅經(jīng)歷技術(shù)上的挑戰(zhàn),還可能存在各種現(xiàn)實上的張力,一個團隊可能一年之內(nèi)突然有非常多的進展,也可能兩年都沒有太大進展,此時資本與市場的不信任能否挺住,是否有戰(zhàn)略定力,對團隊是一種考驗。
2000年時,互聯(lián)網(wǎng)極其火爆,但后來出現(xiàn)了互聯(lián)網(wǎng)泡沫,導(dǎo)致將近10年時間計算機系招生的分?jǐn)?shù)比許多其他院系差,大家覺得這個行業(yè)“沒前途”了,但中國現(xiàn)在的許多互聯(lián)網(wǎng)巨頭,都是挺過了互聯(lián)網(wǎng)泡沫的冬天才成長起來的。中國AI大模型行業(yè)能夠做好,靠的是真正相信AGI的人,相信自己所做事情的價值,不輕易放棄。在歷史的長河里,做對的事往往比較難。
新京報AI研究院:DeepSeek創(chuàng)始人梁文鋒此前從事量化投資,有聲音認為相比其他初創(chuàng)公司,DeepSeek本身“不差錢”,這是它成功的關(guān)鍵因素嗎?
劉知遠:這其實反映了我國當(dāng)前需要解決的一些問題:第一,他有理想主義,有長期AGI技術(shù)的理想。第二,他也不差錢,可以不受干擾更有定力地做事。二者兼顧讓他可以把事情做得很好,而現(xiàn)在世界上絕大多數(shù)的人是只有錢或者只有技術(shù),這就是風(fēng)險投資存在的必要性。
我覺得DeepSeek對我們最大的啟示是,上面二者的結(jié)合會產(chǎn)生很大的“化學(xué)反應(yīng)”。如果初創(chuàng)公司拿到資金后面臨著每天的現(xiàn)實追問,這種狀態(tài)下顯然就“靜不下來”。
如何把資源與技術(shù)真正做到更優(yōu)化地匹配,也是我們當(dāng)前面臨的問題,相較而言可能美國科技創(chuàng)新生態(tài)更加耐心主義。一個投資人投了“六小虎”但沒有投DeepSeek,不見得就是投錯了,難道中國不允許出現(xiàn)10個以上的DeepSeek嗎?為什么不能等一等這些潛在的DeepSeek成長呢?
魯迅先生曾說過,“在要求天才的產(chǎn)生之前,應(yīng)該先要求可以使天才生長的民眾。”這是沒錯的,天才剛生下來時也是一個孩子,不可能第一聲啼哭就是優(yōu)美的詩歌。
記者聯(lián)系郵箱:luoyidan@xjbnews.com
新京報貝殼財經(jīng)記者 羅亦丹
編輯 王進雨
校對 賈寧