2月26日,北京大學(xué)第三醫(yī)院的心內(nèi)科診室里,兩種治療方案在診臺(tái)上對(duì)峙:左側(cè)是心內(nèi)科大夫汪京嘉開(kāi)出的一份用于治療高血脂的醫(yī)囑,右側(cè)是人工智能軟件生成的處方。


這天,汪京嘉如常出診,呼叫鈴響三聲后,一位60歲老人姍姍來(lái)遲?!?45/90mmHg,低密度脂蛋白3.8mmol/L,無(wú)糖尿病?!睓z查報(bào)告顯示,老人屬于輕度血脂異常,依據(jù)醫(yī)療診斷,汪京嘉醫(yī)生將口服藥處方遞給老人。


“汪大夫,您給開(kāi)的口服藥太溫和,AI建議注射瑞百安,說(shuō)是降脂快?!?/p>


診室陷入短暫沉默,空氣凈化器的嗡鳴聲逐漸清晰。汪京嘉用手指點(diǎn)了點(diǎn)報(bào)告:“他汀類藥物對(duì)肝臟負(fù)擔(dān)更小,您的報(bào)告顯示轉(zhuǎn)氨酶偏高。”他停頓了兩秒,告訴患者注射劑可能加重肝臟代謝負(fù)擔(dān)。


爭(zhēng)論持續(xù)了十分鐘。老人從AI上得到的建議是,注射類藥物短期耐受性良好,而且僅需隔周注射一次,比每日服用藥物方便許多。但在汪京嘉看來(lái),對(duì)于老年高血脂高血壓的病人,一切以維穩(wěn)為主,他汀類口服藥物已有超過(guò)30年的臨床應(yīng)用歷史,副作用發(fā)生率低,符合循證醫(yī)學(xué)的“最小有效干預(yù)”原則,可避免過(guò)度醫(yī)療。


這場(chǎng)“爭(zhēng)論”最終以老人的沉默落下帷幕。他扶了扶眼鏡,應(yīng)了聲“哦”,關(guān)掉手機(jī),把紙質(zhì)處方插進(jìn)口袋。走廊叫號(hào)屏顯示,下一位患者已等候8分鐘,這比平均問(wèn)診時(shí)間多了三分之一。


不止在醫(yī)療界,類似的認(rèn)知拉鋸正在全球上演。


2025年初,各類大模型開(kāi)放,AI的興起改變了人們的日常生活。作家借助算法優(yōu)化詩(shī)句結(jié)構(gòu),養(yǎng)生愛(ài)好者用AI定制健康食譜,失眠者深夜與AI對(duì)話疏解焦慮。股民們甚至樂(lè)此不疲地解讀著AI生成的各類理財(cái)建議。


在公眾對(duì)生成式大模型日益依賴的進(jìn)程中,偏差開(kāi)始浮現(xiàn)??此茻o(wú)所不能的智能助手,時(shí)常會(huì)像模像樣地“編故事”。當(dāng)用戶查詢歷史細(xì)節(jié)時(shí),AI可能會(huì)將不同朝代的典章制度混雜交錯(cuò);求醫(yī)者收到的診療方案中,藏著多年前已被世衛(wèi)組織廢止的藥劑配比……在知識(shí)邊界外,算法用看似完美的邏輯鏈條編織著答案。


自此,人們開(kāi)始重新校準(zhǔn)與科技的聯(lián)結(jié)。


北醫(yī)三院心內(nèi)科診室,汪京嘉正在看診。受訪者供圖


AI依賴癥


北京望京,一棟寫字樓的16層,證券分析師小宋的工位上有三塊曲面顯示屏,上面終日流淌著數(shù)據(jù)瀑布。2023年6月開(kāi)始,他使用AI軟件chatGPT作為工作助手?!八参錾习俜葚?cái)報(bào)、一分鐘生成深度報(bào)告,人肯定是做不到?!毙∷斡X(jué)得,chatGPT能很快做出反應(yīng)并處理問(wèn)題,讓他的報(bào)告產(chǎn)出效率躍升。


當(dāng)其他同事還在手動(dòng)整理全國(guó)幾十家半導(dǎo)體企業(yè)財(cái)報(bào)時(shí),AI已經(jīng)幫他抓取了關(guān)鍵參數(shù),“某半導(dǎo)體集團(tuán)的資本開(kāi)支數(shù)據(jù)、驅(qū)動(dòng)芯片占全球市場(chǎng)的份額、全球半導(dǎo)體銷售額……”小宋的手指反復(fù)在鍵盤上跳躍,這些復(fù)雜的數(shù)據(jù)在短短30秒內(nèi)被制成了一張圖表。


公司內(nèi)部的一場(chǎng)電話會(huì)中,輪到小宋做會(huì)議紀(jì)要,chatGPT的實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄功能不僅將領(lǐng)導(dǎo)含糊的浙江普通話精準(zhǔn)轉(zhuǎn)換成了文字,會(huì)后小宋核對(duì)錄音,連專業(yè)財(cái)務(wù)詞匯和數(shù)據(jù)信息都分毫不差。


小宋沉浸在一種AI帶來(lái)的時(shí)間紅利中。曾經(jīng)需要通宵解析的市場(chǎng)波動(dòng),現(xiàn)在只需要一杯茶的工夫,就變成了電腦屏幕里跳動(dòng)的概率曲線,這些由AI算法托起的輕舟,載著他穿越信息的洪流。


類似的感受,王賀也有。


他是北京一家網(wǎng)絡(luò)安全公司的產(chǎn)品研發(fā)工程師,像是數(shù)字世界的“安全鎖匠”,王賀每天的工作,是在電腦前設(shè)計(jì)各類殺毒軟件和防火墻,不斷模擬黑客攻擊來(lái)測(cè)試這些防護(hù)系統(tǒng)的漏洞,直到確認(rèn)沒(méi)有任何非法闖入的途徑。


從前,王賀要像“撿豆子”一樣逐行審查代碼找漏洞,通宵篩查警報(bào)代碼早就變成了常態(tài),長(zhǎng)時(shí)間的高負(fù)荷工作,讓他覺(jué)得身上像是綁上了時(shí)鐘,永遠(yuǎn)停不下來(lái)。


這樣的狀態(tài)因?yàn)锳I的接入,發(fā)生了微妙的遷移,密密麻麻的日程表上,突然多出了一些空白格。


去年,王賀所在的團(tuán)隊(duì)正式將AI應(yīng)用到工作中,在自動(dòng)化滲透測(cè)試中,AI能模擬黑客攻擊行為,通過(guò)自動(dòng)檢測(cè)工具和機(jī)器學(xué)習(xí)算法,快速發(fā)現(xiàn)系統(tǒng)中的漏洞和弱點(diǎn),并提出有效的修復(fù)建議。


“就像打仗的時(shí)候,士兵不再拼刺刀,但需要更高維的戰(zhàn)術(shù)指揮能力。”王賀覺(jué)得,他的時(shí)間不再消耗在顯微鏡式的漏洞追蹤上,轉(zhuǎn)而可以聚焦于設(shè)計(jì)防御算法上。


AI可以自動(dòng)生成百萬(wàn)級(jí)測(cè)試用例,3秒定位某金融APP支付接口的越權(quán)漏洞,而同樣的工作,人工測(cè)試則需4小時(shí)。他粗略地計(jì)算過(guò),人工智能系統(tǒng)的接入,相比傳統(tǒng)運(yùn)維效率提升了20%。


這種信息狩獵方式的革新,也正在重塑財(cái)經(jīng)記者崔其的工作。


3月3日晚上8點(diǎn),崔其正在對(duì)DeepSeek話框中輸入第6次修改指令:“篩選近一年融資超1000萬(wàn)的科技企業(yè),關(guān)聯(lián)創(chuàng)始人減持記錄和訴訟數(shù)據(jù)?!边@是他使用人工智能程序?qū)ふ疫x題的第32天。


崔其逐漸摸索出一套與AI協(xié)作的工作法則,“AI可通過(guò)數(shù)據(jù)分析得出近期最受關(guān)注的話題是什么,再將熱點(diǎn)信息與所在行業(yè)結(jié)合,一些還不錯(cuò)的選題就出來(lái)了?!眴?dòng)AI程序,變成他每天上班第一件要做的事,算法生成全網(wǎng)聲量最高的熱詞,這些熱點(diǎn)信息投射到行業(yè)知識(shí)圖譜上,變成若干選題。


AI賦予了崔其一種快速的數(shù)據(jù)洞察力,他總能利用AI給出的熱點(diǎn)詞,在紛雜的信息汪洋里錨定坐標(biāo),將大眾關(guān)切的話題與專業(yè)洞見(jiàn)梳理成一篇又一篇爆款文章。


chatGPT對(duì)話頁(yè)面。 圖源 ic photo


AI幻覺(jué)“陷阱”


這個(gè)月,小宋第四次捕捉到AI的錯(cuò)誤。


小宋記得,撰寫行業(yè)報(bào)告前,他想在AI上收集一些有效數(shù)據(jù),chatGPT為他生成了一份《存儲(chǔ)芯片行業(yè)Q1預(yù)測(cè)》:“三星電子將在西安擴(kuò)產(chǎn)”“臺(tái)積電產(chǎn)能釋放帶動(dòng)需求,某電子元件公司預(yù)計(jì)營(yíng)收增長(zhǎng)22.3%”……


大量的信息正以每秒三行的速度出現(xiàn)在深藍(lán)色曲面屏上,檢索過(guò)一輪之后,小宋意識(shí)到,這些快速生成的數(shù)據(jù)和信息并不真實(shí)?!氨緛?lái)還覺(jué)得很有道理、很專業(yè),AI給出的資料里甚至還附上了開(kāi)發(fā)區(qū)管委會(huì)的紅頭文件編號(hào),但仔細(xì)一查,根本就沒(méi)有這個(gè)東西?!?/p>


所謂AI幻覺(jué),通常是指大語(yǔ)言模型生成的內(nèi)容無(wú)意義、不符合事實(shí)、邏輯自相矛盾,甚至完全不準(zhǔn)確的輸出。去年8月,一家叫Arthur AI的人工智能公司發(fā)布了一份報(bào)告,比較了OpenAI、Meta、Anthropic以及Cohere公司開(kāi)發(fā)的大語(yǔ)言模型出現(xiàn)幻覺(jué)的概率。結(jié)果顯示,這些大模型都會(huì)產(chǎn)生幻覺(jué)。


中國(guó)信通院人工智能研究所副所長(zhǎng)巫彤寧在接受新京報(bào)采訪時(shí),用生活化類比解釋了AI幻覺(jué)的成因,“就像一個(gè)人雖然能流利地說(shuō)話,但并不一定每句話都符合事實(shí)。”他介紹,AI本質(zhì)上是根據(jù)前文預(yù)測(cè)最可能出現(xiàn)的詞語(yǔ),它更像是一個(gè)沉浸在語(yǔ)料庫(kù)海洋中學(xué)習(xí)說(shuō)話的學(xué)習(xí)者,它不是在查找答案,而是在預(yù)測(cè)下一個(gè)要說(shuō)的最合理的詞應(yīng)該是什么。


巫彤寧解釋,大模型是指具有大規(guī)模參數(shù)和計(jì)算能力的機(jī)器學(xué)習(xí)模型。而大語(yǔ)言模型(LLMs)是指基于深度學(xué)習(xí),擁有數(shù)十億甚至千億級(jí)別的參數(shù)構(gòu)成,能夠在多樣化的自然語(yǔ)言處理任務(wù)中展現(xiàn)強(qiáng)大生成與推理能力的人工智能模型。


然而,大模型訓(xùn)練時(shí)吸收的海量網(wǎng)絡(luò)數(shù)據(jù)如同未經(jīng)篩選的圖書館,既藏有真知灼見(jiàn),也充斥著謠言與廣告。由于AI無(wú)法像人類那樣理解事實(shí)的邏輯,因此,當(dāng)遇到需要深度推理的問(wèn)題時(shí),這種基于概率的創(chuàng)作機(jī)制就容易催生看似合理實(shí)則錯(cuò)漏百出的“專業(yè)謊言”。


AI承認(rèn)提供了虛假文獻(xiàn)。受訪者供圖


這種幻覺(jué)帶來(lái)的信息污染開(kāi)始侵蝕小宋的工作。


最危險(xiǎn)的失誤發(fā)生在今年1月。一次實(shí)地調(diào)研中,某半導(dǎo)體公司的銷售總監(jiān)聊到“刻蝕機(jī)交貨期從半年延長(zhǎng)到七個(gè)半月”時(shí),小宋突然意識(shí)到,自己上周發(fā)布的行業(yè)報(bào)告里,關(guān)于芯片設(shè)備供應(yīng)周期的預(yù)測(cè)數(shù)據(jù),還在使用AI系統(tǒng)中存儲(chǔ)的舊參數(shù)。這意味著,所有基于該數(shù)據(jù)的投資建議都存在偏差。


在小宋所在的證券行業(yè),這種錯(cuò)誤是“致命”的。他的失誤被做成案例,在團(tuán)隊(duì)晨會(huì)上反復(fù)批評(píng)。


“AI幻覺(jué)”導(dǎo)致的偏差,也正成為自動(dòng)駕駛研發(fā)的棘手難題。


上海臨港的自動(dòng)駕駛測(cè)試場(chǎng)內(nèi),某車企自動(dòng)駕駛研發(fā)部的劉璐摘下AR眼鏡,盯著監(jiān)控屏上的異常軌跡皺起眉頭,這是本周第三起誤觸發(fā)事件。L4級(jí)測(cè)試汽車在通過(guò)無(wú)標(biāo)線道路時(shí),突然對(duì)右側(cè)綠化區(qū)實(shí)施緊急制動(dòng)。回放測(cè)試錄像發(fā)現(xiàn),雷達(dá)將隨風(fēng)擺動(dòng)的塑料棚膜識(shí)別成橫穿馬路的行人,而攝像頭因逆光未能及時(shí)修正。


劉璐所在的研究團(tuán)隊(duì)每周要分析超過(guò)2000公里的路測(cè)數(shù)據(jù)。在標(biāo)注著“光影干擾”的文件夾里,存有清晨逆光、隧道明暗交替、雪地反光等多種特殊場(chǎng)景。某個(gè)冬日郊外測(cè)試中,激光雷達(dá)曾將雪地里跳躍的太陽(yáng)光影群誤判為滾石,引發(fā)急剎。


“誤觸發(fā)案例很多是因?yàn)榇竽P透兄獑?wèn)題?!眲㈣凑{(diào)出三個(gè)月的測(cè)試事故統(tǒng)計(jì),53%的AI系統(tǒng)誤判集中在四種場(chǎng)景:低空飛鳥(niǎo)群、暴雨天劇烈擺動(dòng)的雨刮器、特殊角度護(hù)欄甚至百米外飄舞的塑料袋。這些人類司機(jī)可以輕松識(shí)別的道路信息,卻是AI系統(tǒng)無(wú)法準(zhǔn)確理解的“視覺(jué)陷阱”。


真正的挑戰(zhàn)來(lái)自多傳感器協(xié)同。實(shí)驗(yàn)場(chǎng)的屏幕上,攝像頭堅(jiān)持顯示著“斑馬線上的行人”,而激光雷達(dá)的點(diǎn)云圖卻顯示該區(qū)域空無(wú)一物?!熬拖袢送瑫r(shí)聽(tīng)到好幾個(gè)不知真假的警報(bào),要瞬間判斷哪個(gè)是真實(shí)的威脅?!眲㈣凑f(shuō),對(duì)于自動(dòng)駕駛的研發(fā)人員來(lái)說(shuō),讓AI系統(tǒng)對(duì)此類矛盾判斷的響應(yīng)時(shí)間接近人類駕駛員的反應(yīng)速度,是他們面臨的最大挑戰(zhàn)。


在真實(shí)的馬路上,這樣的“誤會(huì)”可能帶來(lái)嚴(yán)重的危險(xiǎn)。每當(dāng)算法把樹(shù)影錯(cuò)認(rèn)成行人,或是將雨幕解析成車流,劉璐都又一次意識(shí)到,這些都是自動(dòng)駕駛研發(fā)路上必經(jīng)的“錯(cuò)覺(jué)時(shí)刻”,而教AI準(zhǔn)確理解現(xiàn)實(shí)世界,遠(yuǎn)比教它處理清晰規(guī)則更困難。


在社交媒體上,越來(lái)越多的網(wǎng)友開(kāi)始分享自己被AI“欺騙”的經(jīng)歷。


論文截稿的前幾天,材料專業(yè)的大四學(xué)生靜文開(kāi)始發(fā)愁。生成式人工智能軟件普及后,她熟練運(yùn)用著各類AI輔助工具,用Kimi梳理文獻(xiàn)綜述,通過(guò)豆包生成實(shí)驗(yàn)框架,DeepSeek上線后更成為她整理數(shù)據(jù)的得力助手。


然而,這份“依賴”在開(kāi)學(xué)初顯露出隱患。2月18日,靜文通過(guò)AI整理“量子點(diǎn)材料”研究進(jìn)展,系統(tǒng)洋洋灑灑列出27篇參考文獻(xiàn)??僧?dāng)她逐條核實(shí)時(shí),發(fā)現(xiàn)27篇的參考文獻(xiàn),只有3篇真實(shí)存在,而這3篇里壓根沒(méi)有關(guān)于“量子點(diǎn)材料突破”的學(xué)術(shù)信息。


人機(jī)博弈


“AI給出的虛假文獻(xiàn)就像皇帝的新衣?!?/p>


靜文覺(jué)得,AI可能并非刻意造假,而是將真實(shí)存在的期刊名稱、學(xué)者研究方向、實(shí)驗(yàn)數(shù)據(jù)進(jìn)行概率性組合,最終編織出邏輯自洽卻脫離現(xiàn)實(shí)的回答。


從那之后,她不再盲目地相信AI給出的任何回答,現(xiàn)在,她每看到一篇被引用的文獻(xiàn),都會(huì)手動(dòng)驗(yàn)證兩個(gè)信息:期刊官網(wǎng)的當(dāng)期目錄和通訊作者實(shí)驗(yàn)室官網(wǎng)的成果列表。


3月4日,醫(yī)生值班室里,汪京嘉對(duì)著閃爍的屏幕發(fā)了好一會(huì)兒呆。


汪京嘉把人工智能比作“雙面鏡”。他說(shuō),越來(lái)越多的年輕醫(yī)生們開(kāi)始依賴AI撰寫病歷小結(jié)、寫課題論文,那些看似專業(yè)的醫(yī)學(xué)名詞堆砌下,偶爾也會(huì)冒出“左心室瓣膜鈣化導(dǎo)致糖尿病”之類的荒唐邏輯。


他突然想起前段時(shí)間,有位同事的論文被國(guó)際期刊退回,審稿人用紅字標(biāo)注著:“參考文獻(xiàn)第7、12條查無(wú)此文”。這是一篇用AI輔助完成的課題論文,虛構(gòu)的文獻(xiàn)如同混入珍珠項(xiàng)鏈的塑料珠子,逼真得連DOI編碼(Digital Object Identifier,通過(guò)DOI號(hào),可以追溯論文發(fā)表的時(shí)間、期刊信息、作者信息等數(shù)據(jù))都自成體系。


去年春天,一款醫(yī)療AI系統(tǒng)通過(guò)了藥監(jiān)局審批,但可使用權(quán)限被嚴(yán)格框定在影像識(shí)別領(lǐng)域。汪京嘉告訴新京報(bào)記者,AI影像輔助檢測(cè)AI軟件可用于結(jié)節(jié)識(shí)別、結(jié)節(jié)良惡性鑒別診斷以及智能報(bào)告生成。


AI的加入讓醫(yī)學(xué)檢查更加敏銳,也讓業(yè)界擔(dān)心會(huì)造成新的“過(guò)度診療”。事實(shí)上,AI接入CT以后,一路走高的肺結(jié)節(jié)的檢出率已經(jīng)讓越來(lái)越多人陷入焦慮了。


但最棘手的仍是數(shù)據(jù)真相。在使用過(guò)程中,醫(yī)生們必須仔細(xì)甄別AI系統(tǒng)背后的邏輯漏洞,“病理切片的光學(xué)分辨率、檢查報(bào)告的措辭偏差,甚至一句模糊的主訴描述,都可能導(dǎo)致AI誤判?!蓖艟┘斡X(jué)得,任何AI工具都不是無(wú)所不能的智者,而是需要被交叉驗(yàn)證的協(xié)作者。


人機(jī)博弈有時(shí)也發(fā)生在王賀身上。


有天下午,他盯著屏幕上的警報(bào)記錄哭笑不得,公司新上線的AI安全系統(tǒng)剛剛把行政部同事批量發(fā)送的會(huì)議通知,誤判成了“可疑郵件轟炸”。整齊排列的會(huì)議日程,在AI眼里成了攻擊代碼的偽裝。


作為專業(yè)的程序員,王賀給AI系統(tǒng)設(shè)置了一個(gè)準(zhǔn)則,只允許它“學(xué)習(xí)”國(guó)家網(wǎng)絡(luò)安全機(jī)構(gòu)認(rèn)證的病毒樣本庫(kù),而來(lái)路不明的網(wǎng)絡(luò)攻擊案例,必須先經(jīng)過(guò)人工審核,才能放入清單。他回憶,上周有同事上傳的“新型詐騙案例”,后來(lái)發(fā)現(xiàn),其實(shí)是某部科幻小說(shuō)的情節(jié),幸好被提前攔截。


他覺(jué)得,AI的使用者不能被大模型所主導(dǎo),而應(yīng)該主導(dǎo)大模型。在與大模型交流時(shí),優(yōu)化提問(wèn)方式,在一定程度上能減少幻覺(jué)出現(xiàn),比如要求在指定范圍回答,并提供信息來(lái)源鏈接。


那次重大失誤后,小宋在辦公室支起了雙重驗(yàn)證系統(tǒng):左側(cè)曲面屏繼續(xù)運(yùn)行AI分析程序,右側(cè)液晶屏則時(shí)刻準(zhǔn)備驗(yàn)證真?zhèn)??!艾F(xiàn)在我要像法醫(yī)一樣解剖數(shù)據(jù)?!毙∷谓o自己新增了兩條“鐵律”,所有涉及政府文件的信源,必須手動(dòng)查驗(yàn)國(guó)務(wù)院客戶端,有關(guān)財(cái)務(wù)數(shù)字的信息要多次反復(fù)復(fù)核。


他演示著最新的工作流程:AI生成的每段內(nèi)容,都要用兩個(gè)獨(dú)立信源交叉驗(yàn)證,所有財(cái)務(wù)模型必須手工重算關(guān)鍵參數(shù),就連企業(yè)官網(wǎng)信息,也要對(duì)照紙質(zhì)年報(bào)逐行校閱。


這樣的操作,讓他的發(fā)稿速度退回到兩年前,過(guò)去半小時(shí)完成的行業(yè)簡(jiǎn)報(bào),現(xiàn)在需要拆解成多個(gè)節(jié)點(diǎn)驗(yàn)證節(jié)點(diǎn)。


最近,劉璐和團(tuán)隊(duì)像教新手司機(jī)認(rèn)路一樣,給自動(dòng)駕駛系統(tǒng)添加了“辨別課”。他們讓AI反復(fù)學(xué)習(xí)數(shù)萬(wàn)種光影類別,有時(shí)是進(jìn)出隧道時(shí)忽明忽暗的強(qiáng)光,有時(shí)是雨天車窗上跳躍的水珠反光,還有高樓玻璃幕墻在陽(yáng)光下制造的“假紅綠燈”。


“就像駕校教練會(huì)帶學(xué)員到復(fù)雜路段實(shí)地訓(xùn)練?!眲㈣唇忉?,他們用計(jì)算機(jī)生成各種逼真的光影干擾場(chǎng)景,讓系統(tǒng)學(xué)會(huì)做判斷,當(dāng)攝像頭看到疑似紅燈的反光時(shí),會(huì)檢查雷達(dá)是否探測(cè)到實(shí)體障礙物,同時(shí)參考導(dǎo)航地圖確認(rèn)該位置是否真有交通信號(hào)燈,可以有效減少測(cè)試車輛被反光迷惑而突然剎車,就像老司機(jī)能一眼分清霓虹燈和真正的交通信號(hào)。


上海臨港自動(dòng)駕駛測(cè)試廠,正在進(jìn)行自動(dòng)駕駛車輛路測(cè)。受訪者供圖


尋找最優(yōu)解


夾雜著虛構(gòu)與偏差的信息,悄然走進(jìn)人們的生活,普通用戶難以分辨屏幕另一端是引經(jīng)據(jù)典的專業(yè)數(shù)據(jù)還是AI幻覺(jué),這種信任危機(jī)正在醫(yī)療咨詢、法律解讀等專業(yè)領(lǐng)域形成裂痕。


2023年6月,美國(guó)紐約南區(qū)聯(lián)邦地區(qū)法院審理的Mata v. Avianca案件被認(rèn)為是全球首例因“AI幻覺(jué)”而受到司法處罰的案例。


2023年3月1日,Mata的代理律師提交了一份反對(duì)動(dòng)議的聲明,該聲明引用并摘錄了據(jù)稱發(fā)表在《聯(lián)邦判例匯編》《聯(lián)邦補(bǔ)充判例匯編》中的司法判決;然而,這些聲明中引用的判例并非真實(shí)存在,而是由ChatGPT生成的。


在被告律師指出案例無(wú)法找到后,原告律師未能核實(shí)判例的真實(shí)性,并在法院要求提供完整案例文本后,仍然提交了由ChatGPT 生成的“判例”,法官認(rèn)為原告律師的行為違反了執(zhí)業(yè)道德準(zhǔn)則,浪費(fèi)了司法資源,并被處以5000美元的罰款。


“AI在生成答案時(shí)所犯的錯(cuò)誤,是否可以追溯到開(kāi)發(fā)者設(shè)計(jì)時(shí)的缺陷?”“是否應(yīng)賦予人工智能以法律上的人格?”最近,類似這樣的問(wèn)題不斷引發(fā)討論。


有法律專家認(rèn)為,AI的決策如果不具備情感或意識(shí),就不應(yīng)該被視為“過(guò)失”。也有學(xué)者提出,人工智能具有獨(dú)立自主的行為能力,有資格享有法律權(quán)利并承擔(dān)責(zé)任義務(wù),應(yīng)當(dāng)具有法律人格,但其具有的僅是有限的法律人格,在必要時(shí)可“刺破人工智能面紗”,對(duì)其適用特殊的侵權(quán)責(zé)任規(guī)范。


北京師范大學(xué)中國(guó)社會(huì)管理研究院院長(zhǎng)、互聯(lián)網(wǎng)發(fā)展研究院院長(zhǎng)李韜告訴新京報(bào)記者,傳統(tǒng)的技術(shù)錯(cuò)誤或失誤的責(zé)任一般由開(kāi)發(fā)者或技術(shù)公司承擔(dān)。這種責(zé)任分配原則已經(jīng)在許多行業(yè)的產(chǎn)品責(zé)任法和醫(yī)療責(zé)任法等法規(guī)中有明確規(guī)定。然而,AI系統(tǒng)的自主性和決策能力,使得這種傳統(tǒng)的責(zé)任界定方式愈發(fā)變得難以適用。


李韜指出,構(gòu)建行之有效的AI治理體系尤為重要,而生成式人工智能責(zé)任認(rèn)定的基本倫理,需要在技術(shù)進(jìn)步和權(quán)利保護(hù)之間求得平衡狀態(tài),其倫理規(guī)制的關(guān)鍵在于確立一個(gè)既能促進(jìn)創(chuàng)新和進(jìn)步,又能保護(hù)個(gè)人和社會(huì)權(quán)益的倫理框架。


新京報(bào)記者發(fā)現(xiàn),近期,DeepSeek和OpenAI等平臺(tái)也在用戶協(xié)議和平臺(tái)規(guī)則中提示了輸出出現(xiàn)錯(cuò)誤甚至幻覺(jué)的風(fēng)險(xiǎn),并突出提示了在法律、醫(yī)療以及金融等垂直領(lǐng)域的直接應(yīng)用風(fēng)險(xiǎn)。


這些平臺(tái)在用戶協(xié)議中通常包含以下免責(zé)聲明:生成內(nèi)容可能不準(zhǔn)確、不完整或具有誤導(dǎo)性,用戶應(yīng)自行核實(shí);專業(yè)課的應(yīng)用需謹(jǐn)慎,建議專業(yè)人士進(jìn)行復(fù)核;平臺(tái)不對(duì)生成內(nèi)容的準(zhǔn)確性、合法性或適用性承擔(dān)責(zé)任。


面對(duì)來(lái)勢(shì)洶洶的AI幻覺(jué),一些企業(yè)也在探索“應(yīng)對(duì)之策”。


美國(guó)硅谷一家名為Exa的人工智能公司發(fā)現(xiàn)其搜索引擎用戶出現(xiàn)新的需求:大量企業(yè)客戶苦于無(wú)法驗(yàn)證AI生成內(nèi)容的真實(shí)性。他們開(kāi)發(fā)了AI幻覺(jué)檢測(cè)器,是一款基于實(shí)時(shí)網(wǎng)絡(luò)數(shù)據(jù)驗(yàn)證的核查工具。


根據(jù)其官網(wǎng)發(fā)布的信息,Exa的AI幻覺(jué)檢測(cè)器通過(guò)實(shí)時(shí)抓取權(quán)威數(shù)據(jù)庫(kù)、交叉比對(duì)多源信息,結(jié)合動(dòng)態(tài)更新的產(chǎn)業(yè)知識(shí)圖譜,逐層驗(yàn)證AI生成內(nèi)容中的人物、數(shù)據(jù)、事件是否與可溯源的現(xiàn)實(shí)證據(jù)匹配,并為每個(gè)結(jié)論標(biāo)注可信度評(píng)級(jí)與證據(jù)鏈來(lái)源。


關(guān)于“AI幻覺(jué)能不能徹底被消除?”的問(wèn)題,在行業(yè)專家巫彤寧那里被具象化。


巫彤寧把大模型的創(chuàng)造力比作一把需要精密調(diào)控的雙刃劍。在他看來(lái),平衡創(chuàng)造性與真實(shí)性的關(guān)鍵在于構(gòu)建雙重防護(hù)體系:首先要提高大模型學(xué)習(xí)知識(shí)的質(zhì)量,通過(guò)更嚴(yán)格的知識(shí)篩選,提高喂給大模型數(shù)據(jù)的質(zhì)量,從而從根本上降低產(chǎn)生幻覺(jué)的可能性;其次,應(yīng)建立用戶糾錯(cuò)機(jī)制:讓用戶在使用中實(shí)時(shí)反饋模型輸出中的錯(cuò)誤或不準(zhǔn)確之處,這些反饋能像錯(cuò)題本一樣幫AI記住教訓(xùn),越用越準(zhǔn)。


除此之外,巫彤寧經(jīng)常呼吁,讓大模型分場(chǎng)景工作,針對(duì)法律、醫(yī)療等低容錯(cuò)率領(lǐng)域,強(qiáng)制激活“嚴(yán)謹(jǐn)模式”,要求模型檢索最新權(quán)威資料并標(biāo)注來(lái)源,而面對(duì)創(chuàng)意需求時(shí)則開(kāi)放聯(lián)想空間,允許“開(kāi)腦洞”,為用戶帶來(lái)更多靈感。


“我們要做的,是找到人工智能和人類中間的平衡。”巫彤寧知道,徹底消除幻覺(jué)并不現(xiàn)實(shí),而在AI信息爆炸時(shí)代,始終保持獨(dú)立思考的能力、辨別信息真?zhèn)蔚哪芰Ρ全@取信息的能力更寶貴。


新京報(bào)記者 咸運(yùn)禎

編輯 陳曉舒

校對(duì) 楊利