要聞

解密 | ChatGPT為何能“打敗”眾多大模型，除了千億級參數(shù)，還有什么？

每日經(jīng)濟(jì)新聞 2023-02-20 22:12:47

◎Jie Wang認(rèn)為，ChatGPT有潛力成為下一個(gè)改變世界的超級工具。

每經(jīng)記者文巧每經(jīng)編輯高涵

ChatGPT在互聯(lián)網(wǎng)上的風(fēng)暴已經(jīng)上演了許久。近期，在谷歌Bard和微軟必應(yīng)（Bing）接連翻車的情況下，市場對ChatGPT的態(tài)度已經(jīng)從“新鮮”開始向“理性”過渡。不過，國內(nèi)外資本對ChatGPT的熱捧仍然有持續(xù)之勢。

誠然，全世界都見證了ChatGPT的強(qiáng)大，但實(shí)際上，在自然語言處理（NLP）領(lǐng)域， ChatGPT并非第一個(gè)基于大型語言模型的產(chǎn)物。早在2018年，NLP領(lǐng)域演變出來的另一個(gè)產(chǎn)物BERT問世，一度被認(rèn)為在自然語言理解類任務(wù)中發(fā)揮得非常出色。

那么，是什么讓ChatGPT一經(jīng)問世就獲得了前所未有的關(guān)注？它到底強(qiáng)大在哪里？憑什么在眾多大型語言模型中脫穎而出？

關(guān)于上述問題，《每日經(jīng)濟(jì)新聞》記者采訪了馬薩諸塞大學(xué)（又稱麻省大學(xué)）洛厄爾分校計(jì)算機(jī)科學(xué)教授Jie Wang。他認(rèn)為，ChatGPT最主要的突破在于其背后架構(gòu)GPT-3.5中使用的few-shots（小樣本）和用戶反饋的技術(shù)。而且，ChatGPT擁有其他語言模型所不具備的千億級別參數(shù)規(guī)模，也允許它能夠捕獲更復(fù)雜的語言模式和關(guān)系。

人類已經(jīng)經(jīng)歷了數(shù)次超級工具的誕生，例如，互聯(lián)網(wǎng)和智能手機(jī)，其引發(fā)的科技革命極大地改變了人們的思維和生活方式。在Jie Wang看來，如果用ChatGPT來代表基于大型通用語言模型的應(yīng)用，那么ChatGPT有潛力成為下一個(gè)改變世界的超級工具。

技術(shù)原理：一場“概率游戲”

ChatGPT之所以能夠成為一個(gè)現(xiàn)象級的火爆應(yīng)用，在于它能夠自動(dòng)生成類似于人類撰寫的文本，這一點(diǎn)非常引人注目，也非常出乎意料。那么，為什么ChatGPT能夠如此出色地生成有意義的文本呢？

我們先從ChatGPT所屬的NLP領(lǐng)域說起。NLP，即自然語言處理，是人工智能的一個(gè)領(lǐng)域，專注于讓計(jì)算機(jī)能夠理解、解釋和生成人類語言。

人類語言非常豐富和微妙，可以根據(jù)上下文、語氣和其他因素以多種不同的方式表達(dá)，如何處理人類語言的復(fù)雜性和可變性也成為NLP領(lǐng)域的主要任務(wù)之一。NLP技術(shù)是ChatGPT能夠出色地生成類似于人類撰寫的文本的基礎(chǔ)。

“最先進(jìn)的NLP技術(shù)是文本到文本的轉(zhuǎn)換，它基于一個(gè)超大型的多層編碼器-解碼器神經(jīng)網(wǎng)絡(luò)，這個(gè)神經(jīng)網(wǎng)絡(luò)能在超大規(guī)模的無監(jiān)督數(shù)據(jù)集上對數(shù)十億參數(shù)進(jìn)行訓(xùn)練，“在談及NLP時(shí)，Jie Wang向《每日經(jīng)濟(jì)新聞》記者介紹道。

在對NLP的主要任務(wù)有一個(gè)基本的理解之后，我們再來談?wù)凜hatGPT的技術(shù)原理。眾所周知的是，ChatGPT是一種聊天機(jī)器人產(chǎn)品，它基于OpenAI的大型語言模型架構(gòu)GPT-3.5。

2月15日，計(jì)算機(jī)科學(xué)家Stephen Wolfram在推特發(fā)表了一篇萬字長文來解釋ChatGPT的工作原理。在這篇文章中，Wolfram提到，ChatGPT的核心任務(wù)是對已有的文本生成一個(gè)“合理的延續(xù)”，“合理”的意思是，根據(jù)人類在數(shù)十億個(gè)網(wǎng)頁中撰寫的內(nèi)容的規(guī)律，來推測接下來可能出現(xiàn)的內(nèi)容。

Wolfram舉了一個(gè)例子，比如輸入以下文本：“AI最好之處在于它（）的能力”，為了補(bǔ)充括號中的內(nèi)容，ChatGPT會(huì)在數(shù)十億個(gè)網(wǎng)頁中查找類似文本，統(tǒng)計(jì)下一個(gè)單詞出現(xiàn)的概率。最終，ChatGPT會(huì)生成一個(gè)可能的單詞列表，并給出每個(gè)單詞的概率排名。這就是它的“概率游戲”。

圖片來源：文章截圖

脫穎而出的背后：創(chuàng)新訓(xùn)練方式、千億參數(shù)規(guī)模

實(shí)際上，ChatGPT并非第一個(gè)基于大型語言模型的產(chǎn)物。早在2018年，NLP領(lǐng)域演變出來的另一個(gè)基于大型語言模型的產(chǎn)物——BERT已經(jīng)出世，并一度被認(rèn)為在自然語言理解類任務(wù)中發(fā)揮得非常出色。那么，為什么相比之下，只有ChatGPT能夠引起如此大的轟動(dòng)呢？

首先在于GPT-3.5訓(xùn)練方式上的創(chuàng)新。

GPT-3.5的前身是GPT-3。據(jù)Jie Wang介紹，“GPT-3之前的大型語言模型，通常是通過在非常大的數(shù)據(jù)集上使用自我監(jiān)督學(xué)習(xí)的方式，來計(jì)算多個(gè)任務(wù)的單詞和句子之間的上下文關(guān)系，從而達(dá)到訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的目的。不過，這樣一個(gè)經(jīng)過訓(xùn)練的模型仍然需要進(jìn)行微調(diào)（fine-tuning）來執(zhí)行特定任務(wù)。”

值得注意的是，BERT所使用的方式就是微調(diào)。這種方式的局限性就在于，“微調(diào)既費(fèi)時(shí)又費(fèi)錢，”Jie Wang說道，“通常需要特定的標(biāo)記數(shù)據(jù)集。”

當(dāng)GPT-3出現(xiàn)后，問題得到了解決，這也是ChatGPT最具突破性的創(chuàng)舉的基礎(chǔ)。“GPT-3僅使用幾個(gè)特定的任務(wù)示例來簡化微調(diào)的過程，這些任務(wù)示例被稱作‘few shots’（小樣本），”Jie Wang解釋道，“它產(chǎn)生的結(jié)果與最先進(jìn)的微調(diào)過程獲得的結(jié)果相同或相似，這項(xiàng)技術(shù)大大提高了生產(chǎn)率。GPT-3.5則進(jìn)一步使用用戶反饋來提高few shots生成結(jié)果的準(zhǔn)確性。”

也就是說，“（ChatGPT）主要的突破是GPT-3.5中使用的‘few-shots’結(jié)合用戶反饋的技術(shù)，”Jie Wang向《每日經(jīng)濟(jì)新聞》記者總結(jié)道。

（編者注：few shots learning即小樣本學(xué)習(xí)，在機(jī)器學(xué)習(xí)領(lǐng)域中泛指從少量標(biāo)注數(shù)據(jù)中學(xué)習(xí)的方法和場景。）

那么，如何來理解few shots呢？這里我們需要理解另一個(gè)概念——提示（prompting）。“提示是ChatGPT接受用戶反饋的形式，”Jie Wang說道。

prompting實(shí)際上就是給模型一點(diǎn)小提示。舉一個(gè)非常簡單的例子，當(dāng)每經(jīng)記者使用ChatGPT輔助新聞寫作時(shí)，需要ChatGPT對一段較長的新聞進(jìn)行歸納總結(jié)或生成一個(gè)標(biāo)題。這時(shí)，可以給ChatGPT一點(diǎn)小提示——例如，Mary是“《紐約時(shí)報(bào)》”一位“非常資深”的編輯，她需要幾個(gè)“吸睛的”標(biāo)題。

通過引號中三個(gè)關(guān)鍵詞的提示，相比于簡單地要求“生成一個(gè)標(biāo)題”，這些小提示會(huì)讓ChatGPT生成的內(nèi)容得到明顯提升。

其次，ChatGPT的強(qiáng)大還在于其超大的參數(shù)規(guī)模。ChatGPT基于8000億個(gè)單詞的語料庫（或45TB的文本數(shù)據(jù)），包含了1750億個(gè)參數(shù)。8000億是ChatGPT的訓(xùn)練數(shù)據(jù)，1750億是它從這些訓(xùn)練數(shù)據(jù)中所學(xué)習(xí)、沉淀下來的內(nèi)容。

“之前最大的模型也只是百億參數(shù)，不是千億級別的，”Jie Wang說道。公開資料顯示，這種更大的參數(shù)規(guī)模允許ChatGPT能夠捕獲更復(fù)雜的語言模式和關(guān)系，從而提高復(fù)雜自然語言處理任務(wù)的準(zhǔn)確性。

據(jù)美國《時(shí)代周刊》上月中旬的報(bào)道，為了訓(xùn)練ChatGPT，OpenAI雇傭了時(shí)薪不到2美元的肯尼亞外包勞工，他們所負(fù)責(zé)的工作就是對龐大的數(shù)據(jù)庫手動(dòng)進(jìn)行數(shù)據(jù)標(biāo)注。報(bào)道中提到，OpenAI在2021年底與位于舊金山的外包公司Sama簽署了三份總價(jià)值約20萬美元的合同，為其數(shù)據(jù)庫中的有害內(nèi)容進(jìn)行標(biāo)記。

圖片來源：每日經(jīng)濟(jì)新聞劉雪梅攝（資料圖）

商業(yè)落地：離通用AI還有多遠(yuǎn)？

ChatGPT已經(jīng)展現(xiàn)了在NLP領(lǐng)域的強(qiáng)大能力，那么，它是否可以從NLP領(lǐng)域走向其他AI領(lǐng)域呢？

Jie Wang認(rèn)為答案是肯定的。“在T5、GPT-3和GPT-3.5中發(fā)展起來的主要技術(shù)，即自我監(jiān)督學(xué)習(xí)、few-shot微調(diào)，以及結(jié)合用戶反饋的方式，當(dāng)然可以在其他AI領(lǐng)域進(jìn)一步修改和應(yīng)用，”他向《每日經(jīng)濟(jì)新聞》記者說道。

看看BERT就知道了，雖然“出身”于NLP領(lǐng)域，但已經(jīng)廣泛應(yīng)用于其他AI領(lǐng)域。據(jù)Jie Wang介紹，BERT這類語言模型，基于遞歸神經(jīng)網(wǎng)絡(luò)（RNN）、雙向長短期記憶（Bi-LSTM）等來計(jì)算捕獲潛在語義和句法信息的單詞和句子，這些神經(jīng)網(wǎng)絡(luò)構(gòu)建技術(shù)已廣泛應(yīng)用于圖像處理等其他領(lǐng)域。

科技研究和咨詢公司Gartner在近期發(fā)布的一篇報(bào)告中提及了ChatGPT的集中應(yīng)用方向，一是開放API訪問權(quán)限。據(jù)悉，微軟就計(jì)劃為即將推出的Azure OpenAI ChatGPT提供API；二是在銷售、營銷、個(gè)性化教育以及個(gè)性化醫(yī)療保健領(lǐng)域得以應(yīng)用。

不過，目前來看，ChatGPT廣泛的商業(yè)落地仍然還有一些難題。“我能看到的其中一個(gè)障礙是，ChatGPT提供的結(jié)果是不可信任的，”Jie Wang說道。

OpenAI的首席執(zhí)行官Sam Altman此前也曾在推特上表示，ChatGPT還有很大的局限性，它在某些方面非常出色以至于給人一種誤導(dǎo)的印象。“現(xiàn)在依賴它來做任何事情都是錯(cuò)誤的，我們在穩(wěn)健性和準(zhǔn)確性上還有很多工作要做，”他這樣寫道。

在許多人的幻想中，未來的某一天，會(huì)出現(xiàn)具備與人類同等智慧、或超越人類的AI，能表現(xiàn)正常人類所具有的所有智能行為，它能思考、能判斷，有思想、有倫理——這就是通用AI。ChatGPT能夠引起如此轟動(dòng)的原因也在于，有人認(rèn)為，它的出現(xiàn)似乎讓世界看到了通用AI的曙光。

人類已經(jīng)經(jīng)歷了數(shù)次超級工具的誕生，互聯(lián)網(wǎng)和智能手機(jī)的出現(xiàn)引發(fā)了科技革命，并且極大地改變了人們的思維和生活方式。在Jie Wang看來，如果用ChatGPT來代表基于大型通用語言模型的應(yīng)用，那么ChatGPT有潛力成為下一個(gè)改變世界的超級工具。“我認(rèn)為它有可能改變?nèi)藗冮_展業(yè)務(wù)的方式，”他說道。

不過，現(xiàn)實(shí)情況是，ChatGPT離通用AI的終點(diǎn)，仍然還有一段很長的路要走。

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

人工智能 ChatGPT

上一篇文章

一目了然

返回每經(jīng)網(wǎng)首頁

下一篇文章

注意！紫建電子將于3月8日召開股東大會(huì)

相關(guān)文章