- 基于AIGC的系統(tǒng)級軟件生成平臺
- 【100%AI生成】無論代碼,還是UI,均完全由AI生成。
【系統(tǒng)級軟件】依據(jù)功能/UI需求書,支持5萬行以上代碼及UI自動生成。
【個性定制化】通用辦公類軟件,滿足用戶個性化要求。
-
- 復(fù)旦大學(xué)肖仰華:面向領(lǐng)域應(yīng)用的大模型關(guān)鍵技術(shù)
-
-
來源:達觀數(shù)據(jù)
本文整理自7月7日世界人工智能大會“AI生成與垂直大語言模型的無限魅力”論壇上上海市數(shù)據(jù)科學(xué)重點實驗室主任,復(fù)旦大學(xué)教授肖仰華《《面向領(lǐng)域應(yīng)用的大模型關(guān)鍵技術(shù)》》的主題分享。
當ChatGPT之類的生成式大模型呈現(xiàn)出較強的通用智能能力之后,產(chǎn)業(yè)界的關(guān)注點較多地落在了千行百業(yè)。大模型只有在實體型的千行百業(yè)落地取得效果才能凸顯其價值。ChatGPT之類的大模型均是用通用語料訓(xùn)練而成,具備通識能力。那么自然就會遇到一些有意思的問題,為何千行百業(yè)的垂直領(lǐng)域需要通用大模型?當前的通用大模型是否就已經(jīng)能夠勝任垂直領(lǐng)域的復(fù)雜任務(wù)?通用大模型需要如何優(yōu)化才能勝任領(lǐng)域中的復(fù)雜任務(wù)。本報告對這些問題做初步回答。
一、垂域問題為何需要通用大模型解決?
首先,通用生成式大模型所帶來的開放世界理解能力是至關(guān)重要的。這種能力使得大模型能夠?qū)Ω鞣N開放環(huán)境中的自然語言問題都有著一定程度的理解,在大多數(shù)情況下能夠提供準確答案。盡管當前的生成式大模型在生成答案時可能存在一些事實或邏輯上的錯誤。但總體而言,其生成的內(nèi)容不會偏離問題的主題,對于通識問題能夠進行準確回答。這種開放世界問題理解能力對于垂域領(lǐng)域認知的實現(xiàn)至關(guān)重要。ChatGPT之前的AI實現(xiàn)思路傾向于認為只有讓其學(xué)會大多數(shù)垂域的能力,才能實現(xiàn)開放世界的通識理解能力;蛘哒f,如果垂域認知都無法實現(xiàn),實現(xiàn)通用認知則更加困難。然而,ChatGPT出現(xiàn)之后,證明了先煉制通用大模型塑造機器的通識能力,再經(jīng)垂直領(lǐng)域數(shù)據(jù)的持續(xù)訓(xùn)練練就垂域認知能力,是一條更為可行的落地路徑。事實上,將機器的垂域認知能力建立在通用認知能力基礎(chǔ)之上是必然的、是合理的。一個醫(yī)生如不理解“健康”,怎么可能真正理解 “疾病”。也就是說理解某個概念,不單單要理解這個概念自身的內(nèi)涵與外延,更要理解概念之外的內(nèi)涵與外延。所以,理解領(lǐng)域內(nèi),就包括理解領(lǐng)域外,傳統(tǒng)所謂的“垂域認知”本質(zhì)上是個偽命題。這種“先通識、再專識”的智能實現(xiàn)路徑與人類的教育過程極為相似。我們?nèi)祟惖慕逃,首先是?cè)重通識教育的基礎(chǔ)教育,才是側(cè)重專業(yè)知識的高等教育。生成式大模型的發(fā)展刷新了我們對領(lǐng)域認知智能實現(xiàn)路徑的認識,這是大模型技術(shù)發(fā)展帶來的重要啟發(fā)之一。
大模型除了開放世界的理解能力之外,還具有很多其他能力特性,在領(lǐng)域應(yīng)用中尤為值得關(guān)注:
1、組合創(chuàng)新能力
通過在訓(xùn)練階段引導(dǎo)大模型學(xué)習(xí)多個不同任務(wù),從而可以讓大模型組合創(chuàng)造出解決更多復(fù)合任務(wù)的能力。例如,我們可以讓大模型根據(jù)李清照的詩詞風(fēng)格寫一個Python代碼的注釋,這要求它既具備寫詩的能力,又具備編寫代碼的能力。大模型通過對指令學(xué)習(xí)的結(jié)果進行組合泛化,模擬了人類舉一反三的能力,從而讓機器能夠勝任一些從未學(xué)習(xí)過的新任務(wù)。
2、評估評價能力
通用大模型具有出色的評估評價能力,具有一定規(guī)模的大模型(特別是百億以上的大模型)在常見的文本任務(wù)結(jié)果評估方面具有優(yōu)良性能。傳統(tǒng)的文本任務(wù),其結(jié)果評估工作往往需要人工參與,耗費昂貴的人力成本。而現(xiàn)在,我們可以利用大模型進行很多評估任務(wù)。例如,我們可以讓大模型扮演一個翻譯專家的角色,對翻譯質(zhì)量進行評估。通過設(shè)計合理的評價標準、給出有效的評分示例、給出翻譯專家評價過程思維鏈,巨型大模型(比如GPT4)是能夠出色的完成諸如習(xí)語翻譯這類非常專業(yè)的評價工作。大模型的評價能力能夠顯著領(lǐng)域任務(wù)中的人工評價的成本,從而顯著降低領(lǐng)域智能化解決的方案的落地成本。
3、復(fù)雜指令理解及其執(zhí)行能力
復(fù)雜指令理解及其執(zhí)行能力是大模型的核心特點之一。只需給予大模型詳細的指令,清晰表達任務(wù)約束或規(guī)范,超大模型就能夠按指令要求地完成任務(wù)。這種忠實于指令要求的能力與大模型的情境化生成能力高度相關(guān)。給定合理提示,且提示越是豐富、細致,大模型往往越能生成高質(zhì)量內(nèi)容。大模型的情景化生成能力刷新了我們對智能本質(zhì)的認識,傳統(tǒng)關(guān)聯(lián)認為智能是人類的知識發(fā)現(xiàn)和應(yīng)用能力。這類定義是從人類視角出發(fā),知識是人類認知世界的產(chǎn)物。而從大模型的角度來看,只要在給予的情境提示做出合理生成,就是一種智能。這種情景化生成能力本質(zhì)上體現(xiàn)了一種建模世界的能力,且無關(guān)于人類對于世界的認知方式。
4、復(fù)雜任務(wù)的分解能力和規(guī)劃能力
復(fù)雜任務(wù)的分解能力和規(guī)劃能力是大模型的另一項優(yōu)勢。它可以將復(fù)雜任務(wù)分解為多個步驟,并合理規(guī)劃任務(wù)的執(zhí)行順序。這為垂域應(yīng)用提供了重要的機會,使得大模型能夠與傳統(tǒng)信息系統(tǒng)協(xié)同工作,將傳統(tǒng)IT系統(tǒng)中數(shù)據(jù)庫、知識庫、辦公自動化系統(tǒng)、代碼庫等眾多系統(tǒng)高效協(xié)同,完成以往傳統(tǒng)智能系統(tǒng)難以勝任的復(fù)雜決策任務(wù),從而提升整個信息系統(tǒng)的智能水平。
5、符號推理能力
此外,大模型還具備符號推理能力,可以進行常識推理、以及一定程度的邏輯推理、數(shù)值推理。雖然這些推理能力在面對復(fù)雜的領(lǐng)域文本任務(wù)時仍需進一步提升其專業(yè)水平。此外,價值觀對齊能力也是大模型落地的重要特性,以確保大模型的輸出與我們?nèi)祟愓l的倫理道德、意識形態(tài)、價值觀念相一致。
總而言之,通用大模型作具備開放世界的理解能力、組合創(chuàng)新能力、評估能力、忠實的指令理解和執(zhí)行能力、復(fù)雜任務(wù)的分解和規(guī)劃能力、符號推理能力以及與價值觀對齊能力性。這些優(yōu)點使得大模型成為了為人工智能的新基座。也就是說任何應(yīng)用接入大模型,均可以享受其所到來的智能能力。大模型也日益成為智能化應(yīng)用生態(tài)中的核心部件,控制與協(xié)調(diào)各個傳統(tǒng)信息系統(tǒng),帶動信息系統(tǒng)智能水平的整體性提升。
二、大模型能夠直接勝任垂域任務(wù)嗎?
對于通用大模型是否已經(jīng)能夠勝任垂域任務(wù),需要審慎評估。目前的判斷是,大模型還無法直接勝任各領(lǐng)域復(fù)雜決策任務(wù)。因此,在企業(yè)服務(wù)市場,我們既要重視大模型給我們帶來的重大機遇,也要保持冷靜,對ChatGPT能做什么不能做什么保持謹慎態(tài)度。要意識到,我們?nèi)孕栝_展大量研究工作才能將ChatGPT應(yīng)用落地。
ChatGPT這類大模型在開放環(huán)境下的人機對話或閑聊已經(jīng)取得顯著效果,但其解決實際工作中的復(fù)雜決策任務(wù)存在差距。我們在垂直領(lǐng)域的大部分任務(wù)是復(fù)雜決策任務(wù)。例如,設(shè)備故障排查、疾病診斷、投資決策……等任務(wù)都屬于嚴肅的復(fù)雜決策場景。所謂“嚴肅”是指這些任務(wù)對于錯誤有著較低的容忍度。上述場景的任一錯誤都會帶來巨大損失與難以接受的代價。這些任務(wù)也是“復(fù)雜”的,需要豐富的專業(yè)知識、復(fù)雜的決策邏輯、宏觀態(tài)勢的判斷能力(例如股票市場的宏觀態(tài)勢)。還需要擁有綜合任務(wù)的拆解與規(guī)劃能力,比如將故障排查分解成若干步驟;需要復(fù)雜約束下做出取舍的能力,例如投資決策往往要多眾多約束進行權(quán)衡與取舍。還需要具備未見事物的預(yù)見能力和在不確定場景下進行推理和推斷的能力,因為我們現(xiàn)實環(huán)境發(fā)展快速往往超出我們預(yù)期,我們往往要在對信息不完全的情況下就要做出及時的決策。
舉個例子來說,讓機器“調(diào)研知識工場實驗室最近發(fā)表的大模型持續(xù)學(xué)習(xí)的論文”,這看似一個簡單的任務(wù),實則需要使用上述各類復(fù)雜決策能力。例如,要了解知識工場實驗室是一個什么樣的團隊、有哪些成員,需要了解大模型持續(xù)學(xué)習(xí)的內(nèi)涵,需要具備AI領(lǐng)域的專業(yè)知識。同時,還需要知道如何查找論文資源(比如我們都知道計算機領(lǐng)域的前沿論文往往可以從Arxiv網(wǎng)站上下載),下載論文時可能會遇到一些未預(yù)料到的問題(例如網(wǎng)絡(luò)訪問出現(xiàn)404、出現(xiàn)驗證碼等情況)。我自己實驗室的本科生、碩士生顯然能夠完成上述任務(wù)。但是,當前的大模型還難以完成整套流程中的工作,還需要針對性地提升大模型自身的能力,還需要從外圍不足大模型的先天不足。
總體而言,大模型在領(lǐng)域知識方面仍然相對匱乏。通用大模型具備寬廣的知識底座,具有寬度有余但深度不足。然而,在解決實際問題時,例如運維問題,如果沒有設(shè)備相關(guān)的知識,是無法勝任運維任務(wù)的。因此,大模型需要具備專業(yè)知識的深度和長程推理的能力,才能在垂直領(lǐng)域落地應(yīng)用。
另一個無法回避的問題是大模型的"幻覺"問題,即一本正經(jīng)地胡說八道問題。當我們詢問復(fù)旦大學(xué)的校訓(xùn)時,大模型可能會很有條理地編造出看似嚴謹?shù)幕卮。但仔細查證,你會發(fā)現(xiàn)在一些基本事實(比如它編造了復(fù)旦校訓(xùn)的出處),大模型的回答容易出錯。大模型以“一本正經(jīng)”的文字風(fēng)格編造答案的現(xiàn)象,將會為其應(yīng)用帶來巨大困擾。因為看似嚴謹?shù)幕卮鹜刂恍┗臼聦嶅e誤,我們在應(yīng)用時仍然要付諸極大的代價進行信息真?zhèn)蔚呐袛唷_@實質(zhì)上反而帶來了大模型應(yīng)用的額外成本。大模型的幻覺問題,其自身經(jīng)過優(yōu)化之后能夠解決么?比如使用更多的訓(xùn)練數(shù)據(jù),更充分算力的訓(xùn)練。理論上ChatGPT這類大模型是概率化的生成式大模型,仍然會以一定概率犯錯。某種意義上,幻覺是大模型的創(chuàng)造力所必須付出的代價,魚和熊掌難以兼得。因此,幻覺問題是大模型落地垂域應(yīng)用不可避免的問題。
此外,大模型缺乏對于給定信息的"忠實度"。在領(lǐng)域任務(wù)中,我們需要大模型遵循特定領(lǐng)域的規(guī)范、制度、流程和知識進行回答。然而,如果沒有進行適當?shù)恼{(diào)優(yōu),大模型往往會拋開給定的文檔或信息,而傾向于利用已習(xí)得的通用知識進行自由發(fā)揮。飄逸的創(chuàng)造發(fā)揮與忠實的事實陳述是一對難以調(diào)和的矛盾。對于一個給定的問題,是用通識回答還是用專識回答。我們?nèi)祟悓τ趩栴}的知識適配,往往是直覺方式完成的,但是要讓機器在通識和專識之間的靈活協(xié)同是十分困難的。雖然巨型大模型(比如GPT4)能在一定程度上緩解大模型忠實度缺乏的問題,但是即便進行過微調(diào)和優(yōu)化,大模型的答案仍然有可能超越給定的范圍,從而產(chǎn)生錯誤。這是當前通用大模型面臨的一個重大問題。
因此,我的基本判斷是僅僅依靠現(xiàn)有的通用大模型是不足以解決各行業(yè)領(lǐng)域的許多問題的。我們需要發(fā)展垂域大模型,并積極發(fā)展外圍插件,實施大模型和知識圖譜、傳統(tǒng)知識庫相結(jié)合的策略,緩解大模型的自身問題,提升大模型的落地效果。
三、通用大模型如何才能勝任垂域任務(wù)?
通用大模型向特定領(lǐng)域應(yīng)用,仍需大量優(yōu)化,才能從“不作詩、只做事”,才能從一個知識容器變成解決問題的利器,才能釋放大模型的巨大潛力。我相信達觀數(shù)據(jù)的"曹植"模型也在做類似優(yōu)化。我將以我實驗室自己的大模型KW-CuteGPT面向領(lǐng)域優(yōu)化過程作為例子,向大家介紹大模型勝任垂域任務(wù)的路徑。存在兩個基本優(yōu)化的路徑,一是大模型自身的優(yōu)化,二是大模型與外圍技術(shù)的協(xié)同。
先討論大模型自身能力如何優(yōu)化。首先是提升大模型對長文本的理解能力。比如,用大模型做對客服通話記錄進行總結(jié)是一個很常見的應(yīng)用場景,很多客戶經(jīng)常花了五六分鐘,通過冗長對話記錄,才能表達自己的意圖。而其中可能只包含一兩個重要的信息點。用大模型進行對話的摘要,需要支持長文本的理解能力。當前已經(jīng)商用的一些大模型,如GPT-4,已經(jīng)能夠支持最長32K的輸入長度,相當于上萬字,是非常了不起的能力。然而,大多數(shù)開源模型只支持2-4K的輸入長度,在長文本的理解能力方面仍存在不足。因此,在發(fā)展垂域大模型的過程中,首要的任務(wù)就是提升長文本輸入的理解與處理能力。長文本之所以具有挑戰(zhàn)性,是因為其中存在全局語義約束,許多語義約束涉及多個句子甚至多個段落,讓大模型理解這種全局上下文仍是巨大挑戰(zhàn)。
其次,我們需要進一步提升大模型求解復(fù)雜任務(wù)的規(guī)劃和協(xié)同能力。這里同樣給出一個問答系統(tǒng)中的真實案例,我們常常面臨一個困惑:對于某個自然語言問題,是應(yīng)該調(diào)用知識圖譜的知識來回答,還是讓大模型來回答?我們希望大模型能夠自主決策、規(guī)劃,判斷是否需要使用外部知識,并決定需要使用哪些外部知識。對于不同來源或不同類型的知識,可以通過API調(diào)用獲取其知識。這就進一步需要讓大模型理解API以及相應(yīng)的使用規(guī)則、調(diào)用關(guān)系、參數(shù)配置以及輸入輸出格式等,從而實現(xiàn)達模型其與外部知識庫工具的協(xié)同。然而,客觀來說,大模型的外部工具林林種種,工具所處的環(huán)境也是非常復(fù)雜,必須不斷進行優(yōu)化大模型的規(guī)模與協(xié)同能力,才能確保大模型在協(xié)同各種工具完成復(fù)雜任務(wù)是取得理想效果。
第三,還需要進一步優(yōu)化文本的結(jié)構(gòu)化解釋和風(fēng)格樣式。在實際應(yīng)用中,用戶對樣式有特定要求,需要大模型能夠理解并及時響應(yīng)對輸出格式的調(diào)整。行業(yè)復(fù)雜抽取仍然面臨著很大的需求。過去,我們通常需要在提示中提供行業(yè)背景信息(比如領(lǐng)域Schema),大模型才能夠抽取出關(guān)鍵要素。經(jīng)過優(yōu)化之后,大模型在各個領(lǐng)域的背景理解能力大幅提升,可以自適應(yīng)地對各個領(lǐng)域的背景進行理解,而無需依賴于特定的行業(yè)背景提示,能夠?qū)I(yè)性較強的文本進行結(jié)構(gòu)化分析和拆解。
第四,要持續(xù)提升大模型的問答領(lǐng)域問題的能力,包括不兜圈子直接回答、忠實于給定文檔的回答以及堅定正確信念等能力。通用大模型在問答過程中容易出現(xiàn)繞圈子、和稀泥式樣的回答。在與大模型對話的過程中,它很可能會回復(fù)“我是一個大模型,我的回答僅供參考……”,不愿意給出具有明確判斷性質(zhì)的答案(主要是通用模型出于安全、免責(zé)的初衷),讓你困惑了半天卻無法獲得想要的答案。垂域應(yīng)用中,我們不希望它繞圈子,我們希望它能直接給出答案,才能輔助我們實現(xiàn)決策。同時,我們要求大模型在給定文檔的基礎(chǔ)上生成答案時,不要超出給定的內(nèi)容范圍。它必須結(jié)合給定的內(nèi)容和自身的語言生成能力,給出一個合理的答案,而不是自行發(fā)揮。在垂域應(yīng)用中,我們不希望大模型隨意發(fā)揮,它需要忠實于所涉領(lǐng)域。另外,要提升大模型對于正確信念的堅持能力。信念不堅定的模型會出現(xiàn)“墻頭草”式的回答,即沒有明確立場,你告訴它"你錯了",它立即改口,你說"2+2=4"是錯誤的,它會說"是的,我錯了,2+2應(yīng)該等于5"。信念過于堅定的大模型又會出現(xiàn)“死鴨子嘴硬”的問題,即明確提示它回答錯誤了,但它仍然堅持不改。這兩種情況都是錯誤的。在垂域的應(yīng)用中,我們希望大模型能夠意識到自己的錯誤,既不動搖自己的正確信念,又能夠避免死鴨子嘴硬式的知錯不改問題。
從大模型與外圍技術(shù)的協(xié)同角度來看,首先還需要進一步優(yōu)化大模型的診斷和應(yīng)用評測。知識工場實驗室最近發(fā)布了幾個跨學(xué)科的評測體系,這些評測體系旨在從大模型訓(xùn)練過程的診斷以及大模型的應(yīng)用效果兩個角度進行評測。目前許多評測都是以應(yīng)用效果為導(dǎo)向,但實際上,面向診斷的評測也十分重要。我們需要建立訓(xùn)練大模型所需的數(shù)據(jù)集的評測基準,需要通過評測建立大模型訓(xùn)練過程中的關(guān)鍵參數(shù)、模型架構(gòu)、數(shù)據(jù)配比的最佳實踐體系。此外,大模型的評測應(yīng)該從當前最求標準評測數(shù)據(jù)集上的“高分”的單一目標發(fā)展到兼顧解決實際問題的“高能”的雙重目標。這意味著評測不僅僅關(guān)注各類側(cè)重考察知識點掌握能力的考題評測,更要關(guān)注大模型解決實際復(fù)雜的決策問題的能力。面向“高分高能”的大模型評測體系,是大模型評測主要發(fā)展方向。
另外,還要進一步提升大模型的數(shù)據(jù)治理能力。大模型在實際應(yīng)用中表現(xiàn)出的很多問題,比如答案偏見、隱私泄露、版權(quán)侵犯、內(nèi)容違規(guī)、錯誤觀念等等,最終均可以歸結(jié)到數(shù)據(jù)源頭的問題。當前的主流思路仍然是大模型能力煉制之后的事后優(yōu)化。這里需要指出的是,事后優(yōu)化難以從源頭上解決大模型的上述問題。比如大模型的隱私泄露、版權(quán)侵犯、意識形態(tài)錯誤,我們無法在結(jié)果層面百分百地保證其相應(yīng)安全性。大模型仍然存在一定的犯錯概率,或者是難以預(yù)料的犯錯情形,從而造成違背相關(guān)法律規(guī)范,帶來難以彌補的影響。因此,必須從數(shù)據(jù)源頭加強數(shù)據(jù)治理,開展數(shù)據(jù)清洗、隱私識別、樣本糾偏、違規(guī)內(nèi)容清洗等的工作。有關(guān)部門應(yīng)積極推動大模型訓(xùn)練數(shù)據(jù)集的標準與規(guī)范,進行大模型訓(xùn)練數(shù)據(jù)集的合規(guī)性認證,從數(shù)據(jù)源頭保障大模型產(chǎn)業(yè)的健康發(fā)展。
總而言之,目前國產(chǎn)大模型研發(fā)中的主要問題仍然在于缺乏數(shù)據(jù)治理系統(tǒng)與能力、評測偏離應(yīng)用需求。加大這兩個方面的研究力度,推動這兩個問題的解決,是近期推動我國大模型產(chǎn)業(yè)向好發(fā)展的關(guān)鍵舉措。
最后,仍然強調(diào)一下,通用大模型絕不能停留在類ChatGPT的開放式聊天階段,必須盡快提升其解決實際問題的能力,引導(dǎo)大模型發(fā)展成為助力我國各行業(yè)高質(zhì)量發(fā)展與數(shù)字化轉(zhuǎn)型的先進生產(chǎn)力。
-
-