1月20日,在特朗普宣布啟動總投資5000億美元的“星際之門” (Stargate)AI基礎(chǔ)設(shè)施計劃前一天,杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司——一家此前名不見經(jīng)傳的中國企業(yè),將其開發(fā)的大語言推理模型DeepSeek-R1以開源形式上線。憑借高性能、低成本優(yōu)勢,這個初出茅廬的大模型立刻成為科技圈、投資圈和媒體圈乃至全網(wǎng)關(guān)注的焦點(diǎn)。
《中國化工報》記者注意到,春節(jié)假期后第 一周,多家上市企業(yè)宣布接入DeepSeek,帶動上證科創(chuàng)板50成份指數(shù)和創(chuàng)業(yè)板指數(shù)均漲超5%。但這場帶著全網(wǎng)起飛的“龍卷風(fēng)”,吹到石油和化工行業(yè)時卻好像減了速——迄今為止,鮮少有石油和化工企業(yè)加入這場狂歡。
對此,工業(yè)智能化、AI等研究領(lǐng)域的多位專家近日接受記者采訪時表示,DeepSeek橫空出世令人鼓舞,但要解決AI大模型在流程工業(yè)垂直應(yīng)用的諸多難題并非易事,能否帶飛石油和化工行業(yè),仍需時間檢驗(yàn)。
訓(xùn)練便宜≠成本低 基礎(chǔ)設(shè)施花費(fèi)仍然較高
DeepSeek能在網(wǎng)絡(luò)上掀起巨浪,甚至引發(fā)美國股市中英偉達(dá)等科技股出現(xiàn)“歷史性”大跌的核心“殺手锏”,在于其顛覆性的低成本與高 效 率。
根據(jù)深度求索公司官方放出的數(shù)據(jù),DeepSeek僅用2048塊英偉達(dá) H800圖形處理器(GPU)和557.6萬美元的投入,就訓(xùn)練出了規(guī)模達(dá)6710億參數(shù)的DeepSeek-V3。Open AI創(chuàng)始成員之一Andrej Karpathy表示,按照以往經(jīng)驗(yàn),行業(yè)內(nèi)類似能力級別的大模型大多使用約10萬張GPU。例如,Llama 3 405B模型消耗了3080萬GPU小時,而DeepSeek-V3則用了280萬GPU小時,計算需求僅為前者的十一分之一。
此前,市場上也普遍認(rèn)為同等參數(shù)規(guī)模的GPT-4訓(xùn)練花費(fèi)高達(dá)10億美元。而DeepSeek推出的DeepSeek-R1模型,推理成本僅為OpenAI新模型(o1)的三十分之一。許多后續(xù)研究團(tuán)隊(duì)更是用較低的成本成功復(fù)現(xiàn)了DeepSeek的模型樣本。
從用戶端來看,這樣的數(shù)據(jù)似乎意味著企業(yè)部署AI大模型的花費(fèi)從“腳脖子打折”,個人用戶部署一個自有大模型好像也不再是夢想。但這真的意味著誰都“用得起”大模型的時代到來了嗎?
“部署和訓(xùn)練成本并不等同于應(yīng)用成本。”一位ICT從業(yè)人士表示,DeepSeek成本的降低,主要是靠算法創(chuàng)新對訓(xùn)練成本進(jìn)行了壓縮。根據(jù)官方數(shù)據(jù),研究團(tuán)隊(duì)在訓(xùn)練模型時同時使用了8浮點(diǎn)混合精度訓(xùn)練技術(shù)(FP8)、混合專家模型(MoE)以及自主研發(fā)的多頭潛在注意力(MLA)機(jī)制,解決了傳統(tǒng)Transformer模型在處理長輸入序列時的內(nèi)存瓶頸問題,可將顯存占用降至傳統(tǒng)模型的5%~13%。
而應(yīng)用成本則包括計算設(shè)施、傳輸設(shè)施的建設(shè)成本,數(shù)據(jù)收集與存儲成本等。以煉廠為例,一套催化裂化裝置每秒產(chǎn)生的數(shù)據(jù)點(diǎn)可能就多達(dá)上千個,其中既包括每秒或幾分鐘就要采集一次的溫度和壓力數(shù)據(jù),也包括需要長期連續(xù)測定的催化劑活性數(shù)據(jù),還有一些動設(shè)備如泵的噪音、振動幅度等其他數(shù)據(jù),一家大型煉廠每年產(chǎn)生的數(shù)據(jù)量可能在千億級字節(jié)。即使DeepSeek依靠算法降低了對GPU服務(wù)器集群等計算設(shè)施的需求,其數(shù)據(jù)存儲與傳輸設(shè)施的剛性投入也難以降低,中小企業(yè)搭建自有大模型仍然存在困難。
圖靈獎得主、Meta AI科學(xué)家楊立昆(Yann LeCun)也公開發(fā)聲強(qiáng)調(diào),許多投資者對AI基礎(chǔ)設(shè)施投資存在“重大誤解”?!澳切?shù)十億美元的資金中,很大一部分都投入到了推理基礎(chǔ)設(shè)施中,而不是訓(xùn)練。數(shù)十億人運(yùn)行 AI助手服務(wù)需要大量的計算,一旦你將視頻理解、推理、大規(guī)模內(nèi)存和其他功能納入AI系統(tǒng),推理成本就會增加?!睏盍⒗フf。
模型幻覺難除 輸出內(nèi)容并不完全可靠
此前,DeepSeek憑借一句“打動你的是人類集體智慧的回聲”在網(wǎng)絡(luò)上引起無數(shù)轉(zhuǎn)發(fā)和討論。出于好奇,記者也嘗試讓它進(jìn)行了多種風(fēng)格的寫作,在情感及純文學(xué)寫作中表現(xiàn)出色的DeepSeek,在涉及專業(yè)數(shù)據(jù)時卻有些“不知所云”,它給出了歐洲某家煉油廠應(yīng)用AI優(yōu)化運(yùn)維的案例,但記者按其給出的數(shù)據(jù)無法查證該煉油廠是否真實(shí)存在,“追問” DeepSeek也無法得到該煉油廠更具體的信息。
“這就是大語言模型(LLM)目前應(yīng)用的一個大問題——模型幻覺?!敝谢畔⒓夹g(shù)有限公司專家委員會副主任、華東理工大學(xué)講席教授馮恩波告訴記者,目前LLM僅能勝任知識或數(shù)據(jù)管理方面的工作,但如果讓它產(chǎn)生專業(yè)程度較強(qiáng)的新知識、新內(nèi)容,就需要十分小心,因?yàn)椤澳P突糜X”目前在AI深度學(xué)習(xí)領(lǐng)域中,仍是難以根除的問題。
其中,一部分幻覺數(shù)據(jù)可以通過核對輸入內(nèi)容和生成內(nèi)容發(fā)現(xiàn),并通過調(diào)整輸入關(guān)鍵詞來修正。例如,向AI詢問“中國第 一家化工企業(yè)的名字是什么?”,AI可能會由于抓取關(guān)鍵詞的不同,給出“1880年成立的上海江蘇藥水廠是中國第 一家化工廠”或“始建于1954年的吉林化學(xué)工業(yè)公司(中國石油吉林石化分公司前身),是我國第 一家化工企業(yè)”的答案,用戶可以通過添加例如“新中國成立前/后”等關(guān)鍵詞再進(jìn)行篩選。
另一部分的幻覺則更加“危險”?!坝锌赡蹵I會給你一個語言華麗、數(shù)據(jù)漂亮的成果報告,但其中‘融化’了大量不確定性高,甚至在專業(yè)人士看來是謬論的數(shù)據(jù)?!瘪T恩波強(qiáng)調(diào),尤其要謹(jǐn)防AI講話“真假參半”,將虛假的數(shù)據(jù)掩藏在大量專業(yè)詞匯和華麗的語言之后,因?yàn)榧词故菍ο嚓P(guān)從業(yè)者來說,一一核對與辨別這些案例和數(shù)據(jù)的不合理之處,也是非常困難的事情。如果這些摻雜“幻覺”的數(shù)據(jù)和知識進(jìn)入數(shù)據(jù)庫,被用在流程行業(yè)實(shí)際生產(chǎn)系統(tǒng)的實(shí)時優(yōu)化、實(shí)時控制等方面,可能造成嚴(yán)重后果。
對此,他建議,行業(yè)可以先利用大數(shù)據(jù),建立較為準(zhǔn)確的反應(yīng)機(jī)理模型作為“司令員”,在此基礎(chǔ)上應(yīng)用大語言推理模型作為“參謀長”進(jìn)行輔助判斷,再由有經(jīng)驗(yàn)的操作員***終驗(yàn)證和確定反應(yīng)流程的實(shí)時優(yōu)化與控制該如何進(jìn)行,從而提高模型應(yīng)用的準(zhǔn)確性與可靠性。
“目前,DeepSeek這樣的大模型也會造成很多‘幻覺’,但企業(yè)需要大模型在決策過程中能保證百分之百的準(zhǔn)確性?!北本┲嘘P(guān)村科金技術(shù)有限公司總裁喻友平說:“大模型在面向企業(yè)端(To B)的應(yīng)用離理想狀態(tài)還有很大距離,這比面對終端消費(fèi)者(To C)場景的挑戰(zhàn)要大得多?!?/span>
數(shù)據(jù)“地基”不穩(wěn) 廣泛應(yīng)用尚有待時日
近年來,能源化工行業(yè)AI大模型應(yīng)用已經(jīng)取得了初步成績,例如中國石油700億參數(shù)昆侖大模型、中控石化化工大模型、中國海油“海能”人工智能模型,但要實(shí)現(xiàn)更加廣泛的應(yīng)用,仍在可用性與易用性方面面臨挑戰(zhàn)。多位業(yè)內(nèi)專家表示,大語言推理模型在流程行業(yè)的應(yīng)用仍然需要夯實(shí)數(shù)據(jù)和機(jī)理的“地基”,以保障其安全性與可靠性。
中國工程院院士、中國石油勘探開發(fā)研究院正高級工程師劉合此前表示,數(shù)據(jù)治理是油氣行業(yè)AI大模型應(yīng)用的關(guān)鍵,如何在保證數(shù)據(jù)安全和保密的前提下,充分整合分散的數(shù)據(jù)并訓(xùn)練行業(yè)模型,是行業(yè)一直在探索的一個“大問題”。
但對于石化行業(yè)來說,推動數(shù)據(jù)治理,打牢大語言模型應(yīng)用的“地基”并不容易。一方面,石化行業(yè)的數(shù)據(jù)環(huán)境極為復(fù)雜、數(shù)據(jù)來源廣,且受外部環(huán)境影響噪聲高,容易出現(xiàn)數(shù)據(jù)不完整的情況;另一方面,主流深度學(xué)習(xí)的模型通常在靜態(tài)數(shù)據(jù)集上進(jìn)行訓(xùn)練,而實(shí)際生產(chǎn)是“牽一發(fā)而動全身”,催化劑中毒、不同批次原料成分的細(xì)微改變,都會使設(shè)備狀態(tài)及工藝參數(shù)發(fā)生漂移,導(dǎo)致數(shù)據(jù)集逐漸“過期”,優(yōu)化模型也不再有效。劉合在其署名文章《油氣大模型破局需從三方面發(fā)力》中也提出,油氣企業(yè)必須強(qiáng)化數(shù)據(jù)全生命周期管理,從數(shù)據(jù)源頭、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)融合和匹配、數(shù)據(jù)完整性增強(qiáng)、數(shù)據(jù)標(biāo)注等環(huán)節(jié)嚴(yán)格規(guī)范,建立高質(zhì)量的訓(xùn)練樣本庫,提升數(shù)據(jù)治理能力,從而為行業(yè)大模型提供堅實(shí)的數(shù)據(jù)基礎(chǔ)。
“除了挖掘數(shù)據(jù)與場景價值點(diǎn)外,石化企業(yè)應(yīng)用大模型的另一個重點(diǎn)是安全性和保密性問題?!闭憬潞统晒煞萦邢薰具\(yùn)營首席專家鄭根土認(rèn)為,數(shù)據(jù)安全治理也是企業(yè)所擔(dān)憂的問題,目前國家已經(jīng)出臺了數(shù)據(jù)流通安全治理的相關(guān)法案,但數(shù)據(jù)流通安全治理體系仍然有待構(gòu)建,相關(guān)機(jī)制也并不完善,需要企業(yè)、行業(yè)與相關(guān)部門多方協(xié)同,提高行業(yè)數(shù)據(jù)流通與應(yīng)用的監(jiān)管效能。
喻友平表示:“展望未來,AI在To B領(lǐng)域的應(yīng)用將面臨轉(zhuǎn)型與創(chuàng)新的雙重挑戰(zhàn)。企業(yè)需要逐步建立基于大模型的智能決策系統(tǒng),同時考慮如何增強(qiáng)系統(tǒng)的透明性,確保AI生成內(nèi)容的可追溯性與可靠性。此外,還應(yīng)密切關(guān)注相關(guān)法規(guī)政策,以預(yù)防不當(dāng)使用AI技術(shù)可能帶來的法律和倫理問題?!?/span>
如有侵權(quán) 請聯(lián)系刪除