川觀新聞 2024-07-30 10:02:08
“這是全球首個億級參數(shù)量的地震波大模型,今天正式發(fā)布。”7月28日,由國家超級計算成都中心、中國地震局地球物理研究所與清華大學聯(lián)合開發(fā)的“諦聽”地震波大模型正式發(fā)布。
出席活動的四川省地震局副局長杜斌表示,四川作為經濟和能源大省,地質構造復雜,是中國地震活動水平最高、強度最大的地區(qū)之一。此次“諦聽”地震波大模型的發(fā)布不僅是地震科學技術的重大突破,也是對國家重大戰(zhàn)略需求的積極回應。
諦聽地震波大模型發(fā)布現(xiàn)場。
如何練出聽震“神獸”?
“‘諦聽’原本是中國神話傳說中的神獸,可以通過聽音來辨認世間萬物。”中國地震局地球物理研究所副所長陳石說,“我們研發(fā)的‘諦聽’,是一種大型地震學數(shù)據(jù)集以及在此基礎上訓練的人工智能大模型。”
發(fā)布會上,陳石如此解釋“諦聽”的來歷:它們都是通過“聽”去認識、分析自然界中的信息。
陳石說,隨著我國地震監(jiān)測體系的持續(xù)優(yōu)化升級以及近年來人工智能技術的迅猛發(fā)展,地震學研究和防震減災工作也進入了地震波大數(shù)據(jù)時代,“諦聽”地震波大模型應運而生。
那如何訓練這只可以辨識地震的“神獸”?
首先要有數(shù)量足夠的數(shù)據(jù),這就是“諦聽”數(shù)據(jù)集。最初,科研團隊將2013年至2020年間的震相觀測報告和國家測震臺網數(shù)據(jù)備份中心的數(shù)據(jù),經過清洗和脫敏處理后,建立了1.0版本的“諦聽”數(shù)據(jù)集。隨著數(shù)據(jù)規(guī)模的擴大,2023年9月,成都產業(yè)集團運營的國家超算成都中心與中國地震局地球物理研究所達成戰(zhàn)略合作,雙方合作共建“地震大模型創(chuàng)新應用聯(lián)合實驗室”,新一代“諦聽”數(shù)據(jù)集正式落戶成都。
數(shù)據(jù)集是大模型訓練的基礎,數(shù)據(jù)集的規(guī)模和質量直接決定了模型的訓練效果。目前,“諦聽”數(shù)據(jù)集不僅是國內首個,同時也是目前國內外最大規(guī)模、樣本類型和標注最為全面的地震學專業(yè)AI訓練數(shù)據(jù)集之一。
陳石介紹,第一版“諦聽”地震波大模型基于2300萬條地震事件波形進行了預訓練,而我國中國地震臺網每年產生的標注事件波形約為50萬條。以此計算,剛“出生”不久的“諦聽”地震波大模型已相當于擁有約40年地震信號識別經驗的“老專家”。
其次,是算法、模型的設計和調優(yōu)。來自清華大學自動化系的助理研究員劉暢博士介紹,作為全球范圍內地震波大模型的首次探索,需要進行大量基礎性研究,否則模型訓練不充分,實際應用效果不及預期。
簡單來說,算法的選擇和設計直接決定了模型的學習能力和表達能力,算法的優(yōu)化和改進可以提高模型的性能和效果。參數(shù)則是大模型訓練的調節(jié)器,可直接影響模型的準確性和穩(wěn)定性。在“諦聽”大模型中,參數(shù)的數(shù)量非常龐大,也給最優(yōu)參數(shù)的確認造成極大的挑戰(zhàn)。
“人工智能算法的關鍵在于兩個因素,訓練數(shù)據(jù)量和模型參數(shù)量。”陳石用比喻來解釋:訓練數(shù)據(jù)量可以看作是算法的“閱歷”,而參數(shù)量則是算法的“腦容量”。要想有效地記憶和理解海量的地震數(shù)據(jù),并充分挖掘和利用其中的信息,就必須發(fā)展與之相匹配的大“腦容量”的大模型。
“諦聽”都能干什么?
據(jù)悉,目前“諦聽”地震波大模型已可投入使用。陳石談到,“諦聽”地震波大模型依托中國地震臺網的海量數(shù)據(jù),通過先進的人工智能技術,在測試中發(fā)現(xiàn),可以顯著提升地震信號的識別準確率和速度。
因此,從短期看,“諦聽”地震波大模型可直接應用于地震信號識別、地震活動監(jiān)測、大地震快速響應等領域,有望減輕地震局一線業(yè)務人員的工作壓力。
從長期看,地震學是一門觀測科學,重大的突破往往來自對觀測數(shù)據(jù)的深刻理解。對觀測的理解越全面,對觀測的整合能力越強,離地震學科學問題的突破就越近。目前,傳統(tǒng)方法和中小模型均無法充分利用百TB、PB級別的地震觀測數(shù)據(jù),而這些數(shù)據(jù)中蘊含著許多重要的地震學科學問題,只有大模型才能深入挖掘這些“寶藏”。因此,“諦聽”地震波大模型有望為地震科學研究帶來重大突破。
從應用領域看,“諦聽”地震波大模型的前景也十分令人期待。
“未來,該模型的應用場景還可用于礦震監(jiān)測、頁巖氣開采、城市地下空間結構探測、海底地震監(jiān)測等多個領域。”國家超算成都中心常務副主任王建波說。
以尋找油氣為例。目前全球95%以上的油氣田發(fā)現(xiàn)主要是依靠地震勘探。王建波說,地震波在不同介質中傳播時,強度、形態(tài)等特征都不同,“諦聽”地震波大模型通過學習儲存石油區(qū)域的波形特點,就可以推導出地下是否含有油氣。
陳石表示,第一版“諦聽”地震波大模型完成了從預訓練到微調完整流程的從無到有的探索,初步展示了優(yōu)于中小模型的性能,為后續(xù)充分挖掘和發(fā)揮地震波大模型的優(yōu)勢探索了道路,積累了經驗。
“諦聽”之外,超算還能做什么?
“發(fā)展地震波大模型不僅是人工智能地震學領域的必然趨勢,也是該領域的科技制高點。”陳石說,“在具備了足夠的數(shù)據(jù)和算力基礎后,我們迅速組織團隊第一時間開展相關研究工作,力求填補這一重要空白,為地震科學研究和防震減災事業(yè)貢獻一份力量。”
成都數(shù)據(jù)集團黨委副書記、成都超算中心運營管理有限公司董事長郭黎表示,“諦聽”地震波大模型的研發(fā),不僅極大地推動了人工智能算法在地震學領域的開發(fā)、測試和應用,更為地震監(jiān)測預報業(yè)務的智能化發(fā)展提供了堅實的技術支撐。
作為長期在超算領域工作的資深從業(yè)者,王建波認為,“諦聽”地震學數(shù)據(jù)集正式落戶國家超級計算成都中心地震大模型創(chuàng)新應用聯(lián)合實驗室,這是垂直領域專業(yè)數(shù)據(jù)和大規(guī)模算力深度融合、軟硬一體的一次新嘗試。
“‘諦聽’地震波大模型的發(fā)布對于突破中小地震波模型性能瓶頸,提高地震大數(shù)據(jù)智能處理能力和信息挖掘水平具有重要意義。”王建波說,國家超算成都中心強大算力和技術服務能力,不僅可以滿足中國地震局地球物理研究所等科研單位定制化的軟硬一體的服務需求,更是為人工智能和機器人等未來產業(yè)發(fā)展提供了堅實的平臺保障。
目前國家超算成都中心已在多個領域形成特色算力應用。其中:在人工智能大模型領域,國家超算成都中心與成都曉多科技合作,研發(fā)了基于大語言模型技術開發(fā)的垂類電商客服行業(yè)的大型語言模型,可為電商企業(yè)提供智能化的服務和營銷一體化解決方案。今年5月,該模型成功通過國家生成式人工智能服務備案。
國家超算成都中心。
在防災減災領域,中國科學院成都山地災害與環(huán)境研究所就聯(lián)合國家超算成都中心,開展了“氣候變化條件下山地致災風險綠色調控關鍵技術與示范”項目研究,搭建山地災害風險模擬與險情預報平臺,突破精細化、精準化災害預警預報瓶頸。此外,國家超算成都中心還與四川氣象部門合作,提供精準氣象預報服務。
“國家超算成都中心還將不斷加速人工智能技術在防災減災、城市治理等領域的應用與發(fā)展,充分發(fā)揮我們作為大國重器的戰(zhàn)略支撐作用。”王建波說。
國家超算成都中心供圖
視頻:四川新聞聯(lián)播
來源:川觀新聞
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP