
財聯社記者最新從國家數據局方面了解到,今年上半年,全國各地已建設高質量數據集超過了3.5萬個,總體量超過400PB。截至目前,全國各地高質量數據集累計交易額已達40億元,交易機構掛牌3364個高質量數據集,總規(guī)模達到246PB。
國家數據局方面透露,為推進高質量數據集的建設,國家數據局布局建設成都、沈陽等七個數據標注基地,目前國內多數模型訓練使用的中文數據占比達到了60-80%,中文高質量數據的開發(fā)和供給能力顯著增強。
同時,人工智能模型訓練正推動數據交易需求上升。以北京數交所為例,高質量數據集占交易總量的比例從去年10%左右提升到目前的近80%。上海、天津、安徽等地正在試點“數據語料作價入股”模式,引導企業(yè)將高質量數據集折算為股權投入新企業(yè)。
此外,國家數據局強調高質量數據集建設基礎保障。通過建立健全數據基礎制度,加快建設數據基礎設施,推進公共數據開發(fā)利用,布局攻關數據領域核心技術,完善數字人才培養(yǎng)體系等一系列組合拳和體系化的布局,持續(xù)推進數據要素市場化改革和“人工智能+”行動同頻共振,聯合各部門創(chuàng)新工作模式,構建部門協同的工作制度,協同發(fā)力,聯合施策,積極引導做好高質量數據集建設工作。
國家數據局稱,下一步將加快打造重點領域,以及具身智能、低空經濟、生物制造等領域數據高地。
財聯社記者了解到,大模型能力邊界幾乎完全由數據的質量、規(guī)模和安全性來定義,數據是提升模型能力的關鍵和模型訓練的基礎,也是拓展智力上線和性能優(yōu)化的支撐,高質量數據將有效降低模型幻覺。
“很多專家說當前的技術條件下,人工智能的發(fā)展體現出很強的數據驅動特色。數據決定了大模型的性能上限。”劉烈宏表示。
此次數博會,財聯社記者注意到,在智算服務器領域表現突出的超聚變2024年起發(fā)力數據層面,目前已構建了統(tǒng)一的資產與數據安全管理體系。
超聚變CIO、城企數智事業(yè)部總裁藍文廣表示,新一代AI+數據技術改變了從業(yè)務到數智化的生產方式、業(yè)務設計與數智化實施方法框架并重構所有的業(yè)務及應用。據悉,在企業(yè)服務領域,超聚變推出的xIBT業(yè)務變革與數智化轉型解決方案,依托100+場景智能體,將企業(yè)業(yè)務流程深度融入智能體架構。
財聯社記者從中國電科集團旗下的中國司法大數據研究院有限公司(以下簡稱“中國法研”)方面了解到,研究院為我國公共數據資源授權運營的先行先試單位,在司法領域高質量數據集建設方面,組織法律專業(yè)知識專家、法律從業(yè)者和高校法律學生共同組成數據標注團隊,構建了基于法律知識體系指引的數據標注系統(tǒng),通過“人機協同”方式,開展了專業(yè)領域數據標注。
中國法研以積累的“法律法規(guī)、司法解釋、指導案例、公開文書”等作為基礎數據源,結合司法領域專業(yè)知識和應用場景需要,歸納和整理形成“法律問答、法條推薦、案件認知”等在內的27類司法語料庫,共計600萬對精調語料;同時,針對檢索增強生成,基于法律實務(文書)和專家觀點數據,構建了超2億條法律行業(yè)知識。
公開信息顯示,作為產業(yè)鏈“鏈主”,目前三大運營商以數據專業(yè)公司為立腳點,致力于構建高質量數據集。其中中國移動已建成覆蓋32個行業(yè)、超3500TB通用高質量數據集。
財聯社記者了解到,在上述《指引》發(fā)布背后,高質量數據集的建設仍面臨諸多挑戰(zhàn)。
余曉暉稱,目前全國已建成超過3.5萬個數據集,Token消耗量呈高速增長態(tài)勢,中央、地方和行業(yè)層面也在積極推動相關工作。然而,實踐中仍面臨諸多挑戰(zhàn),如數據供給、技術、治理體系和標準等問題亟待解決。
中國法研總經理專項助理李曉智在采訪中告訴財聯社記者,現實應用中,數據的合法性和數據保護問題客觀上增加了數據集建設的難度,技術瓶頸仍然存在,當前的算法和工具仍無法有效解決數據標注的高成本和低效率問題,尤其是在人力資源有限的情況下,如何高效、準確地完成大規(guī)模數據集的標注和清洗仍是關鍵問題。
據悉,高質量的領域語料建設,是一項領域知識密集型工作,需投入大量的領域專業(yè)人員。李曉智介紹,雖然現在中國法研已經形成一套人機結合的語料構建、質量檢測方法,但是人工勞動還是占語料構建30%+以上的工作量。后續(xù)中國法研考慮基于法律大模型聯盟形成“數據伙伴”團隊以及中國法研CNAS測評團隊,共同進行行業(yè)語料集建設和評價,希望國家相關部門能夠予以頂層指導和政策支持。
吳世忠研究員亦在其演講中提到了數據來源的合法性風險。
同時吳世忠表示,數據內容面臨可靠性風險,現實中數據集經常面臨低質噪聲、失實性錯誤甚至價值觀的偏差;數據供應鏈方面存在風險,“應高度關注篡改的隱患,數據集從采集、標注、實用多個環(huán)節(jié),數據供應商,外包標注團隊、云平臺等等,任何漏洞都可能成為攻擊的入口”;數據使用方面面臨倫理風險,“嚴防濫用與失控潛在危險,即使數據集本身合法合規(guī),如果缺乏對使用場景的約束,也可能引發(fā)問題及某些包含生物特征的數據,人臉照片,影音片斷,生成類的大模型導致深度偽造方面的技術濫用,這方面的例子出現了很多?!?/span>
網上經營許可證號:京ICP備18006193號-1
copyright?2005-2022 m.bbb7878.com all right reserved 技術支持:杭州高達軟件系統(tǒng)股份有限公司
服務熱線:010-59231580