文 | 中國(guó)信息通信研究院副院長(zhǎng) 魏亮
習(xí)近平總書記指出,數(shù)據(jù)是數(shù)字經(jīng)濟(jì)時(shí)代的基礎(chǔ)性資源、重要生產(chǎn)力和關(guān)鍵生產(chǎn)要素。近年來大模型技術(shù)不斷取得突破,其中大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)的投入,起到了關(guān)鍵作用,也進(jìn)一步將“以數(shù)據(jù)為中心的人工智能”推向一個(gè)新階段。近期發(fā)布的 Deep Seek 系列模型訓(xùn)練中大量高質(zhì)量推理數(shù)據(jù)集的使用更加凸顯了高質(zhì)量數(shù)據(jù)的重要性,而大模型要與垂直領(lǐng)域深度融合同樣需要高質(zhì)量數(shù)據(jù)集的支撐。國(guó)家數(shù)據(jù)局圍繞高質(zhì)量數(shù)據(jù)集建設(shè)相關(guān)工作開展了一系列工作部署。2025年2月19日,高質(zhì)量數(shù)據(jù)集建設(shè)工作啟動(dòng)會(huì)在北京組織召開,國(guó)家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部等27個(gè)部門參會(huì)。下一步,高質(zhì)量數(shù)據(jù)集建設(shè)工作將積極推進(jìn)落實(shí)“人工智能+”行動(dòng),加快推動(dòng)形成一批標(biāo)志性成果,賦能行業(yè)高質(zhì)量發(fā)展。
01
準(zhǔn)確認(rèn)識(shí)高質(zhì)量數(shù)據(jù)集建設(shè)取得的進(jìn)展和面臨的挑戰(zhàn)
高質(zhì)量數(shù)據(jù)集構(gòu)建是一項(xiàng)復(fù)雜而關(guān)鍵的任務(wù),需要了解模型應(yīng)用場(chǎng)景和需求,進(jìn)而開發(fā)、構(gòu)建和維護(hù)數(shù)據(jù)資源,提供持續(xù)有效的高質(zhì)量數(shù)據(jù)集。當(dāng)前,在頂層設(shè)計(jì)層面,國(guó)家數(shù)據(jù)局等17部門聯(lián)合印發(fā)《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》,強(qiáng)化場(chǎng)景需求牽引,帶動(dòng)數(shù)據(jù)要素高質(zhì)量供給、合規(guī)高效流通,高質(zhì)量數(shù)據(jù)集建設(shè)取得積極進(jìn)展。在地方層面,湖北、江蘇、浙江等多省市明確了建設(shè)高質(zhì)量數(shù)據(jù)集的數(shù)量、時(shí)間及激勵(lì)機(jī)制;湖北省數(shù)據(jù)局發(fā)布首批10個(gè)高質(zhì)量數(shù)據(jù)集,推動(dòng)構(gòu)建高質(zhì)量“數(shù)據(jù)集市”;蘇州市發(fā)布首批30個(gè)工業(yè)制造、交通運(yùn)輸、金融服務(wù)等高質(zhì)量數(shù)據(jù)集。在行業(yè)層面,智源研究院發(fā)布全球最大的多行業(yè)中英雙語(yǔ)數(shù)據(jù)集IndustryCorpus 1.0,包含3.4TB開源行業(yè)預(yù)訓(xùn)練數(shù)據(jù),覆蓋18類行業(yè);中國(guó)信通院推出我國(guó)首個(gè)面向行業(yè)的人工智能數(shù)據(jù)集質(zhì)量評(píng)估體系,為數(shù)據(jù)質(zhì)量提供客觀、公立的評(píng)價(jià)能力和方法體系;北京國(guó)際大數(shù)據(jù)交易所累計(jì)發(fā)布約300個(gè)高質(zhì)量數(shù)據(jù)集,形成10余個(gè)應(yīng)用領(lǐng)域數(shù)據(jù)資源地圖。與此同時(shí),還應(yīng)看到目前高質(zhì)量數(shù)據(jù)集建設(shè)還存在不少挑戰(zhàn)。
一是政府和業(yè)界不清楚行業(yè)高質(zhì)量發(fā)展需要什么樣的數(shù)據(jù)。一方面,行業(yè)大模型數(shù)據(jù)具有需求多樣性的特點(diǎn)。不同行業(yè)部門對(duì)模型場(chǎng)景數(shù)據(jù)的需求各不相同,涉及分析、決策和生成不同的任務(wù)需求,這種多樣性要求在人工智能高質(zhì)量數(shù)據(jù)集建設(shè)中,必須深刻理解業(yè)務(wù)場(chǎng)景。另一方面,行業(yè)大模型數(shù)據(jù)具有需求復(fù)雜性的特點(diǎn)。大模型涉及預(yù)訓(xùn)練、微調(diào)、反饋強(qiáng)化學(xué)習(xí)等不同階段,不同階段都涉及到數(shù)據(jù)訓(xùn)練構(gòu)建和優(yōu)化策略,需要多個(gè)數(shù)據(jù)源、多種數(shù)據(jù)類型融合對(duì)齊,這增加了數(shù)據(jù)處理和管理的復(fù)雜度。
二是行業(yè)企業(yè)不知道高質(zhì)量數(shù)據(jù)集如何構(gòu)建。構(gòu)建大模型數(shù)據(jù)集主要包含數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、質(zhì)量評(píng)估等核心環(huán)節(jié)。各環(huán)節(jié)需要根據(jù)大模型數(shù)據(jù)集具有的規(guī)模大、多樣性足、行業(yè)垂直屬性強(qiáng)等特點(diǎn)進(jìn)行針對(duì)性的技術(shù)研發(fā)和適配。但是,行業(yè)企業(yè)對(duì)于數(shù)據(jù)的理解程度不同,面向大模型的數(shù)據(jù)治理方法和經(jīng)驗(yàn)不足,傳統(tǒng)的數(shù)據(jù)處理工具和技術(shù)無法滿足大模型需求,需要引入先進(jìn)的數(shù)據(jù)處理技術(shù)和工具提高數(shù)據(jù)處理效率和準(zhǔn)確性。
三是業(yè)界不了解行業(yè)數(shù)據(jù)集質(zhì)量如何評(píng)價(jià)。不同行業(yè)、不同數(shù)據(jù)源的數(shù)據(jù)完整性和準(zhǔn)確性可能參差不齊,嚴(yán)重影響大模型的訓(xùn)練效果和預(yù)測(cè)準(zhǔn)確性,造成訓(xùn)練資源浪費(fèi)。此外,訓(xùn)練數(shù)據(jù)獲取往往需要耗費(fèi)大量時(shí)間和經(jīng)濟(jì)成本,包括數(shù)據(jù)收集、清洗、標(biāo)注等環(huán)節(jié)。在行業(yè)大模型的實(shí)際建設(shè)中,對(duì)于構(gòu)建和采買的數(shù)據(jù)沒有統(tǒng)一的衡量標(biāo)準(zhǔn),造成無法有效獲取高質(zhì)量數(shù)據(jù)集資源。
02
分類推動(dòng)高質(zhì)量數(shù)據(jù)集供給體系建設(shè)
數(shù)據(jù)之于大模型就像石油之于汽車,汽車無法直接使用原油,原油只有經(jīng)過一系列復(fù)雜的過程煉化成汽油后,才能給汽車使用。同樣,海量原始數(shù)據(jù)需要經(jīng)過“煉化”形成高質(zhì)量數(shù)據(jù)集,才能真正有效地用于大模型訓(xùn)練。行業(yè)大模型訓(xùn)練所需數(shù)據(jù)集,既要覆蓋行業(yè)通識(shí),也要蘊(yùn)含專門知識(shí)。其中,通識(shí)數(shù)據(jù)是通用大模型能力提升的基礎(chǔ),行業(yè)通識(shí)數(shù)據(jù)是行業(yè)大模型訓(xùn)練的基底,行業(yè)專業(yè)數(shù)據(jù)是企業(yè)推動(dòng)行業(yè)大模型的應(yīng)用、部署私域模型能力的底座。為此要根據(jù)急用先行、分類推進(jìn)、合理使用的原則,推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè)。
一是加快通識(shí)類高質(zhì)量數(shù)據(jù)集建設(shè)。通識(shí)類高質(zhì)量數(shù)據(jù)集是指由政府機(jī)構(gòu)、科研機(jī)構(gòu)、開源社區(qū)或大型互聯(lián)網(wǎng)企業(yè)等公開數(shù)據(jù)構(gòu)建的數(shù)據(jù)集,具有廣泛性和通用性,覆蓋多個(gè)領(lǐng)域,如自然語(yǔ)言處理、計(jì)算機(jī)視覺、語(yǔ)音識(shí)別等,能夠?yàn)槠髽I(yè)提供豐富的訓(xùn)練資源和基準(zhǔn)測(cè)試環(huán)境,有助于行業(yè)大模型快速驗(yàn)證算法、提升模型的基礎(chǔ)能力。此外,公共數(shù)據(jù)集還有助于促進(jìn)跨行業(yè)、跨領(lǐng)域的數(shù)據(jù)共享和知識(shí)融合,推動(dòng)行業(yè)大模型的持續(xù)進(jìn)步和快速發(fā)展。
二是加快行業(yè)通用類高質(zhì)量數(shù)據(jù)集建設(shè)。行業(yè)通用類高質(zhì)數(shù)據(jù)集,是指針對(duì)某一特定行業(yè)或領(lǐng)域知識(shí)的具有事實(shí)性數(shù)據(jù)集,具有高度的專業(yè)性和針對(duì)性。這類數(shù)據(jù)集通常包含某一特定行業(yè)特有的知識(shí)、術(shù)語(yǔ)、場(chǎng)景和業(yè)務(wù)流程等信息,對(duì)于訓(xùn)練出適用于行業(yè)應(yīng)用的大模型至關(guān)重要,能夠覆蓋行業(yè)領(lǐng)域?qū)I(yè)知識(shí),提高模型在行業(yè)通識(shí)領(lǐng)域的泛化能力。
三是加快行業(yè)專用類高質(zhì)量數(shù)據(jù)集建設(shè)。行業(yè)專用數(shù)據(jù)集,是指根據(jù)行業(yè)企業(yè)自身業(yè)務(wù)場(chǎng)景和需求收集的數(shù)據(jù)集。這類數(shù)據(jù)集通常包含行業(yè)企業(yè)內(nèi)部業(yè)務(wù)流程、用戶行為、產(chǎn)品信息等關(guān)鍵信息,具有針對(duì)性和定制化的特點(diǎn),能夠?yàn)樾袠I(yè)企業(yè)提供高度個(gè)性化的訓(xùn)練數(shù)據(jù)資源,構(gòu)建專屬大模型。通過行業(yè)企業(yè)場(chǎng)景化數(shù)據(jù)集的訓(xùn)練,可以定制化地優(yōu)化大模型算法和參數(shù)設(shè)置,深度挖掘內(nèi)部數(shù)據(jù)價(jià)值,實(shí)現(xiàn)模型的定制化優(yōu)化與業(yè)務(wù)高度適配,使其更好地服務(wù)于業(yè)務(wù)需求和發(fā)展戰(zhàn)略,帶來更加精準(zhǔn)和有效的業(yè)務(wù)洞察和決策支持。
03
加快提升高質(zhì)量數(shù)據(jù)集構(gòu)建能力
推動(dòng)高質(zhì)量數(shù)據(jù)建設(shè),是一項(xiàng)系統(tǒng)工程,核心是提升行業(yè)數(shù)據(jù)集管理與運(yùn)營(yíng)效率、提升數(shù)據(jù)集質(zhì)量和數(shù)量、充分挖掘數(shù)據(jù)資源價(jià)值、保障模型數(shù)據(jù)安全可信,需要系統(tǒng)性地加強(qiáng)能力建設(shè)。
一是完善行業(yè)數(shù)據(jù)集管理體系。編制行業(yè)數(shù)據(jù)資源目錄,細(xì)化數(shù)據(jù)集的分類與分級(jí),明確結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化等多種數(shù)據(jù)類型,按照數(shù)據(jù)清洗處理程度(手動(dòng)、半自動(dòng)至全自動(dòng)),開展數(shù)據(jù)集資源管理。構(gòu)建高效協(xié)同的組織架構(gòu),確保從數(shù)據(jù)采集到模型應(yīng)用的每一步都能夠得到有效管理和支持,建立數(shù)據(jù)治理與模型開發(fā)的協(xié)同架構(gòu)。圍繞數(shù)據(jù)技術(shù)、平臺(tái)、應(yīng)用及安全,制定詳盡標(biāo)準(zhǔn),涵蓋數(shù)據(jù)生產(chǎn)、服務(wù)、質(zhì)量評(píng)估及數(shù)據(jù)集管理。培養(yǎng)跨學(xué)科、跨專業(yè)的數(shù)據(jù)工程團(tuán)隊(duì),強(qiáng)化數(shù)據(jù)科學(xué)與模型訓(xùn)練能力,為大模型的成功部署與持續(xù)優(yōu)化奠定堅(jiān)實(shí)基礎(chǔ)。
二是提升行業(yè)數(shù)據(jù)集開發(fā)維護(hù)能力。著力提升數(shù)據(jù)采集匯聚、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注等關(guān)鍵環(huán)節(jié),以及指令微調(diào)、反饋對(duì)齊關(guān)鍵階段的技術(shù)工具能力。數(shù)據(jù)采集匯聚需具備高效的數(shù)據(jù)抓取、清洗與整合能力,確保數(shù)據(jù)的全面性和多樣性;數(shù)據(jù)預(yù)處理階段涵蓋數(shù)據(jù)清洗、去噪、歸一化等技術(shù),以提升數(shù)據(jù)質(zhì)量;數(shù)據(jù)標(biāo)注環(huán)節(jié)要求深入理解數(shù)據(jù)特性,掌握高效的自動(dòng)化和智能化標(biāo)注技術(shù)。行業(yè)大模型數(shù)據(jù)集主要應(yīng)用于指令微調(diào)階段和反饋對(duì)齊階段,通過有標(biāo)注的指令數(shù)據(jù)對(duì)模型進(jìn)行精細(xì)化調(diào)整,增強(qiáng)其任務(wù)執(zhí)行能力,利用用戶反饋優(yōu)化模型提升實(shí)際應(yīng)用效果。此外,還需要制定詳細(xì)的數(shù)據(jù)技術(shù)處理要求和方案,以保證不同階段的數(shù)據(jù)分布一致性。
三是增強(qiáng)行業(yè)數(shù)據(jù)集質(zhì)量控制。在質(zhì)量管理方面,從流程管理、質(zhì)量評(píng)估和組織規(guī)范三方面對(duì)大模型數(shù)據(jù)集生產(chǎn)到管理的各環(huán)節(jié)進(jìn)行能力規(guī)范和等級(jí)評(píng)定,從源頭上確保數(shù)據(jù)集高質(zhì)量生產(chǎn)和管理。在質(zhì)量評(píng)估方面,針對(duì)行業(yè)大模型對(duì)數(shù)據(jù)質(zhì)量進(jìn)行更多維度的要求,提升數(shù)據(jù)集在模型應(yīng)用上的實(shí)用效果。設(shè)計(jì)具體規(guī)則和方法,采用自動(dòng)化標(biāo)注和人工抽樣的方式對(duì)數(shù)據(jù)集自身質(zhì)量進(jìn)行前置檢測(cè),采用模型驗(yàn)證和消融實(shí)驗(yàn)的方式對(duì)數(shù)據(jù)集在大模型的應(yīng)用效果進(jìn)行后置檢測(cè),通過模型效果反饋進(jìn)行數(shù)據(jù)集質(zhì)量?jī)?yōu)化。
做實(shí)、做深、做細(xì)高質(zhì)量數(shù)據(jù)集建設(shè)工作,就要深入貫徹落實(shí)黨中央、國(guó)務(wù)院決策部署,做好系統(tǒng)謀劃、加強(qiáng)統(tǒng)籌協(xié)調(diào)、做好部門協(xié)調(diào)。此次高質(zhì)量數(shù)據(jù)集建設(shè)工作啟動(dòng)會(huì),為推動(dòng)相關(guān)工作發(fā)出了動(dòng)員令、吹響了集結(jié)號(hào)。相信通過國(guó)家數(shù)據(jù)局協(xié)同行業(yè)主管部門的政策牽引和政、產(chǎn)、學(xué)、研、用多方協(xié)同,我國(guó)高質(zhì)量數(shù)據(jù)集建設(shè)步伐將越來越快,也必將為人工智能賦能實(shí)體經(jīng)濟(jì)注入強(qiáng)勁動(dòng)力。
來源:國(guó)家數(shù)據(jù)局
違法和不良信息舉報(bào)投訴電話:0377-62377728 舉報(bào)郵箱:fbypt@m.4729d.com
網(wǎng)絡(luò)警察提醒你 a>
中國(guó)互聯(lián)網(wǎng)舉報(bào)中心
網(wǎng)絡(luò)舉報(bào)APP下載
掃黃打非網(wǎng)舉報(bào)專區(qū)