色综合视频一区中文字幕_国产91对白在线播放边_亚洲AⅤ日韩久久久久久_中文字幕日韩第一页

首頁(yè)|新聞中心|電視點(diǎn)播|專(zhuān)題專(zhuān)欄|視聽(tīng)|長(zhǎng)三角 設(shè)為首頁(yè)|收藏本站
瞭望 | 人工智能的“數(shù)據(jù)瓶頸”
來(lái)源:新華網(wǎng) 作者: 發(fā)表時(shí)間:04-10 17:16

基于龐大數(shù)據(jù)和超高算力的“暴力美學(xué)”,是當(dāng)前生成式人工智能的核心打法,也是以O(shè)penAI為代表的一眾企業(yè)的發(fā)展密碼。簡(jiǎn)單來(lái)說(shuō),在同等條件下,喂的數(shù)據(jù)越多,人工智能就越強(qiáng)

在全球范圍內(nèi),數(shù)據(jù)存量的增長(zhǎng)速度遠(yuǎn)遠(yuǎn)低于數(shù)據(jù)集規(guī)模的增長(zhǎng)速度。據(jù)人工智能研究機(jī)構(gòu)epoch的研究預(yù)測(cè),語(yǔ)言數(shù)據(jù)可能在2030~2040年耗盡,其中能訓(xùn)練出更優(yōu)性能的高質(zhì)量語(yǔ)言數(shù)據(jù)甚至可能在2026年耗盡

中國(guó)的數(shù)據(jù)量很大,但沒(méi)有真正產(chǎn)業(yè)化,相對(duì)標(biāo)準(zhǔn)化的數(shù)據(jù)服務(wù)商還比較少,因?yàn)榇髷?shù)據(jù)服務(wù)不賺錢(qián),公共數(shù)據(jù)企業(yè)沒(méi)有意愿去清洗,定制化服務(wù)又一般收費(fèi)比較高

文 |《瞭望》新聞周刊記者 郭方達(dá)

在阿西莫夫經(jīng)典科幻小說(shuō)《最后的問(wèn)題》當(dāng)中,兩個(gè)喝得醉醺醺的“程序猿”向人工智能詢問(wèn)了這樣一個(gè)問(wèn)題:“怎樣使宇宙的總熵大幅降低?”

“數(shù)據(jù)不足,無(wú)法作答。”人工智能未能在第一時(shí)間解答這個(gè)問(wèn)題。盡管在小說(shuō)的最后,這個(gè)仿若翻版ChatGPT的人工智能在時(shí)間的盡頭交出了答卷,但貫穿整個(gè)宇宙生命的過(guò)程中,它始終都在做一件事:收集數(shù)據(jù)。

數(shù)據(jù),是人工智能賴(lài)以發(fā)展的核心資源。小說(shuō)的情節(jié)固然戲劇化,但其內(nèi)容卻與發(fā)展生成式人工智能的現(xiàn)實(shí)矛盾不謀而合。

當(dāng)前,“百模大戰(zhàn)”如火如荼,頭部企業(yè)競(jìng)相投身人工智能賽道,但有效數(shù)據(jù)不足,特別是高質(zhì)量中文語(yǔ)料的短缺以及部分領(lǐng)域封閉式的數(shù)據(jù)生態(tài)給人工智能發(fā)展帶來(lái)了掣肘。如何解決“數(shù)據(jù)瓶頸”是未來(lái)一段時(shí)期我們即將面臨——或已經(jīng)面臨的挑戰(zhàn)。

中國(guó)科學(xué)院自動(dòng)化研究所人形機(jī)器人攻關(guān)團(tuán)隊(duì)研制的譜系化人形機(jī)器人(2024年1月31日攝)   金立旺攝/本刊

數(shù)據(jù)海洋的“圈地運(yùn)動(dòng)”

海濱港口、城市霓虹、幼犬互動(dòng)……近日,由美國(guó)人工智能文生視頻大模型Sora生成的數(shù)個(gè)視頻迅速吸引了世界目光。與“文生圖”不同,Sora發(fā)布的視頻長(zhǎng)達(dá)60秒,具有豐富的運(yùn)動(dòng)變化,其中物品相互之間的作用關(guān)系、物理規(guī)律的刻畫(huà)都達(dá)到了近乎以假亂真的地步。從物體互動(dòng)到光影斑駁,屏幕上像素點(diǎn)的變換令人擊節(jié)嘆賞。

像Sora這樣的生成式人工智能并不是“無(wú)中生有”。不同于以往為人們所熟悉的判別式人工智能,生成式人工智能本質(zhì)上是一種建立在大模型和預(yù)訓(xùn)練基礎(chǔ)上的運(yùn)用海量數(shù)據(jù)所生成的“模擬器”。

海國(guó)圖智研究院院長(zhǎng)、暨南大學(xué)教授陳定定認(rèn)為,快速涌現(xiàn)人工智能成果高度依賴(lài)于大量、多樣化的數(shù)據(jù)。華大集團(tuán)首席執(zhí)行官尹燁說(shuō),發(fā)展人工智能,拼的不僅是“象牙塔尖”的算法更新,更是來(lái)源于開(kāi)放性市場(chǎng)龐大的數(shù)據(jù)積累。

基于龐大數(shù)據(jù)和超高算力的“暴力美學(xué)”,是當(dāng)前生成式人工智能的核心打法,也是以O(shè)penAI為代表的一眾企業(yè)的發(fā)展關(guān)鍵。簡(jiǎn)單來(lái)說(shuō),在同等條件下,喂的數(shù)據(jù)越多,人工智能就越強(qiáng)。

有數(shù)據(jù)顯示,從GPT到GPT2再到GPT3,OpenAI將模型參數(shù)從1.17億提升到15億,然后爆炸式地提升到1750億,以至于GPT3比以前同類(lèi)型的語(yǔ)言模型參數(shù)量增加了十倍以上。

作為數(shù)字之海的基本構(gòu)成要素,海量、優(yōu)質(zhì)的數(shù)據(jù)爭(zhēng)奪已經(jīng)成為國(guó)家和企業(yè)間的無(wú)聲戰(zhàn)場(chǎng)。OpenAI旗下產(chǎn)品的使用條款就明確提及,企業(yè)將保留交互數(shù)據(jù)的使用權(quán)?;跀?shù)字技術(shù)形成的通用數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)壟斷,可能將成為這場(chǎng)數(shù)字拓荒當(dāng)中,后發(fā)者無(wú)法逾越的天塹。在一定程度上可以說(shuō),掌握數(shù)據(jù),就掌握了包括人工智能等眾多未來(lái)產(chǎn)業(yè)的主導(dǎo)權(quán)。

AI“肥料”不足

如果說(shuō)數(shù)據(jù)是人工智能成長(zhǎng)的“肥料”,那么人類(lèi)或許將很快面臨“無(wú)肥可施”的境地。

清華大學(xué)公共管理學(xué)院教授梁正在接受采訪時(shí)提到,全球范圍內(nèi),數(shù)據(jù)存量的增長(zhǎng)速度遠(yuǎn)遠(yuǎn)低于數(shù)據(jù)集規(guī)模的增長(zhǎng)速度。據(jù)人工智能研究機(jī)構(gòu)epoch的研究預(yù)測(cè),語(yǔ)言數(shù)據(jù)可能在2030~2040年耗盡,其中能訓(xùn)練出更優(yōu)性能的高質(zhì)量語(yǔ)言數(shù)據(jù)甚至可能在2026年耗盡。

優(yōu)質(zhì)中文語(yǔ)料的大面積缺失,讓AI學(xué)會(huì)說(shuō)好中文成為一件難事。業(yè)內(nèi)人士介紹,全球目前最有科學(xué)性和經(jīng)過(guò)驗(yàn)證的語(yǔ)料來(lái)自學(xué)術(shù)資料庫(kù),包括期刊和文化、出版物,遺憾的是,在這些載體上發(fā)表文章的語(yǔ)言絕大部分都是英語(yǔ)。

一項(xiàng)研究顯示,1900~2015年,收錄于SCI的有3000多萬(wàn)篇文章,其中,92.5%的文章是以英語(yǔ)發(fā)表的;SSCI出版的400多萬(wàn)篇文章中,93%的文章是用英語(yǔ)發(fā)表。在ChatGPT的訓(xùn)練數(shù)據(jù)中,中文語(yǔ)料比重不足千分之一,英文語(yǔ)料占比超過(guò)92.6%。

業(yè)內(nèi)人士表示,目前我國(guó)仍有大量專(zhuān)業(yè)領(lǐng)域的信息數(shù)據(jù)處于相對(duì)封閉的狀態(tài),只能在機(jī)構(gòu)內(nèi)部的數(shù)據(jù)庫(kù)和圖書(shū)館查看,數(shù)據(jù)缺失使大模型存在一定的領(lǐng)域盲區(qū),開(kāi)發(fā)潛力不足。

例如,在醫(yī)療數(shù)據(jù)方面,由于歷史和習(xí)慣等復(fù)雜原因,醫(yī)療機(jī)構(gòu)之間存在嚴(yán)重的“數(shù)據(jù)孤島”問(wèn)題?!度窠】敌畔⒒{(diào)查報(bào)告》的數(shù)據(jù)顯示,2021年,我國(guó)的三級(jí)醫(yī)院平均只有不到20%的醫(yī)療機(jī)構(gòu)采用了醫(yī)療大數(shù)據(jù)應(yīng)用,二級(jí)醫(yī)院更低,不足5%。

清華大學(xué)蘇世民書(shū)院院長(zhǎng)、人工智能?chē)?guó)際治理研究院院長(zhǎng)薛瀾在近期的公開(kāi)演講中談到,中國(guó)數(shù)據(jù)質(zhì)量比較低也是一個(gè)問(wèn)題。中國(guó)的數(shù)據(jù)量很大,但沒(méi)有真正產(chǎn)業(yè)化,相對(duì)標(biāo)準(zhǔn)化的數(shù)據(jù)服務(wù)商還比較少,因?yàn)榇髷?shù)據(jù)服務(wù)不賺錢(qián),公共數(shù)據(jù)企業(yè)沒(méi)有意愿去清洗,定制化服務(wù)又一般收費(fèi)比較高。因此,數(shù)據(jù)市場(chǎng)如何構(gòu)建也是需要解決的問(wèn)題。

數(shù)實(shí)融合解“數(shù)據(jù)瓶頸”

對(duì)于生成式人工智能來(lái)說(shuō),其核心技術(shù)特性是概率計(jì)算+標(biāo)注訓(xùn)練。依賴(lài)大量的高質(zhì)量標(biāo)注數(shù)據(jù),它才能夠有效地學(xué)習(xí)并做出正確的預(yù)測(cè)和決策。

在2024年全國(guó)兩會(huì)上,有代表委員建議建立數(shù)據(jù)合規(guī)的監(jiān)管機(jī)制和評(píng)估辦法,加強(qiáng)數(shù)據(jù)安全和知識(shí)產(chǎn)權(quán)的保護(hù)措施,加快高質(zhì)量中文數(shù)據(jù)集的開(kāi)發(fā)與利用。

面對(duì)可能出現(xiàn)的“數(shù)據(jù)荒”,梁正認(rèn)為,除了此前數(shù)字化建設(shè)中已有的結(jié)構(gòu)化數(shù)據(jù)資源,還有大量以語(yǔ)音、視頻、工藝參數(shù)、操作記錄等形式構(gòu)成的非結(jié)構(gòu)化產(chǎn)業(yè)數(shù)據(jù)尚可開(kāi)發(fā)。此外,由計(jì)算機(jī)模擬或算法生成的帶有注釋的合成數(shù)據(jù)也可用于大模型訓(xùn)練之中,進(jìn)一步提高數(shù)據(jù)質(zhì)量和數(shù)量、降低數(shù)據(jù)采集和處理的成本。

不少業(yè)內(nèi)人士推測(cè),Sora可能已經(jīng)通過(guò)使用了基于數(shù)據(jù)驅(qū)動(dòng)的Unreal Engine5(虛幻引擎5)大量生成了合成數(shù)據(jù)作為訓(xùn)練集。

3月23日,國(guó)內(nèi)首個(gè)千億參數(shù)多模態(tài)金融大模型“財(cái)躍F1金融大模型”在2024全球開(kāi)發(fā)者先鋒大會(huì)(GDC)上首發(fā)。隨著國(guó)內(nèi)大模型在垂直領(lǐng)域加速落地,各類(lèi)精細(xì)化的產(chǎn)業(yè)數(shù)據(jù),又將成為新一輪的“金礦”。

“挑戰(zhàn)在于產(chǎn)業(yè)數(shù)據(jù)生態(tài)的構(gòu)建”,深圳開(kāi)鴻數(shù)字產(chǎn)業(yè)發(fā)展有限公司首席執(zhí)行官王成錄等專(zhuān)家認(rèn)為,“必須克服各人自掃門(mén)前雪的單兵作戰(zhàn)思維?!?/p>

“海量工業(yè)數(shù)據(jù)由于缺乏采集而逸散?!币晃粡氖轮圃煨袠I(yè)多年的企業(yè)家表示,我國(guó)產(chǎn)業(yè)數(shù)據(jù)采集存在現(xiàn)實(shí)軟肋,加強(qiáng)產(chǎn)業(yè)數(shù)據(jù)自有化,推動(dòng)行業(yè)間形成數(shù)據(jù)平臺(tái),是走向垂類(lèi)人工智能的必經(jīng)之路。

【責(zé)任編輯:admin】

用戶評(píng)論

已有0人評(píng)論
    新聞快報(bào) 閱讀全部
    社會(huì)萬(wàn)象 閱讀全部