資訊頻道
下載手機(jī)APP
當(dāng)前位置: 首頁 ? 資訊頻道 ? 樂收生意寶資訊 ? 正文

樂收生意寶訊:大數(shù)據(jù)“軼事”:數(shù)據(jù)不夠用,“偽”數(shù)據(jù)來湊數(shù)

來源:全球起重機(jī)械網(wǎng)??人氣:3045
|
|
|

原標(biāo)題:大數(shù)據(jù)“軼事”:數(shù)據(jù)不夠用,“偽”數(shù)據(jù)來湊數(shù)

樂收生意寶 令人稱奇的大神級AI,都曾經(jīng)歷過無數(shù)次訓(xùn)練,AI訓(xùn)練的核心是數(shù)據(jù),盡管數(shù)據(jù)驅(qū)動并不是AI算法訓(xùn)練的唯一方式,但不能否認(rèn)的是,相對來說,擁有海量數(shù)據(jù)的領(lǐng)域,是AI滋生的更好溫床。

舉一個(gè)簡單的例子,與其他多個(gè)小語種翻譯比起來,英漢翻譯器的翻譯能力往往會更強(qiáng),就是因?yàn)橛h互譯的使用頻率遠(yuǎn)遠(yuǎn)高于其他各語種的互譯。同理,人臉識別技術(shù)應(yīng)用率遠(yuǎn)高于虹膜識別,因?yàn)槿四様?shù)據(jù)更方便收集。

數(shù)據(jù)匱乏或是采集成本高,是阻礙AI發(fā)展的一個(gè)重要原因。面對這種情況,數(shù)據(jù)增強(qiáng)技術(shù)應(yīng)運(yùn)而生。

所謂數(shù)據(jù)增強(qiáng)技術(shù),就像是數(shù)據(jù)的繁殖皿,可以讓數(shù)據(jù)進(jìn)行“有絲分裂”,增強(qiáng)樣本擴(kuò)大數(shù)據(jù)集。

就拿圖像數(shù)據(jù)來說,當(dāng)圖像數(shù)據(jù)不足時(shí),可以對原圖像做一些改動,例如裁剪、旋轉(zhuǎn)、鏡像反轉(zhuǎn)、輕微的扭曲、增加噪點(diǎn)、增加遮擋物等等。也許對人類來說,被改動過的圖像很容易被識別,看出與原圖的差異。但對于AI來說,即使幾個(gè)像素點(diǎn)的變動,也是一個(gè)全新的數(shù)據(jù)樣本。

而應(yīng)用于文本數(shù)據(jù),則有互譯和詞向量替換兩種方法。通過機(jī)器翻譯,將一句話從中文翻譯成英文,再由英文翻譯成中文,就可以實(shí)現(xiàn)語序、同義詞等等的調(diào)整替換,得到語料乘二的效果。以及通過自然語言生成技術(shù),將一句話中的不同對象進(jìn)行劃分并替換生成新的句子,就像同義詞、近義詞替換。

令人驚喜的是,這些數(shù)據(jù)增強(qiáng)技術(shù)也開始通過深度學(xué)習(xí)的加持逐漸提升效率。

去年4月,谷歌的AutoAugment技術(shù),設(shè)計(jì)了一個(gè)自動搜索空間,利用搜索算法來確定適合數(shù)據(jù)集的圖像增強(qiáng)策略,制定執(zhí)行的順序并且自動執(zhí)行。比如將一個(gè)動物或植物照片數(shù)據(jù)集輸入給AutoAugment,AutoAugment通過計(jì)算會確定出先平移再剪裁是讓AI對于數(shù)據(jù)“陌生感”最大化的解決方案,然后開始自動執(zhí)行。是不是很精妙?
      -----本文轉(zhuǎn)自網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系我們及時(shí)刪除處理。
樂收生意寶-是樂收網(wǎng)旗下精準(zhǔn)、便捷的采購信息和供應(yīng)信息發(fā)布平臺,樂收生意寶用簡單的理念,致力于為中國4000萬中小企業(yè)和商業(yè)人士提供便捷的采供信息服務(wù)!
gg-1
 

文中內(nèi)容、圖片均來源于網(wǎng)絡(luò),如有版權(quán)問題請聯(lián)系本站刪除!
?

移動版:樂收生意寶訊:大數(shù)據(jù)“軼事”:數(shù)據(jù)不夠用,“偽”數(shù)據(jù)來湊數(shù)

相關(guān)信息

  • 樂收生意寶訊:千億市場一觸即發(fā) 傳感器產(chǎn)業(yè)該
  • 雖如此,我國在高端市場卻始終存在缺口,國產(chǎn)傳感器無法滿足市場需求,國外進(jìn)口占比較大,這就給貿(mào)易戰(zhàn)中的我國帶來不利影響,因此大力發(fā)展國產(chǎn)傳感器產(chǎn)業(yè)至關(guān)重要。 另外,國內(nèi)企業(yè)缺乏核心...[詳情]
?