在計算機視覺領域,近年來圖像識别技術有了突飛猛進(jìn)的發(fā)展,但在廣泛應用之前,仍有許多挑戰需要解決。本文綜述了圖像識别中深度學(xué)習的挑戰。

圖像識别技術發(fā)展中的挑戰


對(duì)人類來說(shuō),識别圖像是非常容易的,但對(duì)機器來說(shuō),這(zhè)已經(jīng)曆了漫長(cháng)的歲月。
 

深度學(xué)習是圖像識别最新進(jìn)展的驅動力,智慧教學(xué)、視頻監控、自動駕駛和智能(néng)醫療等有價值的應用正在我們身邊發(fā)生。深度學(xué)習的成(chéng)功主要得益于三個方面(miàn):大規模數據集的生成(chéng)、強有力的模型的發(fā)展和可用的大量計算資源。對(duì)于各種(zhǒng)圖像識别任務,精心設計的深層神經(jīng)網絡已經(jīng)遠遠超過(guò)了以往基于人工設計圖像特征的方法。
 

雖然深度學(xué)習在圖像識别領域已經(jīng)取得了巨大的成(chéng)功,但要使其得到廣泛的應用,還(hái)面(miàn)臨著(zhe)許多挑戰。
 

挑戰一:如何提高模型的泛化能(néng)力
 

在圖像識别技術得到廣泛應用之前,一個重要的挑戰是如何知道(dào)一個模型對(duì)于一個從未見過(guò)的場景仍然具有良好(hǎo)的泛化能(néng)力。
 

在目前的實踐中,將(jiāng)數據集随機分爲訓練集和測試集,并在此數據集上對(duì)模型進(jìn)行相應的訓練和評估。需要注意的是,在這(zhè)種(zhǒng)方法中,測試集與訓練集具有相同的數據分布,因爲它們是從具有相似場景内容和成(chéng)像條件的數據中采樣的。
 

然而,在實踐中,測試圖像可能(néng)來自與訓練期間不同的數據分布。這(zhè)些先前未知的數據可能(néng)與訓練數據在透視圖、大小、場景配置、相機屬性等方面(miàn)有所不同。
 

一項研究表明,這(zhè)種(zhǒng)數據分布的差異會(huì)導緻各種(zhǒng)深網絡模型的精度顯著降低。在諸如自動駕駛等關鍵應用中,當前模型對(duì)數據分布的自然變化的敏感性可能(néng)成(chéng)爲一個嚴重的問題。
 

挑戰2:如何利用小規模和超大規模的數據
 

我們需要面(miàn)對(duì)的另一個重要挑戰是如何更好(hǎo)地利用小規模培訓數據。雖然深度學(xué)習通過(guò)利用大量注釋數據在各種(zhǒng)任務中取得了巨大的成(chéng)功,但現有技術經(jīng)常在小數據場景中崩潰,因爲隻有少量标記實例可用。這(zhè)種(zhǒng)情況通常被稱爲“少樣本學(xué)習”,需要在實踐中仔細考慮。例如,一個家庭機器人被期望在它能(néng)夠向(xiàng)它展示一次新物體就(jiù)能(néng)夠認識這(zhè)個物體。一個人可以自然地完成(chéng)這(zhè)項任務,即使這(zhè)個物體後(hòu)來被操縱,比如折疊起(qǐ)來的毯子。如何賦予神經(jīng)網絡以人類的泛化能(néng)力是一個開(kāi)放研究的問題。
 

另一個極端是如何利用超大規模數據有效地提高識别算法的性能(néng)。對(duì)于自主駕駛等關鍵應用,圖像識别的出錯代價非常高。因此,研究人員創建了大量的數據集,其中包含了數億個帶有标注豐富的圖像,他們希望利用這(zhè)些數據集使模型更加精确。
 

然而,目前的算法不能(néng)很好(hǎo)地利用這(zhè)樣的超大數據量。在包含3億個帶注釋圖像的JFT數據集上,随著(zhe)訓練數據量的增加,各種(zhǒng)深度網絡的性能(néng)隻呈現對(duì)數級的提高。在大規模數據的情況下,增加訓練數據的效益將(jiāng)越來越不明顯,這(zhè)是一個需要解決的重要問題。
 

挑戰3:全面(miàn)的情景理解
 

除了這(zhè)些與訓練數據和泛化能(néng)力相關的問題外,一個重要的研究課題是對(duì)場景的全面(miàn)理解。除了識别和定位場景中的對(duì)象外,人類還(hái)可以推斷對(duì)象之間的關系、部分到整體的級别、對(duì)象的屬性和三維場景布局。
 

獲得對(duì)場景的更廣泛理解將(jiāng)有助于應用,例如機器人交互,這(zhè)通常需要的信息超出了對(duì)象識别和位置。這(zhè)項任務不僅涉及對(duì)場景的感知,還(hái)涉及對(duì)現實世界的認知理解。要實現這(zhè)一目标,我們還(hái)有很長(cháng)的路要走。全景分割是一個全面(miàn)的場景理解的例子,如下所示。


 

(a)原始圖像;(b)語義分割:識别沒(méi)有固定形狀的天空、草地、道(dào)路和其他未計數的材料。标記方法通常是對(duì)每個像素進(jìn)行标記;(c)實例分割:將(jiāng)人、動物或工具等可數的、獨立的對(duì)象實例進(jìn)行分割,通常用包圍盒或分割掩碼對(duì)目标進(jìn)行标記;(d)全景分割:生成(chéng)統一的、全局的分割圖像,同時(shí)識别材料和物體。
 

雖然圖像識别發(fā)展還(hái)面(miàn)臨諸多挑戰,但現在很多利用圖像識别技術的實際應用已經(jīng)突破了原有的模式。比如再教育領域的應用,已經(jīng)有像翌學(xué)這(zhè)樣可以原卷留痕自動批閱的系統出現,相信目前的這(zhè)些問題都(dōu)會(huì)一一解決的,就(jiù)像我們原來很多不敢想象的事(shì)情,都(dōu)通過(guò)現代科技完成(chéng)了。

— END —

文章素材及圖片來源網絡

相關版權歸原創所有

如有侵權請聯系删除

 


翌學(xué)