近年來應用于移動終端的“手寫識别”技術,其原理是將(jiāng)在手寫設備上書寫時(shí)産生的有序軌迹信息化轉化爲漢字内碼。手寫識别技術已經(jīng)應用到到我們的日常生活中了,也應用到了很多的行業,對(duì)于這(zhè)些行業提高了工作效率。

手寫識别發(fā)展背景與應用


20世紀60年代,IBM開(kāi)始研究印刷體漢字的模式識别。1996年,Casey和Nag通過(guò)模闆匹配方法成(chéng)功識别了1000個印刷體漢字,并在世界範圍内開(kāi)展了漢字識别工作。正是在這(zhè)個時(shí)候,研究界也掀起(qǐ)了漢字識别的高潮。
 

由于漢字在日語中占有一定的地位,手寫漢字識别(HCCR)最早是由日本人嘗試研究的,80年代,中國(guó)就(jiù)開(kāi)始了對(duì)手書寫漢字的研究,因爲漢語作爲我們的母語,漢字在我國(guó)廣泛使用,主要是對(duì)漢字的種(zhǒng)類、内涵、構詞原則等國(guó)内情況比較深入,所以關于手寫體漢字識别的進(jìn)一步研究主要集中在國(guó)内。
 

由于數據采集方法的不同,手寫體漢字識别可分爲脫機手寫體漢字識别和聯機手寫體漢字識别。聯機手寫漢字識别處理的手寫文本是作者通過(guò)物理設備(如數碼筆、數字平闆或觸摸屏)在線書寫獲得的文本信号,并通過(guò)定時(shí)采樣將(jiāng)書寫軌迹輸入計算機。然而,脫機手寫文本識别所處理的手寫文本是由掃描儀或相機等圖像采集設備采集的手寫文本的二維圖像。
 

由于識别對(duì)象的不同,這(zhè)兩(liǎng)種(zhǒng)手寫體識别技術所采用的方法和策略也不同。前者的識别對(duì)象是一系列按時(shí)間順序采樣的點信息,而後(hòu)者則是丢失了筆畫順序信息的二維像素信息,由于沒(méi)有筆畫順序信息,而在不同的光線下,由于光掃描設備的條件、分辨率、書寫紙張等條件下,數字化會(huì)帶來一定的噪聲幹擾,一般來說(shuō),脫機手寫體字符識别比聯機手寫體字符識别更爲困難。

 

手寫體漢字識别是一個具有挑戰性的模式識别和機器學(xué)習問題,主要表現在:

1)書寫風格随意、不規則,不能(néng)滿足印刷要求;

2)漢字層次複雜多變;

3)許多漢字外觀相似,容易混淆;

4)需要大量的訓練數據,但難以采集,特别是随機的、非約束性的筆迹,使得相應的數據庫建設顯得不足。
 

可見,手寫體漢字識别還(hái)有很大的改進(jìn)空間,需要綜合各種(zhǒng)技術來增加訓練樣本數據,提高識别率。


以上就(jiù)是手寫文字識别的基本背景,當然前我們的手寫體識别技術可以應用于哪些行業呢?接下來看一看。
 

一、可用于教育行業,批量批改作業
 

手寫識别可以用于批量批改作業,現在已經(jīng)有一些軟件可以做到了,比如翌學(xué)就(jiù)是比較成(chéng)功的一個例子。翌學(xué)是以教師爲核心,幫助老師減負、爲學(xué)校增效爲出發(fā)點的一款面(miàn)向(xiàng)學(xué)校教師及學(xué)生的智慧服務SaaS平台。

利用手寫識别系統幫助老師減清負擔,爲學(xué)校增高了效率,幫助教育事(shì)業的改革起(qǐ)到了一定的作用。
 

二、手寫識别在大規模數據統計中的應用:
 

在大規模的數據統計中(如:行業年檢、人口普查等),需要投入大量的數據,以前完全是手工輸入,需要耗費大量的人力物力。近年來,

在這(zhè)類工作中采用OCR技術已成(chéng)爲一種(zhǒng)趨勢。

因爲在這(zhè)個應用程序中,數據輸入是集中組織的,所以通常可以通過(guò)

專門設計表格,并對(duì)書寫施加限制,以便于機器自動識别。目前國(guó)内大部分實際系統都(dōu)要求用戶按照規定的規格填寫。此外,這(zhè)些系統經(jīng)常被采用适當的用戶界面(miàn)對(duì)識别結果進(jìn)行全面(miàn)檢查,最終确保結果正确。可以由此可見,這(zhè)是一種(zhǒng)比較容易應用的,對(duì)核心算法的識别要求比較低,目前是國(guó)内許多單位應用開(kāi)發(fā)熱點。
 

三、手寫數字識别在财務、稅務、金融領域的應用:
 

财務、稅務、金融是手寫識别的另一個有希望的領域。随著(zhe)我國(guó)經(jīng)濟的的快速發(fā)展,越來越多的财務報表、稅務報表、支票、付款單等越來越多。如果它們能(néng)被計算機自動處理,無疑將(jiāng)節省大量的時(shí)間、金錢和勞動力。與上述統計報表處理相比,該領域的應用難度更大

因爲:

1、對(duì)鑒定的準确性要求較高

2、處理的表格往往不止一種(zhǒng),一個系統應能(néng)智能(néng)地同時(shí)處理若幹種(zhǒng)表格

3、由于處理貫穿于整個日常工作之中,書寫應盡量按一般習慣(比如:不對(duì)書寫者的寫法做限定,書寫時(shí)允許寫連續的字串,而不是在固定的方格内書寫),以便識别和預處理核心改進(jìn)了heart算法的要求。
 

四、手寫識别在郵件分揀中的應用:
 

雖然随著(zhe)人們生活水平的提高,經(jīng)濟活動的發(fā)展,現在郵件已經(jīng)不怎麼(me)使用,但是也還(hái)沒(méi)有完全取消。早些年,一些大城市的中心郵局每天處理數百萬件郵件,業務急劇增長(cháng)郵件分揀自動化已成(chéng)爲一種(zhǒng)趨勢。在自動郵件分類中,手寫識别(OCR通常與光學(xué)條碼識别(obr-opticalbarreding)相關,人工輔助識别和其他手段相結合,完成(chéng)郵政編碼的讀取。目前使用最多的是ovcs分揀機性能(néng)指标:OCR拒絕率30%,OCR排序錯誤率1.1%。

以上就(jiù)是手寫識别技術的發(fā)展背景與應用的内容,手寫識别技術幫助了很多行業進(jìn)行變革,在未來,手寫識别技術也會(huì)應用于更多的行業,甚至與我們的生活息息相關,讓我們拭目以待吧!

— END —

文章素材及圖片來源網絡

相關版權歸原創所有

如有侵權請聯系删除

 


翌學(xué)