包裝機械

 

 

 

 

 

OCR 光學字符識彆技巧


基本概念

OCR是英文 Optical Character Recognition 的簡寫,中文譯為“光學字符識彆”。

OCR是指電子設備(譬如:掃描儀)或傳感器 (譬如:視覺傳感器) 先通過檢測印刷字符明、暗確定字符形狀,然後再用字符識彆方法將字符形狀翻譯成計算機文字的過程。即:針對印刷字符,采用光學方式將紙質文檔文字轉換成黑白點陣圖像文件,再通過自動識彆軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯、處理的技術。

OCR識彆文本時,圖片質量一般建議150dpi以上。

OCR對彩色圖片識彆較差,黑白圖片識彆較好;因此,建議采用黑白圖片。OCR對印刷字體識彆較好,手寫識彆較差。

如何除錯或利用輔助信息提高識彆正確率,是OCR最重要的課題,ICR(Intelligent Character Recognition)名詞也因此而産生。

衡量一個OCR係統性能好壞的主要指標,包括:

拒識率、誤識率、識彆速度、用戶界麵友好性、産品穩定性、易用性及可行性等。


發展曆程

OCR概念由德國科學傢 Tausheck 於1929年最先提齣,之後,美國科學傢 Handel 也提齣瞭利用技術對文字進行識彆的想法。

而最早對印刷漢字識彆進行研究的是 IBM 的 Casey 和 Nagy,1966 年他們發錶瞭第一篇關於漢字識彆的文章,采用模闆匹配法識彆瞭 1000 個印刷體漢字。

60、70 年代世界各國開始對 OCR 進行研究;初期,多以研究文字識彆方法為主,且識彆文字僅為 0 至 9 的數字。

以同樣擁有方塊文字的日本為例,1960年左右開始研究OCR基本識彆理論,初期以數字為研究對象,直至 1965 至 1970 年纔開始有一些簡單産品。譬如:印刷文字郵政編碼識彆係統,能識彆郵件上的郵政編碼,幫助郵局進行區域分信作業。因此,郵政編碼至今一直是各國所倡導的地址書寫方式。

20 世紀 70 年代初,日本學者開始研究漢字識彆,並做瞭大量工作。


OCR 中國

中國在OCR技術方麵的研究工作起步較晚,70 年代開始對數字、英文字母及符號的識彆進行研究,70 年代末纔開始進行漢字識彆的研究,到 1986 年我國提齣 “863” 高新科技研究計劃,漢字識彆研究進入一個實質性階段。

此時,清華大學的丁曉青教授和中科院分彆開發研究,相繼推齣瞭中文OCR産品,現為中國最領先漢字OCR技術。

早期的OCR軟件,由於識彆率及産品化等多方麵的因素,未能達到實際要求。同時,由於硬件設備成本高,運行速度慢,也沒有達到實用程度。隻有個彆部門,譬如:信息部門、新聞齣版單位等使用OCR軟件。進入 20 世紀 90 年代後,隨著平颱式掃描儀的廣泛應用,及我國信息自動化和辦公自動化的普及,大大推動瞭OCR技術的進一步發展,OCR識彆正確率、識彆速度滿足瞭廣大用戶的要求。



使用技巧

01、分辨率

分辨率的設置是文字識彆的重要前提。一般掃描儀能提供很多圖像信息,識彆軟件比較容易得齣識彆結果。

但也不是掃描分辨率設得越高識彆正確率就越高。選擇 300 dpi 或 400 dpi 分辨率,適閤大部分文檔掃描。

注意文字原稿的掃描識彆,設置掃描分辨率時韆萬不要超過掃描儀的光學分辨率,不然會得不償失。

02、亮度、對比度

掃描時適當調整亮度、對比度值,使掃描文件黑白分明。

這對識彆率的影響最為關鍵,掃描亮度和對比度值的設定,以觀察掃描後圖像中漢字的筆畫較細但又不斷開為原則。

進行識彆前,先看掃描得到的圖像中文字質量如何。如圖像存在黑點或黑斑時或文字綫條很粗很黑,分不清筆畫時,說明亮度值太小瞭,應增加亮度值;如文字綫條凹凸不平,有斷綫甚至圖像中漢字輪廓嚴重殘缺時,說明亮度值太大瞭,應減小亮度。


03、軟件

一款好的掃描軟件。選一款好的適閤自己的 OCR 軟件是做好文字識彆工作的基礎,一般不要使用掃描儀自帶的 OEM 軟件,OEM 的 OCR 軟件功能少、效果差,有的甚至沒有中文識彆功能。

再選一款好的圖像編輯軟件。因為,OCR 軟件不能識彆所有掃描儀;其次,也是最關鍵的,利用圖像編輯軟件的掃描接口掃描齣來的圖像便於處理。

04、文字樣式

若要識彆的文本是帶格式的,如粗體、斜體、首行縮進等,部分 OCR 軟件識彆不齣來,會丟失格式或齣現亂碼。

如必須掃描帶有格式的文本,事先要確保使用的識彆軟件是否能支持文字格式掃描。也可關閉樣式識彆係統,使軟件集中注意力查找正確字符,不再顧及字體和字體格式。


05、透明、半透明稿件

在掃描識彆報紙或其他半透明文稿時,背麵文字透過紙張混淆文字字形,對識彆會造成很大障礙。

遇到該類掃描,要在掃描原稿背麵蓋一張黑紙,掃描時,增加掃描對比度,即可減少背麵模糊字體對識彆的影響,提高識彆正確率。

06、掃描模式、閥值

一般文本掃描原稿都為黑、白兩色原稿,但是在掃描設置時卻常將掃描模式設為灰度模式。

特彆是在原稿質量較差時,使用灰度模式掃描,並在掃描軟件處理完後再繼續識彆,這樣會得到較好的識彆正確率。

值得注意的是:OCR 識彆軟件可自動確定閥值,幾個百分點的閥值差異,就會影響識彆的正常運行。當然,得到的圖像文件的大小就會比黑白文件大很多。在進行大批量文稿掃描時,必須對原稿進行測試,找到最佳的閥值百分比。


07、圖文稿件

遇到圖文混排的掃描原稿,首先明確使用的識彆軟件是否支持自動分析圖文這一功能。

如支持的話,在進行這類掃描識彆時,OCR 軟件會自動算齣文本內容、位置、先後順序。文字部分可按照標示順序正常識彆。

08、掃描區域

手動選取掃描區域會有更好識彆效果。設置好參數後,先預覽一下,然後開始選取掃描區域。

不要將要用的文章一股腦兒選在一個區域內,因為現在的文章排版為追求更好視覺效果,使用圖文混排的較多,掃成一幅圖像會影響 OCR 識彆。因此,要根據實際情況將版麵分成 N 個區域,怎麼劃分區域呢?每一區域內的文字字體、字號最好一緻,沒有圖形、圖像,每一行的寬度一緻,遇到長短不一,再細分,一般一次最多可掃描 10 個選區。根據不同情況,閤理設置識彆區域順序。不要嫌這個過程太煩,那可是提高識彆率的有效手段。注意各識彆區域不能有交叉,做到一切覺得完好以後再進行識彆。

這樣的話,一般識彆率會在 95% 以上,對於識彆不正確的文字進行校對後,就可進入相應的文字處理軟件進行所需處理。


09、放置原稿

在放置掃描原稿時,把掃描的文字材料一定要擺放在掃描起始綫正中,以最大限度地減小由於光學透鏡導緻的失真。

同時應保護掃描儀玻璃的乾淨和不受損害。文字有一定角度的傾斜,或是原稿文字部分為不正規排版,必須在掃描後使用鏇轉工具,進行糾正;否則 OCR 識彆軟件會將水平筆劃當做斜筆劃處理,識彆正確率會下降很多。

建議用戶盡量將掃描原稿放正,用鏇轉工具糾正會降低圖像質量,使字符識彆更加睏難。

10、預覽閥值

先 "預覽" 整體版麵,選定要掃描的區域,再用 "放大預覽" 工具,選擇一小塊進行放大顯示到全屏幕,觀察其文字的對比度,文字的深淺濃度,根據情況調整 "閥值" 的大小,要求文字清晰,不濃 (文字成團) 不淡 (文字斷筆畫),一般在 "閥值" 80 左右為宜,最後再掃描。


11、微調

用工具擦掉圖像汙點,包括原版頁麵中無需要識彆的插圖、分隔綫等,使文字圖像中除瞭文字沒有一點多餘的東西;這可提高識彆率並減少識彆後的修改工作。

12、掃描特殊原稿

如要掃描印刷質量稍差一些的文章 (譬如:報紙),掃描結果可能不會黑白分明,會齣現大量黑點,且在字體筆畫上還會齣現粘連現象。這兩項可是漢字識彆的大忌,將嚴重影響漢字識彆的正確率。

為獲得較好識彆結果,必須仔細進行色調調節,反復掃描多次纔能獲得比較理想的結果。另外,由於報紙很薄且大部分紙質不高,導緻掃描儀上蓋闆不能完全壓住報紙 (有縫隙);所以,一般情況下報紙的掃描識彆效果沒有雜誌的效果好。解決辦法是在報紙上壓一至兩本 16K 的雜誌,效果還是不錯的。