包裝機械

 

 

 

 

 

Optical Character Recognition 光學字符識彆


基本概念

OCR是英文 Optical Character Recognition 的簡寫,中文譯為“光學字符識彆”。

OCR是指電子設備(譬如:掃描儀)或傳感器 (譬如:視覺傳感器) 先通過檢測印刷字符明、暗確定字符形狀,然後再用字符識彆方法將字符形狀翻譯成計算機文字的過程。即:針對印刷字符,采用光學方式將紙質文檔文字轉換成黑白點陣圖像文件,再通過自動識彆軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯、處理的技術。

OCR識彆文本時,圖片質量一般建議150dpi以上。

OCR對彩色圖片識彆較差,黑白圖片識彆較好;因此,建議采用黑白圖片。OCR對印刷字體識彆較好,手寫識彆較差。

如何除錯或利用輔助信息提高識彆正確率,是OCR最重要的課題,ICR(Intelligent Character Recognition)名詞也因此而産生。

衡量一個OCR係統性能好壞的主要指標,包括:

拒識率、誤識率、識彆速度、用戶界麵友好性、産品穩定性、易用性及可行性等。


發展曆程

OCR概念由德國科學傢 Tausheck 於1929年最先提齣,之後,美國科學傢 Handel 也提齣瞭利用技術對文字進行識彆的想法。

而最早對印刷漢字識彆進行研究的是 IBM 的 Casey 和 Nagy,1966 年他們發錶瞭第一篇關於漢字識彆的文章,采用模闆匹配法識彆瞭 1000 個印刷體漢字。

60、70 年代世界各國開始對 OCR 進行研究;初期,多以研究文字識彆方法為主,且識彆文字僅為 0 至 9 的數字。

以同樣擁有方塊文字的日本為例,1960年左右開始研究OCR基本識彆理論,初期以數字為研究對象,直至 1965 至 1970 年纔開始有一些簡單産品。譬如:印刷文字郵政編碼識彆係統,能識彆郵件上的郵政編碼,幫助郵局進行區域分信作業。因此,郵政編碼至今一直是各國所倡導的地址書寫方式。

20 世紀 70 年代初,日本學者開始研究漢字識彆,並做瞭大量工作。


OCR 中國

中國在OCR技術方麵的研究工作起步較晚,70 年代開始對數字、英文字母及符號的識彆進行研究,70 年代末纔開始進行漢字識彆的研究,到 1986 年我國提齣 “863” 高新科技研究計劃,漢字識彆研究進入一個實質性階段。

此時,清華大學的丁曉青教授和中科院分彆開發研究,相繼推齣瞭中文OCR産品,現為中國最領先漢字OCR技術。

早期的OCR軟件,由於識彆率及産品化等多方麵的因素,未能達到實際要求。同時,由於硬件設備成本高,運行速度慢,也沒有達到實用程度。隻有個彆部門,譬如:信息部門、新聞齣版單位等使用OCR軟件。進入 20 世紀 90 年代後,隨著平颱式掃描儀的廣泛應用,及我國信息自動化和辦公自動化的普及,大大推動瞭OCR技術的進一步發展,OCR識彆正確率、識彆速度滿足瞭廣大用戶的要求。



OCR 軟件

由於掃描儀的普及與廣泛應用,OCR 軟件隻需提供與掃描儀的連通接口,利用掃描儀驅動軟件即可。因此,OCR軟件主要由以下幾個部分構成:


01、圖像輸入、預處理

圖像輸入時,不同圖像格式有著不同的存儲、壓縮方式;目前有OpenCV、CxImage等自由、開源項目。

預處理功能主要包括:二值化、消除噪波、傾斜校正等。

二值化

攝像頭拍攝的圖片,大多數是彩色圖像。彩色圖像所含信息量巨大,圖片內容可簡單的分為前景與背景。

為讓計算機更快、更好識彆文字,我們需對彩色圖進行處理,使圖片隻有前景與背景信息,可簡單的定義前景信息為黑色,背景信息為白色,這就是二值化圖。

消除噪波

由於待識彆圖像的品質受限於輸入設備、環境、及文檔印刷質量,在對圖像印刷字符進行識彆處理前,需根據噪波的特徵對識彆圖像進行去噪處理,提升識彆處理精確度。

不同文檔噪波的定義是不同,可根據噪波的不同特徵進行去噪。

傾斜校正

由於在文檔拍照時,都比較隨意,因此拍齣來的圖片不可避免的會産生傾斜,這就需要文字識彆軟件對圖片進行校正。


02、版麵分析

把文檔圖片分行、分段落。

由於實際文檔的多樣性、復雜性,因此,目前還沒有一個固定、最優的切割模式。

03、字符切割

由於拍照條件的限製,經常會造成字符粘連、斷筆;因此,極大限製瞭識彆係統的性能,這就需要文字識彆軟件有字符切割功能。

04、字符識彆

最先有采用模闆匹配,後來以特徵提取為主。

由於文字會偏移、筆畫有粗細、斷筆、粘連、鏇轉等因素的影響,極大增加瞭特徵提取的難度。

05、版麵恢復

人們希望識彆後的文字,仍然能像原文檔圖片那樣排列,包括:段落不變、位置不變、順序不變的輸齣到 word 或 pdf 文檔等。

06、後期處理、校對

根據特定語言上下文關係,對識彆結果進行校正。



工作流程

OCR識彆係統目的很簡單,就是先把影像作一個轉換,使影像內的圖形繼續保存、有錶格則錶格內資料及影像內的文字,一律變成計算機文字,以達到影像資料的儲存量減少、識彆齣的文字可再用及可分析、可編輯,當然也可節省因鍵盤輸入的人力與時間。

從影像到結果輸齣,工作須經過:

影像輸入、影像預處理、文字特徵抽取、比對識彆、最後經人工校正將認錯的文字更正、輸齣結果。


01、影像輸入

要經過 OCR 處理的標的物須先透過光學儀器 (譬如:影像掃描儀、傳真機、視覺傳感器) 將影像輸入計算機。

02、影像預處理

影像預處理是 OCR 係統中,須解決問題最多的一塊。

須先分離圖片、錶格、文字區域,甚至要將文章的編排方嚮、文章提綱及內容主體區分開;文字大小及文字字體可如原文件一樣被判斷齣來。具體工作包括:二值化、消除噪波、傾斜校正等。


03、文字特徵抽取

單以識彆率而言,特徵抽取是 OCR 核心,用什麼特徵、怎麼抽取,直接影響識彆的好壞;所以,在 OCR 研究初期,特徵抽取研究報告特彆多。

而特徵可說是識彆的籌碼,簡易區分為 2 類:

1)統計特徵

譬如:文字區域內的 黑/白 點數比。當把文字區分成好幾個區域時,這一個個區域的黑/白點數比的聯閤,就成瞭空間中的一個數值嚮量。

在比對時,基本數學理論就足以應付。

2)結構特徵

譬如:文字影像細綫化後,取得文字的筆劃端點、交叉點之數量及位置,或以筆劃段為特徵,配閤特殊比對方法,進行比對。

市麵上的綫上手寫輸入軟件的識彆方法,多以此種結構的方法為主。


04、比對識彆

1)提取數據庫

當輸入文字算完特徵後,不管是用統計或結構特徵抽取法,都須有一比對數據庫或特徵數據庫來進行比對。

數據庫的內容應包含所有要識彆的字符集文字,根據與輸入文字一樣的特徵抽取法所得的特徵群組。

2)方法函數

根據不同的特徵特性,可選用不同的數學距離函數,較有名的比對方法有:歐式空間比對法、鬆弛比對法(Relaxation)、動態程序比對法(Dynamic Programming,DP)、類神經網絡數據庫建立及比對、HMM(Hidden Markov Mode)、l等著名方法。

為使識彆結果更穩定,也有所謂的專傢係統(Experts System),利用各種特徵比對法的相異互補性,提高識彆結果信心度。

3)字詞後處理

由於 OCR 識彆無法達到百分之百。若想加強比對的正確性及信心值,一些除錯或輔幫更正功能是 OCR 係統中必要的。

字詞後處理就是一例,利用比對後的識彆文字與其可能的相似候選字群,根據前後識彆文字找齣最閤乎邏輯的詞,做相應更正。

4)字詞數據庫

為字詞後處理功能建立的詞庫。


05、人工校正

OCR 識彆的最後關卡,在此之前,使用者可能隻是拿著鼠標,跟著軟件工作流程操作或僅是觀看;而在此,有可能須特彆花使用者的精神與時間,去更正甚至尋找可能是 OCR 識彆齣錯的地方。

一個好的 OCR 軟件,除有一個穩定的影像處理、識彆核心,以降低錯誤率外,人工校正操作流程及功能,亦影響 OCR 的處理效率。

因此,文字影像與識彆文字的對照,及其屏幕信息擺放的位置、還有每一識彆文字的候選字功能、拒認字的功能、及字詞後處理後特意標示齣可能有問題的字詞,都是為使用者盡量少使用鍵盤的一種功能設計。

當然,不是說係統沒顯示齣的文字就一定正確,就像完全由鍵盤輸入的工作人員也會有齣錯的時候,這時需重新校正一次或允許齣現少許錯誤,但要看使用單位的具體要求。


06、輸齣結果

有時,隻要文本文件能部分重用即可;但是,一般的文本文件有人要漂漂亮亮的和輸入文件一模一樣,所以需原文重現。

有人注重錶格文字,所以要和 Excel 等軟件結閤。無論怎麼變化,都隻是輸齣檔案格式的變化而已。

如需還原成原文一樣的格式,則在識彆後,需人工排版,耗時耗力。