OCR文本識(shí)別,場(chǎng)景雖下,大有乾坤
AI賦能千行百業(yè)的口號(hào)如今正在逐步落地實(shí)踐,普羅大眾在日常生活的衣食住行之中也越來越多的感受到AI帶來的智能和快捷。來和福州魚眼鏡頭的小編一起來了解一下吧!
比如社區(qū)場(chǎng)景中出入口的人臉識(shí)別通道、社區(qū)智能垃圾分類、電瓶車禁入電梯系統(tǒng);辦公場(chǎng)景中人臉識(shí)別門禁考勤、票證識(shí)別;包裹收寄場(chǎng)景中圖片轉(zhuǎn)文本的一系列應(yīng)用等等。
如此來看,不知不覺中,除了人臉識(shí)別的應(yīng)用外,文本識(shí)別也已經(jīng)深入滲透到大眾生活當(dāng)中,并為我們帶來了諸多便利。
關(guān)于文本識(shí)別技術(shù),其是計(jì)算機(jī)視覺和目標(biāo)識(shí)別的基礎(chǔ)研究之一,可以將圖片、掃描件中的文字識(shí)別成可以編輯的文本,代替人工手動(dòng)錄入,近年在深度卷積神經(jīng)網(wǎng)絡(luò)的推波助瀾下飛速進(jìn)展。
文本識(shí)別技術(shù) 秒識(shí)萬千字符
從目前市場(chǎng)上文本識(shí)別技術(shù)的應(yīng)用情況來看,文本識(shí)別技術(shù)適用于多種應(yīng)用場(chǎng)景,其實(shí)用性完全不亞于名聲在外的人臉識(shí)別。
文本識(shí)別技術(shù)的研究?jī)r(jià)值巨大,對(duì)人工智能在地圖導(dǎo)航、智能交通、信息檢索、機(jī)器視覺等領(lǐng)域的發(fā)展有較強(qiáng)推動(dòng)作用,具有廣闊的應(yīng)用空間和重要的研究意義。
隨著各行各業(yè)信息化程度的提升,很多需要文字信息錄入的場(chǎng)合如今也在實(shí)現(xiàn)業(yè)務(wù)流程的數(shù)智升級(jí)。傳統(tǒng)的票據(jù)錄入、單據(jù)錄入、各種證件執(zhí)照等文件信息的錄入以往基本只能人工手動(dòng)輸入,不僅效率低下,還容易出錯(cuò)。如今在AI技術(shù)賦能之下,卡證票據(jù)文檔識(shí)別技術(shù)的投入使用,可迅速提升文本信息的錄入效率,并且識(shí)別正確率基本可達(dá)99%以上。
為了讓這項(xiàng)技術(shù)能夠更方便的為人所用,目前不少企業(yè)已經(jīng)開發(fā)了相當(dāng)成熟的票證識(shí)別應(yīng)用程序,嵌在各種業(yè)務(wù)辦理平臺(tái)的輔助功能當(dāng)中,廣泛應(yīng)用于移動(dòng)開戶、移動(dòng)投保、銀行票據(jù)錄入、醫(yī)療單據(jù)錄入等場(chǎng)景,明確識(shí)別身份證、行駛證、駕駛證、營(yíng)業(yè)執(zhí)照、醫(yī)療發(fā)票等證件票據(jù)。
復(fù)雜且個(gè)性化的文字和各類字符豐富著我們的日常生活,不過,這也給文本識(shí)別帶來挑戰(zhàn)。
比如在城市治理場(chǎng)景中,城市街道沿街商鋪各類個(gè)性化的招牌,招牌顏色各異、招牌大小不一、隨意變更招牌以及小廣 告粘貼等問題,這不僅影響市容市貌也存在安全隱患。
針對(duì)文本識(shí)別技術(shù)的應(yīng)用案例中,我們還看到了文本識(shí)別在在鋼鐵、能源、交通等行業(yè)的應(yīng)用。比如在鋼鐵、能源領(lǐng) 域,通過編號(hào)識(shí)別算法自動(dòng)獲取車輛、集裝箱、鋼卷等目標(biāo)上的編號(hào)信息,助力高效管理;在交通運(yùn)輸安全管理領(lǐng)域,運(yùn)用自然場(chǎng)景文字識(shí)別算法自動(dòng)讀取車身文字信息,智能篩選出重點(diǎn)管理車輛,以便針對(duì)不同車型采取不同管理方案。

又或者在醫(yī)療領(lǐng)域,幫助公司識(shí)別藥品說明書,幫助公司快速構(gòu)建藥品說明書的信息庫(kù);在物流領(lǐng)域,通過文本識(shí)別技術(shù)快速完成各類單據(jù)自動(dòng)識(shí)別,提效降本效果明顯……文本識(shí)別技術(shù)可適用場(chǎng)景相當(dāng)廣泛,有了文本識(shí)別算法,也藉由機(jī)器之“眼”,讓我們從此告別繁瑣的手動(dòng)輸入低效率方式。
文本識(shí)別技術(shù)的難點(diǎn)和挑戰(zhàn)
文本識(shí)別應(yīng)用的普及,得益于OCR(Optical Character Recognition)文字識(shí)別算法的日趨成熟,不過,從目前市場(chǎng)的文本識(shí)別應(yīng)用情況來看,由于應(yīng)用場(chǎng)景的多樣性,文本識(shí)別也還面臨著一些挑戰(zhàn):
掃描的單據(jù)往往存在虛線干擾、版面缺失、傾斜、暗光、扭曲、噪聲等情況,定位難度大。
文字千變?nèi)f化,例如字體、字號(hào)、顏色、筆畫寬度等不固定,方向任意;小數(shù)點(diǎn)、近似英文數(shù)字、特殊符號(hào)、連接詞、藝術(shù)字等,容易被漏檢或誤識(shí)別。
語(yǔ)言種類繁多,經(jīng)常是中英文混合,多種語(yǔ)言混合等場(chǎng)景,識(shí)別難度加大。
表格單據(jù)經(jīng)常存在蓋章(印章覆蓋文字)、錯(cuò)行(文字溢出表格單元,與表格線交叉)的情況,也造成文字識(shí)別干擾,很大的影響識(shí)別明確率。
拍照上傳的圖片存在噪聲、模糊、光線變化、形變、復(fù)雜背景干擾等問題,對(duì)文字定位和識(shí)別的明確度是巨大的挑戰(zhàn)。
機(jī)器不同于人眼,尤其在現(xiàn)實(shí)場(chǎng)景中,字體設(shè)計(jì)、文本背板、語(yǔ)種以及外部的光線環(huán)境等各類因素都可能對(duì)機(jī)器識(shí)別造成干擾,而這也正是當(dāng)前AI視覺企業(yè)在文本識(shí)別算法上需要攻破的技術(shù)方向。
當(dāng)然,我們也看到了相關(guān)企業(yè)在算法研究上取得的進(jìn)展。比如針對(duì)低質(zhì)量圖像、生僻字、藝術(shù)字的識(shí)別。
返回列表