識(shí)別圖像文件之中的文字工具 Mini Ocr

2024-07-04發(fā)布者:wx20230305205025大?。?/span> 下載:81

文件大小:

軟件介紹

image.pngMini Ocr   漢字顯示字體識(shí)別軟件

  首先聲明,我不是一個(gè)OCR領(lǐng)域的專家。我的經(jīng)驗(yàn)來自我寫Mini Ocr軟件的過程。

                                                           ―― 馬飛濤 
關(guān)于Mini Ocr 軟件
    
    本軟件是飛濤軟件工作室開發(fā)的一款免費(fèi)Ocr軟件,主要用于識(shí)別圖像文件之中,出現(xiàn)
的漢字顯示字體。Ocr的中文含意是光學(xué)字符識(shí)別。
    為什么叫Mini呢?因?yàn)楝F(xiàn)有的識(shí)別漢字的商業(yè)Ocr軟件,動(dòng)輒二三十兆,而本軟件解
壓后,也不過三兆多,身材比較纖小,再加上本軟件主要用于識(shí)別字體比較小的漢字,所
以叫Mini,中文的發(fā)音是“迷你”,中文含義是超小型。

既然有了商業(yè)Ocr軟件,為什么還要開發(fā)這個(gè)軟件?
    
    不同于商業(yè)Ocr軟件,本軟件是免費(fèi)的,可以自由使用。第二個(gè)不同之處,本軟件的
識(shí)別對(duì)象是屏幕出現(xiàn)的“顯示漢字”,而不是針對(duì)掃描儀掃出來的“打印漢字”。二者有什
么不同呢?最重要的一點(diǎn): 掃描出來的打印漢字的高度和寬度一般都在30多個(gè)像素點(diǎn)之
上,這是我用畫圖軟件,打開某個(gè)商業(yè)Ocr的samplessample1.tif,然后一點(diǎn)一點(diǎn)數(shù)出
來的。從文件名和目錄名的中文含意可以看出,這個(gè)點(diǎn)數(shù)應(yīng)該是一個(gè)典型值。那么,如果
用商業(yè)Ocr識(shí)別屏幕上出現(xiàn)的小五號(hào)字,漢字的高度是12個(gè)像素點(diǎn),會(huì)出現(xiàn)什么情況呢? 
測(cè)試方法:用記事本隨便寫幾行漢字,設(shè)置字體為小五號(hào)字。這大概是看著還算舒服
的最小號(hào)的漢字字體了(高度是12個(gè)像素點(diǎn)),如果再小,字體就很難看了。然后,按拷
屏鍵PrtSc,把屏幕的圖像拷貝、粘貼到畫圖軟件中,修剪尺寸后,保存為bmp的格式。
然后,我找了兩個(gè)國內(nèi)最著名的Ocr軟件進(jìn)行測(cè)試,結(jié)果讓人大吃一驚,識(shí)別率幾乎為零。
把圖像放大兩倍,再測(cè)試,結(jié)果仍然很不理想,大概也只有百分之二三十的樣子。

開發(fā)Mini Ocr軟件的由來
    
    我在開發(fā)護(hù)花使者反黃圖像識(shí)別軟件的時(shí)候,遇到有些圖像里,嵌有某些文字,如果能
把文字識(shí)別出來,圖像的含義就很容易讓計(jì)算機(jī)理解了。預(yù)算有限,我連掃描儀都舍不得
買,就更別想買商業(yè)Ocr的開發(fā)包了,大概幾十萬,或者更多,或者別人壓根就不賣。況且
它們的識(shí)別率對(duì)小字體幾乎為零,不符合我的要求??磥?,只好自力更生,重新寫一個(gè)了。


開發(fā)Mini Ocr的歷程
    
發(fā)表評(píng)論(共0條評(píng)論)
請(qǐng)自覺遵守互聯(lián)網(wǎng)相關(guān)政策法規(guī),評(píng)論內(nèi)容只代表網(wǎng)友觀點(diǎn),發(fā)表審核后顯示!

版權(quán)聲明:

1 本站所有資源(含游戲)均是軟件作者、開發(fā)商投稿,任何涉及商業(yè)盈利目的均不得使用,否則產(chǎn)生的一切后果將由您自己承擔(dān)!

2 本站將不對(duì)任何資源負(fù)法律責(zé)任,所有資源請(qǐng)?jiān)谙螺d后24小時(shí)內(nèi)刪除。

3 若有關(guān)在線投稿、無法下載等問題,請(qǐng)與本站客服人員聯(lián)系。

4 如侵犯了您的版權(quán)、商標(biāo)等,請(qǐng)立刻聯(lián)系我們并具體說明情況后,本站將盡快處理刪除,聯(lián)系QQ:2499894784

返回頂部