フリーの日本語用ocrソフトNHocrを使ってみる

まずおんなじ作者さんのO2-tools-2.00の準備から。

http://www.imglab.org/p/O2/index.html
からtarをダウンロードしてきてどっかに適当に開ける。
configure.inを開いて上の方の

test "x$CFLAGS" = "x" && CFLAGS="-O3 --unroll-loops"
test "x$CXXFLAGS" = "x" && CXXFLAGS="-O3 --unroll-loops"

の--unroll-loopsを削除(OSXなのでこのオプション使えないんで。多分最適化の奴だからなくて平気)
automakeして./configure --prefix=(どっか適当な所)してmake && make install。
このどっか適当な所は後に使うので要記憶。

つぎに
https://code.google.com/p/nhocr/
からNHocrのソースをダウンロード。
さっきと同様にconfigure.in開いて、同じく--unroll-loops消して、今度は更にその消したところに

-I/usr/local/Cellar/freetype/2.5.2/include/freetype2

を追加。
これはhomebrewでfreetypeが入ってる場合なので、他の入れ方だと違う場所かもしれないし、そもそも要らないかもしれない。
したらまたautomakeして./configure --with-O2tools=(さっきのどっかの適当な所)してmake。

NHOCR_DICDIR=dic nhocr/nhocr -block -o /dev/stdout test/fs.pgm

てやってみてファイルシステム、って出るようなら多分成功。

対応してる画像はPBM/PGM/PPMっていうよく知らない形式なので、ImageMagickのconvertが便利。
Tesseract OCRっていう別のOCR実装もあるんだけど日本語に関してはNHocrのがよさげ。