フリーの日本語用ocrソフトNHocrを使ってみる
まずおんなじ作者さんのO2-tools-2.00の準備から。
http://www.imglab.org/p/O2/index.html
からtarをダウンロードしてきてどっかに適当に開ける。
configure.inを開いて上の方の
test "x$CFLAGS" = "x" && CFLAGS="-O3 --unroll-loops"
test "x$CXXFLAGS" = "x" && CXXFLAGS="-O3 --unroll-loops"
の--unroll-loopsを削除(OSXなのでこのオプション使えないんで。多分最適化の奴だからなくて平気)
automakeして./configure --prefix=(どっか適当な所)してmake && make install。
このどっか適当な所は後に使うので要記憶。
つぎに
https://code.google.com/p/nhocr/
からNHocrのソースをダウンロード。
さっきと同様にconfigure.in開いて、同じく--unroll-loops消して、今度は更にその消したところに
-I/usr/local/Cellar/freetype/2.5.2/include/freetype2
を追加。
これはhomebrewでfreetypeが入ってる場合なので、他の入れ方だと違う場所かもしれないし、そもそも要らないかもしれない。
したらまたautomakeして./configure --with-O2tools=(さっきのどっかの適当な所)してmake。
NHOCR_DICDIR=dic nhocr/nhocr -block -o /dev/stdout test/fs.pgm
てやってみてファイルシステム、って出るようなら多分成功。
対応してる画像はPBM/PGM/PPMっていうよく知らない形式なので、ImageMagickのconvertが便利。
Tesseract OCRっていう別のOCR実装もあるんだけど日本語に関してはNHocrのがよさげ。