インストール
準備するものは3つ
- Java・・・OCRの利用にJava必須
- PyOCR・・・OCRを利用可能にするために必要なモジュール
- Tesseract-OCR・・・オープンソースのOCRエンジン
『OCR』とは
画像ファイルの文字をテキストとして読み込む技術です
Javaのインストール
Windows版Javaのダウンロード オフライン・インストール
環境に合わせてインストーラーをダウンロードして下さい
exeを実行します
インストール成功
Java環境変数の設定
「コントロールパネル」を開く
「システムとセキュリティ」をクリック
「システム」をクリック
「システムの詳細設定」をクリック
「環境変数」をクリック
JAVA_HOMEを作成
変数名:JAVA_HOME
変数値:C:\Program Files (x86)\Java\jre1.8.0_301
Java環境変数の設定確認
コマンドプロンプトにて次のコマンドを実行
1 |
set JAVA_HOME |
pyocrインストール
1 |
pip install pyocr |
Tesseract-OCRインストール
1 |
pip install tesseract |
こちらからインストーラーをダウンロード
インストーラーを実行
「Next」クリック
「I Agree」クリック
「Next」クリック
「Additional script data(download)」を展開
次の項目にチェック
- Japanese script
- Japanese vertical script
「Next」クリック
「Additional language data(download)」を展開
次の項目にチェック
- Japanese
- Japanese(Vertical)
サンプルソース
次の画像から文字列「Hello World!」を抽出してみましょ!
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
from PIL import Image import sys import pyocr #tesseract.exeのパスを指定 pyocr.tesseract.TESSERACT_CMD = r'C:\Program Files\Tesseract-OCR\tesseract.exe' #画像ファイルパス imgPath = 'hello.png' #OCRツールの呼び出し tools = pyocr.get_available_tools() if len(tools) == 0: print("OCRツールが見つかりませんでした") sys.exit(1) tool = tools[0] #画像から文字を抽出 txt = tool.image_to_string(Image.open(imgPath), lang="jpn") #空白を除去 txt = txt.replace(' ', '') #文字出力 print(txt) |
コメント