OCRの能力
使用するOCRの能力

OCRの能力は、ソフトによって幅があります。1〜2万円で店頭で販売されているOCRや、スキャナや複合機にバンドルされているOCRは、活字読取用の簡易版が多いようで、業務用として使用するには十分ではありません。弊社ではPC上で稼動する高性能ソフトOCRを認識エンジンとして利用します。

【認識率】 手書き文字 93%、手書き数字 99.5%
 手書き文字の認識率とは、多くの人々が記入した様々な文字サンプルを正しく読み取ることができた割合です。文字の認識率は書き方の他にも明るさやコントラストなどスキャナやFAXの画像取込み設定によっても違ってきますが、現在のOCR認識技術は、上手な文字でなくても、崩したり、略したりせずに書くことにより、正確に読み取ることが可能で業務で支障なく使えるレベルに達しています。

<手書き文字認識例>
活字で表示されている部分がOCR認識結果です。
手書き文字認識例

<手書き数字認識例>
右の例は1〜0までの数字を各10種類ずつ書き方を変えて どの程度 認識するかテストしています。
1ヶ所だけ誤認識の場所がありますが、おわかりでしょうか?
手書き数字認識例
<ご注意>実際にはオペレータが1文字ずつ認識結果を確認するのではなく、「スーパーコレクト機能」が間違いを見つけ出してくれます。
【認識速度】100枚の用紙をOCR認識させた合計時間 190秒 平均 1.9秒 /1枚
100枚の用紙をOCR認識させた合計時間※クロック速度の速いCPUやメモリーを増大させるとさらに処理時間が短くなります。
このOCRは普通の用紙に読取り枠を設計して作れますので自由度も高く、書式はコピーして使うことも可能です。
活字認識と手書き文字認識
実はOCRエンジンには活字認識用と手書き文字認識用の2種類があります。また、二つのエンジンを組み合わせた ハイブリットタイプもあります。ここでは業務で使うことの多い手書き用OCRについて説明します。

用紙サイズ
  A6サイズからA3サイズまで、縦使いでも横使いでも自由に利用できますが、スキャナの最大読取寸法との兼合いに留意する必要があります。
用紙レイアウト設計
OCR認識の手がかりとなるのは罫線枠です。用紙上に設計した罫線枠を、事前にOCRソフトに登録しておき、そのレイアウトに合致した 書式が認識されると、設定に従い文字の認識を開始します。

 基本的に1文字1マスに記入されるよう設計しますが、ゴム印で記載する読取マス枠などの例外もあります。マス枠の寸法制限や、マス枠同士の位置関係、ブロックマスや独立マス、余白のとり方、実線と点線の組合せ、線の太さ、数字記入マスの桁区切り表記、 マークチェック用のマス枠など細かな設計ルールもあり、それらの条件を満たしていないと認識精度にかなりの影響があります。

 たまに取引先指定伝票が数十種あり、どれでも読ませたいというようなリクエストもありますがOCR処理するためには全ての書式を登録する必要があります。書式登録数に制限はないので実現は可能ですが、書式とそれに連動するプログラムも用意しますからどんなに最低でも1書式数十万円は必要です。さらに相手先が書式変更するとその都度変更費用がかかります。上位数種類程度の書式までならともかく 数十種に及ぶ相手先書式対応型でOCRを導入されたユーザーはまだありません。

 見やすさを考慮して、罫線枠をカラー化することも可能ですが、スキャナの設定に注意が必要です。
 地色の網がけやカラーマスクは、OCR読み取り認識前の画像補正で除去できるものと、読取範囲を越えるために対応できないものがありますので ご相談ください。カラー用紙や再生紙を使う場合も、罫線色と用紙地色のコントラストバランスが変わってきますので、スキャナの設定によって可否が異なります。
読み取り可能文字
 個々のOCRエンジンにより若干異なりますが、英数カナ漢字と一部の記号に対応します。
  英大文字 26種
  数字11種
  カタカナ87種
  ひらがな84種
  漢字3487種(JIS第1水準と第2水準の1部)
  記号23種