登録日: 2018年1月17日
最終更新日: 2018年1月17日
コンテンツID: 00529
対象環境
DocuWorks 9
概要
DocuWorks 9.0.0でOCRについて改善した点について解説します。
対処方法
DocuWorks 8以前のバージョンでは文書に対してOCR処理を行う際に、内部的に白黒に変換してからOCR処理を行っていました。
DocuWorks 9ではOCRの設定ダイアログで[カラーのままOCR処理する]を選択することで、カラーのままOCR処理を行うことができます。カラーのままOCR処理を行うことの利点は以下です。
- カラー写真などの画像が含まれる場合、OCR結果をWordやExcelに出力したときに、カラーの画像がそのまま出力されます。
- 色付き文字が含まれていたときに、認識率が向上する場合があります。
DocuWorks Deskの場合:
DocuWorks Deskのお仕事バーの[OCR]を選択し、ダイアログを表示します。表示されたダイアログ[OCR(文字認識)]で[設定]を選択します。
表示された[OCR(文字認識)設定]ダイアログの[カラーイメージに対するOCR処理]のプルダウンで[カラーのままOCR処理する]を選択し、[OK]を選択します。
[OCR(文字認識)]ダイアログで[開始]を選択し、OCR処理を実行します。
DocuWorks Viewerの場合:
DocuWorks Viewerの[ページ]メニュー >[OCR(文字認識)]を選択し、ダイアログを表示します。
表示された[OCR(文字認識)]ダイアログの[カラーイメージに対する前処理]のラジオボタンで[カラーのままOCR処理する]を選択し、[開始]を選択してOCR処理を実行します。
OCR認識言語
DocuWorks 9では以下の言語をOCR認識言語として選択できます。
- 日本語
- 英語
- 韓国語
- 中国語(簡体字)
- 中国語(繁体字)
- タイ語
- ベトナム語
- インドネシア語
- マレー語
- タガログ語
複数の言語をまとめて選択することができますが、選択数に比例して認識時間が長くなります。認識したい言語に絞って選択することを推奨します。
設定方法:
上述の[OCR(文字認識)]ダイアログで[詳細設定]を選択して[OCRの詳細設定]ダイアログを表示します。
[全般]タブの[認識言語:]のチェックボックス一覧からOCR認識言語を選択できます。
OCR結果出力形式
DocuWorks 9では以下のファイル形式でOCR結果を出力することができます。
- テキスト(*.txt)
- RTF(*.rtf)
- Excel(*.xlsx)
- CSV(*.csv)
- Word(*.docx)
設定方法:
上述の[OCR(文字認識)]ダイアログで[詳細設定]を選択して[OCRの詳細設定]ダイアログを表示します。
[ファイル出力]タブの[認識結果をファイルとして出力]のチェックボックスにチェックを入れ、[出力形式:]のプルダウンから出力形式を選択できます。
OCR結果出力単位
DocuWorks 9ではOCR結果をファイル出力する際に、ファイルの出力単位を以下のように設定することができます。
- OCR対象1文書ごとにOCR結果1ファイルを出力する
- OCR対象1ページごとにOCR結果1ファイルを出力する
設定方法:
上述の [OCRの詳細設定]ダイアログで[ファイル出力]タブを選択します。
[ファイル出力単位]のラジオボタンで、出力単位を設定できます。