DocuWorks 9でOCRについての改善点

登録日: 2018年1月17日
最終更新日: 2018年1月17日
コンテンツID: 00529

DocuWorks 9

DocuWorks 9.0.0でOCRについて改善した点について解説します。

DocuWorks 8以前のバージョンでは文書に対してOCR処理を行う際に、内部的に白黒に変換してからOCR処理を行っていました。

DocuWorks 9ではOCRの設定ダイアログで[カラーのままOCR処理する]を選択することで、カラーのままOCR処理を行うことができます。カラーのままOCR処理を行うことの利点は以下です。

  • カラー写真などの画像が含まれる場合、OCR結果をWordやExcelに出力したときに、カラーの画像がそのまま出力されます。
  • 色付き文字が含まれていたときに、認識率が向上する場合があります。

DocuWorks Deskの場合:

[OCR]プラグインを選択

DocuWorks Deskのお仕事バーの[OCR]を選択し、ダイアログを表示します。表示されたダイアログ[OCR(文字認識)]で[設定]を選択します。

[OCR(文字認識)]ダイアログから[設定]を選択

表示された[OCR(文字認識)設定]ダイアログの[カラーイメージに対するOCR処理]のプルダウンで[カラーのままOCR処理する]を選択し、[OK]を選択します。

[OCR(文字認識)設定]ダイアログ

[OCR(文字認識)]ダイアログで[開始]を選択し、OCR処理を実行します。

DocuWorks Viewerの場合:

DocuWorks Viewerから[OCR(文字認識)]を選択

DocuWorks Viewerの[ページ]メニュー >[OCR(文字認識)]を選択し、ダイアログを表示します。

表示された[OCR(文字認識)]ダイアログの[カラーイメージに対する前処理]のラジオボタンで[カラーのままOCR処理する]を選択し、[開始]を選択してOCR処理を実行します。

[OCR(文字認識)]ダイアログ

DocuWorks 9では以下の言語をOCR認識言語として選択できます。

  • 日本語
  • 英語
  • 韓国語
  • 中国語(簡体字)
  • 中国語(繁体字)
  • タイ語
  • ベトナム語
  • インドネシア語
  • マレー語
  • タガログ語

複数の言語をまとめて選択することができますが、選択数に比例して認識時間が長くなります。認識したい言語に絞って選択することを推奨します。

設定方法:

上述の[OCR(文字認識)]ダイアログで[詳細設定]を選択して[OCRの詳細設定]ダイアログを表示します。
[全般]タブの[認識言語:]のチェックボックス一覧からOCR認識言語を選択できます。

[OCR(文字認識)]ダイアログから認識言語の選択

DocuWorks 9では以下のファイル形式でOCR結果を出力することができます。

  • テキスト(*.txt)
  • RTF(*.rtf)
  • Excel(*.xlsx)
  • CSV(*.csv)
  • Word(*.docx)

設定方法:

上述の[OCR(文字認識)]ダイアログで[詳細設定]を選択して[OCRの詳細設定]ダイアログを表示します。
[ファイル出力]タブの[認識結果をファイルとして出力]のチェックボックスにチェックを入れ、[出力形式:]のプルダウンから出力形式を選択できます。

[OCRの詳細設定]ダイアログで出力形式を選択

DocuWorks 9ではOCR結果をファイル出力する際に、ファイルの出力単位を以下のように設定することができます。

  • OCR対象1文書ごとにOCR結果1ファイルを出力する
  • OCR対象1ページごとにOCR結果1ファイルを出力する

設定方法:

上述の [OCRの詳細設定]ダイアログで[ファイル出力]タブを選択します。
[ファイル出力単位]のラジオボタンで、出力単位を設定できます。

[ファイル出力単位]のラジオボタンで出力単位を設定