OCRした結果をWordやExcelに変換したい

登録日: 2021年8月2日
最終更新日: 2022年10月31日
コンテンツID: 00528

DocuWorks 9.1

DocuWorks文書のOCRした結果をWordやExcel形式に変換する方法をご案内します

  • OCRできるDocuWorks文書の種別
    DocuWorks文書には「アプリケーション文書」と「イメージ文書」があります。
    OCRを行うには「イメージ文書」である必要があります。
  • アプリケーション文書、イメージ文書を確認する
    DocuWorks Deskの「プロパティ」で確認します。
    DocuWorks Deskメニューの[表示]>[インフォビュー]>[プロパティ]を開き、確認したいDocuWorks文書を選択します。
    • 注記[Ctrl]+[R]でも「プロパティ」の表示/非表示を切り替え可能です。
      [オリジナル種別]が「イメージ文書」である場合、そのままOCRを行うことができます。
      操作方法4の「OCRして結果をファイル出力する」を実施してください。
    ページのプロパティを確認
  • イメージ文書へ変換する
    [オリジナル種別]が「アプリケーション文書」である場合、「イメージ文書」に変換することでOCRを行うことができます。 イメージ文書にしたいDocuWorks文書を選択し、[ページの加工]プラグインをクリックします。
    • 注記[ページの加工]プラグインが無い場合は、DocuWorks Desk上部のツール>ツールの設定より、分類で[ツール]を選択、[ページの加工]コマンドをドラッグ&ドロップでお仕事バーに追加してください。
    [ページの加工]プラグインを選択
    [アプリケーションページ]タブを開き、[イメージページに変換する]にチェックを入れ、[OK]ボタンを押下します。
    [イメージページに変換する]にチェック
    ファイル名に「-加工」と付いたイメージ文書が作成されます。
    加工されたファイルの確認
  • OCRした結果をファイル出力する
    イメージ文書に変換したDocuWorksファイルを選択し、「OCRしてWord変換」プラグインをクリックします。
    • 注記[OCRしてExcel変換][OCRしてWord変換]プラグインが無い場合は、以下の手順で追加してください。
      • DocuWorks Desk上部のツール>ツールの設定より、分類で[ツール]を選択、[OCR(文字認識)]コマンドをドラッグしてお仕事バーに追加する
      • 追加した[OCR(文字認識)]コマンドを右クリック>プロパティより、[OCRの詳細設定]を選択し、
        [ファイル出力]タブにある[認識結果をファイルとして出力する]にチェックを入れる
      • 出力形式を[Excel(*xlsx)]または[Word(*.docx)]に変更する
      • すべてOKで閉じる
    [OCR詳細設定]または[OCRしてWord変換]プラグインを選択
    [OCR詳細設定]ダイアログから出力形式を選択
    「開始」をクリックし、任意の場所に保存します。指定した保存先に出力されたファイルを確認します。

参考1.OCR処理結果が文字化けするなどうまくいかない場合

  • お仕事バーの便利な機能内[OCR]を右クリックし、プロパティを開く
  • OCR(文字認識)設定画面で以下を変更する
    OCRに渡すイメージのノイズ除去をする:ふつう
    カラーイメージに対するOCR処理:白黒に変換して認識率を優先する
  • [OCRの詳細設定]>全般タブにある[認識モード]を[認識率優先]に変更してOKで閉じる

DocuWorksはOCRに特化したソフトウェアではないため、一般的なOCRソフトに比べ、OCRの精度が高くありません。
OCRの設定を調整いただいても改善されない場合は、OCR結果に正しい値を直接ご入力ください。

参考2.Excelの表のOCR結果でExcelの表が1列に出力されてしまうなどうまくいかない場合

  • お仕事バーの便利な機能内[OCR]を右クリックし、プロパティを開く
  • ダイアログ左側の[OCRの詳細設定]>全般タブにある[認識モード]を[認識率優先]に変更する
  • 原稿レイアウトを[表]に変更してOKで閉じる
  • 再度、OCR処理をおこなう

DocuWorksのバージョンにより、初期設定時に追加されているプラグインの種類が異なります。
ご利用の環境にあわせてごらんください。