
概要
スキャンした文書は画像形式の PDF ファイルとして保存されますが、このとき、スキャンしたPDFをWordへの形式変換をより適切に完了するには光学式文字認識技術 (OCR) が必要となるため、この記事では 3 つの方法を紹介します。

OCR(英語の正式名称はOptical Character Recognition、Optical Character Recognition)とは、テキスト素材の画像ファイルを解析・認識し、テキストやレイアウト情報を取得する処理を指します。

複数形式対応 Word/Excel/PowerPoint/テキスト/画像/HTML/EPUB
多機能PDF変換/暗号化/復号化/結合/透かし追加等。
OCR対応 スキャンされたPDF・画像・埋め込みフォントから文字を抽出
処理速度速い複数のファイルを同時に編集/変換できます。
対応OS Windows 11/10/8/8.1/Vista/7/XP/2000
多形式対応 Excel/Text/PPT/EPUB/HTML...
OCR対応 スキャンされたPDF・画像・埋め込みフォントから...
多機能PDF変換/暗号化/結合/透かし等。
② 上部の出力形式でWord/Excel/PowerPoint /TXTなどを選択します。
③「ファイル追加」ボタンをクリックし、PDFファイルを追加します。変換するページを指定できます。「変換」ボタンをクリックします。
- A:画像又はスキャナで読み取ったPDFから文字認識:このオプションは、スキャンされたPDFファイルまたは画像の変換に適しており、OC技術を利用して、テキスト認識の精度をさらに向上させることができます。
- B:埋め込みフォントの認識(文字化け回避):このオプションは、フォーマット変換の完了後にファイル内の文字化けを回避するために、PDFソースファイルに埋め込みフォントがある状況に適用できます。
- A+B(遅くなる):プログラムは、ファイル内のフォントが画像であるかPDF埋め込みフォントであるかを自動的に認識し、変換して出力します。 ただし、認識には時間がかかり、変換時間は長くなります。

関連記事 :

2022-06-14
Ayu : スキャンされたPDFを編集可能な形式に変換したい場合、OCR機能を利用する必要があります。この記事は、フリーのOCRソフト、オン...

2022-06-14
Satoshi : OCRは、画像内のテキストを認識できるテクノロジーです。スキャンしたPDFドキュメントや写真を使用して、テキストを認識および変換...

2021-10-11
Yuki : 画像内の文字を認識しテキストとして抽出したい?スキャナで読み取ったPDFまたは画像内にある文字情報を取得・利用したい?OCRフリ...

2024-03-11
Imori : PDF ドキュメントを EPUB 形式に変換するにはどうすればよいでしょうか?次の記事では、PDF ドキュメントを EPUB 形...