PDFPDFMint

PDFの日本語文字化け(mojibake)を直す方法

PDFファイルの日本語文字化けについて、フォント埋め込み・エンコーディング・OCR救出を網羅した完全な診断・修復ガイドです。

ファイルはお使いのデバイス内で処理されます。サーバーへの送信は一切ありません。

今すぐ使う

文字化けしたPDFをドロップしてWord変換またはOCRを実行 — 読めない日本語を最も確実に救う方法です。

文字化けを直す

使い方ガイド

  1. 1

    文字化けの種類を診断する

    PDFを開いて化けたテキストをテキストエディタにコピペしてみましょう。読める日本語として貼り付けられるなら、問題はビューア側だけです — PDFリーダーをアップデートしてください。四角や疑問符、ランダムなラテン文字として貼られる場合、PDF自体にフォント埋め込みやエンコーディングの問題があり、修復が必要です。

  2. 2

    コンバータを通して再エクスポート

    PDFをPDFMintのPDF→Wordコンバータに通します。コンバータはCJK対応のパイプラインでテキストレイヤーを最初から再構築するため、コピペ文字化けの原因となる壊れたToUnicodeマッピングを直すことがよくあります。Wordファイルが正しく見えたら、フォント埋め込みを有効にしてPDFに再エクスポートすれば、クリーンで検索可能なPDFが得られます。

  3. 3

    テキスト自体が無いならOCRを実行

    PDFが実はテキストレイヤーのないスキャン画像だった場合、いくら再エンコードしても文字は復元できません — そもそもファイルに存在しないからです。PDFMintのOCRツールで言語を「日本語(jpn)」に設定して実行し、画像から文字を抽出しましょう。最近のOCRエンジンは印刷された日本語に対して95%以上の精度を出します。

ヒント

  • WordやLibreOfficeで日本語PDFを作る際は、エクスポート前に必ず「フォントをファイルに埋め込む」をオンにしてください。MS明朝やNoto Sans CJKを埋め込まずに参照していると、フォントの無いPCで化けます。
  • 稀少な漢字や旧字体を含む日本語PDFを送る場合は、ソースフォントとしてSource Han Serif / Noto Serif CJKを使いましょう。フリーCJKフォントの中で最大のUnicodeカバレッジを持ちます。
  • 縦書き(tategaki)日本語はPDFエクスポートで特に壊れやすいです。送る前に必ず一文をテキストエディタにコピペして結果を確認してください。

よくある質問

PDFで日本語が□(豆腐)に化けるのはなぜ?

豆腐ボックスは、PDFリーダーがファイルが参照しているフォントにアクセスできないことを意味します。元の文書が日本語フォントを埋め込まずにエクスポートされた場合に起こります — 古いMac版MS Officeや一部のLinuxツールでよく発生します。修正方法は、ソースで「すべてのフォントを埋め込む」を有効にして再エクスポートするか、テキストレイヤーを再構築するコンバータを通すことです。

コピペすると漢字ではなくランダムなラテン文字が貼られるのはなぜ?

PDFがカスタムフォントサブセットを使っており、そのToUnicode CMapが壊れているか欠落しているためです。グリフの形状は埋め込まれているので見た目は正しく描画されますが、内部の文字コードが実際のUnicodeコードポイントにマッピングされていません。PDF→WordやOCRを通すと、見えるグリフからテキストレイヤーが再構築され、本来の文字が復元されます。

OCRをかけると日本語PDFは検索可能になりますか?

はい。OCRは既存の画像の下に隠しテキストレイヤーを生成するため、どのリーダーでも検索可能になり、コピペで実際の日本語文字が得られるようになります。OCR言語に「日本語(jpn)」を選択するか、和英混在文書なら「jpn+eng」を選びます。300 DPI以上の高解像度スキャンは150 DPIスキャンより大幅に精度が高く、特に密に印刷された漢字でその差が顕著です。

関連ツール

さっそく始めましょう

登録不要。ファイルがデバイスの外に出ることはありません。

文字化けを直す