pdf のテキスト変換は PyMuPDF が良さそう

(更新日: 2025年6月9日 )

pdfからテキストを抜き出すのは、たまに必要になる。

かなり昔は pdftotext や ps2txt などを使っていた。pdfビューア上でコピーしてエディタでペーストよりはマシという感じだったと思う。

最近はPyMuPDFが良さそう。参考: pdfからtextを抜き出す試行錯誤のメモ｜Kan Hatakeyama

PyMuPDFのドキュメントはこちら。

import fitz

doc = fitz.open("input.pdf") 
out = open("output.txt", "wb")
for page in doc: 
    text = page.get_text().encode("utf8") 
    out.write(text) 
    out.write(bytes((12,))) # ページ区切り
out.close()

Markdown形式で変換する場合は PyMuPDF4LLM が良い(参考: PyMuPDFが進化！PDFデータ抽出の超強力ライブラリ爆誕「PyMuPDF4LLM」 #Python – Qiita)。

PyMuPDF4LLMのドキュメントはこちら。

import pymupdf4llm
import pathlib

md_text = pymupdf4llm.to_markdown("input.pdf")
pathlib.Path("output.md").write_bytes(md_text.encode())

pdf のテキスト変換は PyMuPDF が良さそう

SNSリンク

過去記事の検索

最近の投稿と更新

カテゴリー

人気の記事 (WordPress Popular Posts)

過去ログ

RECOMMENDこちらの記事も人気です。

spleeterをインストールしなおしてハマったこと

python2.7系で書かれたプログラムをpython3で動かす時のハマり箇…

yt-dlp

Pygments: ソースコードをハイライトしてLaTeX形式にしてくれるツ…

Debianに pyenv をシステムワイドにインストール

PyBaMM で遊ぶ

Python で学ぶカルマンフィルター: "Kalman and Bayes…

python-fu で gimp バッチ処理

SNSリンク

過去記事の検索

最近の投稿と更新

カテゴリー

人気の記事 (WordPress Popular Posts)

過去ログ