Featured image of post Tabula PDF

Tabula PDF

PDFから表データを取り出す

どんなツールか?

Tabula PDF は、PDF 内の表を抽出して再利用しやすい形式に変換するツールです。
行政資料・調査報告書・配布資料など、PDF で公開された表をデータとして使いたい場面で役立ちます。

抽出したい表の範囲をページ上で指定し、CSV / JSON / Excel 形式で書き出せます。
「PDF はあるが元データが手元にない」という状況で、データ整形の出発点を作れます。

機能

  • PDF からの表抽出(ページ単位・複数ページ対応)
  • 表領域の手動選択(ドラッグ)と抽出プレビュー
  • 抽出モードの切り替え(罫線ベース / 余白ベース)
  • 複数テーブルの一括出力
  • CSV / JSON / Excel 形式でのダウンロード

使い方

    1. PDF ファイルをアップロード
    1. 対象ページを開き、抽出したい表領域を選択
    1. 抽出モードを選んでプレビューを確認
    1. 問題なければ CSV / JSON / Excel のいずれかで出力

データ形式

  • 入力:PDF
  • 出力:CSV、JSON、Excel

補足

  • 文字情報を持つ PDF での利用を想定しています。
  • スキャン画像中心の PDF は、事前に OCR を行うと抽出精度が上がります。
最終更新 2026-02-24
Hugo で構築されています。
テーマ StackJimmy によって設計されています。