どんなツールか?
OpenRefine は、表データのクリーニング(重複削除・表記ゆれ修正・整形)と変換をブラウザ上で行えるツールです。 大量データを一括で処理でき、手作業での修正を大きく減らせます。
クレンジング作業中の状態をサーバ側で保存することが出来るほか、クレンジング手順自体を記録して同様のファイルに適用することも出来ます。
機能
- フィルタ・ファセット による絞り込みと値の確認
- 列の分割・結合、値の置換、空白や記号の正規化
- 重複検出やクラスタリングによる表記ゆれ修正
- 式(GREL)を使った一括変換
- 外部データとの照合(Reconciliation)
使い方
- CSV / TSV / Excel / JSON などのデータを読み込む
- Facet やフィルタで問題のある値を見つける
- 変換・置換・クラスタリングでデータを整える
- 必要な形式でエクスポートする
データ形式
- 入力:CSV、TSV、Excel(xls/xlsx)、Googleシート、JSON、XML、OpenDocument など
- 出力:CSV、TSV、Excel、JSON など


