CSV Column Extractor
は、大規模なCSVファイルから必要な列だけを簡単かつ高速に抽出するためのPythonスクリプトです。設定ファイルを使って抽出したい列名を指定するだけで、新しいCSVファイルを生成します。
- 設定ファイルベース:
config.ini
ファイルに設定を記述するだけで、スクリプトの変更は不要です。 - 複数列の指定: 抽出したい列をカンマ区切りで複数指定できます。
- 高速な処理: データ操作に最適化された
pandas
ライブラリを使用しており、大きなファイルも効率的に処理します。 - エラーハンドリング: ファイルが存在しない場合や、指定した列が見つからない場合に警告やエラーメッセージを表示します。
- Python 3.8 以上
- pandas およびその依存ライブラリ (
numpy
,python-dateutil
,pytz
,six
)
-
リポジトリのクローンまたはダウンロード
git clone https://github.com/git-756/csv-tool.git cd csv-tool
-
設定ファイルの準備
csv_column_extractor/config.ini.sample
をコピーして、同階層にconfig.ini
という名前で保存します。
-
config.ini
の編集config.ini
ファイルを開き、自分の環境に合わせて以下の項目を設定します。
[SETTINGS] # 入力する元のCSVファイル名を指定します input_csv_file = path/to/your/source_data.csv # 出力する新しいCSVファイル名を指定します output_csv_file = path/to/your/extracted_data.csv # 抽出したいヘッダー(列名)をカンマ(,)区切りで指定します target_headers = 氏名,メールアドレス,購入製品
-
スクリプトの実行
- ターミナルで以下のコマンドを実行します。
python csv_column_extractor/extract_csv.py
-
結果の確認
- 処理が完了すると、
output_csv_file
で指定したパスに、指定した列だけが含まれた新しいCSVファイルが作成されます。
- 処理が完了すると、
このプロジェクトは MIT License のもとで公開されています。ライセンスの全文については、LICENSE ファイルをご覧ください。
また、このプロジェクトはサードパーティ製のライブラリを利用しています。これらのライブラリのライセンス情報については、NOTICE.md ファイルに記載しています。