In [1]:
%pip install chardet

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.1.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [38]:
import csv
import chardet
import os

def detect_encoding(file_path):
    with open(file_path, 'rb') as file:
        raw_data = file.read()
    return chardet.detect(raw_data)['encoding']

def extract_columns(input_file, output_file, columns):
    input_encoding = detect_encoding(input_file)
    print(f"処理中: {input_file} (エンコーディング: {input_encoding})")

    with open(input_file, 'r', encoding=input_encoding) as infile, \
         open(output_file, 'w', newline='', encoding='shift_jis') as outfile:
        reader = csv.reader(infile, delimiter='\t')
        writer = csv.writer(outfile)

        for row in reader:
            extracted_row = [row[i] for i in columns if i < len(row)]
            writer.writerow(extracted_row)

def process_files(input_dir, output_dir, columns):
    if not os.path.exists(input_dir):
        print(f"入力ディレクトリ '{input_dir}' が存在しません。")
        return

    os.makedirs(output_dir, exist_ok=True)

    txt_files = [f for f in os.listdir(input_dir) if f.endswith('.txt')]

    if not txt_files:
        print(f"ディレクトリ '{input_dir}' 内にtxtファイルが見つかりません。")
        return

    for txt_file in txt_files:
        input_file = os.path.join(input_dir, txt_file)
        output_file = os.path.join(output_dir, f"{os.path.splitext(txt_file)[0]}.csv")
        
        try:
            extract_columns(input_file, output_file, columns)
            print(f"抽出完了: {output_file}")
        except Exception as e:
            print(f"エラーが発生しました ({input_file}): {e}")

def main():
    input_dir = input("入力ファイルのディレクトリを入力してください: ")
    output_dir = input("出力ディレクトリを入力してください: ")
    columns_input = input("抽出したい列番号をカンマで区切って入力してください（0から始まります）: ")
    
    try:
        columns = [int(col.strip()) for col in columns_input.split(',')]
    except ValueError:
        print("無効な列番号です。整数を入力してください。")
        return

    process_files(input_dir, output_dir, columns)
    print("全てのファイルの処理が完了しました。")

if __name__ == "__main__":
    main()

処理中: input46\kekka (1).txt (エンコーディング: SHIFT_JIS)
抽出完了: output46\kekka (1).csv
処理中: input46\kekka (10).txt (エンコーディング: SHIFT_JIS)
抽出完了: output46\kekka (10).csv
処理中: input46\kekka (11).txt (エンコーディング: SHIFT_JIS)
抽出完了: output46\kekka (11).csv
処理中: input46\kekka (12).txt (エンコーディング: SHIFT_JIS)
抽出完了: output46\kekka (12).csv
処理中: input46\kekka (13).txt (エンコーディング: SHIFT_JIS)
抽出完了: output46\kekka (13).csv
処理中: input46\kekka (14).txt (エンコーディング: SHIFT_JIS)
抽出完了: output46\kekka (14).csv
処理中: input46\kekka (15).txt (エンコーディング: SHIFT_JIS)
抽出完了: output46\kekka (15).csv
処理中: input46\kekka (16).txt (エンコーディング: SHIFT_JIS)
抽出完了: output46\kekka (16).csv
処理中: input46\kekka (17).txt (エンコーディング: SHIFT_JIS)
抽出完了: output46\kekka (17).csv
処理中: input46\kekka (18).txt (エンコーディング: SHIFT_JIS)
抽出完了: output46\kekka (18).csv
処理中: input46\kekka (19).txt (エンコーディング: SHIFT_JIS)
抽出完了: output46\kekka (19).csv
処理中: input46\kekka (2).txt (エンコーディング: SHIFT_JIS)
抽出完了: output46\kekka (2).csv
処理中: input46\kekka (20).txt (エンコーディング: SHIFT