# 01. データを解凍する

【このノートで実施すること】</br>
　zipで圧縮されているデータを解凍します。</br>
</br>
【入力】</br>
　・data/00_zip_data/hjc 内の各zipファイル</br>
　・data/00_zip_data/kyi 内の各zipファイル</br>
　・data/00_zip_data/sed 内の各zipファイル</br>
 </br>
　※あらかじめzipファイルを格納しておく必要があります</br>
</br>
【出力】</br>
　・解凍後のテキストファイル</br>
 </br>
　data/01_unzip_data　内にhjc, kyi, sed の各フォルダが生成され、それぞれに解凍後のファイルが格納されます</br>

In [None]:
# 必要なモジュールをインポート
import zipfile
import os
import shutil

In [None]:
# cp932エンコードのファイル名をデコードする関数
def decode_cp932(file_name_bytes):
    try:
        return file_name_bytes.decode('cp932')
    except UnicodeDecodeError:
        return file_name_bytes.decode('cp932', 'ignore')

# 解凍用メソッド
def unzip_files(zip_folder, output_folder):
    # フォルダが存在しない場合は作成
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    # zipフォルダ内のzipファイルを１つずつ処理
    for zip_file in os.listdir(zip_folder):
        if zip_file.endswith(".zip"):
            # zipファイルのパスを作成します
            zip_file_path = os.path.join(zip_folder, zip_file)

            # 解凍先のファイル名を作成します
            unzip_file_name = os.path.splitext(zip_file)[0]

            # 解凍先のファイルのパスを作成します
            unzip_file_path = os.path.join(output_folder, unzip_file_name)

            # 解凍先のフォルダを作成します
            os.makedirs(unzip_file_path, exist_ok=True)

            # zipファイルを解凍します
            with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
                for file_info in zip_ref.infolist():
                    # ファイル名をcp932エンコードからデコードします
                    file_name = decode_cp932(file_info.filename.encode('cp437'))
                    dest_path = os.path.join(unzip_file_path, file_name)
                    # 解凍先のフォルダにコピーします
                    with zip_ref.open(file_info.filename) as source, open(dest_path, 'wb') as dest:
                        shutil.copyfileobj(source, dest)

In [None]:
# hjcデータを解凍
zip_folder = "data/00_zip_data/hjc"
output_folder = "data/01_unzip_data/hjc"
unzip_files(zip_folder, output_folder)

In [None]:
# kyiファイルを解凍
zip_folder = "data/00_zip_data/kyi"
output_folder = "data/01_unzip_data/kyi"
unzip_files(zip_folder, output_folder)

In [None]:
# sedファイルを解凍
zip_folder = "data/00_zip_data/sed"
output_folder = "data/01_unzip_data/sed"
unzip_files(zip_folder, output_folder)