In [1]:
import os
import pandas as pd
import glob

In [4]:

def remove_column_from_parquet_files(input_directory, output_directory, column_name):
    """
    Parquetファイルの指定した初めの列を削除して新しいフォルダに保存する。
    Parameters:
    input_directory (str): Parquetファイルが存在する入力ディレクトリのパス。
    output_directory (str): 更新されたParquetファイルを保存する出力ディレクトリのパス。
    column_name (str): 削除したい列名。
    """
    # 出力ディレクトリが存在しない場合は作成する
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)
    
    for filename in os.listdir(input_directory):
        if filename.endswith(".parquet"):
            input_filepath = os.path.join(input_directory, filename)
            output_filepath = os.path.join(output_directory, filename)
            try:
                # Parquetファイルを読み込む
                df = pd.read_parquet(input_filepath)

                # 指定した列を削除
                if column_name in df.columns:
                    df = df.drop(columns=[column_name])

                    # 新しいフォルダに保存
                    df.to_parquet(output_filepath)
                    print(f"File saved: {output_filepath}")
                else:
                    print(f"Column '{column_name}' not found in file: {filename}")
            except Exception as e:
                print(f"Error processing file {filename}: {e}")

# 使用例
input_directory_path = r'C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4'  # Parquetファイルがある入力ディレクトリのパス
output_directory_path = r'C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing'  # 更新されたParquetファイルを保存する出力ディレクトリのパス
column_to_remove = 'epoch'  # 削除したい列名

# 関数を呼び出して指定した列を削除して新しいフォルダに保存する
remove_column_from_parquet_files(input_directory_path, output_directory_path, column_to_remove)

# 確認のために再度Parquetファイルを読み込む
file_path = os.path.join(output_directory_path, '__JTJnGj7xM.parquet')
df = pd.read_parquet(file_path)
print(df.columns)

File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\-2xd3DxJM14.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\-48rLmjZlgA.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\-ELcxTjzJ2I.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\-fjl8nWN5Sc.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\-jL3Rp8iq7g.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\-n5vooNkm18.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\-OvMjTeO1_g.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\0-rLdPWK2Hg.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\09bTA2_0igY.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\0eKbtbFlOYo.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\0MQxvZS2xPY.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\0mUcX6C3VKo.

File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\BT7I1Hqzh8E.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\bVYW9jPrZTM.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\bWZiq2rZYzQ.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\BY2Ic-ggLIk.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\bYKiZWb7jWc.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\c0ZEz5nbKqQ.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\c9KYgbW7Ywg.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\cbzEKfx-41I.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\CfIDXK3Y9Pk.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\CfwnowGzPgA.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\cG3oShnHNXI.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\chsm7hIPAZM.

File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\io-Ky9Gp_2Q.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\IOD11MliDKA.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\ipI_lJtJYMY.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\IpMfunW4ZMg.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\iRWg3dBH5Zw.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\J15AY9N-AT0.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\j2-nl3Nj3Q4.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\jB9Kv_n0KRk.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\JbqGLcLLmNI.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\jGgx-DVKCsU.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\ji1iU9tp63M.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\JMI7_RoOoUM.

File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\rE4v9OpGWwY.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\RFBfENACyJc.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\rga1nmpKsFA.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\rJwOJwHAtAA.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\rPB1DrpSQsE.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\rQf-6ZAs27M.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\rt5ezAauxMo.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\rvvEc0L2mtU.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\rY2-Qqt_UrM.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\RZ0Ixmutr3Y.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\rzqGnSTS-7U.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\rztYY7EuUwU.

File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\zbryX1Xwvy4.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\zEMk_dWTMJA.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\zgXm29i2dmo.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\ZIe2VjJcCkQ.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\zjD1diTk2j8.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\zl347VVE2kA.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\ZrmDpbypESE.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\zrp8uqBfJJc.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\zsCmWuBFMIc.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\zv9RxohykN4.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\ZVjcW1Y-6i0.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\_8_QC3kgKKA.

In [1]:
import os
import pandas as pd

def add_column_to_parquet_files(input_directory, output_directory, column_name, initial_value):
    """
    Parquetファイルに指定した列を列の初めに追加して新しいフォルダに保存する。
    Parameters:
    input_directory (str): Parquetファイルが存在する入力ディレクトリのパス。
    output_directory (str): 更新されたParquetファイルを保存する出力ディレクトリのパス。
    column_name (str): 追加したい列名。
    initial_value (any): 追加する列の初期値。
    """
    # 出力ディレクトリが存在しない場合は作成する
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)
    
    for filename in os.listdir(input_directory):
        if filename.endswith(".parquet"):
            input_filepath = os.path.join(input_directory, filename)
            output_filepath = os.path.join(output_directory, filename)
            try:
                # Parquetファイルを読み込む
                df = pd.read_parquet(input_filepath)

                # 指定した列を追加（初期値を設定）
                df[column_name] = initial_value

                # 列を先頭に移動
                columns = [column_name] + [col for col in df.columns if col != column_name]
                df = df[columns]

                # 新しいフォルダに保存
                df.to_parquet(output_filepath)
                print(f"File saved: {output_filepath}")
            except Exception as e:
                print(f"Error processing file {filename}: {e}")

# 使用例
input_directory_path = r'C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4'  # Parquetファイルがある入力ディレクトリのパス
output_directory_path = r'C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add'  # 更新されたParquetファイルを保存する出力ディレクトリのパス
column_to_add = 'add'  # 追加したい列名
initial_value = 0  # 追加する列の初期値

# 関数を呼び出して指定した列を追加して新しいフォルダに保存する
add_column_to_parquet_files(input_directory_path, output_directory_path, column_to_add, initial_value)

# 確認のために再度Parquetファイルを読み込む
file_path = os.path.join(output_directory_path, '__JTJnGj7xM.parquet')
df = pd.read_parquet(file_path)
print(df.columns)

File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\-2xd3DxJM14.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\-48rLmjZlgA.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\-ELcxTjzJ2I.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\-fjl8nWN5Sc.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\-jL3Rp8iq7g.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\-n5vooNkm18.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\-OvMjTeO1_g.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\0-rLdPWK2Hg.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\09bTA2_0igY.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\0eKbtbFlOYo.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\0MQxvZS2xPY.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\0mUcX6C3VKo.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\

File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\bYKiZWb7jWc.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\c0ZEz5nbKqQ.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\c9KYgbW7Ywg.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\cbzEKfx-41I.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\CfIDXK3Y9Pk.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\CfwnowGzPgA.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\cG3oShnHNXI.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\chsm7hIPAZM.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\cj74oUn7b3c.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\CNLcg8-rw2M.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\Co-BFWXpf8E.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\ct0XVQk35r4.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\

File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\J15AY9N-AT0.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\j2-nl3Nj3Q4.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\jB9Kv_n0KRk.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\JbqGLcLLmNI.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\jGgx-DVKCsU.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\ji1iU9tp63M.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\JMI7_RoOoUM.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\jotqXlrbOSU.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\JrCVqvmWHUE.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\jTCDISIr1kg.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\JWDMbHFE7q8.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\Jy4CCcOqVM4.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\

File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\rAWbVDftRuM.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\RDWNSmkd7bk.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\rE4v9OpGWwY.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\RFBfENACyJc.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\rga1nmpKsFA.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\rJwOJwHAtAA.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\rPB1DrpSQsE.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\rQf-6ZAs27M.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\rt5ezAauxMo.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\rvvEc0L2mtU.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\rY2-Qqt_UrM.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\RZ0Ixmutr3Y.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\

File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\zjD1diTk2j8.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\zl347VVE2kA.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\ZrmDpbypESE.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\zrp8uqBfJJc.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\zsCmWuBFMIc.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\zv9RxohykN4.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\ZVjcW1Y-6i0.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\_8_QC3kgKKA.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\_dG5HKtwfkM.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\_Fymy2yaBO8.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\_gSRHBnsuYI.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\_M7qxctrWZw.parquet
File saved: C:\Users\user\Desktop\圧縮\作業\

In [None]:
#mergeファイルの際使用するカラムの真ん中を欠如

In [None]:
#mergeファイルの際使用するカラムの最後を欠如

In [None]:
#mergeファイルの際使用するカラムの真ん中に追加

In [None]:
#mergeファイルの際使用するカラムの最後に追加

In [5]:
  """
  圧縮のためのコード
  """

# pandasの表示オプションを設定
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 500)

# フォルダパスを設定
base_folder_path = r'C:\Users\user\Desktop\圧縮\作業'

# 基本フォルダ内のすべてのサブディレクトリを取得
def get_subfolders(base_folder_path):
    subfolders = []
    with os.scandir(base_folder_path) as entries:
        for entry in entries:
            if entry.is_dir():
                subfolders.append(entry.path)
    return subfolders

# 基本フォルダ内のサブディレクトリを取得
subfolders = get_subfolders(base_folder_path)

# 各サブフォルダ内のParquetファイルを処理する関数
def process_folder(folder_path):
    # Parquetファイルのパスを取得
    parquet_files = glob.glob(os.path.join(folder_path, "*.parquet"))

    if not parquet_files:
        print(f"No Parquet files found in {folder_path}")
        return

    # すべてのParquetファイルを読み込んで1つのDataFrameに結合する
    dfs = []
    for parquet_file in parquet_files:
        df = pd.read_parquet(parquet_file)
        dfs.append(df)

    # すべてのデータを含むDataFrameを作成
    if dfs:
        merged_df = pd.concat(dfs, axis=0)

        # 必要な列を選択
        columns_to_select = ["channel_id", "channel", "id", "fulltitle", "age_limit", "duration",
                             "view_count", "like_count", "comment_count", "original_url", "categories",
                             "tags", "_version.release_git_head"]
        merged_df = merged_df[columns_to_select]

        # マージされたDataFrameをParquetファイルとして保存する
        output_path = os.path.join(folder_path, "merged_data.parquet")
        merged_df.to_parquet(output_path)
        print(f"Parquetファイルが {output_path} に保存されました。")

# 各サブフォルダを処理
for folder in subfolders:
    print(f"Processing folder: {folder}")
    process_folder(folder)

Processing folder: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4
Parquetファイルが C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4\merged_data.parquet に保存されました。
Processing folder: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing
Parquetファイルが C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\merged_data.parquet に保存されました。
Processing folder: C:\Users\user\Desktop\圧縮\作業\30uVJ7O-mCg


  merged_df = pd.concat(dfs, axis=0)


Parquetファイルが C:\Users\user\Desktop\圧縮\作業\30uVJ7O-mCg\merged_data.parquet に保存されました。
Processing folder: C:\Users\user\Desktop\圧縮\作業\UCEXGDNclvmg6RW0vipJYsTQ


  merged_df = pd.concat(dfs, axis=0)


Parquetファイルが C:\Users\user\Desktop\圧縮\作業\UCEXGDNclvmg6RW0vipJYsTQ\merged_data.parquet に保存されました。


In [12]:
  """
  フォルダを比較する
  """

def compare_parquet_files(file1, file2):
    try:
        # Parquetファイルをデータフレームとして読み込む
        df1 = pd.read_parquet(file1)
        df2 = pd.read_parquet(file2)
        
        # データフレームを比較する
        if df1.equals(df2):
            print("The Parquet files are identical.")
        else:
            print("The Parquet files are different.")
            # 差分を出力（必要に応じて）
            print("\nDifferences:")
            # 列名の比較
            if set(df1.columns) != set(df2.columns):
                print("Column names are different.")
                print("File 1 columns:", df1.columns)
                print("File 2 columns:", df2.columns)
            
            # 行数の比較
            if len(df1) != len(df2):
                print(f"Number of rows are different: File 1 has {len(df1)} rows, File 2 has {len(df2)} rows.")
            
            # データ内容の比較
            comparison = df1.compare(df2, keep_shape=True, keep_equal=True)
            print(comparison)
    except Exception as e:
        print(f"Error comparing files: {e}")

# 使用例
file_path1 = r'C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4\merged_data.parquet'
file_path2 = r'C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\merged_data.parquet'

compare_parquet_files(file_path1, file_path2)

The Parquet files are identical.


In [10]:
  """
  圧縮のためのコード
  """

# pandasの表示オプションを設定
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 500)

# フォルダパスを設定
base_folder_path = r'C:\Users\user\Desktop\圧縮\作業'

# 基本フォルダ内のすべてのサブディレクトリを取得
def get_subfolders(base_folder_path):
    subfolders = []
    with os.scandir(base_folder_path) as entries:
        for entry in entries:
            if entry.is_dir():
                subfolders.append(entry.path)
    return subfolders

# 基本フォルダ内のサブディレクトリを取得
subfolders = get_subfolders(base_folder_path)

# 各サブフォルダ内のParquetファイルを処理する関数
def process_folder(folder_path):
    # Parquetファイルのパスを取得
    parquet_files = glob.glob(os.path.join(folder_path, "*.parquet"))

    if not parquet_files:
        print(f"No Parquet files found in {folder_path}")
        return

    # すべてのParquetファイルを読み込んで1つのDataFrameに結合する
    dfs = []
    for parquet_file in parquet_files:
        df = pd.read_parquet(parquet_file)
        dfs.append(df)

    # すべてのデータを含むDataFrameを作成
    if dfs:
        merged_df = pd.concat(dfs, axis=0)

        # 必要な列を選択
        columns_to_select = ["channel_id", "channel", "id", "fulltitle", "age_limit", "duration",
                             "view_count", "like_count", "comment_count", "original_url", "categories",
                             "tags", "_version.release_git_head"]
        merged_df = merged_df[columns_to_select]

        # マージされたDataFrameをParquetファイルとして保存する
        output_path = os.path.join(folder_path, "merged_data.parquet")
        merged_df.to_parquet(output_path)
        print(f"Parquetファイルが {output_path} に保存されました。")

# 各サブフォルダを処理
for folder in subfolders:
    print(f"Processing folder: {folder}")
    process_folder(folder)

Processing folder: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4


  merged_df = pd.concat(dfs, axis=0)


Parquetファイルが C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4\merged_data.parquet に保存されました。
Processing folder: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add


  merged_df = pd.concat(dfs, axis=0)


Parquetファイルが C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\merged_data.parquet に保存されました。
Processing folder: C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing


  merged_df = pd.concat(dfs, axis=0)


Parquetファイルが C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_missing\merged_data.parquet に保存されました。
Processing folder: C:\Users\user\Desktop\圧縮\作業\30uVJ7O-mCg


  merged_df = pd.concat(dfs, axis=0)


Parquetファイルが C:\Users\user\Desktop\圧縮\作業\30uVJ7O-mCg\merged_data.parquet に保存されました。
Processing folder: C:\Users\user\Desktop\圧縮\作業\UCEXGDNclvmg6RW0vipJYsTQ


  merged_df = pd.concat(dfs, axis=0)


Parquetファイルが C:\Users\user\Desktop\圧縮\作業\UCEXGDNclvmg6RW0vipJYsTQ\merged_data.parquet に保存されました。


In [11]:
 """
  フォルダを比較する
  """

def compare_parquet_files(file1, file2):
    try:
        # Parquetファイルをデータフレームとして読み込む
        df1 = pd.read_parquet(file1)
        df2 = pd.read_parquet(file2)
        
        # データフレームを比較する
        if df1.equals(df2):
            print("The Parquet files are identical.")
        else:
            print("The Parquet files are different.")
            # 差分を出力（必要に応じて）
            print("\nDifferences:")
            # 列名の比較
            if set(df1.columns) != set(df2.columns):
                print("Column names are different.")
                print("File 1 columns:", df1.columns)
                print("File 2 columns:", df2.columns)
            
            # 行数の比較
            if len(df1) != len(df2):
                print(f"Number of rows are different: File 1 has {len(df1)} rows, File 2 has {len(df2)} rows.")
            
            # データ内容の比較
            comparison = df1.compare(df2, keep_shape=True, keep_equal=True)
            print(comparison)
    except Exception as e:
        print(f"Error comparing files: {e}")

# 使用例
file_path1 = r'C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4\merged_data.parquet'
file_path2 = r'C:\Users\user\Desktop\圧縮\作業\2R07ntm91F4_hed_add\merged_data.parquet'

compare_parquet_files(file_path1, file_path2)

The Parquet files are identical.
