# 데이터 병합

In [8]:
import os
import pandas as pd

In [9]:
# 데이터 디렉토리
data_dir = '../csv_data'

# 데이터 종류별로 이름을 맞춰줄 dict (파일명 패턴 기반)
# 키: 최종 병합 결과 CSV명 / 값: 패턴에 들어갈 문자열
data_types = {
    '여행_total.csv': '여행_',
    '여행객_total.csv': 'Master',
    '동반자_total.csv': '동반자정보',
    '방문지_total.csv': '방문지정보',
    '활동소비내역_total.csv': '활동소비내역',
    '이동소비내역_total.csv': '이동내역_',
    '숙박소비내역_total.csv': '숙박소비내역',
    '사전소비내역_total.csv': '사전소비내역',   
    '관광사진_total.csv': '관광사진',           
    '이동수단소비내역_total.csv': '이동수단소비내역'
}

In [10]:
# 각 데이터 종류별로 합친 DataFrame 저장
final_data = {name: [] for name in data_types.keys()}

# 지역 폴더
region_list = [r for r in os.listdir(data_dir) if not r.startswith('.')]

for region in region_list:
    region_path = os.path.join(data_dir, region)
    
    for data_type in ['_csv_train', '_csv_val']:
        type_dir = region + data_type
        type_path = os.path.join(region_path, type_dir)
        
        if not os.path.exists(type_path):
            continue
        
        csv_files = [f for f in os.listdir(type_path) if f.endswith('.csv')]
        
        for csv_file in csv_files:
            file_path = os.path.join(type_path, csv_file)
            
            for final_name, pattern in data_types.items():
                if pattern in csv_file:
                    try:
                        df = pd.read_csv(file_path)
                        # 필요에 따라 지역과 타입 정보 컬럼을 추가할 수도 있음 (옵션)
                        final_data[final_name].append(df)
                    except Exception as e:
                        print(f"⚠️ 파일 읽기 실패: {file_path} - {e}")

In [11]:
# 병합된 데이터프레임 저장
output_dir = './merged_csv'  # 저장할 디렉토리
os.makedirs(output_dir, exist_ok=True)

for final_name, df_list in final_data.items():
    if df_list:  # 파일이 존재하면
        merged_df = pd.concat(df_list, ignore_index=True)
        save_path = os.path.join(output_dir, final_name)
        merged_df.to_csv(save_path, index=False)
        print(f"{final_name} 파일로 저장 완료! (shape: {merged_df.shape})")
    else:
        print(f"{final_name}에 해당하는 데이터가 없습니다.")

여행_total.csv 파일로 저장 완료! (shape: (11520, 10))
여행객_total.csv 파일로 저장 완료! (shape: (11520, 36))
동반자_total.csv 파일로 저장 완료! (shape: (17086, 6))
방문지_total.csv 파일로 저장 완료! (shape: (140555, 23))
활동소비내역_total.csv 파일로 저장 완료! (shape: (79540, 18))
이동소비내역_total.csv 파일로 저장 완료! (shape: (140555, 8))
숙박소비내역_total.csv 파일로 저장 완료! (shape: (7482, 18))
사전소비내역_total.csv 파일로 저장 완료! (shape: (2710, 15))
관광사진_total.csv 파일로 저장 완료! (shape: (66508, 12))
이동수단소비내역_total.csv 파일로 저장 완료! (shape: (26940, 13))
