# 데이터 병합

In [2]:
import os
import pandas as pd

# 전체 병합 코드

In [2]:
# 데이터 디렉토리
data_dir = '../csv_data'

# 데이터 종류별로 이름을 맞춰줄 dict (파일명 패턴 기반)
# 키: 최종 병합 결과 CSV명 / 값: 패턴에 들어갈 문자열
data_types = {
    '여행_total.csv': '여행_',
    '여행객_total.csv': 'Master',
    '동반자_total.csv': '동반자정보',
    '방문지_total.csv': '방문지정보',
    '활동소비내역_total.csv': '활동소비내역',
    '이동소비내역_total.csv': '이동내역_',
    '숙박소비내역_total.csv': '숙박소비내역',
    '사전소비내역_total.csv': '사전소비내역',   
    '관광사진_total.csv': '관광사진',           
    '이동수단소비내역_total.csv': '이동수단소비내역'
}

In [None]:
# 각 데이터 종류별로 합친 DataFrame 저장
final_data = {name: [] for name in data_types.keys()}

# 지역 폴더
region_list = [r for r in os.listdir(data_dir) if not r.startswith('.')]

for region in region_list:
    region_path = os.path.join(data_dir, region)
    
    for data_type in ['_csv_train', '_csv_val']:
        type_dir = region + data_type
        type_path = os.path.join(region_path, type_dir)
        
        if not os.path.exists(type_path):
            continue
        
        csv_files = [f for f in os.listdir(type_path) if f.endswith('.csv')]
        
        for csv_file in csv_files:
            file_path = os.path.join(type_path, csv_file)
            
            for final_name, pattern in data_types.items():
                if pattern in csv_file:
                    try:
                        df = pd.read_csv(file_path)
                        # 필요에 따라 지역과 타입 정보 컬럼을 추가할 수도 있음 (옵션)
                        final_data[final_name].append(df)
                    except Exception as e:
                        print(f"⚠️ 파일 읽기 실패: {file_path} - {e}")
                        
# 병합된 데이터프레임 저장
output_dir = './merged_csv'  # 저장할 디렉토리
os.makedirs(output_dir, exist_ok=True)

for final_name, df_list in final_data.items():
    if df_list:  # 파일이 존재하면
        merged_df = pd.concat(df_list, ignore_index=True)
        save_path = os.path.join(output_dir, final_name)
        merged_df.to_csv(save_path, index=False)
        print(f"{final_name} 파일로 저장 완료! (shape: {merged_df.shape})")
    else:
        print(f"{final_name}에 해당하는 데이터가 없습니다.")

서부권 _csv_train tn_lodge_consume_his_숙박소비내역_G.csv (1333, 18)
서부권 _csv_train tn_activity_consume_his_활동소비내역_G.csv (15841, 18)
서부권 _csv_train tn_mvmn_consume_his_이동수단소비내역_G.csv (5419, 13)
서부권 _csv_train tn_adv_consume_his_사전소비내역_G.csv (534, 15)
서부권 _csv_train tn_travel_여행_G.csv (2560, 10)
서부권 _csv_train tn_visit_area_info_방문지정보_G.csv (28389, 23)
서부권 _csv_train tn_companion_info_동반자정보_G.csv (3808, 6)
서부권 _csv_train tn_move_his_이동내역_G.csv (28389, 8)
서부권 _csv_train tn_tour_photo_관광사진_G.csv (14732, 12)
서부권 _csv_train tn_traveller_master_여행객 Master_G.csv (2560, 36)
서부권 _csv_val tn_lodge_consume_his_숙박소비내역_G.csv (162, 18)
서부권 _csv_val tn_activity_consume_his_활동소비내역_G.csv (1875, 18)
서부권 _csv_val tn_mvmn_consume_his_이동수단소비내역_G.csv (683, 13)
서부권 _csv_val tn_adv_consume_his_사전소비내역_G.csv (88, 15)
서부권 _csv_val tn_travel_여행_G.csv (320, 10)
서부권 _csv_val tn_visit_area_info_방문지정보_G.csv (3486, 23)
서부권 _csv_val tn_companion_info_동반자정보_G.csv (464, 6)
서부권 _csv_val tn_move_his_이동내역_G.csv (3486, 8)
서부권 _csv_va

# 지역별 병합 코드

In [4]:
import os
import pandas as pd

output_dir = './merged_csv/merged_csv_region'  # 지역별 병합 데이터를 저장할 경로
os.makedirs(output_dir, exist_ok=True)

In [5]:
# 지역 리스트
region_list = [r for r in os.listdir(data_dir) if not r.startswith('.')]

for region in region_list:
    region_path = os.path.join(data_dir, region)
    region_output_dir = os.path.join(output_dir, region)
    os.makedirs(region_output_dir, exist_ok=True)
    
    # 각 데이터타입별로 저장할 리스트 초기화
    final_data = {name: [] for name in data_types.keys()}
    
    for data_type in ['_csv_train', '_csv_val']:
        type_dir = region + data_type
        type_path = os.path.join(region_path, type_dir)
        
        if not os.path.exists(type_path):
            continue
        
        csv_files = [f for f in os.listdir(type_path) if f.endswith('.csv')]
        
        for csv_file in csv_files:
            file_path = os.path.join(type_path, csv_file)
            
            for final_name, pattern in data_types.items():
                if pattern in csv_file:
                    try:
                        df = pd.read_csv(file_path)
                        
                        # 필요하다면, 지역/타입 정보 컬럼 추가
                        df['REGION'] = region
                        df['DATA_TYPE'] = data_type
                        
                        final_data[final_name].append(df)
                    except Exception as e:
                        print(f"⚠️ 파일 읽기 실패: {file_path} - {e}")
    
    # 지역별로 통합 후 저장
    for final_name, df_list in final_data.items():
        if df_list:  # 데이터가 존재하면
            merged_df = pd.concat(df_list, ignore_index=True)
            save_path = os.path.join(region_output_dir, final_name)
            merged_df.to_csv(save_path, index=False, encoding='utf-8-sig')
            print(f"{region} - {final_name} 저장 완료! (shape: {merged_df.shape})")
        else:
            print(f"{region} - {final_name} 데이터가 없습니다.")


서부권 - 여행_total.csv 저장 완료! (shape: (2880, 12))
서부권 - 여행객_total.csv 저장 완료! (shape: (2880, 38))
서부권 - 동반자_total.csv 저장 완료! (shape: (4272, 8))
서부권 - 방문지_total.csv 저장 완료! (shape: (31875, 25))
서부권 - 활동소비내역_total.csv 저장 완료! (shape: (17716, 20))
서부권 - 이동소비내역_total.csv 저장 완료! (shape: (31875, 10))
서부권 - 숙박소비내역_total.csv 저장 완료! (shape: (1495, 20))
서부권 - 사전소비내역_total.csv 저장 완료! (shape: (622, 17))
서부권 - 관광사진_total.csv 저장 완료! (shape: (16549, 14))
서부권 - 이동수단소비내역_total.csv 저장 완료! (shape: (6102, 15))
동부권 - 여행_total.csv 저장 완료! (shape: (2880, 12))
동부권 - 여행객_total.csv 저장 완료! (shape: (2880, 38))
동부권 - 동반자_total.csv 저장 완료! (shape: (4410, 8))
동부권 - 방문지_total.csv 저장 완료! (shape: (32930, 25))
동부권 - 활동소비내역_total.csv 저장 완료! (shape: (18423, 20))
동부권 - 이동소비내역_total.csv 저장 완료! (shape: (32930, 10))
동부권 - 숙박소비내역_total.csv 저장 완료! (shape: (1624, 20))
동부권 - 사전소비내역_total.csv 저장 완료! (shape: (705, 17))
동부권 - 관광사진_total.csv 저장 완료! (shape: (16266, 14))
동부권 - 이동수단소비내역_total.csv 저장 완료! (shape: (6863, 15))
제주도 및 도서지역 - 여행_total.