In [None]:
# 1. 필요한 라이브러리 불러오기
import pandas as pd
import glob  # 파일 경로를 쉽게 다룰 수 있게 해주는 라이브러리
import os    # 운영체제와 상호작용하는 라이브러리

# 2. 파일 경로 설정
# 현재 작업 경로의 상위 폴더를 기준으로 경로를 설정합니다.
base_path = '../data/raw/'
welcome_path = os.path.join(base_path, 'Welcome/*.xlsx')
quickpoll_path = os.path.join(base_path, 'Quickpoll/*.xlsx')

# 3. 파일 목록 불러오기
welcome_files = glob.glob(welcome_path)
quickpoll_files = glob.glob(quickpoll_path)

print(f"Welcome 파일 개수: {len(welcome_files)}개")
print(f"Quickpoll 파일 개수: {len(quickpoll_files)}개")

# 4. Welcome 파일 2개를 먼저 합쳐서 기본 DataFrame 생성
# 첫 번째 파일을 기준으로, panel_id가 없다면 에러를 발생시킵니다.
base_df = pd.read_excel(welcome_files[0])
if 'panel_id' not in base_df.columns:
    raise ValueError("첫 번째 Welcome 파일에 'panel_id' 컬럼이 없습니다.")

for file in welcome_files[1:]:
    print(f"병합 중: {os.path.basename(file)}")
    temp_df = pd.read_excel(file)
    base_df = pd.merge(base_df, temp_df, on='panel_id', how='left')

# 5. Quickpoll 파일 35개를 반복하면서 기본 DataFrame에 계속 합치기
for file in quickpoll_files:
    print(f"병합 중: {os.path.basename(file)}")
    temp_df = pd.read_excel(file)
    # Quickpoll 파일에 panel_id가 없다면 건너뜁니다.
    if 'panel_id' in temp_df.columns:
        base_df = pd.merge(base_df, temp_df, on='panel_id', how='left')
    else:
        print(f"  [경고] {os.path.basename(file)}에 'panel_id' 컬럼이 없어 병합을 건너뜁니다.")


# --- 최종 결과 확인 ---
print("\n🎉 데이터 통합 완료!")
print("--- 통합 데이터 정보 ---")
base_df.info()

print("\n--- 통합 데이터 크기 ---")
print(f"최종 데이터 크기: {base_df.shape[0]}개의 행, {base_df.shape[1]}개의 열")

print("\n--- 통합 데이터 미리보기 ---")
display(base_df.head())