In [2]:
# 1. 필요 라이브러리 임포트
import pandas as pd
import os

# --- 사용자 설정 영역 ---

# 2. 데이터 파일이 있는 폴더 경로를 지정합니다.
base_path = '/Users/jaehyuntak/Desktop/pjt-data-analysis/data_row'

# 3. 처리할 파일 목록을 정의합니다.
file_list = [
    '220820-250819combined_su_apt_sales_20250821.csv', # 서울
    '220820-250819combined_Ic_APT_sales_20250821.csv', # 인천
    '220820-250819combined_GG_apt_sales_20250821.csv'  # 경기
]

# --- 데이터 처리 시작 ---

# 4. 각 파일을 읽어 데이터프레임 리스트를 생성합니다.
all_dataframes = []
print("파일을 읽고 '지역' 정보를 추가합니다...")

for file_name in file_list:
    try:
        file_path = os.path.join(base_path, file_name)
        
        # 파일을 데이터프레임으로 읽기
        df = pd.read_csv(file_path)

        # 파일명에 따라 '지역' 컬럼 추가
        if 'su' in file_name.lower():
            df['지역'] = '서울'
        elif 'ic' in file_name.lower():
            df['지역'] = '인천'
        elif 'gg' in file_name.lower():
            df['지역'] = '경기'
        else:
            df['지역'] = '기타' # 예외 처리

        all_dataframes.append(df)
        print(f"✅ '{file_name}' 파일 처리 완료. (데이터 수: {len(df):,}개)")
        
    except FileNotFoundError:
        print(f"⚠️ '{file_name}' 파일을 찾을 수 없습니다. 경로를 확인해주세요.")
    except Exception as e:
        print(f"❌ '{file_name}' 처리 중 오류 발생: {e}")


# 5. 모든 데이터프레임을 하나로 합칩니다.
if all_dataframes:
    print("\n세 개의 파일을 하나로 통합합니다...")
    combined_df = pd.concat(all_dataframes, ignore_index=True)
    print(f"✅ 통합 후 전체 데이터 수: {len(combined_df):,}개")

    # 6. '계약연월'과 '계약일'을 합쳐서 날짜 컬럼을 생성합니다.
    print("\n'계약연월'과 '계약일'을 사용하여 정렬 가능한 날짜 컬럼을 생성합니다...")
    # '계약일' 컬럼을 문자열로 변환하고, 1~9일을 '01'~'09' 형태로 맞추기 위해 zfill(2) 사용
    combined_df['계약일자'] = pd.to_datetime(
        combined_df['계약년월'].astype(str) + combined_df['계약일'].astype(str).str.zfill(2),
        format='%Y%m%d'
    )
    print("✅ '계약일자' 컬럼 생성 완료.")

    # 7. '계약일자'를 기준으로 오름차순 정렬합니다.
    print("'계약일자'를 기준으로 데이터를 정렬합니다...")
    combined_df = combined_df.sort_values(by='계약일자', ascending=True).reset_index(drop=True)
    print("✅ 정렬 완료.")

    # 8. 통합 및 정렬된 데이터프레임을 새로운 CSV 파일로 저장합니다.
    output_file_name = 'combined_capital_area_apt_sales.csv'
    output_path = os.path.join(base_path, output_file_name)

    print(f"\n통합된 데이터를 '{output_path}' 파일로 저장합니다...")
    # 엑셀에서 한글이 깨지지 않도록 'utf-8-sig' 인코딩 사용
    combined_df.to_csv(output_path, index=False, encoding='utf-8-sig')

    print("\n--- 🚀 모든 작업이 완료되었습니다! ---")
    print(f"최종 파일 '{output_file_name}'이 '{base_path}' 폴더에 저장되었습니다.")
    
    # 결과 확인을 위해 통합된 데이터의 상위 5개 행과 하위 5개 행을 출력
    print("\n[통합 및 정렬된 데이터 샘플]")
    print("--- 상위 5개 행 (가장 오래된 거래) ---")
    print(combined_df.head())
    print("\n--- 하위 5개 행 (가장 최신 거래) ---")
    print(combined_df.tail())

else:
    print("\n처리할 데이터 파일이 없어 작업을 중단합니다.")

파일을 읽고 '지역' 정보를 추가합니다...
✅ '220820-250819combined_su_apt_sales_20250821.csv' 파일 처리 완료. (데이터 수: 147,872개)
✅ '220820-250819combined_Ic_APT_sales_20250821.csv' 파일 처리 완료. (데이터 수: 77,435개)
✅ '220820-250819combined_GG_apt_sales_20250821.csv' 파일 처리 완료. (데이터 수: 330,055개)

세 개의 파일을 하나로 통합합니다...
✅ 통합 후 전체 데이터 수: 555,362개

'계약연월'과 '계약일'을 사용하여 정렬 가능한 날짜 컬럼을 생성합니다...
✅ '계약일자' 컬럼 생성 완료.
'계약일자'를 기준으로 데이터를 정렬합니다...
✅ 정렬 완료.

통합된 데이터를 '/Users/jaehyuntak/Desktop/pjt-data-analysis/data_row/combined_capital_area_apt_sales.csv' 파일로 저장합니다...

--- 🚀 모든 작업이 완료되었습니다! ---
최종 파일 'combined_capital_area_apt_sales.csv'이 '/Users/jaehyuntak/Desktop/pjt-data-analysis/data_row' 폴더에 저장되었습니다.

[통합 및 정렬된 데이터 샘플]
--- 상위 5개 행 (가장 오래된 거래) ---
      NO              시군구      번지    본번  부번             단지명   전용면적(㎡)    계약년월  \
0  83197  경기도 용인시 수지구 죽전동    1182  1182   0      내대지마을건영캐스빌  110.3495  202208   
1  83196      경기도 군포시 산본동  1155-7  1155   7           가야3주공   42.7500  202208   
2  83195      경기도 의왕시 포일동     645   645   0 