In [3]:
import pandas as pd
import os

# 1. 전처리된 파일 불러오기 (영문 파일명 기준)
pedestrian = pd.read_csv("data/first_processing_data/pedestrain_processing.csv")
hitrun = pd.read_csv("data/first_processing_data/hit_and_run_processing.csv")
bicycle = pd.read_csv("data/first_processing_data/bike_processing.csv")
public = pd.read_csv("data/first_processing_data/transportation_processing.csv")

# 2nd_combined_data에서 형식 맞추고 거주인구, 사고건수 빼내기
df = pd.read_csv("data/merged_data/Basic_model.csv")
df = df.rename(columns={"구": "자치구"})
df["연도"] = pd.to_datetime(df["연월"]).dt.year

grouped = df.groupby(["연도", "자치구"])[["거주인구", "발생건수"]].mean().reset_index()
grouped["거주인구"] = grouped["거주인구"].fillna(0).astype(int)
grouped["발생건수"] = grouped["발생건수"].fillna(0).astype(int)

residence = grouped.rename(columns={"발생건수": "교통사고 발생건수"})

# 2. 병합 (연도 + 자치구 기준, 순차 병합)
merged = pedestrian.merge(hitrun, on=["연도", "자치구"], how="outer")
merged = merged.merge(bicycle, on=["연도", "자치구"], how="outer")
merged = merged.merge(public, on=["연도", "자치구"], how="outer")
merged = merged.merge(residence, on=["연도", "자치구"], how="outer")

# 3. 결측값 처리
merged = merged.fillna(0)

# 4. 정렬: 자치구 → 연도
merged = merged.sort_values(by=["자치구", "연도"]).reset_index(drop=True)

# 5. 열 순서 재배치 (거주인구, 사고건수 → 자치구 뒤로)
columns = merged.columns.tolist()
reordered_cols = ['연도', '자치구']
if '거주인구' in columns and '교통사고 발생건수' in columns:
    reordered_cols += ['거주인구', '교통사고 발생건수']
remaining_cols = [col for col in columns if col not in reordered_cols]
reordered_cols += remaining_cols

df_final = merged[reordered_cols]

# 6. 저장: 단 하나의 최종 통합 파일
output_path = "data/merged_data/Accident_by_year_merged_hc.csv"
os.makedirs(os.path.dirname(output_path), exist_ok=True)
df_final.to_csv(output_path, index=False, encoding="utf-8-sig")