In [25]:
import pandas as pd
import re
import numpy as np
from pathlib import Path
import itertools
 

In [27]:

# ── 1. 경로 설정 ────────────────────────────────────────────────
SRC = Path("data/raw_data/fire_data.csv")   # Wide 원본
DST = Path("data/first_processing_data/fire_tidy_cases.csv")         # Long 결과

# ── 2. CSV 로드 : 헤더 3줄로 MultiIndex 생성 ─────────────────────
wide = pd.read_csv(SRC, header=[0, 1, 2], dtype=str)

# ── 3. 자치구 컬럼(동별(2)…)과 “발생 (건)” 컬럼만 선택 ──────────
#     · 자치구 = ('동별(2)','동별(2)','동별(2)')
#     · fire_cols = [(YYYY, '발생 (건)', case)]
district_col = ('동별(2)', '동별(2)', '동별(2)')
fire_cols = [c for c in wide.columns if c[1] == '발생 (건)']

# ── 4. ‘합계/소계’ 행 제거, 인덱스 = district ───────────────────
df = (
    wide[wide[district_col] != '소계']      # 전체 합계 행 제거
    [ [district_col] + fire_cols ]          # 필요한 열만
    .set_index(district_col)                # 행 인덱스 = 자치구
)

# ── 5. Wide ➜ Long (stack) : 연도·case 두 축을 행으로 ───────────
tidy = (
    df
    .stack(level=[0, 2])                    # level 0=연도, 2=case
    .reset_index()
)
tidy.columns = ['district', 'year', 'case', 'fire_count']

# ── 6. 값 전처리 : ‘-’→NaN, 쉼표 제거, (원하면 int형) ─────────────
tidy['fire_count'] = (
    tidy['fire_count']
        .replace('-', np.nan)
        .str.replace(',', '', regex=False)
        .astype(float)        # 필요하면 .astype('Int64') 로 정수
)

# ── 7. 정렬·저장 ────────────────────────────────────────────────
tidy = tidy.sort_values(['district', 'year', 'case']).reset_index(drop=True)
tidy.to_csv(DST, index=False, encoding='utf-8-sig')

print(tidy.head(10))  # 결과 확인용 출력

  district  year case  fire_count
0      강남구  2006   기타        50.0
1      강남구  2006   방화        27.0
2      강남구  2006   소계       296.0
3      강남구  2006   실화       219.0
4      강남구  2007   기타        54.0
5      강남구  2007   방화        27.0
6      강남구  2007   소계       265.0
7      강남구  2007   실화       184.0
8      강남구  2008   기타        17.0
9      강남구  2008   방화        53.0


  .stack(level=[0, 2])                    # level 0=연도, 2=case


In [29]:
# 1) CSV → MultiIndex DataFrame
df = pd.read_csv(
    'data/raw_data/weather_accident.csv',
    header=[0, 1, 2]                # 상단 3줄이 레벨0·1·2
)

# 2) 자치구·항목 컬럼 키 찾기
cols = df.columns
district_key = next(
    k for k in cols
    if k[0].startswith('자치구별') and k[0] == k[1] == k[2] and k[0].endswith('(2)')
)
metric_key = next(k for k in cols if k[0] == k[1] == k[2] == '항목')

# 3) ▶ 연도(레벨0 숫자 4자리) 컬럼만 골라두기
year_regex = re.compile(r'^\d{4}$')
year_weather_cols = [k for k in cols if year_regex.match(str(k[0]))]

# 4) ▶ stack(level=[0,2]) : 연도(0), 날씨(2) 축을 행으로 녹임
df_long = (
    df
    .set_index([district_key, metric_key])     # 자치구·항목을 인덱스로
    [year_weather_cols]                        # 연도·날씨 컬럼만 대상
    .stack(level=[0, 2])                       # 연도 + 날씨 레벨만 녹여 행으로
    .reset_index()                             # 인덱스 → 일반 컬럼
)

# 5) 컬럼명 정리
df_long.columns = ['district', 'metric', 'year', 'weather', 'count']

# 6) ‘기타/불명’ 제외, year→int
df_long = (
    df_long
    .query("weather not in ['기타/불명', '소계']")
    .assign(year=lambda x: x['year'].astype(int))
    .reset_index(drop=True)
)

# 7) 결과 확인
print(df_long.head(10))

# 8) 필요 시 저장
df_long.to_csv('data/first_processing_data/weather_tidy_data.csv', index=False, encoding='utf-8-sig')


  district    metric  year weather  count
0       소계  발생건수 (건)  2013       눈    322
1       소계  발생건수 (건)  2013      맑음  33287
2       소계  발생건수 (건)  2013       비   3019
3       소계  발생건수 (건)  2013      안개      9
4       소계  발생건수 (건)  2013      흐림   2329
5       소계  발생건수 (건)  2014       눈    302
6       소계  발생건수 (건)  2014      맑음  35339
7       소계  발생건수 (건)  2014       비   2463
8       소계  발생건수 (건)  2014      안개      7
9       소계  발생건수 (건)  2014      흐림   2011


  .stack(level=[0, 2])                       # 연도 + 날씨 레벨만 녹여 행으로


In [31]:

# ------------------------------------------------------------------
# 1. 파일 경로
# ------------------------------------------------------------------
SRC = "data/raw_data/Traffic_accident_year_2005.csv"     # 두 번째 CSV
DST = "data/first_processing_data/Traffic_accidents_multi_metric_tidy.csv"     # 첫 번째 CSV 구조로 저장할 파일

# ------------------------------------------------------------------
# 2. 원본(두 번째) CSV 읽기 ── ① 첫 행 = “열 그룹 이름”, ② 두 번째 행 = “세부 항목”
# ------------------------------------------------------------------
raw = pd.read_csv(SRC, header=0, dtype=str)   # 전부 문자열로 읽어 둡니다
metric_header = raw.iloc[0]                   # 행 0 : 각 열에 대응하는 'metric' 명칭
data = raw.iloc[1:].reset_index(drop=True)    # 행 1부터가 실제 데이터

# ------------------------------------------------------------------
# 3. 자치구·소계·합계 처리
#    - '자치구별(2)'가 실제 자치구
#    - '소계'·'합계' 행은 제외
# ------------------------------------------------------------------
data = (data
        .rename(columns={"자치구별(2)": "district"})        # 자치구 이름 열
        .drop(columns=["자치구별(1)"], errors="ignore"))    # 상위 분류 열 제거

data = data[~data["district"].isin(["소계", "합계"])]       # 합계·소계 제외

# ------------------------------------------------------------------
# 4. “연도·지표”에 해당하는 열만 추출
#    - 열 이름이 '1999' 또는 '1999.1' 같이 '^[0-9]{4}(?:\.[0-9]+)?$' 패턴
# ------------------------------------------------------------------
year_col_pattern = re.compile(r"^\d{4}(?:\.\d+)?$")
value_cols = [c for c in data.columns if year_col_pattern.match(c)]

# ------------------------------------------------------------------
# 5. 열  → 행(long) 으로 변환
#    - 각 열 이름에서 연도(숫자 4자리) 추출
#    - metric_header에서 같은 열 위치의 ‘metric’ 명칭 추출
#    - 값이 '-' 인 셀은 NaN 으로 바꾸고 float 로 변환
# ------------------------------------------------------------------
records = []
for col in value_cols:
    year = int(col.split('.')[0])             # '1999.4' → 1999
    metric = metric_header[col]               # '부상자수 (명)' 등
    for dist, val in zip(data["district"], data[col]):
        if val == "-" or pd.isna(val):
            continue                          # 결측(‘-’)은 버림
        try:
            value = float(val.replace(",", ""))   # 쉼표 제거 후 숫자화
        except ValueError:
            continue
        records.append({"district": dist,
                        "year": year,
                        "metric": metric,
                        "value": value})

df_long = pd.DataFrame.from_records(records)

# ------------------------------------------------------------------
# 6. 정렬 · 자료형 · 저장
# ------------------------------------------------------------------
df_long = (df_long
           .astype({"year": "int64",
                    "value": "float64"})
           .sort_values(["district", "year", "metric"])
           .reset_index(drop=True))

df_long.to_csv(DST, index=False, encoding="utf-8-sig")
print(f"✅ 변환 완료: {DST} ({len(df_long):,} rows)")
print(df_long.head(10))  # 결과 확인용 출력


✅ 변환 완료: data/first_processing_data/Traffic_accidents_multi_metric_tidy.csv (2,850 rows)
  district  year             metric   value
0      강남구  2005           발생건수 (건)  3126.0
1      강남구  2005           부상자수 (명)  4682.0
2      강남구  2005           사망자수 (명)    28.0
3      강남구  2005  인구 10만명당 부상자수 (명)   854.7
4      강남구  2005  인구 10만명당 사망자수 (명)     5.1
5      강남구  2005  자동차 1만대당 발생건수 (건)   128.9
6      강남구  2006           발생건수 (건)  3321.0
7      강남구  2006           부상자수 (명)  4869.0
8      강남구  2006           사망자수 (명)    37.0
9      강남구  2006  인구 10만명당 부상자수 (명)   862.3


In [33]:

# ─── 경로 설정 ──────────────────────────────
SRC = Path("data/raw_data/Traffic_accidents_vehicle.csv")  # 원본 파일 경로
DEST = Path("data/first_processing_data/Traffic_accidents_vehicle_tidy.csv")  # 최종 저장 경로

# ─── 1. 원본 CSV 읽기 ───────────────────────
wide = pd.read_csv(SRC, header=[0, 1, 2, 3, 4, 5], encoding="utf-8")

# ─── 2. 자치구 추출 ─────────────────────────
dist_col = [c for c in wide.columns if c[0] == "자치구별(2)"][0]
districts = wide[dist_col]

# ─── 3. 유효한 컬럼 필터링 ──────────────────
year_pat = re.compile(r"^\d{4}$")
value_cols = [c for c in wide.columns if year_pat.match(c[0])]
skip = {"소계", "자치구별(1)", "자치구별(2)", ""}
records = []

for idx, dist in districts.items():
    if dist in {"소계", "합계"}:
        continue
    for col in value_cols:
        raw = wide.at[idx, col]
        if raw in ("-", None) or pd.isna(raw):
            continue
        val = float(str(raw).replace(",", ""))
        m5 = col[5]
        if "발생건수" in m5:
            metric = "acc"
        elif "사망자" in m5:
            metric = "fat"
        elif "부상자" in m5:
            metric = "inj"
        else:
            continue
        for vt in (col[4], col[3], col[2]):
            if vt not in skip:
                vehicle = vt
                break
        else:
            vehicle = col[2]
        records.append({
            "연도": int(col[0]),
            "구": dist,
            "용도": vehicle,
            metric: val
        })

# ─── 4. Tidy 데이터프레임 생성 및 집계 ───────
df = pd.DataFrame(records).groupby(["연도", "구", "용도"], as_index=False).sum()

# ─── 5. 제외 및 집계 ────────────────────────
drop_types = ["사업용차량", "비사업용차량", "기타", "기타불명", "소계", "어린이통학버스", "이륜차", "자전거"]
agg_map = {
    "승용계": ["승용차", "렌터카", "택시"],
    "버스계": ["버스", "시내버스", "시외,고속버스", "전세버스"]
}
df = df[~df["용도"].isin(drop_types)]

rows = []
for new_type, members in agg_map.items():
    subset = df[df["용도"].isin(members)]
    if not subset.empty:
        summed = subset.groupby(["구", "연도"], as_index=False)[["acc", "fat", "inj"]].sum()
        summed["용도"] = new_type
        rows.append(summed)

agg_df = pd.concat([df] + rows, ignore_index=True)

# ─── 6. 최종 용도 필터 및 컬럼 정리 ──────────
keep = ["승용계", "버스계", "화물"]
agg_df = agg_df[agg_df["용도"].isin(keep)].copy()
agg_df.rename(columns={"acc": "발생건수", "fat": "사망자수", "inj": "부상자수"}, inplace=True)

for c in ["발생건수", "사망자수", "부상자수"]:
    agg_df[c] = pd.to_numeric(agg_df[c], errors="coerce").fillna(0).astype(int)

agg_df["사상자수"] = agg_df["사망자수"] + agg_df["부상자수"]

# ─── 7. 최종 정리 및 저장 ───────────────────
final = agg_df[["구", "연도", "용도", "발생건수", "사상자수"]].sort_values(["구", "연도", "용도"]).reset_index(drop=True)
final.to_csv(DEST, index=False, encoding="utf-8-sig")

print(f"✅ 전처리 완료: {DEST} (rows={len(final):,})")
print(final.head(10))


✅ 전처리 완료: data\first_processing_data\Traffic_accidents_vehicle_tidy.csv (rows=525)
     구    연도   용도  발생건수  사상자수
0  강남구  2017  버스계    96   146
1  강남구  2017  승용계  2812  4122
2  강남구  2017   화물    60    90
3  강남구  2018  버스계    81   120
4  강남구  2018  승용계  2835  4181
5  강남구  2018   화물    49    63
6  강남구  2019  버스계   104   132
7  강남구  2019  승용계  2888  4155
8  강남구  2019   화물    63    88
9  강남구  2020  버스계    84   103


In [35]:
# ─────────── 설정 ───────────
SRC  = Path("data/first_processing_data/Traffic_accidents_multi_metric_tidy.csv")  # 업로드하신 원본 파일
DEST = Path("data/first_processing_data/Traffic_accidents_filtered_metrics.csv")         # 출력 파일

# ─────────── 1. CSV 불러오기 ───────────
df = pd.read_csv(SRC, dtype=str)

# ─────────── 2. 원하는 metric만 필터링 ───────────
keep_metrics = [
    "인구 10만명당 부상자수 (명)",
    "인구 10만명당 사망자수 (명)",
    "자동차 1만대당 발생건수 (건)"
]
filtered = df[df["metric"].isin(keep_metrics)].copy()

# ─────────── 3. 결과 저장 ───────────
filtered.to_csv(DEST, index=False, encoding="utf-8-sig")
print(f"✅ 저장 완료: {DEST}  (rows={len(filtered):,})")

print(filtered.head(10))  # 결과 확인용 출력


✅ 저장 완료: data\first_processing_data\Traffic_accidents_filtered_metrics.csv  (rows=1,425)
   district  year             metric  value
3       강남구  2005  인구 10만명당 부상자수 (명)  854.7
4       강남구  2005  인구 10만명당 사망자수 (명)    5.1
5       강남구  2005  자동차 1만대당 발생건수 (건)  128.9
9       강남구  2006  인구 10만명당 부상자수 (명)  862.3
10      강남구  2006  인구 10만명당 사망자수 (명)    6.6
11      강남구  2006  자동차 1만대당 발생건수 (건)  132.3
15      강남구  2007  인구 10만명당 부상자수 (명)  849.6
16      강남구  2007  인구 10만명당 사망자수 (명)    5.3
17      강남구  2007  자동차 1만대당 발생건수 (건)  128.6
21      강남구  2008  인구 10만명당 부상자수 (명)  790.1


In [37]:
# ─────────── 설정 ───────────
SRC  = Path("data/first_processing_data/fire_tidy_cases.csv")  # 업로드하신 화재 데이터
DEST = Path("data/first_processing_data/fire_count.csv")      # 출력 파일

# ─────────── 1. CSV 불러오기 ───────────
df = pd.read_csv(SRC, dtype=str)

# 자동으로 컬럼명 찾기 (필요시 직접 수정)
dist_col = next(c for c in df.columns if "district" in c or "자치구" in c)
year_col = next(c for c in df.columns if "year" in c or "연도" in c)
case_col = next(c for c in df.columns if "case" in c or "구분" in c)
val_col  = next(c for c in df.columns if "value" in c or "count" in c or "건수" in c)

# ─────────── 2. '방화', '실화' 행만 필터링 ───────────
mask = df[case_col].isin(["방화", "실화"])
df_fs = df[mask].copy()

# 숫자형으로 변환
df_fs[val_col] = pd.to_numeric(df_fs[val_col].str.replace(",", ""), errors="coerce").fillna(0).astype(int)

# ─────────── 3. 방화+실화 합산 → 화재_소계 ───────────
agg = (
    df_fs
      .groupby([dist_col, year_col], as_index=False)[val_col]
      .sum()
      .rename(columns={val_col: "화재_소계"})
)

# ─────────── 4. 결과 저장 ───────────
agg.to_csv(DEST, index=False, encoding="utf-8-sig")
print(f"✅ 저장 완료: {DEST}  (rows={len(agg):,})")

print(agg.head(10))  # 결과 확인용 출력


✅ 저장 완료: data\first_processing_data\fire_count.csv  (rows=450)
  district  year  화재_소계
0      강남구  2006    246
1      강남구  2007    211
2      강남구  2008    376
3      강남구  2009    342
4      강남구  2010    344
5      강남구  2011    388
6      강남구  2012    347
7      강남구  2013    399
8      강남구  2014    400
9      강남구  2015    477


In [39]:


# ─────────── 설정 ───────────
SRC  = Path("data/first_processing_data/weather_tidy_data.csv")          # 입력 파일 경로
DEST = Path("data/first_processing_data/weather_metrics_no_fog.csv")        # 출력 파일 경로

# ─────────── 1. CSV 읽기 ───────────
df = pd.read_csv(SRC, dtype=str)

# ─────────── 2. '-' 값 0 대체 및 쉼표 제거 후 숫자 변환 ───────────
df["count"] = df["count"].replace("-", "0").str.replace(",", "", regex=False).astype(int)

# ─────────── 3. 발생건수, 사망자, 부상자 필터 ───────────
metrics = {
    "발생건수": "발생건수 (건)",
    "사망자수": "사망자 (명)",
    "부상자수": "부상자 (명)"
}
# Rename metric values to consistent keys
df_filtered = df[df["metric"].isin(metrics.values())].copy()
df_filtered["metric_key"] = df_filtered["metric"].map({v: k for k, v in metrics.items()})

# ─────────── 4. 그룹별 합산 ───────────
agg = (
    df_filtered
      .groupby(["district", "year", "weather", "metric_key"], as_index=False)["count"]
      .sum()
)

# ─────────── 5. Pivot to wide format ───────────
pivoted = agg.pivot_table(
    index=["district", "year", "weather"],
    columns="metric_key",
    values="count",
    fill_value=0
).reset_index()

# ─────────── 6. 사상자수 계산 (사망자수 + 부상자수) ───────────
pivoted["사상자수"] = pivoted.get("사망자수", 0) + pivoted.get("부상자수", 0)

# ─────────── 7. 안개 제외 ───────────
result = pivoted[pivoted["weather"] != "안개"].copy()

# ─────────── 8. 컬럼 순서 정리 및 저장 ───────────
final = result[["district", "year", "weather", "발생건수", "사상자수"]]
final.to_csv(DEST, index=False, encoding="utf-8-sig")

print(f"✅ 저장 완료: {DEST}  (rows={len(final):,})")

print(final.head(10))  # 결과 확인용 출력


✅ 저장 완료: data\first_processing_data\weather_metrics_no_fog.csv  (rows=1,144)
metric_key district  year weather    발생건수    사상자수
0               강남구  2013       눈    25.0    33.0
1               강남구  2013      맑음  3099.0  4590.0
2               강남구  2013       비   267.0   390.0
4               강남구  2013      흐림   159.0   255.0
5               강남구  2014       눈    30.0    58.0
6               강남구  2014      맑음  3280.0  4755.0
7               강남구  2014       비   206.0   300.0
9               강남구  2014      흐림    89.0   145.0
10              강남구  2015       눈    15.0    22.0
11              강남구  2015      맑음  3569.0  5111.0


In [41]:
# ────────────────────────────────
# 1) CSV 읽기
# ────────────────────────────────
file_path = "data/raw_data/Resident_population_preprocessing.csv"        # ← 파일 경로(필요하면 수정)
df = pd.read_csv(file_path, encoding="utf-8")

# 열 이름에 뒤따른 공백이 있을 수도 있어 깔끔하게
df.columns = df.columns.str.strip()

# ────────────────────────────────
# 2) ‘연월’ → datetime 변환 & ‘연도’ 파생
# ────────────────────────────────
df["연월"] = pd.to_datetime(df["연월"])      # 문자열 → Timestamp
df["연도"] = df["연월"].dt.year             # 연도만 추출

# ────────────────────────────────
# 3) 필수 열 존재 확인
# ────────────────────────────────
required_cols = {"동별", "거주인구", "연도"}
missing = required_cols - set(df.columns)
if missing:
    raise KeyError(f"다음 열을 찾을 수 없습니다: {missing}")

# ────────────────────────────────
# 4) 동·연도별 거주인구 합산
# ────────────────────────────────
result = (df
          .groupby(["동별", "연도"], as_index=False)["거주인구"]
          .sum()                              # 월별 값 → 연도 합계
          .astype({"거주인구": "int"})        # 보기 좋게 정수형
          .sort_values(["동별", "연도"]))      # 정렬(선택)

# ────────────────────────────────
# 5) 결과 확인 또는 저장
# ────────────────────────────────
print(result.head())                          # 일부 확인
result.to_csv("data/first_processing_data/Resident_population_preprocessing_year_sum.csv",
         index=False, encoding="utf-8-sig")  # 필요 시 파일 저장



    동별    연도     거주인구
0  강남구  2008  6829995
1  강남구  2009  6828201
2  강남구  2010  6862974
3  강남구  2011  6909210
4  강남구  2012  6835662


In [50]:
# 1) CSV 읽기 ─────────────────────────────
file_path = "data/regression_data/passenger_data.csv"   # 실제 파일명/경로
df = pd.read_csv(file_path, encoding="utf-8")
df.columns = df.columns.str.strip()         # 공백 제거

# 2) 날짜 전처리 ───────────────────────────
df["연월"] = pd.to_datetime(df["연월"])     # 'YYYY-MM' → Timestamp
df["연도"] = df["연월"].dt.year            # 연도 추출

# 3) 분석 대상 열(거주인구 제외) ────────────
metrics = [
    "버스승객수",
    "지하철_승객_수",
    "승객수",
    "발생건수",
    "부상자수",
]

# 4) 자치구·연도별 합계 ────────────────────
yearly_by_gu = (
    df[df["연도"].between(2017, 2023)]      # 연도 필터
      .groupby(["자치구", "연도"], as_index=False)[metrics]
      .sum()                               # 월 → 연 합계
)

# 5) 숫자 열만 정수형으로 변환 -------------
yearly_by_gu[metrics] = yearly_by_gu[metrics].astype(int)

# 6) 결과 확인 또는 저장 -------------------
print(yearly_by_gu.head())
yearly_by_gu.to_csv("data/regression_data/passenger_data_2017_2023.csv",
                    index=False, encoding="utf-8-sig")


   자치구    연도      버스승객수   지하철_승객_수        승객수  발생건수  부상자수
0  강남구  2017   94149570  146347253  241905699  3469  4959
1  강남구  2018   98835925  148332567  249597367  3459  4967
2  강남구  2019  100733693  153716474  256861504  3722  5182
3  강남구  2020   96578579  153883394  251672041  3752  5189
4  강남구  2021   98810029  157330951  257049406  3820  5175


In [52]:
"""
📄  자치구 × 연도별 종합 지표 만들기 (2005–2023)
     1) 동별 거주인구 연간 합계 CSV  ─▶  '거주인구'
     2) 자치구별 교통·사고 연간 합계 CSV ─▶  '버스승객수' 등 5개 지표
     3) 2005~2023 모든 (자치구, 연도) 조합 생성
     4) 결측치는 0으로 채운 뒤, 모든 합계 값을 12로 나눠 ‘월평균’ 산출
"""

# ─────────────────────────────────────────
# 0. 파일 경로 설정
# ─────────────────────────────────────────
pop_path     = Path("data/first_processing_data/Resident_population_preprocessing_year_sum.csv")              # ① 동별 거주인구
metrics_path = Path("data/regression_data/passenger_data_2017_2023.csv")        # ② 자치구별 교통·사고 지표
out_path     = Path("data/first_processing_data/population_average_2005_2023.csv")

# ─────────────────────────────────────────
# 1. CSV 읽기 & 컬럼 정리
# ─────────────────────────────────────────
pop_df     = pd.read_csv(pop_path, encoding="utf-8").rename(columns=str.strip)
metrics_df = pd.read_csv(metrics_path, encoding="utf-8").rename(columns=str.strip)

# 동별 → 자치구 열 이름 맞추기
pop_df = pop_df.rename(columns={"동": "자치구", "동별": "자치구"})

# ─────────────────────────────────────────
# 2. 2005~2023 전체 자치구·연도 그리드 생성
# ─────────────────────────────────────────
years_full = range(2005, 2024)
districts  = sorted(set(pop_df["자치구"]).union(metrics_df["자치구"]))

base = (
    pd.MultiIndex.from_product([districts, years_full], names=["자치구", "연도"])
    .to_frame(index=False)
)

# ─────────────────────────────────────────
# 3. 거주인구·교통/사고 지표 병합
# ─────────────────────────────────────────
# 3-1) 거주인구
pop_trim = pop_df[["자치구", "연도", "거주인구"]]
merged   = pd.merge(base, pop_trim, on=["자치구", "연도"], how="left")

# 3-2) 교통/사고 지표
metrics_trim = metrics_df[
    ["자치구", "연도", "버스승객수", "지하철_승객_수", "승객수", "발생건수", "부상자수"]
]
merged = pd.merge(merged, metrics_trim, on=["자치구", "연도"], how="left")

# ─────────────────────────────────────────
# 4. 결측치 0 채우기  →  월평균(÷12) 변환
# ─────────────────────────────────────────
numeric_cols = ["거주인구", "버스승객수", "지하철_승객_수",
                "승객수", "발생건수", "부상자수"]

merged[numeric_cols] = (
    merged[numeric_cols]
      .fillna(0)         # 결측을 0으로
      .div(12)           # 연간 합계 → 월평균
      .round(2)          # 소수 둘째 자리
)

# ─────────────────────────────────────────
# 5. 저장 & 확인
# ─────────────────────────────────────────
merged.sort_values(["자치구", "연도"]).to_csv(out_path, index=False, encoding="utf-8-sig")
print(f"✅ 월평균 데이터 저장 완료 → {out_path}")
print(merged.head(8))


✅ 월평균 데이터 저장 완료 → data\first_processing_data\population_average_2005_2023.csv
   자치구    연도       거주인구  버스승객수  지하철_승객_수  승객수  발생건수  부상자수
0  강남구  2005       0.00    0.0       0.0  0.0   0.0   0.0
1  강남구  2006       0.00    0.0       0.0  0.0   0.0   0.0
2  강남구  2007       0.00    0.0       0.0  0.0   0.0   0.0
3  강남구  2008  569166.25    0.0       0.0  0.0   0.0   0.0
4  강남구  2009  569016.75    0.0       0.0  0.0   0.0   0.0
5  강남구  2010  571914.50    0.0       0.0  0.0   0.0   0.0
6  강남구  2011  575767.50    0.0       0.0  0.0   0.0   0.0
7  강남구  2012  569638.50    0.0       0.0  0.0   0.0   0.0


In [54]:
# 1. CSV 파일 불러오기
df = pd.read_csv("data/merged_data/Total_updated_data.csv")  # 파일 경로에 맞게 수정

# 2. '연월' 컬럼에서 '연도' 추출
df['연도'] = pd.to_datetime(df['연월']).dt.year

# 3. '구', '연도' 기준으로 '부상자수'와 '발생건수' 합산
agg_df = df.groupby(['구', '연도'])[['부상자수', '발생건수']].sum().reset_index()

# 4. 연간 합계를 12로 나눠서 월평균 계산
agg_df['부상자수_월평균'] = (agg_df['부상자수'] / 12).round(2)
agg_df['발생건수_월평균'] = (agg_df['발생건수'] / 12).round(2)

# 5. 필요 없는 원본 합계 컬럼 제거 (선택사항)
agg_df = agg_df.drop(columns=['부상자수', '발생건수'])

# 6. 결과 확인
print(agg_df)

agg_df.to_csv("data/first_processing_data/Total_average_month.csv", index=False, encoding="utf-8-sig")  # 결과 저장


       구    연도  부상자수_월평균  발생건수_월평균
0    강남구  2005    390.17    260.50
1    강남구  2006    405.75    276.75
2    강남구  2007    403.00    275.92
3    강남구  2008    372.42    260.92
4    강남구  2009    454.58    310.25
..   ...   ...       ...       ...
520  중랑구  2021    152.17    114.42
521  중랑구  2022    157.50    116.75
522  중랑구  2023    142.00    105.67
523  중랑구  2024    135.25     99.92
524  중랑구  2025      0.00      0.00

[525 rows x 4 columns]
