In [2]:
import pandas as pd, chardet

# ---------- 파일 경로 ----------
baseline_csv = "RAW/21년10월31일 기준 서울시 자동차 등록현황(동별 연료별).csv"
monthly_csv  = "RAW/서울특별시_월별 행정동별 자동차 신규 등록 대수_20231231.csv"
# --------------------------------

# 1) 파일 인코딩 자동 감지 & 로드 ---------------------------------
def read_auto(path, **kw):
    enc = chardet.detect(open(path,'rb').read(5000))['encoding']
    return pd.read_csv(path, encoding=enc or 'utf-8', **kw)

base = read_auto(baseline_csv)
monthly = read_auto(monthly_csv)

# 2) 2021‑10‑31 기준 총대수 추출 ---------------------------------
#   · '행정동-연료별 분류' → '서울특별시 …동' 만 남기고
#   · '총합계' 열을 baseline_total 로 사용
base = (base
        .assign(행정동명=lambda d: d['행정동-연료별 분류'].str.extract(r'(서울특별시 .+)')[0])
        .dropna(subset=['행정동명'])
        [['행정동명','총합계']]
        .rename(columns={'총합계':'baseline_total'}))

# 3) 월별 신규등록 데이터 전처리 ---------------------------------
monthly = (monthly
           .rename(columns={'연월':'month','행정동명':'행정동명','등록대수':'new_reg'})
           .assign(month=lambda d: pd.to_datetime(d['month']).dt.strftime('%Y-%m'))
           .query("month > '2021-10'"))

new_by_month = (monthly
                .groupby(['행정동명','month'], as_index=False)['new_reg']
                .sum())

# 4) 행정동별 누적 합계 계산 --------------------------------------
new_by_month = (new_by_month
                .sort_values(['행정동명','month'])
                .groupby('행정동명')
                .apply(lambda df: df.assign(cum_new=df['new_reg'].cumsum()))
                .reset_index(drop=True))

# 5) baseline + 누적합 → 월별 총대수 ------------------------------
final = (new_by_month
         .merge(base, on='행정동명', how='left')
         .assign(total_registered=lambda d: d['baseline_total'] + d['cum_new'])
         [['행정동명','month','total_registered']]
         .sort_values(['행정동명','month']))

# 6) 저장 ---------------------------------------------------------
out = "PROCESSED/행정동별_월별_총자동차등록대수_2021-11_2023-12.csv"
final.to_csv(out, index=False, encoding='utf-8-sig')
print(f"✅ 완성!  결과 Shape = {final.shape}\n→ {out}")


✅ 완성!  결과 Shape = (11075, 3)
→ PROCESSED/행정동별_월별_총자동차등록대수_2021-11_2023-12.csv


In [3]:
final['시군구'] = final['행정동명'].str.split(' ').str[1]

In [4]:
final.to_csv(out, index=False, encoding='utf-8-sig')