In [11]:
import pandas as pd
import numpy as np

# 1. 데이터 읽기
file_path = r"C:\Users\James sim\Desktop\workspace\미드 프로젝트\인구이동_연도_시군구.csv"

try:
    df = pd.read_csv(file_path, encoding='cp949') # cp949 인코딩으로 시도
except FileNotFoundError:
    print(f"오류: 파일을 찾을 수 없습니다. 경로를 확인해주세요: {file_path}")
    exit()
except UnicodeDecodeError:
    print(f"오류: '{file_path}' 파일을 cp949 인코딩으로 읽을 수 없습니다. utf-8 인코딩을 시도합니다.")
    try:
        df = pd.read_csv(file_path, encoding='utf-8') # utf-8로 재시도
    except Exception as e:
        print(f"오류: utf-8 인코딩으로도 파일을 읽을 수 없습니다. {e}")
        exit()
except Exception as e:
    print(f"파일을 읽는 중 알 수 없는 오류가 발생했습니다: {e}")
    exit()

print("원본 데이터 컬럼명:", df.columns.tolist())

# 3. 불필요한 'Unnamed' 컬럼 제거
df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
print("Unnamed 컬럼 제거 후 컬럼명:", df.columns.tolist())


# 4. 데이터 전처리: 연도 컬럼 추출 및 멜팅
year_cols = [col for col in df.columns if '년' in col and any(str(year) in col for year in range(2013, 2026))]

def custom_sort_key(col_name):
    if '년' in col_name:
        return int(col_name.split(' ')[0])
    return 0

year_cols_sorted = sorted(year_cols, key=custom_sort_key)
print("추출된 연도 컬럼:", year_cols_sorted)

required_id_vars = ['시도', '시군구', '항목', '단위']
if not all(col in df.columns for col in required_id_vars):
    missing_cols = [col for col in required_id_vars if col not in df.columns]
    print(f"오류: 필수 ID 컬럼이 데이터에 없습니다: {missing_cols}")
    exit()

df_melt = df.melt(id_vars=required_id_vars,
                  value_vars=year_cols_sorted,
                  var_name='연도_기간',
                  value_name='이동자수')

df_melt['이동자수'] = pd.to_numeric(df_melt['이동자수'], errors='coerce').fillna(0)
print("\ndf_melt 데이터 헤드 (멜팅 및 이동자수 숫자 변환/0 채움 후):")
print(df_melt.head())
print(f"df_melt['이동자수'] NaN 값 수 (fillna(0) 후): {df_melt['이동자수'].isna().sum()}")


def extract_year(period):
    if '년' in period:
        return int(period.split(' ')[0])
    return None

df_melt['연도'] = df_melt['연도_기간'].apply(extract_year)
df_melt = df_melt.dropna(subset=['연도'])
df_melt['연도'] = df_melt['연도'].astype(int)

print("\ndf_melt 데이터 헤드 (연도 추출 후):")
print(df_melt.head())
print("추출된 연도 유니크 값:", df_melt['연도'].unique())


# 5. 시도/시군구 분리 (이미 분리되어 있으므로 추가 처리 없음)

# 6. "전국" 데이터 제외
df_melt = df_melt[df_melt['시도'] != '전국']
print("\ndf_melt 데이터 헤드 (전국 제외 후):")
print(df_melt.head())
print("시도 유니크 값 (전국 제외 후):", df_melt['시도'].unique())


# 7. 항목 분류 함수 정의 및 적용
print("\n원본 항목 값:", df_melt['항목'].unique())

def categorize_movement(item):
    if '총인구' in item:
        return '총인구'
    elif '순이동' in item:
        return '순이동'
    elif '전입' in item:
        return '전입'
    elif '전출' in item:
        return '전출'
    elif '시도내이동' in item or '시도간전출입' in item:
        return '기타_이동'
    else:
        return '기타'

df_melt['항목_분류'] = df_melt['항목'].apply(categorize_movement)
print("분류된 항목 값:", df_melt['항목_분류'].unique())


# --- 총 인구 데이터 추출 및 집계 ---
df_total_population = df_melt[df_melt['항목_분류'] == '총인구'].copy()
df_total_population['이동자수'] = df_total_population['이동자수'].fillna(0) # 혹시 모를 NaN 방지
df_total_population = df_total_population.groupby(['시도', '시군구', '연도'])['이동자수'].sum().reset_index()
df_total_population.rename(columns={'이동자수': '총인구수'}, inplace=True)

print("\n총인구수 데이터 헤드 (추출 및 집계 후):")
print(df_total_population.head())
print(f"총인구수 NaN 값 수 (집계 후): {df_total_population['총인구수'].isna().sum()}")
print(f"총인구수 0 값 수 (집계 후): {df_total_population[df_total_population['총인구수'] == 0].shape[0]}")


# --- 전입/전출/기타 이동 데이터 추출 및 집계 ---
df_movement = df_melt[df_melt['항목_분류'].isin(['전입', '전출', '기타_이동'])].copy()
df_movement['이동자수'] = df_movement['이동자수'].fillna(0)

df_movement['전입'] = df_movement.apply(lambda x: x['이동자수'] if x['항목_분류'] == '전입' else 0, axis=1)
df_movement['전출'] = df_movement.apply(lambda x: x['이동자수'] if x['항목_분류'] == '전출' else 0, axis=1)
df_movement['기타_이동량'] = df_movement.apply(lambda x: x['이동자수'] if x['항목_분류'] == '기타_이동' else 0, axis=1)

# 8. 연도별 집계
result = df_movement.groupby(['시도', '시군구', '연도'])[['전입', '전출', '기타_이동량']].sum().reset_index()
print("\n전입/전출/기타_이동량 집계 결과 헤드:")
print(result.head())

# 9. 총 이동량 계산
result['총이동량'] = result['전입'] + result['전출'] + result['기타_이동량']
print("\n총이동량 계산 결과 헤드:")
print(result.head())
print(f"총이동량 NaN 값 수: {result['총이동량'].isna().sum()}")


# 10. 총 인구수 데이터와 병합
result = pd.merge(result, df_total_population, on=['시도', '시군구', '연도'], how='left')
print("\n총인구수 병합 후 결과 헤드:")
print(result.head())
print(f"총인구수 컬럼의 NaN 개수 (병합 후): {result['총인구수'].isna().sum()}")

# --- 중요한 변경 사항: 병합 후 총인구수 컬럼의 NaN을 0으로 채움 ---
# OLD: result['총인구수'].fillna(0, inplace=True)
result['총인구수'] = result['총인구수'].fillna(0) # <-- FIXED LINE
print(f"총인구수 컬럼의 NaN 개수 (fillna(0) 후): {result['총인구수'].isna().sum()}")


# 11. 거주자 이동률 계산
# 총인구수가 0이 아닌 경우에만 계산하고, 나머지는 일단 NaN으로 둠 (나중에 0으로 채울 예정)
result['거주자_이동률'] = np.where(
    (result['총인구수'] == 0), # 총인구수가 0인 경우
    np.nan, # 일단 NaN으로 표시 (계산 불가능)
    (result['총이동량'] / result['총인구수'] * 100) # 그 외의 경우 정상 계산
)
result['거주자_이동률'] = result['거주자_이동률'].replace([np.inf, -np.inf], np.nan) # 무한대 값 처리

# --- 최종적으로 모든 NaN 값을 0으로 채움 ---
result['거주자_이동률'] = result['거주자_이동률'].fillna(0)


print("\n거주자 이동률 계산 후 결과 헤드:")
print(result.head())
print(f"거주자_이동률 NaN 값 수: {result['거주자_이동률'].isna().sum()}") # 이 값이 0이어야 합니다.
print(f"거주자_이동률 0이 아닌 값 수: {result[result['거주자_이동률'] != 0].shape[0]}")


# 12. 연도 제한 (2013-2023년 데이터만 포함)
if '연도' in result.columns and pd.api.types.is_numeric_dtype(result['연도']):
    result = result[result['연도'].between(2013, 2023)].copy()
else:
    print("경고: '연도' 컬럼이 존재하지 않거나 숫자형이 아니어서 연도 제한을 건너뜜니다.")

print("\n최종 결과 (2013-2023년으로 제한) 헤드:")
print(result.head())


# 13. 최종 결과 출력 설정
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

print("\n--- 최종 분석 결과 데이터프레임 ---")
# 이제 총인구수와 거주자_이동률 모두 NaN이 없으므로, 0.0으로 표시될 것입니다.
print(result[['시도', '시군구', '연도', '전입', '전출', '총이동량', '총인구수', '거주자_이동률']])

# 14. 결과 저장
output_file_name = "전국_시군구별_인구이동률_2013-2023.csv"
try:
    result.to_csv(output_file_name, index=False, encoding='utf-8-sig')
    print(f"\n데이터 처리가 완료되었습니다. '{output_file_name}' 파일이 생성되었습니다.")
except Exception as e:
    print(f"결과 저장 중 오류가 발생했습니다: {e}")

오류: 'C:\Users\James sim\Desktop\workspace\미드 프로젝트\인구이동_연도_시군구.csv' 파일을 cp949 인코딩으로 읽을 수 없습니다. utf-8 인코딩을 시도합니다.
원본 데이터 컬럼명: ['시도', '시군구', '항목', '단위', '2013 년', '2014 년', '2015 년', '2016 년', '2017 년', '2018 년', '2019 년', '2020 년', '2021 년', '2022 년', '2023 년', '2024 년']
Unnamed 컬럼 제거 후 컬럼명: ['시도', '시군구', '항목', '단위', '2013 년', '2014 년', '2015 년', '2016 년', '2017 년', '2018 년', '2019 년', '2020 년', '2021 년', '2022 년', '2023 년', '2024 년']
추출된 연도 컬럼: ['2013 년', '2014 년', '2015 년', '2016 년', '2017 년', '2018 년', '2019 년', '2020 년', '2021 년', '2022 년', '2023 년', '2024 년']

df_melt 데이터 헤드 (멜팅 및 이동자수 숫자 변환/0 채움 후):
   시도 시군구                항목 단위   연도_기간       이동자수
0  전국  전국            총전입[명]  명  2013 년  7411784.0
1  전국  전국            총전출[명]  명  2013 년  7411784.0
2  전국  전국            순이동[명]  명  2013 년        0.0
3  전국  전국     시도내이동-시군구내[명]  명  2013 년  2864028.0
4  전국  전국  시도내이동-시군구간 전입[명]  명  2013 년  2124327.0
df_melt['이동자수'] NaN 값 수 (fillna(0) 후): 0

df_melt 데이터 헤드 (연도 추출 후):
   시도 시군구            