### 지역간 인구 이동에 대한 비교

예) 경기도 -> 서울 (얼마나?)

총전출 중에 비수도권에서 수도권으로 이동한 비율

수도권 - 인천광역시, 경기도, 서울특별시
그외 비수도권

비수도권 - 수도권 
비수도권 - 비수도권
수도권 - 수도권
수도권 - 비수도권

✅ 용어 정리 먼저
| 용어        | 의미                                   |
| --------- | ------------------------------------ |
| **이동자수**  | A지역 → B지역으로 이동한 사람 수 (순방향 이동 수)      |
| **순이동자수** | **전입 - 전출** = B지역으로 온 사람 수 - 떠난 사람 수 |

✅ 사례 해석
서울특별시 → 부산광역시
이동자수: 17,009명
순이동자수: -2,432명

이건 다음과 같이 해석:

서울에서 부산으로 간 사람: 17,009명

근데 부산 → 서울로 간 사람은 17,009 + 2,432 = 19,441명

즉, 서울 기준으로 봤을 때 인구가 빠져나간 게 아니라 오히려 유입

In [1]:
import pandas as pd
import numpy as np

In [21]:
file_path = 'data/day3/원본_전출지_전입지_시도_별_이동자수.xlsx'

In [22]:
# 1. 두 줄짜리 헤더 읽기
df = pd.read_excel(file_path, header=[0, 1])

# 2. 컬럼 합치기 - Unnamed는 앞 컬럼명 재사용
new_columns = []
last_year = None
for c1, c2 in df.columns:
    c1 = str(c1).strip()
    c2 = str(c2).strip()
    if 'Unnamed' in c1:
        c1 = last_year  # 이전 연도 재사용
    else:
        last_year = c1
    new_columns.append(f"{c1}_{c2}")

# 3. 새 컬럼명 적용
df.columns = new_columns

# 4. 전출지별, 전입지별 컬럼명 정리 (선택)
df = df.rename(columns={df.columns[0]: '전출지별', df.columns[1]: '전입지별'})

In [23]:
# 컬럼명에서 공백과 '(명)' 제거
df.columns = [col.replace(" ", "").replace("(명)", "") for col in df.columns]
df

Unnamed: 0,전출지별,전입지별,2015_이동자수,2015_순이동자수,2016_이동자수,2016_순이동자수,2017_이동자수,2017_순이동자수,2018_이동자수,2018_순이동자수,2019_이동자수,2019_순이동자수,2020_이동자수,2020_순이동자수,2021_이동자수,2021_순이동자수,2022_이동자수,2022_순이동자수,2023_이동자수,2023_순이동자수
0,서울특별시,서울특별시,1129529,0,1061915,0,1018807,0,979576,0,950627,0,1068113,0,957064,0,770951,0,776804,0
1,서울특별시,부산광역시,17009,-2432,15062,-4174,14484,-4976,13093,-6644,12805,-7480,13209,-7781,13078,-6931,11532,-7885,11748,-6684
2,서울특별시,대구광역시,10191,-2847,9623,-3179,8891,-4120,8446,-5303,7897,-6618,8792,-6424,8350,-5786,7716,-6304,8289,-5098
3,서울특별시,인천광역시,44915,11345,43745,11259,40485,7957,41233,8818,38571,3811,39875,1466,44859,10513,43887,11500,45942,13707
4,서울특별시,광주광역시,9216,-1644,8354,-2078,7932,-2629,7378,-3481,7014,-3713,7178,-4054,7145,-3185,6159,-3614,6120,-3360
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
284,제주특별자치도,전북특별자치도,683,-377,733,-384,768,-346,902,-229,1032,-7,1007,-72,986,88,878,37,975,179
285,제주특별자치도,전라남도,1062,-279,1127,-273,1102,-322,1254,-36,1302,75,1466,197,1326,178,1194,190,1109,164
286,제주특별자치도,경상북도,903,-328,931,-445,994,-363,1146,-385,1229,-101,1181,-196,1261,-26,1177,-48,1161,58
287,제주특별자치도,경상남도,1500,-352,1448,-996,1501,-1032,1780,-511,1825,-376,1861,-319,1947,-191,1798,-257,1783,17


In [25]:
df.to_csv('가공_전출지_전입지_시도_별_이동자수.csv', encoding='utf-8-sig', index=False)

In [26]:
file_path = 'data/day3/가공_전출지_전입지_시도_별_이동자수.csv'

In [32]:
# CSV 파일 읽기
df = pd.read_csv(file_path, encoding='utf-8-sig')

# 수도권과 비수도권 구분
수도권 = ['서울특별시', '경기도', '인천광역시']
비수도권 = [
    '부산광역시', '대구광역시', '광주광역시', '대전광역시', '울산광역시',
    '세종특별자치시', '강원특별자치도', '충청북도', '충청남도', '전라북도',
    '전라남도', '경상북도', '경상남도', '제주특별자치도'
]

# 이동 유형별로 분류하는 함수
def get_move_type(row):
    전출지 = row['전출지별']
    전입지 = row['전입지별']
    if 전출지 in 수도권 and 전입지 in 수도권:
        return '수도권→수도권'
    elif 전출지 in 수도권 and 전입지 in 비수도권:
        return '수도권→비수도권'
    elif 전출지 in 비수도권 and 전입지 in 수도권:
        return '비수도권→수도권'
    elif 전출지 in 비수도권 and 전입지 in 비수도권:
        return '비수도권→비수도권'
    else:
        return '기타'

# 이동 유형 컬럼 추가
df['이동유형'] = df.apply(get_move_type, axis=1)

# 결과를 저장할 데이터프레임 생성
결과_df = pd.DataFrame()

# 각 연도별로 이동 유형에 따른 순이동자수 계산
for year in range(2015, 2024):
    # 해당 연도의 순이동자수 컬럼명
    순이동자수_컬럼 = f'{year}_순이동자수'
    
    # 이동 유형별 순이동자수 합계
    이동유형별_순이동 = df.groupby('이동유형')[순이동자수_컬럼].sum()
    
    # 결과 데이터프레임에 추가
    결과_df[f'{year}년_순이동자수'] = 이동유형별_순이동

# 인덱스 이름 설정
결과_df.index.name = '이동유형'

# 결과 출력
print("=== 연도별 이동 유형별 순이동자수 ===")
print(결과_df)

# 수도권-비수도권 순이동자수 계산
수도권_비수도권_순이동 = pd.DataFrame()

for year in range(2015, 2024):
    수도권_순이동 = 결과_df.loc['비수도권→수도권', f'{year}년_순이동자수'] - 결과_df.loc['수도권→비수도권', f'{year}년_순이동자수']
    비수도권_순이동 = 결과_df.loc['수도권→비수도권', f'{year}년_순이동자수'] - 결과_df.loc['비수도권→수도권', f'{year}년_순이동자수']
    
    수도권_비수도권_순이동.loc['수도권', f'{year}년_순이동자수'] = 수도권_순이동
    수도권_비수도권_순이동.loc['비수도권', f'{year}년_순이동자수'] = 비수도권_순이동

print("\n=== 연도별 수도권-비수도권 순이동자수 ===")
print(수도권_비수도권_순이동)

# 결과를 CSV 파일로 저장
결과_df.to_csv('이동유형별_순이동자수.csv', encoding='utf-8-sig')
수도권_비수도권_순이동.to_csv('수도권_비수도권_순이동자수.csv', encoding='utf-8-sig')

=== 연도별 이동 유형별 순이동자수 ===
           2015년_순이동자수  2016년_순이동자수  2017년_순이동자수  2018년_순이동자수  2019년_순이동자수  \
이동유형                                                                         
기타                   0            0            0            0            0   
비수도권→비수도권            0            0            0            0            0   
비수도권→수도권        -32181        -2718        12778        51805        74209   
수도권→비수도권         32181         2718       -12778       -51805       -74209   
수도권→수도권              0            0            0            0            0   

           2020년_순이동자수  2021년_순이동자수  2022년_순이동자수  2023년_순이동자수  
이동유형                                                           
기타                   0            0            0            0  
비수도권→비수도권            0            0            0            0  
비수도권→수도권         80551        51591        33640        43942  
수도권→비수도권        -80551       -51591       -33640       -43942  
수도권→수도권              0            0         

In [35]:
metro = {'서울특별시', '인천광역시', '경기도'}

# '이동자수'와 '순이동자수' 컬럼 분리
move_cols = sorted([col for col in df.columns if '이동자수' in col and '순' not in col])
net_move_cols = sorted([col for col in df.columns if '순이동자수' in col])

results = []

for move_col, net_col in zip(move_cols, net_move_cols):
    year = move_col.split('_')[0]

    metro_to_non_move = df[(df['전출지별'].isin(metro)) & (~df['전입지별'].isin(metro))][move_col].sum()
    non_to_metro_move = df[(~df['전출지별'].isin(metro)) & (df['전입지별'].isin(metro))][move_col].sum()
    metro_to_metro_move = df[(df['전출지별'].isin(metro)) & (df['전입지별'].isin(metro))][move_col].sum()
    non_to_non_move = df[(~df['전출지별'].isin(metro)) & (~df['전입지별'].isin(metro))][move_col].sum()

    metro_to_non_net = df[(df['전출지별'].isin(metro)) & (~df['전입지별'].isin(metro))][net_col].sum()
    non_to_metro_net = df[(~df['전출지별'].isin(metro)) & (df['전입지별'].isin(metro))][net_col].sum()
    metro_to_metro_net = df[(df['전출지별'].isin(metro)) & (df['전입지별'].isin(metro))][net_col].sum()
    non_to_non_net = df[(~df['전출지별'].isin(metro)) & (~df['전입지별'].isin(metro))][net_col].sum()

    results.append({
        '연도': year,
        '수도권→비수도권_이동자수': metro_to_non_move,
        '비수도권→수도권_이동자수': non_to_metro_move,
        '수도권→수도권_이동자수': metro_to_metro_move,
        '비수도권→비수도권_이동자수': non_to_non_move,
        '수도권→비수도권_순이동자수': metro_to_non_net,
        '비수도권→수도권_순이동자수': non_to_metro_net,
        '수도권→수도권_순이동자수': metro_to_metro_net,
        '비수도권→비수도권_순이동자수': non_to_non_net,
    })

df_result = pd.DataFrame(results)
df_result


Unnamed: 0,연도,수도권→비수도권_이동자수,비수도권→수도권_이동자수,수도권→수도권_이동자수,비수도권→비수도권_이동자수,수도권→비수도권_순이동자수,비수도권→수도권_순이동자수,수도권→수도권_순이동자수,비수도권→비수도권_순이동자수
0,2015,483024,450074,3605660,3216528,32950,-32950,0,0
1,2016,448929,448066,3467775,3013660,863,-863,0,0
2,2017,430803,446809,3323917,2952697,-16006,16006,0,0
3,2018,410153,469950,3445111,2971885,-59797,59797,0,0
4,2019,392808,475549,3311920,2924121,-82741,82741,0,0
5,2020,406948,494723,3680532,3153288,-87775,87775,0,0
6,2021,414934,470631,3416908,2910949,-55697,55697,0,0
7,2022,386077,422720,2819937,2523421,-36643,36643,0,0
8,2023,368076,414945,2897328,2448389,-46869,46869,0,0


In [36]:
print(df_result)

     연도  수도권→비수도권_이동자수  비수도권→수도권_이동자수  수도권→수도권_이동자수  비수도권→비수도권_이동자수  \
0  2015         483024         450074       3605660         3216528   
1  2016         448929         448066       3467775         3013660   
2  2017         430803         446809       3323917         2952697   
3  2018         410153         469950       3445111         2971885   
4  2019         392808         475549       3311920         2924121   
5  2020         406948         494723       3680532         3153288   
6  2021         414934         470631       3416908         2910949   
7  2022         386077         422720       2819937         2523421   
8  2023         368076         414945       2897328         2448389   

   수도권→비수도권_순이동자수  비수도권→수도권_순이동자수  수도권→수도권_순이동자수  비수도권→비수도권_순이동자수  
0           32950          -32950              0                0  
1             863            -863              0                0  
2          -16006           16006              0                0  
3          -59797

In [43]:
cols = df_result.columns.tolist()

fixed_col = ['연도']
순_cols = [c for c in cols if '순이동자수' in c]
이동_cols = [c for c in cols if ('이동자수' in c) and ('순이동자수' not in c)]
기타_cols = [c for c in cols if c not in fixed_col + 순_cols + 이동_cols]
new_cols = fixed_col + 순_cols + 이동_cols + 기타_cols

df_clean = df_result[new_cols]


In [45]:
df_clean

Unnamed: 0,연도,수도권→비수도권_순이동자수,비수도권→수도권_순이동자수,수도권→수도권_순이동자수,비수도권→비수도권_순이동자수,수도권→비수도권_이동자수,비수도권→수도권_이동자수,수도권→수도권_이동자수,비수도권→비수도권_이동자수
0,2015,32950,-32950,0,0,483024,450074,3605660,3216528
1,2016,863,-863,0,0,448929,448066,3467775,3013660
2,2017,-16006,16006,0,0,430803,446809,3323917,2952697
3,2018,-59797,59797,0,0,410153,469950,3445111,2971885
4,2019,-82741,82741,0,0,392808,475549,3311920,2924121
5,2020,-87775,87775,0,0,406948,494723,3680532,3153288
6,2021,-55697,55697,0,0,414934,470631,3416908,2910949
7,2022,-36643,36643,0,0,386077,422720,2819937,2523421
8,2023,-46869,46869,0,0,368076,414945,2897328,2448389


In [46]:
df_clean.to_csv('가공_수도권_비수도권_인구이동.csv', encoding='utf-8-sig', index=False)