In [1]:
# 기본 라이브러리
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 그래프 기본 테마 설정
# https://coldbrown.co.kr/2023/07/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%8B%A4%EC%A0%84%ED%8E%B8-08-seaborn-sns-set%EC%9D%84-%ED%86%B5%ED%95%B4-%EC%8A%A4%ED%83%80%EC%9D%BC-%EC%84%A4%EC%A0%95%ED%95%98%EA%B8%B0/
sns.set()

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6
plt.rcParams['font.size'] = 14
plt.rcParams['axes.unicode_minus'] = False

# 복잡한 통계 처리를 위한 라이브러리
from scipy import stats

In [2]:
df_density = pd.read_csv('data/인구밀도_인구주택총조사기준__시도_2010_2023.csv', encoding='euc-kr')
df_density

Unnamed: 0,행정구역별,2010,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,전국,485.6,509.2,511.0,512.4,514.4,515.7,516.2,515.2,514.6,515.4
1,서울특별시,16188.9,16364.0,16202.2,16095.8,15983.7,15926.9,15839.0,15650.1,15560.7,15506.4
2,부산광역시,4452.3,4479.9,4468.8,4437.4,4409.8,4379.7,4348.9,4316.4,4272.8,4252.0
3,대구광역시,2767.4,2791.0,2785.3,2776.2,2766.7,2750.3,2728.6,2702.2,2673.7,1586.7
4,인천광역시,2587.5,2755.5,2741.4,2752.3,2761.4,2776.6,2765.1,2772.8,2801.3,2835.7
5,광주광역시,2945.6,2998.8,2995.7,2985.3,2973.2,2972.7,2948.5,2944.0,2931.9,2908.5
6,대전광역시,2781.2,2852.3,2846.9,2828.5,2801.0,2777.5,2758.1,2742.8,2730.7,2724.0
7,울산광역시,1022.3,1099.6,1099.2,1090.4,1083.4,1076.9,1069.0,1055.0,1044.9,1042.0
8,세종특별자치시,-,439.0,521.7,595.0,671.9,727.3,761.3,787.7,822.9,830.7
9,경기도,1119.3,1226.4,1244.4,1261.6,1286.2,1305.0,1325.3,1338.9,1344.9,1354.5


In [3]:
df_age = pd.read_csv('data/인구밀도_연령대별_시도_2015_2023.csv', encoding='euc-kr')
df_age

Unnamed: 0,행정구역별(읍면동),연령별,항목,단위,2015 년,2016 년,2017 년,2018 년,2019 년,2020 년,2021 년,2022 년,2023 년,Unnamed: 13
0,전국,합계,총인구(명),,51069375,51269554,51422507,51629512,51779203,51829136,51738071,51692272.0,51774521,
1,전국,합계,총인구_남자(명),,25608502,25696987,25768055,25877195,25952070,25915207,25850044,25835298.0,25903852,
2,전국,합계,총인구_여자(명),,25460873,25572567,25654452,25752317,25827133,25913929,25888027,25856974.0,25870669,
3,전국,합계,총인구_성비,,100.6,100.5,100.4,100.5,100.5,100,99.9,99.9,100.1,
4,전국,합계,내국인(명),,49705663,49855796,49943260,49977951,50000285,50133493,50088104,49939926.0,49839371,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3955,제주특별자치도,중위연령,총인구_남자(명),,39.7,40.2,40.7,41,41.5,42,42.7,43.3,44,
3956,제주특별자치도,중위연령,총인구_여자(명),,42.2,42.7,43.1,43.4,44,44.4,45,45.6,46.4,
3957,제주특별자치도,중위연령,내국인(명),,41.3,41.9,42.4,42.8,43.5,43.9,44.5,45.1,45.9,
3958,제주특별자치도,중위연령,내국인_남자(명),,40.1,40.8,41.3,41.8,42.4,42.9,43.5,44.1,44.9,


In [4]:
print(df_density.columns.tolist())


['행정구역별', '2010', '2015', '2016', '2017', '2018', '2019', '2020', '2021', '2022', '2023']


In [5]:
# 1. '전국' 제외
df_density_filtered = df_density[df_density['행정구역별'] != '전국'].copy()

# 2. wide → long 변환
df_density_long = df_density_filtered.melt(
    id_vars='행정구역별',
    var_name='연도', value_name='인구밀도'
)

# 3. 컬럼명 정리
df_density_long.rename(columns={'행정구역별': '시도'}, inplace=True)
df_density_long['연도'] = df_density_long['연도'].astype(str)

# 4. 연령대 목록 추출 (★ 여기가 오류였음: '연령별' → '연령대')
age_groups = df_age['연령별'].unique()

# 5. 인구밀도 데이터를 연령대별로 확장 (cross join)
df_density_expanded = df_density_long.assign(key=1).merge(
    pd.DataFrame({'연령별': age_groups, 'key': 1}),
    on='key'
).drop(columns='key')


In [6]:
df_age_filtered = df_age[df_age['항목'] == '총인구(명)'].copy()

# 필요 없는 열 제거 (단위 컬럼은 모두 결측치)
drop_cols = [col for col in df_age_filtered.columns if 'Unnamed' in col or col == '단위']
df_age_filtered.drop(columns=drop_cols, inplace=True)

# wide → long
df_age_long = df_age_filtered.melt(
    id_vars=['행정구역별(읍면동)', '연령별'],
    var_name='연도', value_name='총인구'
)

df_age_long.rename(columns={'행정구역별(읍면동)': '시도', '연령별': '연령대'}, inplace=True)
df_age_long['연도'] = df_age_long['연도'].str.extract(r'(\d{4})')
df_age_long['연도'] = df_age_long['연도'].astype(str)

In [7]:
df_merged_by_age = pd.merge(
    df_density_expanded.rename(columns={"연령별": "연령대"}),  # 이 줄을 추가!
    df_age_long,
    on=['시도', '연도', '연령대'],
    how='inner'
)

In [8]:
df_merged_by_age

Unnamed: 0,시도,연도,인구밀도,연령대,총인구
0,서울특별시,2015,16364.0,합계,9904312
1,서울특별시,2015,16364.0,0~4세,391765
2,서울특별시,2015,16364.0,5~9세,373253
3,서울특별시,2015,16364.0,10~14세,404973
4,서울특별시,2015,16364.0,15~19세,551140
...,...,...,...,...,...
4279,제주특별자치도,2023,365.8,15~64세,470786
4280,제주특별자치도,2023,365.8,65세이상,118291
4281,제주특별자치도,2023,365.8,85세이상,14971
4282,제주특별자치도,2023,365.8,평균연령,43.8


In [9]:
df_merged_by_age.to_csv('data/연령대별_시도별_인구_및_인구밀도_병합.csv', index=False, encoding='utf-8-sig')

In [22]:
# 수도권, 비수도권을 구분하는 새로운 컬럼을 추가한다.
# 수도권 리스트 생성
capital_region = ['서울특별시', '경기도', '인천광역시']

# 수도권, 비수도권 분류하는 함수 생성
def check_capital(x):
    return '수도권' if x in capital_region else '비수도권'

df_merged_by_age['수도권'] = df_merged_by_age['시도'].apply(check_capital)

In [23]:
df_merged_by_age['수도권'].value_counts()

비수도권    3528
수도권      756
Name: 수도권, dtype: int64

In [24]:
df_merged_by_age

Unnamed: 0,시도,연도,인구밀도,연령대,총인구,수도권
0,서울특별시,2015,16364.0,합계,9904312,수도권
1,서울특별시,2015,16364.0,0~4세,391765,수도권
2,서울특별시,2015,16364.0,5~9세,373253,수도권
3,서울특별시,2015,16364.0,10~14세,404973,수도권
4,서울특별시,2015,16364.0,15~19세,551140,수도권
...,...,...,...,...,...,...
4279,제주특별자치도,2023,365.8,15~64세,470786,비수도권
4280,제주특별자치도,2023,365.8,65세이상,118291,비수도권
4281,제주특별자치도,2023,365.8,85세이상,14971,비수도권
4282,제주특별자치도,2023,365.8,평균연령,43.8,비수도권


In [25]:
df_merged_by_age.to_csv('data/process_data/인구밀도_수도권_.csv', index=False, encoding='utf-8-sig')

In [26]:
# 연령대가 '합계'인 행만 필터링
df_total = df_merged_by_age[df_merged_by_age['연령대'] == '합계'].copy()

# '전국' 제외 — 중복 합산 방지
df_total = df_total[df_total['시도'] != '전국'].copy()

# 총인구 컬럼 숫자형으로 변환
df_total['총인구'] = df_total['총인구'].astype(str).str.replace(',', '', regex=False)
df_total['총인구'] = pd.to_numeric(df_total['총인구'], errors='coerce')

# 연도별 집계
total_by_year = df_total.groupby('연도')['총인구'].sum()
capital_by_year = df_total[df_total['시도'].isin(capital_region)].groupby('연도')['총인구'].sum()

# 연도별 수도권 인구 비중 계산 (%)
capital_ratio_by_year = (capital_by_year / total_by_year) * 100
capital_ratio_by_year = capital_ratio_by_year.reset_index()
capital_ratio_by_year.columns = ['연도', '수도권 인구 비중 (%)']

# 소수점 두 자리로 반올림
capital_ratio_by_year['수도권 인구 비중 (%)'] = capital_ratio_by_year['수도권 인구 비중 (%)'].round(2)

# 비수도권 비중 추가
capital_ratio_by_year['비수도권 인구 비중 (%)'] = (100 - capital_ratio_by_year['수도권 인구 비중 (%)']).round(2)

# 출력
capital_ratio_by_year


Unnamed: 0,연도,수도권 인구 비중 (%),비수도권 인구 비중 (%)
0,2015,49.49,50.51
1,2016,49.52,50.48
2,2017,49.63,50.37
3,2018,49.8,50.2
4,2019,50.01,49.99
5,2020,50.25,49.75
6,2021,50.41,49.59
7,2022,50.54,49.46
8,2023,50.65,49.35


In [27]:
capital_ratio_by_year.to_csv('data/process_data/인구밀도_수도권_인구_집중_비율.csv', index=False, encoding='utf-8-sig')

In [28]:
# 연령대별 집중도
# 특정 연령대의 수도권 인구 / 해당 연령대의 전체 인구 × 100

# '전국'은 제외해야 전체 집계가 중복되지 않음
df_filtered = df_merged_by_age[df_merged_by_age['시도'] != '전국'].copy()

# 연령대 '합계' 제외 (이번엔 연령대별 비교를 위해)
df_filtered = df_filtered[df_filtered['연령대'] != '합계'].copy()

# '총인구' 숫자형으로 변환 (쉼표 제거 포함)
df_filtered['총인구'] = df_filtered['총인구'].astype(str).str.replace(',', '', regex=False)
df_filtered['총인구'] = pd.to_numeric(df_filtered['총인구'], errors='coerce')


# 전체 인구 / 수도권 인구를 연령대 기준으로 집계
# 연령대별 전체 인구
total_by_age = df_filtered.groupby('연령대')['총인구'].sum()

# 연령대별 수도권 인구
capital_by_age = df_filtered[df_filtered['시도'].isin(capital_region)].groupby('연령대')['총인구'].sum()

# 비중 계산
age_ratio = (capital_by_age / total_by_age) * 100
age_ratio = age_ratio.reset_index()
age_ratio.columns = ['연령대', '수도권 인구 집중도 (%)']

# 수도권, 비수도권 인구 집중도 계산
age_ratio['수도권 인구 집중도 (%)'] = age_ratio['수도권 인구 집중도 (%)'].round(2)
age_ratio['비수도권 인구 집중도 (%)'] = 100 - age_ratio['수도권 인구 집중도 (%)'].round(2)

age_ratio

Unnamed: 0,연령대,수도권 인구 집중도 (%),비수도권 인구 집중도 (%)
0,0~4세,50.89,49.11
1,100세이상,44.47,55.53
2,10~14세,49.43,50.57
3,15~19세,48.45,51.55
4,15~64세,51.34,48.66
5,15세미만,49.99,50.01
6,20~24세,50.12,49.88
7,25~29세,55.07,44.93
8,30~34세,55.39,44.61
9,35~39세,53.68,46.32


In [29]:
age_ratio.to_csv('data/process_data/인구밀도_연령대별_수도권_비수도권_집중도.csv', index=False, encoding='utf-8-sig')

In [30]:
df_area = pd.read_csv('data/인구밀도_연도_시도_총인구_면적.csv', encoding='utf-8')
df_area

Unnamed: 0.1,Unnamed: 0,시도,연도,인구밀도,연령대,총인구,수도권,면적
0,0,서울특별시,2015,16364.0,합계,9904312.0,수도권,605.0
1,1,서울특별시,2015,16364.0,0~4세,391765.0,수도권,605.0
2,2,서울특별시,2015,16364.0,5~9세,373253.0,수도권,605.0
3,3,서울특별시,2015,16364.0,10~14세,404973.0,수도권,605.0
4,4,서울특별시,2015,16364.0,15~19세,551140.0,수도권,605.0
...,...,...,...,...,...,...,...,...
4279,4279,제주특별자치도,2023,365.8,15~64세,470786.0,비수도권,1850.0
4280,4280,제주특별자치도,2023,365.8,65세이상,118291.0,비수도권,1850.0
4281,4281,제주특별자치도,2023,365.8,85세이상,14971.0,비수도권,1850.0
4282,4282,제주특별자치도,2023,365.8,평균연령,43.8,비수도권,1850.0


In [31]:
# 연령대 ‘합계’만 사용
df_filtered = df_area[df_area['연령대'] == '합계'].copy()

# 연도별 수도권/비수도권 총인구, 총면적 계산
df_grouped = df_filtered.groupby(['연도', '수도권']).agg(
    total_pop=('총인구', 'sum'),
    total_area=('면적', 'sum')
).reset_index()

# 인구 밀도 직접 계산
df_grouped['계산_인구밀도'] = df_grouped['total_pop'] / df_grouped['total_area']

# 피벗 테이블로 정리 및 차이 계산
pivot_density = df_grouped.pivot(index='연도', columns='수도권', values='계산_인구밀도').reset_index()
pivot_density['인구밀도 차이'] = pivot_density['수도권'] - pivot_density['비수도권']
pivot_density[['수도권', '비수도권', '인구밀도 차이']] = pivot_density[['수도권', '비수도권', '인구밀도 차이']].round(2)


pivot_density

수도권,연도,비수도권,수도권.1,인구밀도 차이
0,2015,291.59,2136.6,1845.01
1,2016,292.46,2142.48,1850.02
2,2017,292.66,2152.63,1859.97
3,2018,292.76,2168.8,1876.03
4,2019,292.37,2183.01,1890.64
5,2020,291.21,2194.97,1903.76
6,2021,289.69,2197.65,1907.96
7,2022,288.67,2200.51,1911.84
8,2023,288.43,2209.05,1920.61


In [32]:
pivot_density.to_csv('data/process_data/연도별_수도권_비수도권_평균_인구밀도차이.csv', index=False, encoding='utf-8-sig')