### 우리 나라 인구 소멸 위기 지역 분석 - 전처리

- 이상호 한국고용정보원 연구원의 <한국의 지방소멸에 관한 7가지 분석> 보고서
- 인구 소멸 지역의 정의 : 65세 이상 노인 인구와 20~39세 여성 인구를 비교해서 
- 젊은 여성 인구가 노인 인구의 절반에 미달할 경우 인구 소멸 위험 지역으로 분류

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False 
import draw_korea_util as dku


##### 1. 2021년 연령별 총인구 다운로드
- KOSIS : 인구 > 인구총조사 > 인구부문 > 총조사인구(2015) > 전수부문(등록센서스, 2015) > 전수기본표 > 성, 연령 및 세대구성별 인구 - 시군구 (년2015~2021) 선택
- 각 지역별 항목, 필요한 연령대별 항목 선택해서 데이터를 받아야 함.

In [2]:
df = pd.read_csv('data/연령별총인구수_2021년.csv', encoding='euc-kr')
df.head()

Unnamed: 0,행정구역,행정구역별(시군구),성별,합계,15세미만,15~19세,20~24세,25~29세,30~34세,35~39세,40~44세,45~49세,50~54세,55~59세,60~64세,65~69세,70~74세,75~79세,80~84세,85세이상
0,전국,전국,계,49063531,5991713,2090046,2670599,3400702,3091042,3424210,3832964,4002153,4336146,3958355,3988108,2902348,2042154,1529990,1092367,710634
1,전국,전국,남자,24270009,3076190,1067714,1284310,1778098,1597987,1744971,1940421,2018169,2160514,1986284,1955827,1394224,952588,666356,425499,220857
2,전국,전국,여자,24793522,2915523,1022332,1386289,1622604,1493055,1679239,1892543,1983984,2175632,1972071,2032281,1508124,1089566,863634,666868,489777
3,서울특별시,서울특별시,계,9009126,911870,357350,535846,788784,701692,677305,690009,710062,755307,674330,695830,540505,385904,286302,184149,113881
4,서울특별시,서울특별시,남자,4334563,468510,179855,227951,381717,349216,338984,342236,350174,366973,327842,327570,251667,177058,128614,77816,38380


In [3]:
df.isna().sum()

행정구역          0
행정구역별(시군구)    0
성별            0
합계            0
15세미만         0
15~19세        0
20~24세        0
25~29세        0
30~34세        0
35~39세        0
40~44세        0
45~49세        0
50~54세        0
55~59세        0
60~64세        0
65~69세        0
70~74세        0
75~79세        0
80~84세        0
85세이상         0
dtype: int64

##### 2. 데이터 전처리
- 컬럼명 변경, 광역시도 총계는 삭제

In [4]:
df.rename(columns={'행정구역':'광역시도', '행정구역별(시군구)': '시도', '합계':'인구수' }, inplace=True)
df = df[df.광역시도 != df.시도]
df.성별 = df.성별.apply(lambda x : x.replace('계', '합계'))
df.head()

Unnamed: 0,광역시도,시도,성별,인구수,15세미만,15~19세,20~24세,25~29세,30~34세,35~39세,40~44세,45~49세,50~54세,55~59세,60~64세,65~69세,70~74세,75~79세,80~84세,85세이상
6,서울특별시,종로구,합계,133567,11053,4882,9208,12237,9619,8622,9114,10293,11892,10960,10681,8101,5813,5051,3645,2396
7,서울특별시,종로구,남자,64074,5560,2390,3854,6188,4837,4288,4393,4987,5742,5503,5221,3938,2614,2135,1532,892
8,서울특별시,종로구,여자,69493,5493,2492,5354,6049,4782,4334,4721,5306,6150,5457,5460,4163,3199,2916,2113,1504
9,서울특별시,중구,합계,113586,8755,3128,7093,10513,9839,9138,8086,7833,9439,8979,9234,7273,5246,4163,2915,1952
10,서울특별시,중구,남자,54479,4472,1485,2809,5007,4889,4604,4149,3937,4617,4464,4527,3495,2451,1793,1156,624


##### 3. 인구 소멸 위기 지역 계산하고 데이터 정리하기
- 20-30대의 인구, 65세 이상 인구수 알기

In [5]:

df['20~39세'] = df['20~24세'] + df['25~29세'] + df['30~34세'] + df['35~39세'] 
df['65세이상'] = df['65~69세'] + df['70~74세'] + df['75~79세'] + df['80~84세'] + df['85세이상'] 
df.head()

Unnamed: 0,광역시도,시도,성별,인구수,15세미만,15~19세,20~24세,25~29세,30~34세,35~39세,...,50~54세,55~59세,60~64세,65~69세,70~74세,75~79세,80~84세,85세이상,20~39세,65세이상
6,서울특별시,종로구,합계,133567,11053,4882,9208,12237,9619,8622,...,11892,10960,10681,8101,5813,5051,3645,2396,39686,25006
7,서울특별시,종로구,남자,64074,5560,2390,3854,6188,4837,4288,...,5742,5503,5221,3938,2614,2135,1532,892,19167,11111
8,서울특별시,종로구,여자,69493,5493,2492,5354,6049,4782,4334,...,6150,5457,5460,4163,3199,2916,2113,1504,20519,13895
9,서울특별시,중구,합계,113586,8755,3128,7093,10513,9839,9138,...,9439,8979,9234,7273,5246,4163,2915,1952,36583,21549
10,서울특별시,중구,남자,54479,4472,1485,2809,5007,4889,4604,...,4617,4464,4527,3495,2451,1793,1156,624,17309,9519


In [6]:
pop = pd.pivot_table(df, index=['광역시도', '시도'], 
                     columns=['성별'], 
                     values=['인구수', '20~39세', '65세이상'])
pop

Unnamed: 0_level_0,Unnamed: 1_level_0,20~39세,20~39세,20~39세,65세이상,65세이상,65세이상,인구수,인구수,인구수
Unnamed: 0_level_1,성별,남자,여자,합계,남자,여자,합계,남자,여자,합계
광역시도,시도,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
강원도,강릉시,25308,21100,46408,19289,25157,44446,103184,103773,206957
강원도,고성군,2427,1664,4091,3254,4339,7593,12308,12024,24332
강원도,동해시,8679,7108,15787,7972,10001,17973,42773,41968,84741
강원도,삼척시,6545,4887,11432,6830,9122,15952,30564,29489,60053
강원도,속초시,8792,7236,16028,6896,8929,15825,38733,39337,78070
...,...,...,...,...,...,...,...,...,...,...
충청북도,진천군,10955,8835,19790,5909,7561,13470,42125,38869,80994
충청북도,청원구,29744,25409,55153,10702,13855,24557,95995,92089,188084
충청북도,청주시,118321,107236,225557,49715,63267,112982,408392,408111,816503
충청북도,충주시,25644,20782,46426,17985,23181,41166,102215,100412,202627


In [7]:
pop['소멸비율'] = pop['20~39세', '여자'] / (pop['65세이상', '합계'] )
pop.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,20~39세,20~39세,20~39세,65세이상,65세이상,65세이상,인구수,인구수,인구수,소멸비율
Unnamed: 0_level_1,성별,남자,여자,합계,남자,여자,합계,남자,여자,합계,Unnamed: 11_level_1
광역시도,시도,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2
강원도,강릉시,25308,21100,46408,19289,25157,44446,103184,103773,206957,0.474733
강원도,고성군,2427,1664,4091,3254,4339,7593,12308,12024,24332,0.219149
강원도,동해시,8679,7108,15787,7972,10001,17973,42773,41968,84741,0.395482
강원도,삼척시,6545,4887,11432,6830,9122,15952,30564,29489,60053,0.306357
강원도,속초시,8792,7236,16028,6896,8929,15825,38733,39337,78070,0.457251


- 소멸비율이 0.5 미만이면 소멸위기지역
- 소멸비율이 0.2 미만이면 소멸위기고위험지역

In [8]:
pop['소멸위기지역'] = pop['소멸비율'] < 0.5
pop['소멸위기고위험지역'] = pop['소멸비율'] < 0.2
pop

Unnamed: 0_level_0,Unnamed: 1_level_0,20~39세,20~39세,20~39세,65세이상,65세이상,65세이상,인구수,인구수,인구수,소멸비율,소멸위기지역,소멸위기고위험지역
Unnamed: 0_level_1,성별,남자,여자,합계,남자,여자,합계,남자,여자,합계,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
광역시도,시도,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
강원도,강릉시,25308,21100,46408,19289,25157,44446,103184,103773,206957,0.474733,True,False
강원도,고성군,2427,1664,4091,3254,4339,7593,12308,12024,24332,0.219149,True,False
강원도,동해시,8679,7108,15787,7972,10001,17973,42773,41968,84741,0.395482,True,False
강원도,삼척시,6545,4887,11432,6830,9122,15952,30564,29489,60053,0.306357,True,False
강원도,속초시,8792,7236,16028,6896,8929,15825,38733,39337,78070,0.457251,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
충청북도,진천군,10955,8835,19790,5909,7561,13470,42125,38869,80994,0.655902,False,False
충청북도,청원구,29744,25409,55153,10702,13855,24557,95995,92089,188084,1.034695,False,False
충청북도,청주시,118321,107236,225557,49715,63267,112982,408392,408111,816503,0.949142,False,False
충청북도,충주시,25644,20782,46426,17985,23181,41166,102215,100412,202627,0.504834,False,False


In [9]:
pop.to_csv('data/test.csv', encoding='euc-kr')

In [10]:
pop[pop['소멸위기지역'] == True].index.get_level_values(1)

Index(['강릉시', '고성군', '동해시', '삼척시', '속초시', '양구군', '양양군', '영월군', '인제군', '정선군',
       ...
       '청양군', '태안군', '홍성군', '괴산군', '단양군', '보은군', '영동군', '옥천군', '음성군', '제천시'],
      dtype='object', name='시도', length=108)

- geo~.json 의 시도 이름과 테이블의 시도 이름 일치시키기

In [11]:
pop.reset_index(inplace=True)
tmp_columns = [(pop.columns.get_level_values(0)[n] + ' ' + pop.columns.get_level_values(1)[n]).strip() \
        for n in range(0, len(pop.columns.get_level_values(0))) ]
pop.columns = tmp_columns
pop.head()

Unnamed: 0,광역시도,시도,20~39세 남자,20~39세 여자,20~39세 합계,65세이상 남자,65세이상 여자,65세이상 합계,인구수 남자,인구수 여자,인구수 합계,소멸비율,소멸위기지역,소멸위기고위험지역
0,강원도,강릉시,25308,21100,46408,19289,25157,44446,103184,103773,206957,0.474733,True,False
1,강원도,고성군,2427,1664,4091,3254,4339,7593,12308,12024,24332,0.219149,True,False
2,강원도,동해시,8679,7108,15787,7972,10001,17973,42773,41968,84741,0.395482,True,False
3,강원도,삼척시,6545,4887,11432,6830,9122,15952,30564,29489,60053,0.306357,True,False
4,강원도,속초시,8792,7236,16028,6896,8929,15825,38733,39337,78070,0.457251,True,False


In [12]:
dku.GU_DICT.keys()

dict_keys(['수원', '성남', '안양', '안산', '고양', '용인', '청주', '천안', '전주', '포항', '창원'])

In [13]:
indexs = pop[pop.시도.apply(lambda x : x.replace('시', '') in dku.GU_DICT.keys())].index
pop.drop(pop.index[indexs], inplace=True)
pop.set_index('광역시도', inplace=True)
pop.reset_index(inplace=True)
pop.shape

(250, 14)

In [14]:
pop['ID'] = dku.get_guname(pop['광역시도'], pop['시도'])

In [15]:
del pop['20~39세 남자']
del pop['65세이상 남자']
del pop['65세이상 여자']
pop.tail(20)

Unnamed: 0,광역시도,시도,20~39세 여자,20~39세 합계,65세이상 합계,인구수 남자,인구수 여자,인구수 합계,소멸비율,소멸위기지역,소멸위기고위험지역,ID
230,충청남도,서천군,2649,6063,17979,23003,23863,46866,0.147339,True,True,서천
231,충청남도,아산시,39083,82664,41637,160310,151601,311911,0.93866,False,False,아산
232,충청남도,예산군,5085,11338,23471,35719,35899,71618,0.21665,True,False,예산
233,충청남도,청양군,1700,3884,10499,14187,13884,28071,0.16192,True,True,청양
234,충청남도,태안군,3643,8700,18643,28826,28312,57138,0.195408,True,True,태안
235,충청남도,홍성군,8968,18820,23011,47148,48007,95155,0.389727,True,False,홍성
236,충청북도,괴산군,1978,4739,12384,17542,16807,34349,0.159722,True,True,괴산
237,충청북도,단양군,1447,3278,8530,13041,12731,25772,0.169637,True,True,단양
238,충청북도,보은군,1690,3802,10640,14642,14715,29357,0.158835,True,True,보은
239,충청북도,상당구,21546,44320,29165,90996,93616,184612,0.738762,False,False,청주 상당


In [16]:
pop.to_csv('data/인구소멸데이터전처리완료.csv', index=False)