# 주제 설명

이 프로젝트는 국내 시구신고 평균소득월액과 기대수명지표를 바탕으로 지역별 평균 소득과 기대수명 간의 상관관계를 분석하는 것이 목표입니다. 이를 바탕으로 지도를 사용한 시각화를 통해 지역 간 격차를 직관적으로 파악할 수 있게 하며, 지역별 정
책적 개입 필요성 및 방향성을 도출하는 것을 목적으로 합니다.


# 데이터 수집 방법

공공데이터포털에서 국민연금공단*자격 시구신고 평균소득월액과 국민건강보험공단*지역별 기대수명지표를 csv형식으로 받아서 사용했습니다.

평균소득월액(https://www.data.go.kr/data/3046077/fileData.do)

기대수명지표(https://www.data.go.kr/data/15039778/fileData.do)


# 데이터 설명


In [20]:
import pandas as pd

In [21]:
average_income = pd.read_csv('data/average_income.csv', encoding='cp949')
average_income.head()

Unnamed: 0,기준년월,시군구,평균소득월액
0,2020-12,서울특별시종로구,1478370
1,2020-12,서울특별시중구,1477152
2,2020-12,서울특별시용산구,1561618
3,2020-12,서울특별시성동구,1501888
4,2020-12,서울특별시광진구,1392985


average_income.csv는 평균소득월액 관련 데이터입니다. 기준년월, 시군구, 평균소득월액으로 나뉘어져 있습니다.

기준년월은 해당 평균소득월액을 조사한 연도 및 월을 의미합니다. 시군구는 해당 평균소득월액을 조사한 지역을 의미합니다. 평균소득월액은 조사 기간 동안 조사 지역에서 1인이 평균적으로 얻은 소득을 의미합니다.


In [22]:
life_expectancy = pd.read_csv('data/life_expectancy.csv', encoding='cp949')
life_expectancy.head()

Unnamed: 0,지표연도,적용기간,성별,시도,시군구,평균 기대수명,보험료1분위,보험료2분위,보험료3분위,보험료4분위,보험료5분위,기대수명격차
0,2021,1년,남성,전국,전체,81.55,75.85,82.0,82.71,83.63,84.71,8.86
1,2021,1년,여성,전국,전체,87.66,83.88,87.44,88.29,89.13,90.6,6.73
2,2021,1년,전체,전국,전체,84.77,79.77,84.86,85.7,86.68,87.93,8.16
3,2021,4년,남성,서울특별시,전체,82.71,77.88,82.81,83.26,84.74,85.78,7.91
4,2021,4년,여성,서울특별시,전체,88.53,85.7,88.07,88.61,89.55,91.68,5.98


life_expectancy.csv는 기대수명지표 관련 데이터입니다. 지표연도, 적용기간, 성별, 시도, 시군구, 평균 기대수명, 보험료1분위, 보험료2분위, 보험료3분위, 보험료4분위, 보험료5분위, 보험료6분위로 나뉘어져 있습니다.

지표연도는 해당 데이터를 조사한 연도입니다. 적용기간은 전국 단위, 시도 단위, 시군구 단위에 따라 다르게 활용된 기간입니다. 성별은 해당 데이터 조사 대상의 성별을 의미합니다. 시도는 해당 조사에 대상이 되는 지역을 시도 단위로 나타낸 것입니다. 시군구는 해당 조사에 대상이 되는 지역을 시군구 단위로 나타낸 것입니다. 평균 기대수명은 단위 기간 동안 어떤 지역에서 특정 성별이 평균적으로 몇세에 사망하였는지 나타냅니다. 보험료 N분위는 소득에 따라 달라지는 보험료 납부자에 대한 평균 수명을 나타낸 것으로 N이 커질수록 고소득 및 고액 납부자에 해당합니다.


우선 기준연도를 정해 기준년월의 연도와 지표연도의 연도를 맞추어 줘야 합니다, 이후, 시군구를 같은 형태로 맞추어 주어야 비교가 가능하기에 해당 작업을 실행해 주어야 합니다.


In [23]:
average_income

Unnamed: 0,기준년월,시군구,평균소득월액
0,2020-12,서울특별시종로구,1478370
1,2020-12,서울특별시중구,1477152
2,2020-12,서울특별시용산구,1561618
3,2020-12,서울특별시성동구,1501888
4,2020-12,서울특별시광진구,1392985
...,...,...,...
1145,2024-12,경상남도함양군,1361140
1146,2024-12,경상남도거창군,1379363
1147,2024-12,경상남도합천군,1366202
1148,2024-12,제주특별자치도제주시,1407793


In [24]:
average_income = average_income[average_income['기준년월'] == '2021-12']

In [25]:
average_income

Unnamed: 0,기준년월,시군구,평균소득월액
230,2021-12,서울특별시종로구,1495060
231,2021-12,서울특별시중구,1510626
232,2021-12,서울특별시용산구,1566339
233,2021-12,서울특별시성동구,1523531
234,2021-12,서울특별시광진구,1408562
...,...,...,...
455,2021-12,경상남도함양군,1265493
456,2021-12,경상남도거창군,1301606
457,2021-12,경상남도합천군,1287646
458,2021-12,제주특별자치도제주시,1368049


기대수명 지표가 2021년 기준이기 때문에 평균소득 수준 지표도 2021년으로 맞춰주었습니다. 이제 결측치를 확인해보도록 하겠습니다.


# 결측치 확인


In [26]:
print(average_income.isnull().sum())

기준년월      0
시군구       0
평균소득월액    0
dtype: int64


In [27]:
print(life_expectancy.isnull().sum())

지표연도       0
적용기간       0
성별         0
시도         0
시군구        0
평균 기대수명    0
보험료1분위     0
보험료2분위     0
보험료3분위     0
보험료4분위     0
보험료5분위     0
기대수명격차     0
dtype: int64


평균소득 수준 지표와 기대수명 지표 모두 결측치가 없는 것을 확인할 수 있습니다.
