# 한국복지패널 데이터 분석

한국복지패널 데이터는 한국보건사회연구원에서 우리나라 가구의 경제활동을 연구해
복지 정책에 반영할 목적으로 발간하는 조사 자료.
전국에서 7,000여 가구를 선정해 2006년 부터 매년 추적한 조사 자료,
경제활동, 생활실태, 복지욕구 등 천여 개 변수로 구성되어 있음.
다양한 분야의 연구자와 정책 전문가들이 복지패널 데이터를 활용해 논문과 연구보고서를 발표하고 있음.
한국복지패널 데이터는 엄밀한 절차에 따라 수집되었고 다양한 변수를 담고 있으므로 데이터 분석 시술을 연습하는데 훌륭한 재료.
데이터에는 다양한 삶의 모습이 답겨져 있어서 대한민국 사람들이 어떻게 살고 있는지 살펴 볼 수 있음.

In [1]:
# 1. '한국복지패널 데이터' 분석 준비하기

# https://www.koweps.re.kr:442/data/data/list.do

# 1) 데이터 준비하기
# Koweps_hpwc14_2019_beta2.sav : 2020년에 발간된 복지패널 데이터로 6,331가구, 14,418명의 정보를 담고 있음.

# 2) 패키지 설치 및 로드하기
# 데이터 파일은 통계 분석 소프트웨어인 SPSS 전용파일.
# pyreadstat 패키지를 설치하면 pandas 패키지의 함수를 이용해 SPSS, SAS, STATA 등 다양한 통계 분석
# 소프트웨어의 데이터 파일을 불러올 수 있음.
# pip install pyreadstat

In [5]:
import pandas as pd
import numpy as np
import seaborn as sns
import pyreadstat

In [7]:
# 3) 데이터 불러오기
# 데이터 원본은 복구할 상황을 대비해 그대로 두고 복사본을 만들어 분석에 활용.

raw_welfare = pd.read_spss('./input/Koweps_hpwc14_2019_beta2.sav')

In [8]:
# 복사본 만들기
welfare = raw_welfare.copy()

In [10]:
# 4) 데이터 검토하기
# 데이터의 구조와 특징을 파악
welfare.head() # 앞부분, 뒷부분 출력

Unnamed: 0,h14_id,h14_ind,h14_sn,h14_merkey,h_new,h14_cobf,p14_wsc,p14_wsl,p14_wgc,p14_wgl,...,wc14_64,wc14_65,wc14_5aq4,wc14_5aq5,wc14_5aq6,h14_pers_income1,h14_pers_income2,h14_pers_income3,h14_pers_income4,h14_pers_income5
0,2.0,1.0,1.0,20101.0,0.0,,0.291589,0.291589,1307.764781,1307.764781,...,,,,,,,,,0.0,
1,3.0,1.0,1.0,30101.0,0.0,,0.419753,0.419753,1882.57096,1882.57096,...,,,,,,,,,0.0,
2,4.0,1.0,1.0,40101.0,0.0,,0.265263,0.26598,1189.691668,1192.908537,...,,,,,,,1284.0,,0.0,
3,6.0,1.0,1.0,60101.0,0.0,,0.494906,0.495941,2219.630833,2224.273816,...,1.0,.,2.0,4.0,4.0,2304.0,,1800.0,0.0,
4,6.0,1.0,1.0,60101.0,0.0,,1.017935,1.017935,4565.389177,4565.389177,...,1.0,.,1.0,5.0,2.0,,,,0.0,


In [11]:
welfare.shape  # 행, 열 개수 출력

(14418, 830)

In [12]:
welfare.info()  # 변수 속성 출력

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14418 entries, 0 to 14417
Columns: 830 entries, h14_id to h14_pers_income5
dtypes: float64(826), object(4)
memory usage: 91.3+ MB


In [13]:
welfare.describe()  # 요약 통계량

Unnamed: 0,h14_id,h14_ind,h14_sn,h14_merkey,h_new,h14_cobf,p14_wsc,p14_wsl,p14_wgc,p14_wgl,...,wc14_63,wc14_64,wc14_5aq4,wc14_5aq5,wc14_5aq6,h14_pers_income1,h14_pers_income2,h14_pers_income3,h14_pers_income4,h14_pers_income5
count,14418.0,14418.0,14418.0,14418.0,14418.0,121.0,11513.0,11513.0,11513.0,11513.0,...,2027.0,2027.0,2027.0,2027.0,2027.0,2659.0,3331.0,989.0,14418.0,715.0
mean,4672.108406,3.121723,1.004855,46721400.0,0.201484,2.256198,1.0,1.0,4484.952219,4484.952541,...,3.211643,3.743957,3.513567,4.100641,3.23335,4141.380594,1389.440408,3457.835187,2.038702,1183.292308
std,2792.998128,3.297963,0.143205,27930140.0,0.401123,1.675952,0.906021,1.016782,4063.459773,4560.218659,...,2.174768,3.138629,1.045929,0.937712,1.289456,2583.755449,1211.910836,6619.516319,32.965477,2147.418274
min,2.0,1.0,1.0,20101.0,0.0,1.0,0.001998,0.0,8.960093,0.0,...,1.0,1.0,1.0,1.0,1.0,0.0,0.0,-47000.0,0.0,-10600.0
25%,2356.0,1.0,1.0,23560300.0,0.0,1.0,0.341814,0.269286,1533.021553,1207.736094,...,1.0,2.0,3.0,4.0,2.0,2448.0,391.5,1000.0,0.0,206.0
50%,4535.0,1.0,1.0,45350100.0,0.0,2.0,0.726304,0.704045,3257.436901,3157.60963,...,3.0,3.0,4.0,4.0,3.0,3540.0,1116.0,2498.0,0.0,530.0
75%,6616.0,7.0,1.0,66160100.0,0.0,2.0,1.366071,1.390045,6126.762919,6234.287538,...,5.0,5.0,4.0,5.0,4.0,5378.5,2040.0,4687.0,0.0,1295.0
max,9800.0,14.0,9.0,98000700.0,1.0,7.0,4.727006,5.790039,21200.393903,25968.049029,...,9.0,99.0,9.0,9.0,9.0,22700.0,11500.0,170000.0,3000.0,22644.0


In [14]:
# 복지패널 데이터와 같은 대규모 데이터는 변수의 수가 많고 변수명이 코드로 되어 있어
# 전체 구조를 한 눈에 파악하기 어려움
# 규모가큰 데이터는 데이터 전체를 한 번에 파악하기보다 변수명을 쉬운 단어로 바꾼 다음
# 분석에 사용할 변수를 하나씩 살펴봐야 함.

In [15]:
# 5) 변수명 바꾸기
# 규모가 큰 조사 자료는 데이터의 특징을 설명해 놓은 코드북 codebook을 함께 제공.
# 코드북에는 코드로 된 변수명과 값의 의미가 설명되어 있음.
# 코드북을 보면 데이터의 특징이 어떠한지 감을 잡을 수 있고, 분석에 어떤 변수를 활용할지, 분석 방향의 아이디어를 얻을 수 있음.
# 코드북의 파일명은 Koweps_Codebook_2019.sav

In [16]:
# 코드북을 참고해 분석에 사용할 변수 7개의 이름을 알기 쉬운 단어로 바꿈.
welfare = welfare.rename(columns={'h14_g3': 'sex',  # 성별
                                  'h14_g4': 'birth',  # 태어난 연도
                                  'h14_g10': 'marriage_type',  # 혼인 상태
                                  'h14_g11': 'religion',  # 종교
                                  'p1402_8aq1': 'income',  # 월급
                                  'h14_eco9': 'code_job',  # 직업 코드
                                  'h14_reg7': 'code_region'})  # 지역 코드

In [17]:
welfare.columns

Index(['h14_id', 'h14_ind', 'h14_sn', 'h14_merkey', 'h_new', 'h14_cobf',
       'p14_wsc', 'p14_wsl', 'p14_wgc', 'p14_wgl',
       ...
       'wc14_64', 'wc14_65', 'wc14_5aq4', 'wc14_5aq5', 'wc14_5aq6',
       'h14_pers_income1', 'h14_pers_income2', 'h14_pers_income3',
       'h14_pers_income4', 'h14_pers_income5'],
      dtype='object', length=830)

In [18]:
welfare.to_csv('./data/koweps_hpwc14_2019_beta2_step_01.csv', mode='w', index=False)