# EDA (Exploratory Data Analysis)
- 탐색적 데이터 분석
- 수집한 데이터를 다양한 각도로 관찰하고 이해하는 과정

## 복지데이터
- SPSS 파일 파이썬 로드를 위한 패키지 설치
  - pyreadstat
  - `!pip install pyreadstat`

In [3]:
!pip install pyreadstat



In [2]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np
import seaborn as sns

In [61]:
# SPSS 파일을 pandas로 불러와 raw_welfare에 할당한다.
raw_welfare = pd.read_spss(r'C:\Users\601\Desktop\김경섭\데이터베이스\EDA-Practice\Koweps_hpwc14_2019_beta2.sav')

In [62]:
# raw_welfare 복사본을 welfare에 할당한다.
welfare = raw_welfare.copy()
welfare

Unnamed: 0,h14_id,h14_ind,h14_sn,h14_merkey,h_new,h14_cobf,p14_wsc,p14_wsl,p14_wgc,p14_wgl,...,wc14_64,wc14_65,wc14_5aq4,wc14_5aq5,wc14_5aq6,h14_pers_income1,h14_pers_income2,h14_pers_income3,h14_pers_income4,h14_pers_income5
0,2.0,1.0,1.0,20101.0,0.0,,0.291589,0.291589,1307.764781,1307.764781,...,,,,,,,,,0.0,
1,3.0,1.0,1.0,30101.0,0.0,,0.419753,0.419753,1882.570960,1882.570960,...,,,,,,,,,0.0,
2,4.0,1.0,1.0,40101.0,0.0,,0.265263,0.265980,1189.691668,1192.908537,...,,,,,,,1284.0,,0.0,
3,6.0,1.0,1.0,60101.0,0.0,,0.494906,0.495941,2219.630833,2224.273816,...,1.0,.,2.0,4.0,4.0,2304.0,,1800.0,0.0,
4,6.0,1.0,1.0,60101.0,0.0,,1.017935,1.017935,4565.389177,4565.389177,...,1.0,.,1.0,5.0,2.0,,,,0.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14413,9800.0,7.0,1.0,98000701.0,1.0,,,,,,...,,,,,,,,,0.0,
14414,9800.0,7.0,1.0,98000701.0,1.0,,,,,,...,,,,,,,,,0.0,
14415,9800.0,7.0,1.0,98000701.0,1.0,,,,,,...,,,,,,,208.0,,0.0,
14416,9800.0,7.0,1.0,98000701.0,1.0,,,,,,...,5.0,.,4.0,3.0,3.0,,1200.0,,0.0,


In [63]:
# welfare은 총 14418행, 830열을 갖는 큰 데이터이다.
welfare.shape

(14418, 830)

- 컬럼이 너무많아 다루고 싶은 컬럼 몇개만 빼내어 쓰자
    - 성별, 태어난 연도, 혼인 상태, 종교, 월급, 직업코드, 지역코드 만 빼낸다.

In [64]:
# 각 컬럼명이 기호화 되있어서 빼낼 때 임의의 컬럼명으로 다시 쓰고 싶다.
cols = {'h14_g3':'sex', 'h14_g4':'birth', 'h14_g10':'marrige_type', 'h14_g11':'religion', 'p1402_8aq1':'income',
        'h14_eco9':'code_job','h14_reg7':'code_region'}
# 해당 기호들이 의미하는 바는 첨부된 코드북 파일에서 확인할 수 있다.

In [65]:
# rename 메서드의 columns 속성으로 cols 의 형식으로 불러온다.
# inplace=True 로 실제 데이터에 변화를 준다.
welfare.rename(columns=cols,inplace=True)

In [66]:
# 그 후 rename으로 변경된 컬럼만 df 변수에 할당한다.
df = welfare[list(cols.values())]
df.shape

(14418, 7)

In [67]:
# 출력해보자
df.to_csv('basic.csv')
df

Unnamed: 0,sex,birth,marrige_type,religion,income,code_job,code_region
0,2.0,1945.0,2.0,1.0,,,1.0
1,1.0,1948.0,2.0,2.0,,,1.0
2,1.0,1942.0,3.0,1.0,107.0,762.0,1.0
3,1.0,1962.0,1.0,1.0,192.0,855.0,1.0
4,2.0,1963.0,1.0,1.0,,,1.0
...,...,...,...,...,...,...,...
14413,2.0,1967.0,1.0,1.0,,,5.0
14414,2.0,1992.0,5.0,1.0,,,5.0
14415,1.0,1995.0,5.0,1.0,,910.0,5.0
14416,2.0,1998.0,5.0,1.0,200.0,246.0,5.0


In [71]:
# 가끔 csv 파일을 불러올때 Unnamed:0 과같은 컬럼이 따라붙는 경우가 있다.
# 침착하게 drop으로 해당 컬럼을 제거해주자.
df = pd.read_csv('basic.csv')
df = df.drop(['Unnamed: 0'],axis=1)
df

Unnamed: 0,sex,birth,marrige_type,religion,income,code_job,code_region
0,2.0,1945.0,2.0,1.0,,,1.0
1,1.0,1948.0,2.0,2.0,,,1.0
2,1.0,1942.0,3.0,1.0,107.0,762.0,1.0
3,1.0,1962.0,1.0,1.0,192.0,855.0,1.0
4,2.0,1963.0,1.0,1.0,,,1.0
...,...,...,...,...,...,...,...
14413,2.0,1967.0,1.0,1.0,,,5.0
14414,2.0,1992.0,5.0,1.0,,,5.0
14415,1.0,1995.0,5.0,1.0,,910.0,5.0
14416,2.0,1998.0,5.0,1.0,200.0,246.0,5.0


## welfare 데이터를 가공하여 만든 'basic.csv' 데이터프레임으로 앞으로의 작업을 시행한다