# 결측치 처리하기

* 결측치란? 어떤 이유로 값이 없는 데이터를 말한다.
* 결측치 처리 방법
    * 데이터가 NaN일 때 그대로 삭제한다. (complete drop)
    * 데이터가 거의 없는 feature는 feature 자체를 삭제한다.
    * 최빈값, 평균값 등 특정값으로 NaN을 대체 한다.(imputation)


## 결측치 다루기
테이블 형태 데이터에서 누락된 값 식별하기

In [None]:
import pandas as pd
from io import StringIO

csv_data = \
'''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''

df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [None]:
df.isnull().sum()# 결측치의 갯수

Unnamed: 0,0
A,0
B,0
C,1
D,1


In [None]:
# `values` 속성으로 넘파이 배열을 얻을 수 있습니다.
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

### 누락된 값이 있는 샘플이나 특성을 제외하기

In [None]:
# 누락된 값이 있는 행을 삭제합니다.
df.dropna(axis=0) #기본

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [None]:
# 누락된 값이 있는 열을 삭제합니다.
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [None]:
# 특정 열에 NaN이 있는 행만 삭제합니다(여기서는 ‘C’열).
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


### 누락된 값을 대체하기

In [None]:
# fill_na()로 결측치 대체하기
df.fillna(-99)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,-99.0,8.0
2,10.0,11.0,12.0,-99.0


In [None]:
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


#### fillna, dropna는 원본 데이터프레임을 변경하지 않는다.
대신에 새로운 데이터프레임 형태로 리턴을 한다.   
원본을 그대로 변경하고 싶다면?  

`df.fillna(0, inplace=True)`   
또는  

`df = df.fillna(0)`

In [None]:
df_new = df.fillna(0) # 원본을 변경한다.

In [None]:
df_new

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,0.0,8.0
2,10.0,11.0,12.0,0.0


### 사이킷런 imputer 사용하여 결측값 대체하기

**Version 차이**
* sklearn 0.23 이상에서는 SimpleImputer를 사용한다.
* 그 이하 버전에서는 SimpleImputer를 사용하는 대신에 Imputer를 사용해야 한다.
* 옵션 등에 차이가 있다.

In [None]:
#  sklearn 0.23 이상에서는 이 코드를 사용하여 결측치를 대체한다.
import numpy as np
from sklearn.impute import SimpleImputer

simr = SimpleImputer(missing_values=np.nan, strategy='constant', fill_value=0)
simr = simr.fit(df.values)
imputed_data = simr.transform(df.values)
imputed_data

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  0.,  8.],
       [10., 11., 12.,  0.]])

## 실습하기

1. 타이타닉 데이터 셋을 읽어 들인다.
```
import pandas as pd
titanic = pd.read_csv('https://raw.githubusercontent.com/aonekoda/reference/main/data/titanic.csv')
titanic.head()
```
2. 'Age' 컬럼의 결측치가 총 몇 건인가?

3. 'Age'컬럼의 결측치를 평균(mean)으로 대체하시오.