# Handling Missing Data
## filna, dropna로 결측치 다루기
- 현실세계에는 이러한 결측치(null, np.nan)가 많은데 이러한 결측치를 어떻게 다루느냐에 따라서 분석결과가 많이 달라질 수 있다. 
- 이러한 결측치는 dropna를 통해 없애기도 하고 fillna를 통해 특정값으로 채워서 쓰기도 한다.
- 어떤 데이터냐에 따라 그 데이터를 사용할건지 안할건지, 사용할거라면 어떤 값으로 채울건지에 대한 의사결정이 중요하다.

In [5]:
import pandas as pd
import numpy as np

### df.dropna()
- df의 결측치를 없애준다

In [19]:
df.dropna?

In [7]:
df = pd.DataFrame([[np.nan, 2, np.nan, 0], [3, 4, np.nan, 1], 
                  [np.nan, np.nan, np.nan, 5]],
                 columns = list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0
1,3.0,4.0,,1
2,,,,5


In [11]:
df.dropna(axis = 1, how = 'all')
# axis가 0일땐 row(행), 1일땐 column(열)을 의미함.
# how는 전부다 null값일때 drop시킨다는 의미.'any'라하면 하나라도 null값이 있을 때 drop시킨다는 의미, all로 하면 drop시키는 것이 없이 모두 반영


Unnamed: 0,A,B,D
0,,2.0,0
1,3.0,4.0,1
2,,,5


In [13]:
df.dropna(axis = 0, how = 'any')

Unnamed: 0,A,B,C,D


### df.fillna(value)
- 

In [22]:
df.fillna?

In [21]:
# 결측치를 모두 0으로 채워줌
df.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0
1,3.0,4.0,0.0,1
2,0.0,0.0,0.0,5


In [23]:
values = {'A': 0, 'B': 1, 'C': 2, 'D': 3}
values

{'A': 0, 'B': 1, 'C': 2, 'D': 3}

In [24]:
# A컬럼의 결측치는 0, B컬럼의 결측치는 1, C컬럼의 결측치는 2, D컬럼의 결측치는 3으로 채우게 된다.
df.fillna(value = values)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0
1,3.0,4.0,2.0,1
2,0.0,1.0,2.0,5


In [25]:
# 결측치에 D column의 평균치를 채워줘보자
df.fillna(df['D'].mean())

Unnamed: 0,A,B,C,D
0,2.0,2.0,2.0,0
1,3.0,4.0,2.0,1
2,2.0,2.0,2.0,5


- 같은 방법으로 이렇게도 가능하다

In [26]:
fill_na_value = df['D'].mean()
fill_na_value

2.0

In [27]:
df.fillna(fill_na_value)

Unnamed: 0,A,B,C,D
0,2.0,2.0,2.0,0
1,3.0,4.0,2.0,1
2,2.0,2.0,2.0,5


In [30]:
# pd.isnull을 통해 null인 데이터가 True, False로 나온다. 
df.isnull()

Unnamed: 0,A,B,C,D
0,True,False,True,False
1,False,False,True,False
2,True,True,True,False


In [31]:
# 결측치의 개수
df.isnull().sum()

A    2
B    1
C    3
D    0
dtype: int64

In [32]:
# 결측치가 아닌 것의 개수
df.notnull().sum()

A    1
B    2
C    0
D    3
dtype: int64