# DataFrame 누락 데이터 처리하기
데이터 분석시 제공된 데이터를 살펴보면, 값이 입력되어 있지 않은 경우가 종종있다.\
이런 경우 Missing Value(결측값)가 있다고 표현한다.

<br>

**[ 결측값을 처리하는 대표적인 전략 ]**
- 데이터가 거의 없는 Feature는 Feature 자체를 Drop 시킨다.
- 데이터가 없으면 바로 Drop
- Missing Value의 최소 갯수를 정해서 어느 이상 갯수를 넘어서면 Drop
- 최빈값, 평균값, 0 등의 값으로 비어있는 데이터를 채우기

Pandas는 누락된 데이터를 모두 NaN으로 처리한다.\
또한 Pandas 객체의 모든 통계함수는 누락데이터를 무시하고 연산을 진행한다.

**[ 누락데이터를 처리하는 함수들 ]**
- dropna()
    - NaN이 하나라도 있으면 해당 row를 모두 삭제
- dropna(how='all')
    - 모든 값이 NaN인 경우만 삭제
- dropna(how='any') == dropna() => default='any'
    - NaN이 하나라도 있으면 해당 row를 모두 삭제
- fillna()
- isnull()
- notnull()

In [2]:
import numpy as np
import pandas as pd
from pandas import DataFrame

In [5]:
from numpy import nan as NA

In [7]:
df = DataFrame([[1, 6.5, 3],
                           [1, NA, NA],
                           [NA, NA, NA],
                           [NA, 6.7, 2]], columns=['a', 'b', 'c'])
df

Unnamed: 0,a,b,c
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.7,2.0


## 누락데이터 삭제

In [11]:
# 하나라도 누락데이터가 있으면 삭제
removeNa = df.dropna() # inplace=False
removeNa

Unnamed: 0,a,b,c
0,1.0,6.5,3.0


In [10]:
# 모든값이 NaN이여야 삭제
df.dropna(how='all')

Unnamed: 0,a,b,c
0,1.0,6.5,3.0
1,1.0,,
3,,6.7,2.0


In [12]:
# thresh=N_int
# NaN이 아닌 값이 N_int개 이상인 것 외에는 드랍한다.
df.dropna(thresh=2)

# thresh : int, optional
# Require that many non-NA values.

Unnamed: 0,a,b,c
0,1.0,6.5,3.0
3,,6.7,2.0


## 누락데이터 채우기

In [14]:
# 결측치를 0으로 채우기
df.fillna(0)

Unnamed: 0,a,b,c
0,1.0,6.5,3.0
1,1.0,0.0,0.0
2,0.0,0.0,0.0
3,0.0,6.7,2.0


In [15]:
# 결측치를 평균값으로 채우기
df.fillna(df.mean())

Unnamed: 0,a,b,c
0,1.0,6.5,3.0
1,1.0,6.6,2.5
2,1.0,6.6,2.5
3,1.0,6.7,2.0


In [19]:
# ffill : forward fill, 열방향으로 누락값 전에 걸 채운다. = df.fillna(method='pad')
df.fillna(method='ffill')

Unnamed: 0,a,b,c
0,1.0,6.5,3.0
1,1.0,6.5,3.0
2,1.0,6.5,3.0
3,1.0,6.7,2.0


In [23]:
# 누락값을 채우더라도 limit을 주면 그 limit갯수만큼만 채운다.
# limit=1이란건 NaN이 연속으로 와도 1개만 전에걸로 채우겠다는 소리.
# 정보 : 시계열분석할 때 잘 쓰이는 방법이라고 한다.
df.fillna(method='pad', limit=1)

Unnamed: 0,a,b,c
0,1.0,6.5,3.0
1,1.0,6.5,3.0
2,1.0,,
3,,6.7,2.0


In [20]:
# bfill : backward fill, 열방향으로 누락값 밑에 걸 채운다.
df.fillna(method='bfill')

Unnamed: 0,a,b,c
0,1.0,6.5,3.0
1,1.0,6.7,2.0
2,,6.7,2.0
3,,6.7,2.0


In [21]:
df

Unnamed: 0,a,b,c
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.7,2.0
