### DataFrame - 누락데이터 처리하기

데이터 분석시 제공된 데이터를 살펴보면<br>
값이 입력되지 않는 경우가 종종 있다.<br>
이런 경우를 Missing Value가 있다고 표현한다.<br>


####     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;   &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;   <<<Missing Values를 처리하는 대표적인 전략들 >>>
- 데이터가 거의 없는 Feature는 Feature자체를 Drop 시킨다.
- 데이터가 없으면 바로 Drop
- Missing Value의 최소갯수를 정해서 어느이상 갯수를 넘어서면 Drop
- 최빈값, 평균값, 0등의 값으로 비어있는 데이터 채우기.
<br>
<br>
판다스는 누락 데이터를 모두 NaN으로 처리.<br>
또한 판다스 객체의 모든 통계함수는 누락데이터를 무시하고 연산을 진행한다.<br>

####     &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;   &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;   <<<누락데이터를 처리하는 함수들 >>>

- dropna() 
 - NaN이 하나라도 있는 로우는 모두 삭제
 - dropna(how='any') 와 같다.
 <br><br>
- dropna(how='all') 
 - 모든 값이 NaN인 경우만 삭제
 <br><br>
- dropna(thresh=2)
 - 역치값을 2로 둔다. 이 때 역치는 '널이 몇개인가'가 아니라 '구할 수 있는 데이터가 몇개 인가' 에 있다. 즉 이 예제에서 2개 이상의 널이 아닌 값이 있다면 그 행은 지워지지 않는다. 
 
- fillna()
 - 0으로만 채울 것이 아니라, 최빈값, 평균값으로도 채울 수 있어야 할 것.
- isnull()
- notnull()



In [1]:
import pandas as pd
import numpy as np
from pandas import DataFrame
from numpy import nan as NA

#### 누락데이터 지우기

In [2]:
df = DataFrame([[1,6.5,3],
                [1,NA,NA],
                [NA,NA,NA],
                [NA,6.7,2]])
df

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.7,2.0


In [34]:
#null 제거
df.dropna(axis=1,thresh=1)

#null 변환
df.fillna(method='pad') #= ffill
df.fillna(0,limit=1) #makes a limit

df.fillna(df.mean())



Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,6.6,2.5
2,1.0,6.6,2.5
3,1.0,6.7,2.0


In [7]:
#.dropna()  -> default - how = 'any'   - delete any rows that have NaN
df.dropna() # unless you put inplace keyword, it retains original values.

removeNa = df.dropna()
removeNa

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [8]:
#.dropna(how='all') - if all the values in a row are Nan, this method drops them.
df.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.7,2.0


In [11]:
df.dropna(thresh=1) #널이 아닌 게 1개 이상이면 남긴다. 
df.dropna(thresh=2) #널이 아닌 값이 2개 이상이면 남긴다. -> 즉 중심점이 내가 접근할 수 있는 데이터에 맞춰져 있는 것.


Unnamed: 0,0,1,2
0,1.0,6.5,3.0
3,,6.7,2.0


#### 누락데이터 채우기 

In [13]:
#누락데이터를 평균값으로 채운다. 
df.fillna(df.mean()) 

#이때 평균은 널값을 제외하고 구해지므로, 만약 Null인 데이터가 널이 아닌 밸류 수보다 많다면 
#고려해봐야 할 것이다.
#NOTE! 평균값은 각 컬럼의 평균으로 맞춰지는 것이다. 

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,6.6,2.5
2,1.0,6.6,2.5
3,1.0,6.7,2.0


In [17]:

df.fillna(method='ffill') #forward filling. 이전 인덱스에 있는값을 채운다.

df.fillna(method='bfill') #back filling. 이후 데이터에 있는 값을 채운다.

df.fillna


Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,6.7,2.0
2,,6.7,2.0
3,,6.7,2.0
