### 결측값 NaN, Missing Value

데이터가 존재하지 않거나 데이터를 수집하지 못한 경우에 자주 발생한다.

In [2]:
import pandas as pd
import numpy as np
a = {'company':['a회사','b회사','c회사'], 'worker':[10,20,30], 'location':['Seoul', np.NaN, np.NaN]}
df = pd.DataFrame(a)

In [3]:
df

Unnamed: 0,company,worker,location
0,a회사,10,Seoul
1,b회사,20,
2,c회사,30,


#### 데이터 수집

1. 분석에 필요한 데이터의 종류, 형태, 발생주기, 수집기간 및 방법 등 데이터의 특성을 명확히 파악하고 정의하는 것
2. 샘플링 종류 : 무작위 / 층별화 / 계통 / 서브그룹
3. 불균형 데이터 샘플링은 Over Sampling(소수의 데이터 부풀림) 또는 Under Sampling(다수의 데이터 줄임)으로 해결할 수 있다.

In [5]:
df = pd.DataFrame({'a':[i for i in range(1, 5)], 'b':[6,7,np.nan,10]})
df

Unnamed: 0,a,b
0,1,6.0
1,2,7.0
2,3,
3,4,10.0


In [8]:
df.isnull() # 결측 유무 확인(df의 각 요소가 NaN인 경우 해당 위치에서 True, 그렇지 않은 경우 False 출력)

Unnamed: 0,a,b
0,False,False
1,False,False
2,False,True
3,False,False


In [10]:
df.isnull().sum() # 결측값 개수 확인

a    0
b    1
dtype: int64

In [15]:
df.count() # 참고) count는 각 열의 행수를 반환(결측값 제외)

a    4
b    3
dtype: int64

결측값이 포함된 행 지우기

In [17]:
df.dropna(inplace=True)
df

Unnamed: 0,a,b
0,1,6.0
1,2,7.0
3,4,10.0


결측값을 다른 값으로 대체

In [23]:
df = pd.DataFrame({'a':[i for i in range(1, 5)], 'b':[6,7,np.nan,10]})
df.fillna(0)

Unnamed: 0,a,b
0,1,6.0
1,2,7.0
2,3,0.0
3,4,10.0


결측값을 뒤쪽 데이터 값으로 채우기 

In [25]:
df = pd.DataFrame({'a':[1,1,3,4,np.nan], 'b':[2,3,np.nan,np.nan,4], 'c':[np.nan,4,1,1,4]})
df

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,,1.0
3,4.0,,1.0
4,,4.0,4.0


In [26]:
df.fillna(method='bfill') # backward fill

Unnamed: 0,a,b,c
0,1.0,2.0,4.0
1,1.0,3.0,4.0
2,3.0,4.0,1.0
3,4.0,4.0,1.0
4,,4.0,4.0


결측값을 앞쪽 데이터 값으로 채우기

In [27]:
df = pd.DataFrame({'a':[1,1,3,4,np.nan], 'b':[2,3,np.nan,np.nan,4], 'c':[np.nan,4,1,1,4]})
df

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,,1.0
3,4.0,,1.0
4,,4.0,4.0


In [29]:
df.fillna(method='ffill') # forward fill

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,3.0,1.0
3,4.0,3.0,1.0
4,4.0,4.0,4.0


In [30]:
# limit 설정 
df = pd.DataFrame({'a':[1,1,3,4,np.nan], 'b':[2,3,np.nan,np.nan,4], 'c':[np.nan,4,1,1,4]})
df.fillna(method='bfill', limit=1)

Unnamed: 0,a,b,c
0,1.0,2.0,4.0
1,1.0,3.0,4.0
2,3.0,,1.0
3,4.0,4.0,1.0
4,,4.0,4.0


In [32]:
# 결측값 평균값으로 대체하기
df = pd.DataFrame({'a':[1,1,3,4,np.nan], 'b':[2,3,np.nan,np.nan,4], 'c':[np.nan,4,1,1,4]})
df.fillna(df.mean(), inplace=True)
df

Unnamed: 0,a,b,c
0,1.0,2.0,2.5
1,1.0,3.0,4.0
2,3.0,3.0,1.0
3,4.0,3.0,1.0
4,2.25,4.0,4.0


문제 - b,c의 결측값들을 데이터프레임의 각 열의 평균으로 치환하시오.

In [35]:
df = pd.DataFrame({'a':[1,1,3,4,np.nan], 'b':[2,3,np.nan,np.nan,4], 'c':[np.nan,4,1,1,4]})
df

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,,1.0
3,4.0,,1.0
4,,4.0,4.0


In [38]:
df.fillna(df.mean()[['b','c']], inplace=True) # df의 'b'열과 'c'열에 대해 각각 평균을 계산하고, 이 값을 각 열의 결측값에 대체
df

Unnamed: 0,a,b,c
0,1.0,2.0,2.5
1,1.0,3.0,4.0
2,3.0,3.0,1.0
3,4.0,3.0,1.0
4,,4.0,4.0
