**결측값 처리**

In [71]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'a':[1, 1, 3, 4, 5], 'b':[2, 3, np.nan, 3, 4], 'c':[3, 4, 7, 6, 4]})

In [72]:
df

Unnamed: 0,a,b,c
0,1,2.0,3
1,1,3.0,4
2,3,,7
3,4,3.0,6
4,5,4.0,4


- 결측 유무 확인

In [73]:
# 해당 열에 결측 값이 있는지 확인 가능
df.isnull()

Unnamed: 0,a,b,c
0,False,False,False
1,False,False,False
2,False,True,False
3,False,False,False
4,False,False,False


- 결측값 개수 확인

In [74]:
# 해당 열에 결측값이 몇개 있는지?
# True = 1, False = 0 의 합을 구해줌
df.isnull().sum()

a    0
b    1
c    0
dtype: int64

- 결측값이 포함된 열/행 지우기

In [75]:
# 결측값이 포함된 행 지우기
df.dropna()

Unnamed: 0,a,b,c
0,1,2.0,3
1,1,3.0,4
3,4,3.0,6
4,5,4.0,4


In [76]:
df

Unnamed: 0,a,b,c
0,1,2.0,3
1,1,3.0,4
2,3,,7
3,4,3.0,6
4,5,4.0,4


In [77]:
df.dropna(inplace = True)

In [78]:
df

Unnamed: 0,a,b,c
0,1,2.0,3
1,1,3.0,4
3,4,3.0,6
4,5,4.0,4


In [79]:
# 결측값이 포함된 열 지우기

In [80]:
df = pd.DataFrame({'a':[1, 1, 3, 4, 5], 'b':[2, 3, np.nan, 3, 4], 'c':[3, 4, 7, 6, 4]})

In [81]:
df.dropna(axis=1)

Unnamed: 0,a,c
0,1,3
1,1,4
2,3,7
3,4,6
4,5,4


In [82]:
df

Unnamed: 0,a,b,c
0,1,2.0,3
1,1,3.0,4
2,3,,7
3,4,3.0,6
4,5,4.0,4


In [83]:
df.dropna(axis=1, inplace = True)

In [84]:
df

Unnamed: 0,a,c
0,1,3
1,1,4
2,3,7
3,4,6
4,5,4


- 결측값을 다른 값으로 대체하기

In [85]:
df = pd.DataFrame({'a':[1,1,3,4,5], 'b':[2,3,np.nan,3,4], 'c':[3,4,7,6,4]})

In [86]:
df

Unnamed: 0,a,b,c
0,1,2.0,3
1,1,3.0,4
2,3,,7
3,4,3.0,6
4,5,4.0,4


- 특정값으로 대체하기

In [87]:
# 결측값을 어떤값으로 바꿀껀지 ()안에 넣으면 됨
df.fillna(0, inplace = True)

In [88]:
df

Unnamed: 0,a,b,c
0,1,2.0,3
1,1,3.0,4
2,3,0.0,7
3,4,3.0,6
4,5,4.0,4


- 앞이나 뒤의 숫자로 바꿔주기

In [89]:
df = pd.DataFrame({'a':[1,1,3,4,np.nan], 'b':[2,3,np.nan,np.nan,4], 'c':[np.nan,4,1,1,4]})

In [90]:
df

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,,1.0
3,4.0,,1.0
4,,4.0,4.0


1) 뒤의 값으로 채우기

In [91]:
df.fillna(method='bfill')

Unnamed: 0,a,b,c
0,1.0,2.0,4.0
1,1.0,3.0,4.0
2,3.0,4.0,1.0
3,4.0,4.0,1.0
4,,4.0,4.0


In [92]:
df

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,,1.0
3,4.0,,1.0
4,,4.0,4.0


2) 앞의 값으로 채우기

In [93]:
# c열 맨앞값이 결측치여서 대체해서 가져올 값이 없음
df.fillna(method='ffill')

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,3.0,1.0
3,4.0,3.0,1.0
4,4.0,4.0,4.0


- limit 설정

In [94]:
df

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,,1.0
3,4.0,,1.0
4,,4.0,4.0


In [95]:
# limit = 1 앞에있는 값을 1번만 가져오겠다
df.fillna(method='ffill', limit=1)

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,3.0,1.0
3,4.0,,1.0
4,4.0,4.0,4.0


- 문제: 데이터 프레임에 존재하는 결측값들을 뒤의 값으로 대체한 이후 앞의 값으로 대체하시오.

In [96]:
df = pd.DataFrame({'a':[1,1,3,4,np.nan], 'b':[2,3,np.nan,np.nan,4], 'c':[np.nan,4,1,1,4]})

In [97]:
df

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,,1.0
3,4.0,,1.0
4,,4.0,4.0


In [98]:
df.fillna(method = 'bfill', inplace = True)

In [99]:
df

Unnamed: 0,a,b,c
0,1.0,2.0,4.0
1,1.0,3.0,4.0
2,3.0,4.0,1.0
3,4.0,4.0,1.0
4,,4.0,4.0


In [100]:
df.fillna(method = 'ffill', inplace = True)

In [101]:
df

Unnamed: 0,a,b,c
0,1.0,2.0,4.0
1,1.0,3.0,4.0
2,3.0,4.0,1.0
3,4.0,4.0,1.0
4,4.0,4.0,4.0


- 평균으로 대체

In [102]:
df = pd.DataFrame({'a':[1,1,3,4,np.nan], 'b':[2,3,np.nan,np.nan,4], 'c':[np.nan,4,1,1,4]})

In [103]:
df

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,,1.0
3,4.0,,1.0
4,,4.0,4.0


In [104]:
# 특정열 평균값 구하기
df.mean()['a']

2.25

In [105]:
df.fillna(df.mean()['a'], inplace = True)

In [106]:
df

Unnamed: 0,a,b,c
0,1.0,2.0,2.25
1,1.0,3.0,4.0
2,3.0,2.25,1.0
3,4.0,2.25,1.0
4,2.25,4.0,4.0


In [107]:
# 전체 평균 구하기
df.mean()

a    2.25
b    2.70
c    2.45
dtype: float64

In [108]:
# 각 열의 평균을 결측값에 대입해줌!!
df.fillna(df.mean())

Unnamed: 0,a,b,c
0,1.0,2.0,2.25
1,1.0,3.0,4.0
2,3.0,2.25,1.0
3,4.0,2.25,1.0
4,2.25,4.0,4.0


In [109]:
df

Unnamed: 0,a,b,c
0,1.0,2.0,2.25
1,1.0,3.0,4.0
2,3.0,2.25,1.0
3,4.0,2.25,1.0
4,2.25,4.0,4.0


- 문제: b와 c의 결측값을 데이터 프레임의 전체 값의 평균값으로 치환하시오.

In [110]:
df.fillna(df.mean()[['a','b']])

Unnamed: 0,a,b,c
0,1.0,2.0,2.25
1,1.0,3.0,4.0
2,3.0,2.25,1.0
3,4.0,2.25,1.0
4,2.25,4.0,4.0
