# 결측값 처리

In [1]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'a': [1, 1, 3, 4, 5], 'b': [2, 3, np.nan, 3, 4], 'c': [3, 4, 7, 6, 5]})

In [2]:
df

Unnamed: 0,a,b,c
0,1,2.0,3
1,1,3.0,4
2,3,,7
3,4,3.0,6
4,5,4.0,5


결측 유무 확인

In [3]:
df.isnull()

Unnamed: 0,a,b,c
0,False,False,False
1,False,False,False
2,False,True,False
3,False,False,False
4,False,False,False


결측값 개수 확인

In [9]:
df.isnull().sum()     # true는 1, false는 0으로 처리되므로 true(isnull() == True)의 개수가 나옴

a    0
b    1
c    0
dtype: int64

In [7]:
df.isnull().count()   # 해당 열의 모든 데이터 개수

a    5
b    5
c    5
dtype: int64

결측값이 포함된 열 / 행 지우기

In [10]:
df.dropna()

Unnamed: 0,a,b,c
0,1,2.0,3
1,1,3.0,4
3,4,3.0,6
4,5,4.0,5


결측값이 포함된 열 지우기

In [12]:
df.dropna(axis=1)

Unnamed: 0,a,c
0,1,3
1,1,4
2,3,7
3,4,6
4,5,5


결측값을 다른 값으로 대체하기

In [13]:
df.fillna(0)

Unnamed: 0,a,b,c
0,1,2.0,3
1,1,3.0,4
2,3,0.0,7
3,4,3.0,6
4,5,4.0,5


앞이나 뒤의 숫자로 바꾸기

In [14]:
df = pd.DataFrame({'a': [1, 1, 3, 4, np.nan], 'b': [2, 3, np.nan, np.nan, 4], 'c': [np.nan, 4, 7, 6, 5]})

In [15]:
df

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,,7.0
3,4.0,,6.0
4,,4.0,5.0


In [17]:
# 뒤의 값으로 채우기
df.fillna(method='bfill')

Unnamed: 0,a,b,c
0,1.0,2.0,4.0
1,1.0,3.0,4.0
2,3.0,4.0,7.0
3,4.0,4.0,6.0
4,,4.0,5.0


In [18]:
# 앞의 값으로 채우기
df.fillna(method='ffill')

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,3.0,7.0
3,4.0,3.0,6.0
4,4.0,4.0,5.0


In [19]:
# limit 설정
df.fillna(method='ffill', limit=1)

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,3.0,7.0
3,4.0,,6.0
4,4.0,4.0,5.0


데이터 프레임에 존재하는 결측값들을 뒤의 값으로 대체한 이후 앞의 값으로 대체하기

In [20]:
df = pd.DataFrame({'a': [1, 1, 3, 4, np.nan], 'b': [2, 3, np.nan, np.nan, 4], 'c': [np.nan, 4, 7, 6, 5]})
df

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,,7.0
3,4.0,,6.0
4,,4.0,5.0


In [21]:
df.fillna(method='bfill', limit=1).fillna(method='ffill', limit=1)

Unnamed: 0,a,b,c
0,1.0,2.0,4.0
1,1.0,3.0,4.0
2,3.0,3.0,7.0
3,4.0,4.0,6.0
4,4.0,4.0,5.0


평균으로 대체

In [33]:
df = pd.DataFrame({'a': [1, 1, 3, 4, np.nan], 'b': [2, 3, np.nan, np.nan, 4], 'c': [np.nan, 4, 7, 6, 5]})
df

Unnamed: 0,a,b,c
0,1.0,2.0,
1,1.0,3.0,4.0
2,3.0,,7.0
3,4.0,,6.0
4,,4.0,5.0


a column 평균으로 대체

In [29]:
df.mean()['a']

2.25

In [30]:
df.fillna(df.mean()['a'])

Unnamed: 0,a,b,c
0,1.0,2.0,2.25
1,1.0,3.0,4.0
2,3.0,2.25,7.0
3,4.0,2.25,6.0
4,2.25,4.0,5.0


각 컬럼별 평균으로 결측값 대체

In [31]:
df.mean()

a    2.25
b    3.00
c    5.50
dtype: float64

In [32]:
df.fillna(df.mean())

Unnamed: 0,a,b,c
0,1.0,2.0,5.5
1,1.0,3.0,4.0
2,3.0,3.0,7.0
3,4.0,3.0,6.0
4,2.25,4.0,5.0


b, c의 결측값들을 각 컬럼의 데이터 평균값으로 치환

In [36]:
df.fillna(df.mean()[['b', 'c']])

Unnamed: 0,a,b,c
0,1.0,2.0,5.5
1,1.0,3.0,4.0
2,3.0,3.0,7.0
3,4.0,3.0,6.0
4,,4.0,5.0


In [37]:
df.mean()[['b', 'c']]

b    3.0
c    5.5
dtype: float64