# 결측치(NaN) 처리
- 숫자형(float type) NaN
- 문자형 NaN

In [1]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

In [2]:
s1 = Series([1,2,3,np.nan])
s1

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64

In [3]:
s2 = Series(['a','b','c',np.nan])
s2

0      a
1      b
2      c
3    NaN
dtype: object

##### 결측치 수정

In [4]:
s1.mean()    # NaN 값 제외하고 산출

2.0

In [5]:
s1.fillna(0)  #fillna 사용한 치환(가장 많이 활용)

0    1.0
1    2.0
2    3.0
3    0.0
dtype: float64

In [6]:
s2.replace(np.nan, 'a')  #a로 치환

0    a
1    b
2    c
3    a
dtype: object

In [7]:
s1.isnull()

0    False
1    False
2    False
3     True
dtype: bool

In [8]:
s1[s1.isnull()] = 0
s1

0    1.0
1    2.0
2    3.0
3    0.0
dtype: float64

##### NaN으로 수정

In [10]:
Series(['서울','.','대전','.','대구','.','부산'])
s3 = Series(['서울','.','대전','.','대구','.','부산'])
s3

0    서울
1     .
2    대전
3     .
4    대구
5     .
6    부산
dtype: object

'.'을 np.nan으로 수정한 뒤에 결측치를 처리해야 함 --> 문자인경우 보통 최빈값으로 대체

In [11]:
s3 = s3.replace('.',np.nan)
s3

0     서울
1    NaN
2     대전
3    NaN
4     대구
5    NaN
6     부산
dtype: object

##### 결측치를 이전 값, 이후 값으로 수정

In [12]:
s3.fillna(method = 'ffill')       #앞에 있는 값으로 치환

0    서울
1    서울
2    대전
3    대전
4    대구
5    대구
6    부산
dtype: object

In [13]:
s3.ffill() 

0    서울
1    서울
2    대전
3    대전
4    대구
5    대구
6    부산
dtype: object

##### 결측치를 갖는 행, 열 제거

In [14]:
df1 = DataFrame(np.arange(1,17).reshape(4,4), columns=list('ABCD'))
df1

Unnamed: 0,A,B,C,D
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
3,13,14,15,16


In [18]:
df1.iloc[0,0] = np.nan
df1 

Unnamed: 0,A,B,C,D
0,,2,3,4
1,5.0,6,7,8
2,9.0,10,11,12
3,13.0,14,15,16


In [19]:
df1.iloc[1,[0,1]]

A    5.0
B    6.0
Name: 1, dtype: float64

In [20]:
df1.iloc[2,[0,1,2]]

A     9.0
B    10.0
C    11.0
Name: 2, dtype: float64

In [21]:
df1.iloc[2,[0,1,2]] = np.nan

In [22]:
df1.iloc[3,:] = np.nan

In [23]:
df1

Unnamed: 0,A,B,C,D
0,,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0
2,,,,12.0
3,,,,


In [24]:
df1.dropna()   #결측치 하나라도 포함된 행 제거

Unnamed: 0,A,B,C,D
1,5.0,6.0,7.0,8.0


In [25]:
df1.dropna(how = 'any')  #동일결과

Unnamed: 0,A,B,C,D
1,5.0,6.0,7.0,8.0


In [26]:
df1.dropna(how='all')    #모두 NaN값을 갖는 행 제거

Unnamed: 0,A,B,C,D
0,,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0
2,,,,12.0


결측치 처리순서 : np.nan --> dropna(how='all')

In [27]:
df1.dropna(thresh=2)     #NaN 아닌 값이 2개 이상이면 제거하지 않음

Unnamed: 0,A,B,C,D
0,,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0


In [28]:
df1.iloc[1,0] = np.nan
df1

Unnamed: 0,A,B,C,D
0,,2.0,3.0,4.0
1,,6.0,7.0,8.0
2,,,,12.0
3,,,,


In [29]:
df1.dropna(axis=1, how='all') #특정컬럼이 모두 결측치로만 구성되어 있으면 해당 컬럼 제거

Unnamed: 0,B,C,D
0,2.0,3.0,4.0
1,6.0,7.0,8.0
2,,,12.0
3,,,


In [30]:
df1
df1.dropna(subset=['C'])  #C컬럼에 NaN이 있는 행 제거

Unnamed: 0,A,B,C,D
0,,2.0,3.0,4.0
1,,6.0,7.0,8.0


##### 중복값 처리

In [32]:
s1 = Series([1,1,2,3,4])
s1 

0    1
1    1
2    2
3    3
4    4
dtype: int64

In [33]:
s1.unique() 

array([1, 2, 3, 4], dtype=int64)

In [34]:
s1.duplicated() #중복된 값 확인(boolean으로 반환)

0    False
1     True
2    False
3    False
4    False
dtype: bool

In [36]:
s1.drop_duplicates()   #중복된 값 제거

0    1
2    2
3    3
4    4
dtype: int64

In [37]:
df2 = DataFrame({'A':[1,1,3,4],'B':[10,10,30,40]})
df2

Unnamed: 0,A,B
0,1,10
1,1,10
2,3,30
3,4,40


In [39]:
df2.drop_duplicates()

Unnamed: 0,A,B
0,1,10
2,3,30
3,4,40


In [40]:
df3 = DataFrame({'A':[1,1,3,4],'B':[10,10,30,40],'C':[100,200,300,400]})
df3

Unnamed: 0,A,B,C
0,1,10,100
1,1,10,200
2,3,30,300
3,4,40,400


In [41]:
df3.drop_duplicates()
#모든 컬럼의 값이 일치해야 제거

Unnamed: 0,A,B,C
0,1,10,100
1,1,10,200
2,3,30,300
3,4,40,400


In [42]:
df3.drop_duplicates(subset = ['A','B'])
#A랑 B중에 중복되는 값 있으면 제거

Unnamed: 0,A,B,C
0,1,10,100
2,3,30,300
3,4,40,400


In [44]:
df3.drop_duplicates(subset = ['A','B'],keep = 'last')
#중복되는 값 중 앞에 있는 값을 제거

Unnamed: 0,A,B,C
1,1,10,200
2,3,30,300
3,4,40,400
