### 결측 데이터

#### 결측치
* 누락되거나 문제가 있는 데이터를 의미한다
* 데이터 입력시 인코딩 또는 네트워크 문제, 공란 등의 이유로 무엇인지 판단하기 어려운 데이터
* 판다스에서는 결측값을 NaN(Not a Number)으로 표기하며 None, 공백도 결측치로 사용된다

#### 결측치 처리 방법
* 결측치 확인
* 결측치 대체 / 제거
* 결측치 반영 확인

#### 결측치 확인 함수
* isnull() : 결측치 True, 유효 데이터 False 반환
* notnull() : 결측치 False, 유효 데이터 True 반환

In [2]:
import pandas as pd

In [3]:
# 데이터 셋 로드
df = pd.read_csv('data/nan_test.csv')
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [10]:
df.head(2) # 앞쪽
#df.tail(2) # 뒤쪽 데이터

Unnamed: 0,n1,n2,n3,nan_1,nan_2
4,12,10,14,1.2,
5,15,16,17,,1.0


In [11]:
df.isnull() # 결측치는 True 표현

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,False,False,False,False,True
1,False,False,False,True,True
2,False,False,False,False,True
3,False,False,False,True,True
4,False,False,False,False,True
5,False,False,False,True,False


In [12]:
df.isnull().sum()

n1       0
n2       0
n3       0
nan_1    3
nan_2    5
dtype: int64

In [13]:
df.shape # 전체 데이터 셋의 형태를 보여준다. 6행 5열로 만들어졌다

(6, 5)

In [14]:
df.notnull() # 결측치는 False

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,True,True,True,True,False
1,True,True,True,False,False
2,True,True,True,True,False
3,True,True,True,False,False
4,True,True,True,True,False
5,True,True,True,False,True


In [15]:
df.notnull().sum()

n1       6
n2       6
n3       6
nan_1    3
nan_2    1
dtype: int64

In [16]:
df.shape

(6, 5)

#### 결측치 제거
* 전체 삭제 : dropna(), 기본 axis = 0으로 설정되어 있다
* 행(index) : axis = 0
* 열(column) : axis = 1
* del : 특정 열(컬럼줄) 삭제

In [17]:
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [20]:
#df.dropna()
df.dropna( axis = 0 )

Unnamed: 0,n1,n2,n3,nan_1,nan_2


In [21]:
df.dropna( axis = 1 )

Unnamed: 0,n1,n2,n3
0,0,1,2
1,3,4,2
2,3,4,8
3,9,10,11
4,12,10,14
5,15,16,17


In [22]:
df['nan_1']

0    1.7
1    NaN
2    2.4
3    NaN
4    1.2
5    NaN
Name: nan_1, dtype: float64

In [23]:
df['nan_1'].isnull() #결측치 True

0    False
1     True
2    False
3     True
4    False
5     True
Name: nan_1, dtype: bool

In [24]:
df[ df['nan_1'].isnull() ]

Unnamed: 0,n1,n2,n3,nan_1,nan_2
1,3,4,2,,
3,9,10,11,,
5,15,16,17,,1.0


In [26]:
df[df['n1'] > 10]

Unnamed: 0,n1,n2,n3,nan_1,nan_2
4,12,10,14,1.2,
5,15,16,17,,1.0


In [27]:
df[ df['nan_1'].notnull() ]

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
2,3,4,8,2.4,
4,12,10,14,1.2,


In [28]:
df.loc[ df['nan_1'].notnull() ]

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
2,3,4,8,2.4,
4,12,10,14,1.2,


In [29]:
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [30]:
# NaN값이 존재하는 열 삭제
del df['nan_1']
df

Unnamed: 0,n1,n2,n3,nan_2
0,0,1,2,
1,3,4,2,
2,3,4,8,
3,9,10,11,
4,12,10,14,
5,15,16,17,1.0


#### 대체(치환)
- 0으로 치환 : fillna(0)
- 평균으로 치환 : fillna(df.mean())
- 중위수로 치환 : fillna(df.describe().loc['50%']) 또는 df.median()
    * 중위수 또는 중앙값 이라고 표현한다. 
    * 예) {1,3,6,6,7,10,12,12,17} 7이 중간에 있기 때문에 중위수는 7이 된다
    * 예) {1,3,6,6,12,17} : 중간값이 없으면 (6+6) / 2가 중간값(6)이 된다.
- 최빈값으로 치환 : df.value_counts() 또는 df.mode()
    * 주어진 데이터 중 가장 자주 나오는 데이터
    * 예) {1, 3, 6, 6, 6, 7, 7, 12, 12, 17} 최빈값은 6이된다
- 이전값 : 순차적으로 시작하여 현재값 다음 NaN값을 현재 값으로 변경 : fillna(method='pad')
- 다음값 : 역순으로 시작하여 현재 값을 다음 NaN값을 현재 값으로 변경 : fillna(method='bfill')

In [32]:
df = pd.read_csv('data/nan_test.csv')
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [37]:
df.fillna( 0 ) # value = 0

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,0.0
1,3,4,2,0.0,0.0
2,3,4,8,2.4,0.0
3,9,10,11,0.0,0.0
4,12,10,14,1.2,0.0
5,15,16,17,0.0,1.0


In [38]:
df.mean()

n1       7.000000
n2       7.500000
n3       9.000000
nan_1    1.766667
nan_2    1.000000
dtype: float64

In [39]:
df.fillna( df.mean() )

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.766667,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.766667,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.766667,1.0


In [40]:
data = { 'v1' : [ 12, 12, 17, 1, 3, 6, 6, 7, 10 ] ,
         'v2' : [1, 3, 6, 6, 6, 7, 7, 12, 12 ] }
data

{'v1': [12, 12, 17, 1, 3, 6, 6, 7, 10], 'v2': [1, 3, 6, 6, 6, 7, 7, 12, 12]}

In [41]:
df_test = pd.DataFrame(data)
df_test

Unnamed: 0,v1,v2
0,12,1
1,12,3
2,17,6
3,1,6
4,3,6
5,6,7
6,6,7
7,7,12
8,10,12


In [42]:
df_test.median()

v1    7.0
v2    6.0
dtype: float64

In [43]:
df_test['v1'].sort_values()

3     1
4     3
5     6
6     6
7     7
8    10
0    12
1    12
2    17
Name: v1, dtype: int64

In [44]:
df_test.mode()

Unnamed: 0,v1,v2
0,6,6.0
1,12,


In [45]:
df_test

Unnamed: 0,v1,v2
0,12,1
1,12,3
2,17,6
3,1,6
4,3,6
5,6,7
6,6,7
7,7,12
8,10,12


In [47]:
df_test['v2'].mode()

0    6
Name: v2, dtype: int64

In [48]:
type( df_test['v2'].mode() )

pandas.core.series.Series

In [52]:
df_test['v2']

0     1
1     3
2     6
3     6
4     6
5     7
6     7
7    12
8    12
Name: v2, dtype: int64

In [53]:
df_test['v2'].mode()[0]

6

In [56]:
df_test['v2'].value_counts()

6     3
7     2
12    2
1     1
3     1
Name: v2, dtype: int64

In [57]:
df_test['v2'].value_counts().max()

3

In [58]:
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [59]:
df.mode()

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,3.0,4.0,2.0,1.2,1.0
1,,10.0,,1.7,
2,,,,2.4,


In [60]:
df.fillna( df.mode() )

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.7,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [62]:
df.fillna( df.mode().loc[0] )

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.2,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.2,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.2,1.0


In [63]:
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


* fillna( method = 'pad' ) : nan을 기준으로 이전 값으로 치환
* fillna( method = 'bfill' ) : nan을 기준으로 다음 값으로 치환

In [64]:
df.fillna(method='pad')

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,1.7,
2,3,4,8,2.4,
3,9,10,11,2.4,
4,12,10,14,1.2,
5,15,16,17,1.2,1.0


In [66]:
df.fillna(method='bfill')

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,2.4,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.2,1.0
4,12,10,14,1.2,1.0
5,15,16,17,,1.0


In [67]:
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


### 유일한 데이터 확인
* unique : 유일한 값 확인
* Series기능이다

In [69]:
#df.unique() # 에러 발생
df['n1'].unique()

array([ 0,  3,  9, 12, 15], dtype=int64)

In [71]:
df['n1']

0     0
1     3
2     3
3     9
4    12
5    15
Name: n1, dtype: int64