### 결측 데이터

#### 결측치
* 누락되거나 문제가 있는 데이터를 의미한다
* 데이터 입력시 인코딩 또는 네트워크 문제, 공란 등의 이유로 무엇인지 판단하기 어려운 데이터
* 판다스에서는 결측값을 NaN(Not a Number)으로 표기하며 None, 공백도 결측치로 사용된다

#### 결측치 처리 방법
* 결측치 확인
* 결측치 대체 / 제거
* 결측치 반영 확인

#### 결측치 확인 함수
* isnull() : 결측치 True, 유효 데이터 False 반환
* notnull() : 결측치 False, 유효 데이터 True 반환

In [1]:
import pandas as pd

In [2]:
# 데이터 셋 로드
df = pd.read_csv('data/nan_test.csv')
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [3]:
df.head()
# 기본 상위 다섯개, ( 숫자 )있으면 그 숫자만큼

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,


In [4]:
df.tail(2)

Unnamed: 0,n1,n2,n3,nan_1,nan_2
4,12,10,14,1.2,
5,15,16,17,,1.0


In [5]:
df.isnull() # 결측치는 True 표현

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,False,False,False,False,True
1,False,False,False,True,True
2,False,False,False,False,True
3,False,False,False,True,True
4,False,False,False,False,True
5,False,False,False,True,False


In [6]:
df.isnull().sum()

n1       0
n2       0
n3       0
nan_1    3
nan_2    5
dtype: int64

In [7]:
df.shape # 전체데이터가 몇행 몇열로 이루어져있는지 알려줌

(6, 5)

In [12]:
df.notnull() # 결측치는 Falser로 나옴

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,True,True,True,True,False
1,True,True,True,False,False
2,True,True,True,True,False
3,True,True,True,False,False
4,True,True,True,True,False
5,True,True,True,False,True


In [10]:
df.notnull().sum()

n1       6
n2       6
n3       6
nan_1    3
nan_2    1
dtype: int64

In [11]:
df.shape

(6, 5)

#### 결측치 제거
* 전체삭제 : dropna(), 기본 axis = 0 으로 설정되어 있다
* 행(index) : axis = 0
* 열(column) : axis = 1
* del : 특정 열(컬럼줄) 삭제

In [13]:
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [15]:
df.dropna()
df.dropna(axis = 0)

Unnamed: 0,n1,n2,n3,nan_1,nan_2


In [17]:
df.dropna(axis = 1) # Na 가 있는 열을 삭제

Unnamed: 0,n1,n2,n3
0,0,1,2
1,3,4,2
2,3,4,8
3,9,10,11
4,12,10,14
5,15,16,17


In [18]:
df['nan_1']

0    1.7
1    NaN
2    2.4
3    NaN
4    1.2
5    NaN
Name: nan_1, dtype: float64

In [19]:
df['nan_1'].isnull() # 결측치 True

0    False
1     True
2    False
3     True
4    False
5     True
Name: nan_1, dtype: bool

In [20]:
df[df['nan_1'].isnull()] 

Unnamed: 0,n1,n2,n3,nan_1,nan_2
1,3,4,2,,
3,9,10,11,,
5,15,16,17,,1.0


In [21]:
df[df['nan_1'].notnull()] # 결측치가 아닌 데이터들만 가져올수있음

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
2,3,4,8,2.4,
4,12,10,14,1.2,


In [22]:
df.loc[df['nan_1'].notnull()]

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
2,3,4,8,2.4,
4,12,10,14,1.2,


In [23]:
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [24]:
# NaN값이 존재하는 열 삭제
del df['nan_1']
df

Unnamed: 0,n1,n2,n3,nan_2
0,0,1,2,
1,3,4,2,
2,3,4,8,
3,9,10,11,
4,12,10,14,
5,15,16,17,1.0


#### 대체(치환)
- 0으로 치환 : fillna(0)
- 평균으로 치환 : fillna(df.mean())
- 중위수로 치환 : fillna(df.describe().loc['50%']) 또는 df.median()
    * 중위수 또는 중앙값 이라고 표현한다. 
    * 예) {1,3,6,6,7,10,12,12,17} 7이 중간에 있기 때문에 중위수는 7이 된다
    * 예) {1,3,6,6,12,17} : 중간값이 없으면 (6+6) / 2가 중간값(6)이 된다.
- 최빈값으로 치환 : df.value_counts() 또는 df.mode()
    * 주어진 데이터 중 가장 자주 나오는 데이터
    * 예) {1, 3, 6, 6, 6, 7, 7, 12, 12, 17} 최빈값은 6이된다
- 이전값 : 순차적으로 시작하여 현재값 다음 NaN값을 현재 값으로 변경 : fillna(method='pad')
- 다음값 : 역순으로 시작하여 현재 값을 다음 NaN값을 현재 값으로 변경 : fillna(method='bfill')

In [26]:
df = pd.read_csv('data/nan_test.csv')
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [29]:
df.fillna(0) # value = 0 

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,0.0
1,3,4,2,0.0,0.0
2,3,4,8,2.4,0.0
3,9,10,11,0.0,0.0
4,12,10,14,1.2,0.0
5,15,16,17,0.0,1.0


In [30]:
df.mean() # 평균

n1       7.000000
n2       7.500000
n3       9.000000
nan_1    1.766667
nan_2    1.000000
dtype: float64

In [31]:
df.fillna(df.mean())

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.766667,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.766667,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.766667,1.0


In [32]:
data = {'v1':[12,12,17,1,3,6,6,7,10] ,
       'v2':[1,3,6,6,6,7,7,12,12]}
data

{'v1': [12, 12, 17, 1, 3, 6, 6, 7, 10], 'v2': [1, 3, 6, 6, 6, 7, 7, 12, 12]}

In [33]:
df_test = pd.DataFrame(data)
df_test

Unnamed: 0,v1,v2
0,12,1
1,12,3
2,17,6
3,1,6
4,3,6
5,6,7
6,6,7
7,7,12
8,10,12


In [34]:
df_test.median()

v1    7.0
v2    6.0
dtype: float64

In [37]:
df_test['v1'].sort_values()

3     1
4     3
5     6
6     6
7     7
8    10
0    12
1    12
2    17
Name: v1, dtype: int64

In [38]:
df_test.mode() # 최빈값

Unnamed: 0,v1,v2
0,6,6.0
1,12,


In [39]:
df_test

Unnamed: 0,v1,v2
0,12,1
1,12,3
2,17,6
3,1,6
4,3,6
5,6,7
6,6,7
7,7,12
8,10,12


In [40]:
df_test['v2'].mode()

0    6
Name: v2, dtype: int64

In [41]:
type(df_test['v2'].mode())

pandas.core.series.Series

In [42]:
df_test['v2']

0     1
1     3
2     6
3     6
4     6
5     7
6     7
7    12
8    12
Name: v2, dtype: int64

In [43]:
df_test['v2'].mode()[0]

6

In [46]:
df_test['v2'].value_counts()

v2
6     3
7     2
12    2
1     1
3     1
Name: count, dtype: int64

In [47]:
df_test['v2'].value_counts().max()

3

In [49]:
df.mode()

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,3.0,4.0,2.0,1.2,1.0
1,,10.0,,1.7,
2,,,,2.4,


In [50]:
df.fillna(df.mode())

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.7,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [51]:
df.fillna(df.mode().loc[0])

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.2,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.2,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.2,1.0


* fillna( method ='pad') : nan을 기준으로 이전 값으로 치환
* fillna( method ='bfill') : nan을 기준으로 다음 값으로 치환

In [55]:
df.fillna( method = 'pad')

  df.fillna( method = 'pad')


Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,1.7,
2,3,4,8,2.4,
3,9,10,11,2.4,
4,12,10,14,1.2,
5,15,16,17,1.2,1.0


In [56]:
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [57]:
df.fillna( method = 'bfill')

  df.fillna( method = 'bfill')


Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,2.4,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.2,1.0
4,12,10,14,1.2,1.0
5,15,16,17,,1.0


### 유일한 데이터 확인
* unique : 유일한 값 확인
* Series기능이다

In [60]:
# df.unique() > 에러발생
df['n1'].unique() # 유일한 값만 가져와줌

array([ 0,  3,  9, 12, 15], dtype=int64)

In [61]:
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0
