### 결측 데이터

#### 결측치
* 누락되거나 문제가 있는 데이터를 의미
* 데이터 입력시 인코딩 또는 네트워크 문제, 공란 등의 이유로 무엇인지 판단하기 어려운 데이터
* 판다스에서는 결측값을 NaN(Not a Number)으로 표기하며 None, 공백도 결측치로 사용

#### 결측치 처리 방법
* 결측치 확인
* 결측치 대체 / 제거
* 결측치 반영 확인

#### 결측치 확인 함수
* isnull() : 결측치 True, 유효 데이터 False 반환
* notnull() : 결측치 False, 유효 데이터 True 반환

In [2]:
import pandas as pd

- 데이터 셋 로드

In [3]:
df = pd.read_csv("data/nan_test.csv")
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


- head 위쪽 데이터 조회, tail 뒤쪽 데이터 조회

In [4]:
df.head(2)

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,


In [5]:
df.tail(2)

Unnamed: 0,n1,n2,n3,nan_1,nan_2
4,12,10,14,1.2,
5,15,16,17,,1.0


- isnull() : 결측치가 True / sum() : 합계 추출

In [7]:
df.isnull().sum()

n1       0
n2       0
n3       0
nan_1    3
nan_2    5
dtype: int64

- shape : 전체 데이터 셋의 형태를 보여줌 / 몇 행, 몇 열 로 이루어져 있는지 확인

In [8]:
df.shape

(6, 5)

- notnull() : 결측치가 false

In [11]:
df.notnull().sum()

n1       6
n2       6
n3       6
nan_1    3
nan_2    1
dtype: int64

In [13]:
df.shape

(6, 5)

### 결측치 제거
* 전체 삭제 : dropna(), 기본 axis = 0 으로 설정되어 있음
* 행(index) : axis = 0
* 열(column) : axis = 1
* del : 특정 열(컬럼) 삭제

In [14]:
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [15]:
df.dropna()

Unnamed: 0,n1,n2,n3,nan_1,nan_2


In [16]:
df.dropna( axis = 0)

Unnamed: 0,n1,n2,n3,nan_1,nan_2


In [17]:
df.dropna( axis = 1)

Unnamed: 0,n1,n2,n3
0,0,1,2
1,3,4,2
2,3,4,8
3,9,10,11
4,12,10,14
5,15,16,17


In [18]:
df['nan_1']

0    1.7
1    NaN
2    2.4
3    NaN
4    1.2
5    NaN
Name: nan_1, dtype: float64

In [20]:
df[df['nan_1'].isnull()] #결측치 True

Unnamed: 0,n1,n2,n3,nan_1,nan_2
1,3,4,2,,
3,9,10,11,,
5,15,16,17,,1.0


In [21]:
df[df['n1']>10]

Unnamed: 0,n1,n2,n3,nan_1,nan_2
4,12,10,14,1.2,
5,15,16,17,,1.0


In [22]:
df[df['nan_1'].notnull()] #결측치 false

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
2,3,4,8,2.4,
4,12,10,14,1.2,


In [23]:
df.loc[ df['nan_1'].notnull()]

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
2,3,4,8,2.4,
4,12,10,14,1.2,


- NaN 값이 존재하는 열 삭제
    - 위에서 입력한 것과 다르게 바로 열 삭제 되는 것을 볼 수 있음
    - 위에서 입력한 것은 자기 자신한테 다시 저장시켜줘야 적용이 됨

In [24]:
del df['nan_1']
df

Unnamed: 0,n1,n2,n3,nan_2
0,0,1,2,
1,3,4,2,
2,3,4,8,
3,9,10,11,
4,12,10,14,
5,15,16,17,1.0


#### 대체(치환)
- 0으로 치환 : fillna(0)
- 평균으로 치환 : fillna(df.mean())
- 중위수로 치환 : fillna(df.describe().loc['50%']) 또는 df.median()
    * 중위수 또는 중앙값 이라고 표현
    * 예) {1,3,6,6,7,10,12,12,17} : 7이 중간에 있기 때문에 중위수는 7이 됨
    * 예) {1,3,6,6,12,17} : 중간값이 없으면 (6+6) / 2가 중간값(6)이 됨
- 최빈값으로 치환 : df.value_counts() 또는 df.mode()
    * 주어진 데이터 중 가장 자주 나오는 데이터
    * 예) {1, 3, 6, 6, 6, 7, 7, 12, 12, 17} : 최빈값은 6이 됨
- 이전값 : 순차적으로 시작하여 현재값 다음 NaN값을 현재 값으로 변경 : fillna(method='pad')
- 다음값 : 역순으로 시작하여 현재 값을 다음 NaN값을 현재 값으로 변경 : fillna(method='bfill')

In [25]:
df = pd.read_csv("data/nan_test.csv")
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [27]:
df.fillna(0) #원하는 숫자로 치환됨

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,0.0
1,3,4,2,0.0,0.0
2,3,4,8,2.4,0.0
3,9,10,11,0.0,0.0
4,12,10,14,1.2,0.0
5,15,16,17,0.0,1.0


In [28]:
df.mean()

n1       7.000000
n2       7.500000
n3       9.000000
nan_1    1.766667
nan_2    1.000000
dtype: float64

In [29]:
df.fillna( df.mean() )

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.766667,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.766667,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.766667,1.0


In [30]:
data = { 'v1' : [ 12, 12, 17, 1, 3, 6, 6, 7, 10 ] ,
         'v2' : [1,3,6,6,6,7,7, 12, 12 ] }
data

{'v1': [12, 12, 17, 1, 3, 6, 6, 7, 10], 'v2': [1, 3, 6, 6, 6, 7, 7, 12, 12]}

- pandas로 변환을 해야 사용 가능 (DataFrame 으로 변경)

In [31]:
df_test = pd.DataFrame(data)
df_test

Unnamed: 0,v1,v2
0,12,1
1,12,3
2,17,6
3,1,6
4,3,6
5,6,7
6,6,7
7,7,12
8,10,12


In [34]:
df_test.median() #정렬한 상태에서 중앙값 찾음

v1    7.0
v2    6.0
dtype: float64

In [33]:
df_test['v1'].sort_values()

3     1
4     3
5     6
6     6
7     7
8    10
0    12
1    12
2    17
Name: v1, dtype: int64

In [35]:
df_test.mode()

Unnamed: 0,v1,v2
0,6,6.0
1,12,


In [36]:
df_test['v1'].mode()

0     6
1    12
Name: v1, dtype: int64

- series 는 1차원 배열로 생각하면 됨

In [39]:
type( df_test['v2'].mode() )

pandas.core.series.Series

In [40]:
df_test['v2'].mode()[0]

6

In [42]:
df_test['v2'].value_counts()

v2
6     3
7     2
12    2
1     1
3     1
Name: count, dtype: int64

In [43]:
df_test['v2'].value_counts().max()

3

- 최빈값으로 변경

In [44]:
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


In [45]:
df.mode()

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,3.0,4.0,2.0,1.2,1.0
1,,10.0,,1.7,
2,,,,2.4,


- Nan 값이 index 0번째 값으로 치환됨 

In [46]:
df.fillna ( df.mode().loc[0] )

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,1.2,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.2,1.0
4,12,10,14,1.2,1.0
5,15,16,17,1.2,1.0


* fillna( method = 'pad' ) : nan을 기준으로 이전 값으로 치환
* fillna( method = 'bfill' ) : nan을 기준으로 다음 값으로 치환

In [55]:
df.fillna(method='pad')

  df.fillna(method='pad')


Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,1.7,
2,3,4,8,2.4,
3,9,10,11,2.4,
4,12,10,14,1.2,
5,15,16,17,1.2,1.0


In [52]:
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,1.0
1,3,4,2,2.4,1.0
2,3,4,8,2.4,1.0
3,9,10,11,1.2,1.0
4,12,10,14,1.2,1.0
5,15,16,17,,1.0


In [53]:
df

Unnamed: 0,n1,n2,n3,nan_1,nan_2
0,0,1,2,1.7,
1,3,4,2,,
2,3,4,8,2.4,
3,9,10,11,,
4,12,10,14,1.2,
5,15,16,17,,1.0


### 유일한 데이터 확인
* unique : 유일한 값 확인
* Series 기능

In [56]:
#df.unique() # 에러 발생
df['n1'].unique()

array([ 0,  3,  9, 12, 15], dtype=int64)

In [57]:
df['n1']

0     0
1     3
2     3
3     9
4    12
5    15
Name: n1, dtype: int64