Chapter 5<br/>
< Data Cleansing >
===============================

[[실행 코드]](https://github.com/alstn2468/Python_For_Machine_Learning/blob/master/Chapter.5/5.ipynb)


### Data quality problems
- 데이터의 최대/최소가 다르다. -> Scale에 따른 y값에 영향
- Ordinary 또는 Normal한 값들의 표현
- 잘못 기입된 값들에 대한 처리
- 값이 없을 경우
- 극단적으로 큰 값 또는 작은 값에 대한 처리


### Data preprocessing issues
- 데이터가 빠진 경우
- 라벨링된 데이터의 데이터 처리
- 데이터의 scale의 차이가 매우 크게 날 경우



### 데이터가 존재하지 않을 때 할 수 있는 전략
- 데이터가 없으면 sample을 drop
- 데이터가 없는 최소 개수를 정해서 sample을 drop
- 데이터가 거의 없는 feature는 feature 자체를 drop
- 최빈값, 평균값으로 비어있는 데이터 채우기

In [1]:
import pandas as pd
import numpy as np

raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'],
            'last_name': ['Miller', np.nan, 'Ali', 'Milner', 'Cooze'],
            'age': [42, np.nan, 36, 24, 73],
            'sex': ['m', np.nan, 'f', 'm', 'f'],
            'preTestScore': [4, np.nan, np.nan, 2, 3],
            'postTestScore': [25, np.nan, np.nan, 62, 70]}

df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age',
                                       'sex', 'preTestScore', 'postTestScore'])
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


### Data drop
- NaN인 데이터를 column별로 합계

In [2]:
df.isnull().sum()

first_name       1
last_name        1
age              1
sex              1
preTestScore     2
postTestScore    2
dtype: int64

- dropnan : 데이터들이 사라짐

In [3]:
df_no_missing = df.dropna()
df_no_missing

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


- 모든 데이터가 비어있으면 drop

In [4]:
df_cleaned = df.dropna(how = 'all')
df_cleaned

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


- Nan값만 들어있는 column 생성

In [5]:
df['location'] = np.nan
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,,,
2,Tina,Ali,36.0,f,,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


- column을 기준으로 삭제

In [6]:
df.dropna(axis = 1, how = 'all')

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,,
2,Tina,Ali,36.0,f,,
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


- 데이터가 최소 5개 이상 없을 때 drop

In [7]:
df.dropna(thresh = 5)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


### 데이터 값 채우기
- 평균값, 중위값, 최빈값을 활용


### 평균값
- 해당 column의 값을 평균을 내서 채우기

In [8]:
df['preTestScore'].mean()

3.0

### 중위값
- 값을 일렬로 나열했을 때 중간에 위치한 값

In [9]:
df['postTestScore'].median()

62.0

### 최빈값
- 가장 많이 나오는 값

In [10]:
df['postTestScore'].mode()

0    25.0
1    62.0
2    70.0
dtype: float64

### Data Fill
- 데이터가 없는 곳을 0으로 지정

In [11]:
df.fillna(0)

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,0.0
1,0,0,0.0,0,0.0,0.0,0.0
2,Tina,Ali,36.0,f,0.0,0.0,0.0
3,Jake,Milner,24.0,m,2.0,62.0,0.0
4,Amy,Cooze,73.0,f,3.0,70.0,0.0


- preTestScore의 평균값을 지정

In [12]:
df['preTestScore'].fillna(df['preTestScore'].mean(), inplace = True)
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


- 성별로 나눠서 평균값을 지정

In [13]:
df['postTestScore'].fillna(df.groupby('sex')['postTestScore'].transform('mean'),
                           inplace = True)
df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
1,,,,,3.0,,
2,Tina,Ali,36.0,f,3.0,70.0,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


- Age와 sex가 모두 notnull인 경우에만 표시

In [14]:
df[df['age'].notnull() & df['sex'].notnull()]

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore,location
0,Jason,Miller,42.0,m,4.0,25.0,
2,Tina,Ali,36.0,f,3.0,70.0,
3,Jake,Milner,24.0,m,2.0,62.0,
4,Amy,Cooze,73.0,f,3.0,70.0,


### 이산형 데이터 처리
- One-Hot Encoding
- {Green, Blue, Yellow} : 데이터 집합
- 실제 데이터 Set의 크기만큼 Binary Feature를 생성<br/>
{Green} -> [1, 0, 0]<br/>
{Green} -> [1, 0, 0]<br/>
{blue}  -> [0, 1, 0]

In [15]:
edges = pd.DataFrame({'source': [0, 1, 2],
                      'target': [2, 2, 3],
                      'weight': [3, 4, 5],
                      'color': ['red', 'blue', 'blue']})

edges

Unnamed: 0,color,source,target,weight
0,red,0,2,3
1,blue,1,2,4
2,blue,2,3,5


In [16]:
edges['source']

0    0
1    1
2    2
Name: source, dtype: int64

In [17]:
edges['color']

0     red
1    blue
2    blue
Name: color, dtype: object

### One-Hot Encoding

In [18]:
pd.get_dummies(edges)

Unnamed: 0,source,target,weight,color_blue,color_red
0,0,2,3,0,1
1,1,2,4,1,0
2,2,3,5,1,0


In [19]:
pd.get_dummies(edges['color'])

Unnamed: 0,blue,red
0,0,1
1,1,0
2,1,0


In [20]:
pd.get_dummies(edges[['color']])

Unnamed: 0,color_blue,color_red
0,0,1
1,1,0
2,1,0
