# Data cleansing
## Data quality problems
- 데이터의 최소/최대가 다름 > Scale에 따른 y값에 영향
- Ordinary 또는 Nominal한 값들이 표현은 어떻게?
- 잘못 기입된 값들에 대한 처리
- 값이 없을 경우
- 극단적으로 크거나 작은 값의 처리문제  

## Data preprocessing issues(가장 기본 3가지)
- 격측치의 처리 : 데이터가 빠친 경우      
- 라벨링된 category 데이터의 처리
- 데이터의 scale의 차이가 매우 크게 날 경우

### 데이터가 없을 때 할 수 있는 전략
- is null() 함수로 없는지 확인
- 전체 데이터 수로 나눠서 백분율 확인,
- 데이터가 없으면 sample을 drop  
    \> 너무 없으면 안됨  
    \> 일정 갯수만큼 없으면 dopna(thresh = 3) 데이터가 4개이상 없을 때 drop      
- 데이터가 없는 최소 개수를 정해서 sample을 drop
- 데이터가 거의 없는 feature는 feature 자체를 drop
- 다른 값으로 채우기 : 최빈값 or 중위값 or 평균값으로 비어있는 데이터를 채우기  
- 평균값 : 해당 column의 평균을 내서 채우기
- 중위값 : 값을 일렬로 나열했을 때 중간에 위치한 값
- 최빈값 : 가장 많이 나오는 값

In [1]:
import pandas as pd
import numpy as np

raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'],
        'last_name': ['Miller', np.nan, 'Ali', 'Milner', 'Cooze'],
        'age': [42, np.nan, 36, 24, 73],
        'sex': ['m', np.nan, 'f', 'm', 'f'],
        'preTestScore': [4, np.nan, np.nan, 2, 3],
        'postTestScore': [25, np.nan, np.nan, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'preTestScore', 'postTestScore'])

In [3]:
df["preTestScore"].mean()

3.0

In [5]:
df["postTestScore"].median()

62.0

In [6]:
df["postTestScore"].mode()

0    25.0
1    62.0
2    70.0
dtype: float64

In [7]:
df["preTestScore"]

0    4.0
1    NaN
2    NaN
3    2.0
4    3.0
Name: preTestScore, dtype: float64

In [8]:
# fillna(평균값 )
df["preTestScore"].fillna(df["preTestScore"].mean(), inplace = True)

In [9]:
df["preTestScore"]

0    4.0
1    3.0
2    3.0
3    2.0
4    3.0
Name: preTestScore, dtype: float64

In [12]:
# 하지만 Series마다 평균이 다를 수 도 있다.
# 성별에 따른 평균값

df.groupby("sex")["postTestScore"].sum()

sex
f    70.0
m    87.0
Name: postTestScore, dtype: float64

In [14]:
 df.groupby("sex")["postTestScore"].transform("mean")

0    43.5
1     NaN
2    70.0
3    43.5
4    70.0
Name: postTestScore, dtype: float64

In [19]:
df["postTestScore"].fillna(
 df.groupby("sex")["postTestScore"].transform("mean"), inplace = True)

df

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
1,,,,,3.0,
2,Tina,Ali,36.0,f,3.0,70.0
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


In [20]:
# age , sex가 null이 아닌 Data
df[df['age'].notnull() & df['sex'].notnull()]

Unnamed: 0,first_name,last_name,age,sex,preTestScore,postTestScore
0,Jason,Miller,42.0,m,4.0,25.0
2,Tina,Ali,36.0,f,3.0,70.0
3,Jake,Milner,24.0,m,2.0,62.0
4,Amy,Cooze,73.0,f,3.0,70.0


## Category data
### 이산형 데이터를 어떻게 처리할까
#### One-Hot Encoding 방법 사용
- 실제 데이터 set의 크기만큼 Binary Feature를 생성  

In [21]:
edges = pd.DataFrame({'source': [0, 1, 2],
                   'target': [2, 2, 3],
                       'weight': [3, 4, 5],
                       'color': ['red', 'blue', 'blue']})

edges

Unnamed: 0,source,target,weight,color
0,0,2,3,red
1,1,2,4,blue
2,2,3,5,blue


In [23]:
# Pandas 의 One Hot encoding
pd.get_dummies(edges)

Unnamed: 0,source,target,weight,color_blue,color_red
0,0,2,3,0,1
1,1,2,4,1,0
2,2,3,5,1,0


### Ordinary data(순서가 있는 데이터)
- 매우불만족 불만족 만족 매우만족 등의 점수
- 시간 등

In [24]:
weight_dict = {3:"M", 4:"L", 5:"XL"}
edges["weight_sign"] = edges["weight"].map(weight_dict)
edges

Unnamed: 0,source,target,weight,color,weight_sign
0,0,2,3,red,M
1,1,2,4,blue,L
2,2,3,5,blue,XL


In [31]:
edges = pd.get_dummies(edges)
edges.to_numpy()

array([[0, 2, 3, 0, 1, 0, 1, 0],
       [1, 2, 4, 1, 0, 1, 0, 0],
       [2, 3, 5, 1, 0, 0, 0, 1]], dtype=int64)

## 데이터의 구간을 나눠보기(Data Binning)

In [33]:
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'],
        'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'],
        'name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Jacon', 'Ryaner', 'Sone', 'Sloan', 'Piger', 'Riani', 'Ali'],
        'preTestScore': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
        'postTestScore': [25, 94, 57, 62, 70, 25, 94, 57, 62, 70, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['regiment', 'company', 'name', 'preTestScore', 'postTestScore'])
df

Unnamed: 0,regiment,company,name,preTestScore,postTestScore
0,Nighthawks,1st,Miller,4,25
1,Nighthawks,1st,Jacobson,24,94
2,Nighthawks,2nd,Ali,31,57
3,Nighthawks,2nd,Milner,2,62
4,Dragoons,1st,Cooze,3,70
5,Dragoons,1st,Jacon,4,25
6,Dragoons,2nd,Ryaner,24,94
7,Dragoons,2nd,Sone,31,57
8,Scouts,1st,Sloan,2,62
9,Scouts,1st,Piger,3,70


In [34]:
bins = [0, 25, 50, 75, 100] # 25마다 구간을 만들어준다.
group_names = ['Low', 'Okay', 'Good', 'Great'] # 각 구간마다 name설정
categories = pd.cut(df['postTestScore'], bins, labels=group_names) # cut함수로 자른후 label값 넣어줌
categories

0       Low
1     Great
2      Good
3      Good
4      Good
5       Low
6     Great
7      Good
8      Good
9      Good
10     Good
11     Good
Name: postTestScore, dtype: category
Categories (4, object): ['Low' < 'Okay' < 'Good' < 'Great']

In [36]:
# 기존 변수에 입력
df['categories'] = pd.cut(df['postTestScore'], bins, labels=group_names)
pd.value_counts(df['categories'])

Good     8
Low      2
Great    2
Okay     0
Name: categories, dtype: int64

In [37]:
df

Unnamed: 0,regiment,company,name,preTestScore,postTestScore,categories
0,Nighthawks,1st,Miller,4,25,Low
1,Nighthawks,1st,Jacobson,24,94,Great
2,Nighthawks,2nd,Ali,31,57,Good
3,Nighthawks,2nd,Milner,2,62,Good
4,Dragoons,1st,Cooze,3,70,Good
5,Dragoons,1st,Jacon,4,25,Low
6,Dragoons,2nd,Ryaner,24,94,Great
7,Dragoons,2nd,Sone,31,57,Good
8,Scouts,1st,Sloan,2,62,Good
9,Scouts,1st,Piger,3,70,Good


### Label encoding by sklearn
- Scikit-learn의 preprocessing 패키지도 label, one-hot지원
- Label encoder의 fit과 transform의 과정이 나눠진 이유는 새로운 데이터 입력시 기존 labelling규칙을 그대로 적용해야하기 때문
- Fit은 규칙을 생성하는 과정
- Tramsform은 규칙을 적용하는 과정
- Fit을 통해 규칙이 생성된 labelencoder는 따로 저장하여 새로운데이터를 입력할 경우 사용가능
- Encoder들을 실제 시스템에 적용할 경우 pickle화 필요
- Data가 많으면 sklearn 사용 아니라면 Pandas 의 get_dummies사용

 ## Feature scaling
 ### 두 변수 중하나의 크기가 너무 클때
 - Feature간의 최대 최소값의 차이를 맞춘다.
 - Min-Max Normalization : 기존 변수에 범위를 새로운 최대 - 최소로 변경 일반적으로는 0과 1사이의 값으로 변경
 - Z-score Normalization(Standardization) : 기존 변수에 범위를 정규 분포로 변환, 실제 Mix-Max의 값을 모를 때 활용 가능
 - Label encoder와 마찬가지로 sklearn도 feature scale지원 - MinMaxScaler와 StandardScaler 사용

### Feature scaling with sklearn
- Preprocessing은 모두 fit -> transform의 과정을 거침
- 이유는 label encoder와 동일(새로운 데이터 입력시 기존 labelling규칙을 그대로 적용해야하기 때문)
- 단 scaler는 한번에 여러개 column을 처리 가능

#### 최근엔 뉴럴네트워크에는 scaling을 해줄 필요가 없다고 하지만 알고리즘의 속도를 위해 해준다. 일반적으로는 scaling을 한다고 알고 넘어가자