## 데이터 전처리
### 데이터 인코딩
- 머신러닝 알고리즘은 문자열 데이터 속성을 입력받지 않으며, 모든 데이터는 숫자형으로 표현되어야 한다.
- 문자형 카테고리형 속송은 모두 숫자값으로 인코딩 되어야 한다.=> 레이블(label) 인코딩-> 가중치가 부여될수 있으므로 선형회귀에서는 사용 x 트리구조는 o
- 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시하는 방식이다. => 원-핫(One-Hot) 레코딩 

In [None]:
from sklearn.datasets import load_iris, load_breast_cancer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

from sklearn.preprocessing import LabelEncoder

import pandas as pd
import numpy  as np

In [None]:
item_label = ['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']
encoder = LabelEncoder()
encoder.fit(item_label)
digit_label=encoder.transform(item_label)
print('encoder',encoder)
print('encoder 결과',digit_label)
print("*"*50)
print('decoder 결과',encoder.inverse_transform([0, 1, 4, 5, 3, 3, 2 ,2]))

- One-Hot encoding

In [None]:
from sklearn.preprocessing import OneHotEncoder
item_label = ['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']
encoder = LabelEncoder()
encoder.fit(item_label)
digit_label=encoder.transform(item_label)

print('type',type(digit_label))

# 2차원 데이터로 변환
digit_label = digit_label.reshape(-1,1)
print(digit_label.shape)

# One-Hot 인코딩
one_hot_encoder=OneHotEncoder()
one_hot_encoder.fit(digit_label)
one_hot_label = one_hot_encoder.transform(digit_label)

print(one_hot_label.toarray())
print(one_hot_label.shape)

- pandas get_dummies(df)

In [None]:
one_hot_df=pd.DataFrame({'item' : ['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']})
one_hot_df

In [None]:
pd.get_dummies(one_hot_df)

- 결측값 처리

In [None]:
from io import StringIO
import pandas as pd
import numpy as np 

csv_data = StringIO("""
x1,x2,x3,x4,x5
1,0.1,"1",2019-01-01,A
2,,,2019-01-02,B
3,,"3",2019-01-03,C
,0.4,"4",2019-01-04,A
5,0.5,"5",2019-01-05,B
,,,2019-01-06,C
7,0.7,"7",,A
8,0.8,"8",2019-01-08,B
9,0.9,,2019-01-09,C
""")

df = pd.read_csv(csv_data)
df


In [None]:
# pandas isnull(),isna() 위치 확인
# sum()

In [None]:
df.isnull()

In [None]:
df.isna().sum()

In [None]:
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

import missingno as msno

msno.matrix(df) #결측데이터를 시각화 결측치는 흰색으로 표시됨 
# 오른쪽 라인은 해당 로우의 결측값이 없는 곳을 알려줌..?
plt.show()

In [None]:
# 만약 각 열에 대한 결측 데이터가 얼마나 존재하는지 시각화하고 싶다면
msno.bar(df)
plt.show()

In [None]:
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
# 타이타닉 생존자 데이터를 이용한 missingno 쓰임새를 알아보자
titanic = sns.load_dataset('titanic')
titanic.head()

In [None]:
# missingno를 이용하여 타이타닉 데이터에서 age, deck, embarked, embark_town 열에 대한 결측 데이터 확인
msno.matrix(titanic)
plt.show()

### 결측된 데이터를 처리하는 방법
- 결측된 데이터가 너무 많은 경우 해당 데이터의 열 전체를 삭제
- 걀측된 데이터가 일부인 경우 가장 그럴듯한 값으로 대체 

In [None]:
# dropna()
df

In [None]:
df.dropna()

In [None]:
# 결측값이 존재하는 열 삭제 
df.dropna(axis=1)

In [None]:
# thresh 특정 갯수 이상이 비결측 데이터가 있는 행 또는 열만 남긴다
df.dropna(thresh=7,axis=1)

In [None]:
# deck 열을 삭제하고 싶다면?
titanic.dropna(thresh=int(len(titanic)*0.5),axis=1,inplace=True)
msno.matrix(titanic)
plt.show()

In [None]:
# 결측 데이터를 대체하는 방법 
# sklearn - SimpleImputer(평균, 중앙, 최빈)
# fit transform 대체값이 채워진 데이터 프레임을 생성할 수 있다

In [None]:
from sklearn.impute import SimpleImputer

In [None]:
from sklearn.datasets import load_iris, load_breast_cancer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

from sklearn.preprocessing import LabelEncoder

import pandas as pd
import numpy  as np
from io import StringIO
import seaborn as sns 

In [None]:
titanic = sns.load_dataset('titanic')
titanic.head()

### Feature Scaling
- 표준화는 최대값과 최소값을 모르는 경우에 사용 0을기준으로 편차가 1인경우
- 정규화는 0과 1사이의 값으로 리턴이된다.( 최대값과 최소값을 알고있는 경우)
- standardScaler(표준화) : 평균이 0아고 분산이 1인 정규 분포 형태로 변환
- MinMaxScaler(정규화) : 데이터 값을 0과 1사이의 범위 값으로 변환한다

- Normaliztion(정규화) : 모든 featurer 가 0과 1사이의 값으로 변환
- 음수가 있을 경우 1로 대체가된다.
- MinMaxScaler
- 데이터의 최소값과, 최대값을 알고 있어야함
- 공식(X-X의 최소값)/(X의 최대값-X의 최소값)

In [None]:
df = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],'B':[103.02,107.26,110.35,114.23,114.68], 'C':['big','small','big','small','small']})
df

In [None]:
# A와 B의 단위가 다르다! 정규화를 한다면?
df['A']

In [None]:
# 공식(X-X의 최소값)/(X의 최대값-X의 최소값)
df['A']-df['A'].min()/(df['A'].max()-df['A'].min())

In [None]:
Standardization(표준화): 변수의 범위를 정규분포(평균 0, 편차 1) 변환
- 데이터의 최소, 최대값을 모를 경우 사용하면 된다
- 공식 (X-X평균값)/(X 표준편차)

In [None]:
df['B'].mean(),df['B'].std()

In [None]:
df['B']=(df['B']-df['B'].mean())/(df['B'].std())
df

In [None]:
def feture_scaling(df, scaling_strategy="min-max", column=None):
    if column == None:
        column = [column_name for column_name in df.columns]
    for column_name in column:
        if scaling_strategy == "min-max": # 정규화
            df[column_name] = ( df[column_name] - df[column_name].min() ) /\
                            (df[column_name].max() - df[column_name].min()) 
        elif scaling_strategy == "z-score": # 표준화 
            df[column_name] = ( df[column_name] - \
                               df[column_name].mean() ) /\
                            (df[column_name].std() )
    return df

In [None]:
df = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],'B':[103.02,107.26,110.35,114.23,114.68], 'C':['big','small','big','small','small']})
df

In [None]:
scaling_df=feture_scaling(df,column=['A','B'])
scaling_df

In [None]:
scaling_df=feture_scaling(df,scaling_strategy='z-score',column=['A','B'])
scaling_df # 표준화

- 주의사항 

In [None]:
df = pd.io.parsers.read_csv(
    'https://raw.githubusercontent.com/rasbt/pattern_classification/master/data/wine_data.csv',
     header=None,
     usecols=[0,1,2]
    )

In [None]:
df.columns=['Class label','Alcohol','Malic acid']
df

In [None]:
alcohol_df=feture_scaling(df,
                          scaling_strategy='z-score',
                          column=['Class label','Alcohol','Malic acid'])
alcohol_df # 표준화

- sklearn feature scaling
- fit(규칙생성), transform(규칙적용)의 과정을 거친다
- fit_transform()

In [None]:
df = pd.io.parsers.read_csv(
    'https://raw.githubusercontent.com/rasbt/pattern_classification/master/data/wine_data.csv',
     header=None,
     usecols=[0,1,2]
    )

In [None]:
df.columns=['Class label','Alcohol','Malic acid']
df

In [None]:
# StandardScalar(표준화)
# MinMaxScaler(정규화)

In [None]:
from sklearn.preprocessing import LabelEncoder,StandardScaler,MinMaxScaler
std_scaler=StandardScaler()
df_std=std_scaler.fit(df[['Alcohol','Malic acid']]).transform(df[['Alcohol','Malic acid']])
print(df_std[:5])

In [None]:
minmax_scaler=MinMaxScaler()
df_mm=minmax_scaler.fit(df[['Alcohol','Malic acid']]).transform(df[['Alcohol','Malic acid']])
print(df_mm[:5])

In [None]:
train_array=np.arange(0,11).reshape(-1,1)
test_array=np.arange(0,6).reshape(-1,1)

In [None]:
train_array

In [None]:
test_array

In [None]:
scaler=MinMaxScaler()
train_scaler=scaler.fit(train_array).transform(train_array) #fit 규칙생성
print('raw data    :',np.round(train_array.reshape(-1),2))
print('scaler data :',np.round(train_scaler.reshape(-1),2))

In [None]:
# 문제점 확인
test_scaler=scaler.fit(test_array).transform(test_array)
print('test data :',np.round(test_array.reshape(-1),2))
print('scaler data :',np.round(test_scaler.reshape(-1),2))

In [None]:
# train에 대한 scaling은 진행하지만 
# test에 대한  scaling 진행하면 안된다.
scaler=MinMaxScaler()
train_scaler=scaler.fit(train_array).transform(train_array) #fit 규칙생성
print('train data    :',np.round(train_array.reshape(-1),2))
print('scaler data :',np.round(train_scaler.reshape(-1),2))

test_scaler=scaler.transform(test_array)
print('test data :',np.round(test_array.reshape(-1),2))
print('scaler data :',np.round(test_scaler.reshape(-1),2))

In [None]:
# 아이리스 붓꽃데이터 세트를 이용한 피쳐 스케일링
from sklearn.datasets import load_iris
import pandas as pd
# 붓꽃 데이터 셋을 로딩하고 DataFrame으로 변환합니다. 
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())
from sklearn.preprocessing import StandardScaler

# StandardScaler객체 생성
scaler = StandardScaler()
# StandardScaler 로 데이터 셋 변환. fit( ) 과 transform( ) 호출.  
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

#transform( )시 scale 변환된 데이터 셋이 numpy ndarry로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())
from sklearn.preprocessing import MinMaxScaler