# 01. 범주형 데이터 전처리 : 데이터 인코딩
- 종류
    - label encoding
    - one-hot encoding

### 레이블 인코딩(Label encoding)
- 문자열(범주형) 값을 내림차순 정렬 후 0부터 1씩 증가하는 값으로 변환
- 숫자의 차이가 모델에 영향을 주지 않는 트리 계열 모델(의사결정나무, 랜덤포레스트)에 적용한다.
- 숫자의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)사용 사용하면 안된다.
- sklearn.preprocessing.LabelEncoder 사용
    - fit() : 어떻게 변환할 지 학습
    - transform() : 문자열을 숫자로 변환
    - fit_transform() : 학습과 변환을 한번에 처리
    - inverse_transform() : 숫자를 문자열로 변환(디코딩 원본값)
    - classes_ : 인코딩한 클래스 조회

In [2]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder

items = ['TV','TV','냉장고','컴퓨터','냉장고','컴퓨터','에어콘']
le = LabelEncoder()
le.fit(items)
label = le.transform(items)

print(label, type(label))
print(le.classes_)

[0 0 1 3 1 3 2] <class 'numpy.ndarray'>
['TV' '냉장고' '에어콘' '컴퓨터']


#### adult data에 label encoding 적용
- 데이터셋은 1994년 인구조사 데이터 베이스에서 추출한 미국 성인의 소득 데이터셋이다.
- target은 income이며 수입이 $50,000 이하인지 초과인지로 분류되어 있다.
- http://archive.ics.uci.edu/ml/machine-learning-databases/adult

In [3]:
cols = ['age','workclass','fnlwgt','education','education-num','marital-status','occupation','relationship',
       'race','gender','capital-gain','capital-loss','hours-per-week','native-country','income']
url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
df = pd.read_csv(url, header=None, names=cols, na_values = ' ?')
df.shape # (32561,15)
df = df.dropna()

- encoding_coumns 레이블 인코딩 처리

In [4]:
encoding_columns = ['workclass','education','marital-status','occupation','relationship','race','gender','native-country','income']
not_encoding_columns = ['age','fnlwgt','education-num','capital-gain','capital-loss','hours-per-week']

In [5]:
# 각 컬럼별로 라벨 인코딩을 처리할 함수
# LabelEncoder는 1차원 배열(리스트,ndarray,Series) 단위로 처리한다.
d1 = df[encoding_columns].apply(LabelEncoder().fit_transform)
d2 = df[not_encoding_columns]

In [8]:
data = pd.merge(d1,d2, left_index=True, right_index=True)
data

Unnamed: 0,workclass,education,marital-status,occupation,relationship,race,gender,native-country,income,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week
0,5,9,4,0,1,4,1,38,0,39,77516,13,2174,0,40
1,4,9,2,3,0,4,1,38,0,50,83311,13,0,0,13
2,2,11,0,5,1,4,1,38,0,38,215646,9,0,0,40
3,2,1,2,5,0,2,1,38,0,53,234721,7,0,0,40
4,2,9,2,9,5,2,0,4,0,28,338409,13,0,0,40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,2,7,2,12,5,4,0,38,0,27,257302,12,0,0,38
32557,2,11,2,6,0,4,1,38,1,40,154374,9,0,0,40
32558,2,11,6,0,4,4,0,38,0,58,151910,9,0,0,40
32559,2,11,4,0,3,4,1,38,0,22,201490,9,0,0,20


### 원-핫 인코딩(One-Hot Encoding)
- N개의 클래스를 N 차원의 One-Hot 벡터로 표현되도록 변환
    - 고유값들을 피처로 만들고 정답에 해당하는 열은 1로 나머진 0으로 표시한다.
- 숫자의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에서 범주형 데이터 변환시 라벨인코딩 보다 원-핫 인코딩을 사용한다.
- sklearn.preprocessing.OneHotEncoder 사용 (사용 전에 모든 문자열을 숫자형 값으로 변환시켜야 하기 때문에 잘 사용하지 않는다.)
    - fit() : 어떻게 변환할 지 학습
    - transform() : 문자열을 숫자로 변환
    - fit_transform() : 학습과 변환을 한번에 처리
    - get_feature_names() : 원핫인코딩으로 변환된 컬럼의 이름을 반환
- DataFrame을 넣을 경우 모든 변수들을 변환한다.
    - 즉, 범주형 컬럼만 처리하도록 해야 한다.
    
- **보통 pandas.get_dummies()를 사용한다.**
    - pandas.get_dummies(DataFrame, columns=[변환할 컬럼명들])
    - DataFrame에서 범주형 변수만 변환한다.

In [9]:
import numpy as np
import pandas as pd

items = ['TV','냉장고','컴퓨터','컴퓨터','냉장고','에어콘','에어콘','선풍기']
pd.get_dummies(items)

Unnamed: 0,TV,냉장고,선풍기,에어콘,컴퓨터
0,1,0,0,0,0
1,0,1,0,0,0
2,0,0,0,0,1
3,0,0,0,0,1
4,0,1,0,0,0
5,0,0,0,1,0
6,0,0,0,1,0
7,0,0,1,0,0


#### adult data에 label encoding 적용

In [10]:
cols = ['age','workclass','fnlwgt','education','education-num','marital-status','occupation','relationship',
       'race','gender','capital-gain','capital-loss','hours-per-week','native-country','income']
url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
df = pd.read_csv(url, header=None, names=cols, na_values = ' ?')
df.shape # (32561,15)
df = df.dropna()

In [13]:
encoding_columns = ['workclass','education','marital-status','occupation',
                    'relationship','race','gender','native-country','income']

In [14]:
data = pd.get_dummies(df, encoding_columns)
data

Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week,workclass_ Federal-gov,workclass_ Local-gov,workclass_ Private,workclass_ Self-emp-inc,...,native-country_ Scotland,native-country_ South,native-country_ Taiwan,native-country_ Thailand,native-country_ Trinadad&Tobago,native-country_ United-States,native-country_ Vietnam,native-country_ Yugoslavia,income_ <=50K,income_ >50K
0,39,77516,13,2174,0,40,0,0,0,0,...,0,0,0,0,0,1,0,0,1,0
1,50,83311,13,0,0,13,0,0,0,0,...,0,0,0,0,0,1,0,0,1,0
2,38,215646,9,0,0,40,0,0,1,0,...,0,0,0,0,0,1,0,0,1,0
3,53,234721,7,0,0,40,0,0,1,0,...,0,0,0,0,0,1,0,0,1,0
4,28,338409,13,0,0,40,0,0,1,0,...,0,0,0,0,0,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,257302,12,0,0,38,0,0,1,0,...,0,0,0,0,0,1,0,0,1,0
32557,40,154374,9,0,0,40,0,0,1,0,...,0,0,0,0,0,1,0,0,0,1
32558,58,151910,9,0,0,40,0,0,1,0,...,0,0,0,0,0,1,0,0,1,0
32559,22,201490,9,0,0,20,0,0,1,0,...,0,0,0,0,0,1,0,0,1,0


---
---

# 02. 연속형(수치형) 데이터 전처리 : Feature Scaling과 정규화
- 종류
    - StandardScaler
    - MinMaxScaler

### StandarScaler
- 개별 피처를 평균이 0이고, 분산이 1인 값으로 변환해주는 클래스 (가우시안 분포)
- 특히, 사이킷런에서 구현한 RBF 커널을 이용하는 SVM, 선형회귀, 로지스틱회귀는 데이터가 가우시안 분포를 가지고 있다고 가정하고 구현됐기 때문에 사전에 표준화를 적용하는 것은 예측 성능 향상에 중요한 요소가 될 수 있다.
- sklearn.preprocessing.StandardScaler 이용
- 함수
    - fit() : 어떻게 변환할 지 학습
    - transform() : 변환
    - fit_transform() : 학습과 변환을 한번에 처리


In [19]:
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler

# iris 데이터 세트 로딩 후 DataFrame으로 변환
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


=> 표준화 전의 분산과 평균

In [22]:
# StandardScaler 객체 생성
scaler = StandardScaler()

# StandardScaler로 데이터 세트 변환, fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# 변환된 데이터 세트 DataFrame으로 변환
iris_scaled_df = pd.DataFrame(iris_scaled, columns = iris.feature_names)

iris_scaled_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,-1.690315e-15,-1.84297e-15,-1.698641e-15,-1.409243e-15
std,1.00335,1.00335,1.00335,1.00335
min,-1.870024,-2.433947,-1.567576,-1.447076
25%,-0.9006812,-0.592373,-1.226552,-1.183812
50%,-0.05250608,-0.1319795,0.3364776,0.1325097
75%,0.6745011,0.5586108,0.7627583,0.7906707
max,2.492019,3.090775,1.785832,1.712096


=> 표준화 후의 평균은 0에 가깝고, 분산은 1에 가까운 값으로 변환됐음을 확인할 수 있다.

---

### MinMaxScler
- 데이터값을 0과 1사이의 범위 값으로 변환한다. (음수 값이 있으면 -1에서 1값으로 변환)
- 데이터의 분포가 가우시안 분포가 아닐 경우에 Min,Max Scale 적용할 수 있음

In [25]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()

# MinMaxScaler로 데이터 세트 변환. fit()과 transform() 호출
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터 세트 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
iris_df_scaled.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.5,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667


=> 0과 1사이의 범위 값으로 변환되었음

---

### @ 스케일링 시 주의점!!!
- 학습 데이터 세트로 fit_transform()을 적용하면 테스트 데이터 세트로는 다시 fit()을 수행하지 않고 학습 데이터 세트로 fit()을 수행한 결과를 이용해 transform() 변환을 적용해야 한다.
- 즉, 학습 데이터로 fit()이 적용된 스케일링 기준 정보를 그대로 테스트 데이터에 적용해야 하며, 그렇지 않고 테스트 데이터로 다시 새로운 스케일링 기준 정보를 만들게 되면 학습 데이터와 테스트 데이터의 스케일링 기준 정보가 서로 달라지기 때문에 올바른 예측 결과를 도출하지 못할 수 있다.
- 따라서 학습데이터와 테스트 데이터 세트로 분리하기 전에 먼저 전체 데이터 세트에 스케일링을 적용한 뒤 학습과 테스트 데이터 세트로 분리하는 것이 더 바람직하다. (또는 학습데이터로 이미 fit()된 Scaler 객체를 이용해 transform()으로 변환해야 한다.)

### 위스콘신 유방암 데이터셋 활용한 실습

- StandardScaler (데이터 셋 나누기 전 스케일링 과정)

In [26]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

cancer = load_breast_cancer()
cancer.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [28]:
SS_scaler = StandardScaler()
cancer_data = cancer.data
cancer_target = cancer.target

scaled_cancer = SS_scaler.fit_transform(cancer_data)

In [29]:
X_train, X_test, y_train, y_test = train_test_split(scaled_cancer,
                                                   cancer.target,
                                                   test_size=0.2,
                                                   stratify=cancer.target,
                                                   random_state=2)

In [30]:
from sklearn.svm import SVC

svm = SVC()
svm.fit(X_train,y_train)
pred_train = svm.predict(X_train)
pred_test = svm.predict(X_test)

print(accuracy_score(y_train,pred_train))
print(accuracy_score(y_test,pred_test))

0.9824175824175824
0.9824561403508771


- MinMaxScaler (데이터셋 나눈 후 스케일링)

In [31]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import MinMaxScaler

cancer = load_breast_cancer()
cancer.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [32]:
X_train, X_test, y_train, y_test = train_test_split(scaled_cancer,
                                                   cancer.target,
                                                   test_size=0.2,
                                                   stratify=cancer.target,
                                                   random_state=2)

In [33]:
mm_scaler = MinMaxScaler()

X_train_scaled = mm_scaler.fit_transform(X_train)
X_test_scaled = mm_scaler.transform(X_test)

In [34]:
from sklearn.svm import SVC

svm = SVC()
svm.fit(X_train,y_train)
pred_train = svm.predict(X_train)
pred_test = svm.predict(X_test)

print(accuracy_score(y_train,pred_train))
print(accuracy_score(y_test,pred_test))

0.9824175824175824
0.9824561403508771
