# 1. 각각 분류기(알고리즘)로 평가하시오. (titanic_cleaning.csv)
* 평가하는 경우 스케일 없는 경우와 스케일 있는 경우 다 평가하시오
* 스케일 : StandardScaler, MinManScaler
* 분류기
    - SVC(linear, rbf)
    - KNeighborsClassifier
    - Voting(SVC-rbf, KNeighborsClassifier)
    - RandomForest
    - GBM(Gradient Boosting Machine

In [2]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import VotingClassifier, RandomForestClassifier, GradientBoostingClassifier

import pandas as pd
import warnings
warnings.filterwarnings('ignore')

# 2. 데이터셋 로드 

In [3]:
df = pd.read_csv('../data_set/5.스케일링/titanic_cleaning.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare
0,1,0,3,0,22.0,1,0,7.25
1,2,1,1,1,38.0,1,0,71.2833
2,3,1,3,1,26.0,0,0,7.925
3,4,1,1,1,35.0,1,0,53.1
4,5,0,3,0,35.0,0,0,8.05


# 3. feature, label 분리

In [4]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch',
       'Fare'],
      dtype='object')

In [5]:
# 이전과 마찬가지로 번호(PassengerId)는 제외한다. 
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']
label = 'Survived'
X, y = df[features], df[label]

# 4. 스케일 객체 생성 및 분리
## 4.1 StandardScaler

In [6]:
standard_s = StandardScaler()
standard_s.fit(X)

X_standard = standard_s.transform(X)

## 4.2 MinMaxScaler

In [7]:
min_max_s = MinMaxScaler()
min_max_s.fit(X)
X_min_max = min_max_s.transform(X)

## 4.3 훈련, 테스트 데이터 분리

In [8]:
# 스케일 전 train, test 셋
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=62)

# StandardScaler - train, test 셋
X_train_standard, X_test_standard, y_train, y_test = train_test_split(X_standard, y, test_size=0.2, random_state=62)

# MinMaxScaler - train, test 셋
X_train_min_max, X_test_min_max, y_train, y_test = train_test_split(X_min_max, y, test_size=0.2, random_state=62)

# 5. 모델 생성 및 평가
## 5.1 svc-linear 모델
### 5.1.1 스케일 전 평가

In [10]:
svc_linear = SVC(kernel="linear")
svc_linear.fit(X_train, y_train)
print('---- 스케일 전 결과 ----')
print("train : ", svc_linear.score(X_train, y_train))
print('test  : ', svc_linear.score(X_test, y_test))

---- 스케일 전 결과 ----
train :  0.7893258426966292
test  :  0.776536312849162


### 5.1.2 StandardScaler 평가

In [12]:
svc_scaler = SVC(kernel="linear")
svc_scaler.fit(X_train_standard, y_train)
print('---- StandardScaler 결과 ----')
print("train : ", svc_scaler.score(X_train_standard, y_train))
print('test  : ', svc_scaler.score(X_test_standard, y_test))

---- StandardScaler 결과 ----
train :  0.7893258426966292
test  :  0.776536312849162


### 5.1.3 MinMaxScaler 평가

In [13]:
svc_min_max = SVC(kernel="linear")
svc_min_max.fit(X_train_min_max, y_train)
print('---- MinMaxScaler 결과 ----')
print("train : ", svc_min_max.score(X_train_min_max, y_train))
print('test  : ', svc_min_max.score(X_test_min_max, y_test))

---- MinMaxScaler 결과 ----
train :  0.7893258426966292
test  :  0.776536312849162


결과적으로 스케일을 하면 연산 속도는 확실히 빨라진 것을 알 수 있다. 

## 5.2 svc-rbf 모델
### 5.2.1 스케일 전 평가

In [14]:
svc_rbf = SVC(kernel="rbf")
svc_rbf.fit(X_train, y_train)
print('---- 스케일 전 결과 ----')
print("train : ", svc_rbf.score(X_train, y_train))
print('test  : ', svc_rbf.score(X_test, y_test))

---- 스케일 전 결과 ----
train :  0.6811797752808989
test  :  0.6145251396648045


### 5.2.2 StandardScaler 평가

In [15]:
svc_standard = SVC(kernel="rbf")
svc_standard.fit(X_train_standard, y_train)
print('---- StandardScaler 결과 ----')
print("train : ", svc_standard.score(X_train_standard, y_train))
print('test  : ', svc_standard.score(X_test_standard, y_test))

---- StandardScaler 결과 ----
train :  0.8370786516853933
test  :  0.8100558659217877


### 5.2.3 MinMaxScaler 평가

In [16]:
svc_min_max = SVC(kernel="rbf")
svc_min_max.fit(X_train_min_max, y_train)
print('---- MinMaxScaler 결과 ----')
print("train : ", svc_min_max.score(X_train_min_max, y_train))
print('test  : ', svc_min_max.score(X_test_min_max, y_test))

---- MinMaxScaler 결과 ----
train :  0.8174157303370787
test  :  0.7932960893854749


이전과 다르게 연산속도는 비슷하나 예측력이 높아진 것을 알 수 있다. 

## 5.3 KNeighborsClassifier 모델
### 5.3.1 스케일 전 모델 평가

In [17]:
kn = KNeighborsClassifier()
kn.fit(X_train, y_train)
print('---- KNeighbors 결과 ----')
print("train : ", kn.score(X_train, y_train))
print('test  : ', kn.score(X_test, y_test))

---- KNeighbors 결과 ----
train :  0.8019662921348315
test  :  0.6815642458100558


### 5.3.2 StandardScaler 평가

In [18]:
kn_standard = KNeighborsClassifier()
kn_standard.fit(X_train_standard, y_train)
print('---- StandardScaler 결과 ----')
print("train : ", kn_standard.score(X_train_standard, y_train))
print('test  : ', kn_standard.score(X_test_standard, y_test))

---- StandardScaler 결과 ----
train :  0.8581460674157303
test  :  0.8100558659217877


### 5.3.3 MinMaxScaler 평가

In [19]:
kn_min_max = KNeighborsClassifier()
kn_min_max.fit(X_train_min_max, y_train)
print('---- MinMaxScaler 결과 ----')
print("train : ", kn_min_max.score(X_train_min_max, y_train))
print('test  : ', kn_min_max.score(X_test_min_max, y_test))

---- MinMaxScaler 결과 ----
train :  0.8623595505617978
test  :  0.8212290502793296


처리 속도는 비슷해 보이지만 과적합과 예측력이 좋아진 것을 알 수 있다. 

## 5.4 Ensemble
### 5.4.1 voting
* svc(rbf), KNeighbors 평가

In [21]:
rbf = SVC(kernel='rbf', probability=True)
kn = KNeighborsClassifier()
vo = VotingClassifier(estimators=[('svc', rbf), ('knn', kn)], voting='soft')
vo.fit(X_train, y_train)
print('---- Voting 결과 ----')
print('train : ', vo.score(X_train, y_train))
print('test  : ', vo.score(X_test, y_test))

---- Voting 결과 ----
train :  0.776685393258427
test  :  0.659217877094972


### 5.4.2 StandardScaler 평가

In [22]:
vo_standard = VotingClassifier(estimators=[('svc', rbf), ('knn', kn)], voting='soft')
vo_standard.fit(X_train_standard, y_train)
print('---- StandardScaler 결과 ----')
print("train : ", vo_standard.score(X_train_standard, y_train))
print('test  : ', vo_standard.score(X_test_standard, y_test))

---- StandardScaler 결과 ----
train :  0.8370786516853933
test  :  0.8212290502793296


### 5.4.3 MinMaxScaler 평가

In [23]:
vo_min_max = VotingClassifier(estimators=[('svc', rbf), ('knn', kn)], voting='soft')
vo_min_max.fit(X_train_min_max, y_train)
print('---- MinMaxScaler 결과 ----')
print("train : ", vo_min_max.score(X_train_min_max, y_train))
print('test  : ', vo_min_max.score(X_test_min_max, y_test))

---- MinMaxScaler 결과 ----
train :  0.8412921348314607
test  :  0.8100558659217877


이전과 동일하게 과적합, 예측력이 좋아진다. 

## 5.5 RandomForestClassifier
### 5.5.1 스케일 전 평가

In [24]:
rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
print('---- RandomForest 결과 ----')
print('train : ', rfc.score(X_train, y_train))
print('test  : ', rfc.score(X_test, y_test))

---- RandomForest 결과 ----
train :  0.9845505617977528
test  :  0.7932960893854749


### 5.5.2 StandardScaler 평가

In [25]:
rfc_standard = RandomForestClassifier()
rfc_standard.fit(X_train_standard, y_train)
print('---- StandardScaler 결과 ----')
print("train : ", rfc_standard.score(X_train_standard, y_train))
print('test  : ', rfc_standard.score(X_test_standard, y_test))

---- StandardScaler 결과 ----
train :  0.9845505617977528
test  :  0.7932960893854749


### 5.5.3 MinMaxScaler 평가

In [26]:
rfc_min_max = RandomForestClassifier()
rfc_min_max.fit(X_train_min_max, y_train)
print('---- MinMaxScaler 결과 ----')
print("train : ", rfc_min_max.score(X_train_min_max, y_train))
print('test  : ', rfc_min_max.score(X_test_min_max, y_test))

---- MinMaxScaler 결과 ----
train :  0.9845505617977528
test  :  0.7932960893854749


랜덤 포레스트는 이전 모델과 다르게 스케일의 영향이 적은 것으로 나온다. 그래서 tree 계열은 따로 스케일 할 필요가 없다. 

## 5.6 GBM
### 5.6.1 스케일 전 평가

In [27]:
gbc = GradientBoostingClassifier()
gbc.fit(X_train, y_train)
print('---- GradientBoosting 결과 ----')
print('train : ', gbc.score(X_train, y_train))
print('test  : ', gbc.score(X_test, y_test))

---- GradientBoosting 결과 ----
train :  0.9030898876404494
test  :  0.8324022346368715


### 5.6.2 StandardScaler 평가

In [28]:
gbc_standard = GradientBoostingClassifier()
gbc_standard.fit(X_train_standard, y_train)
print('---- StandardScaler 결과 ----')
print("train : ", gbc_standard.score(X_train_standard, y_train))
print('test  : ', gbc_standard.score(X_test_standard, y_test))

---- StandardScaler 결과 ----
train :  0.9030898876404494
test  :  0.8324022346368715


### 5.6.3 MinMaxScaler 평가

In [29]:
gbc_min_max = GradientBoostingClassifier()
gbc_min_max.fit(X_train_min_max, y_train)
print('---- MinMaxScaler 결과 ----')
print("train : ", gbc_min_max.score(X_train_min_max, y_train))
print('test  : ', gbc_min_max.score(X_test_min_max, y_test))

---- MinMaxScaler 결과 ----
train :  0.9030898876404494
test  :  0.8324022346368715


그래디언 부스팅은 평가점수는 높아졌지만 과적합 수치는 올라갔다. 