## 라이브러리

In [3]:
import math
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm

from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score 


# 회귀분석
from sklearn.linear_model import LinearRegression

# 독립변수 선정
from pandas.plotting import scatter_matrix
from scipy.stats.stats import pearsonr
import seaborn as sns

# 다중 공선성 문제
from statsmodels.stats.outliers_influence import variance_inflation_factor

# 로지스틱 회귀분석
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelBinarizer

# 릿지, 라쏘
from sklearn.linear_model import Ridge, Lasso, ElasticNet

# 규제
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 하이퍼 파라미터 튜닝
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

# 의사결정나무
from sklearn.tree import DecisionTreeClassifier
from dtreeplt import dtreeplt
from sklearn.tree import DecisionTreeRegressor
from graphviz import Source
from sklearn.tree import export_graphviz

# 인코딩
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OrdinalEncoder
from sklearn.preprocessing import OneHotEncoder

# 나이브 베이즈
from sklearn.naive_bayes import GaussianNB

# 서포트 벡터 머신
from sklearn.svm import LinearSVC
from sklearn.svm import LinearSVR
from sklearn.svm import SVC
from sklearn.svm import SVR
from sklearn.datasets import make_moons

# 앙상블
from sklearn.ensemble import VotingClassifier
from sklearn.ensemble import VotingRegressor
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import BaggingRegressor

# 랜덤 포레스트
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import ExtraTreesRegressor

# 부스팅
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
import xgboost

## 성능 확인
- 회귀: RMSE
- 분류: roc_auc

In [None]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import mean_squared_error
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import log_loss
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import roc_curve


mae = sum( abs(y_pred - y_test) / len(y_pred))
rmse = math.sqrt( sum((y_pred - y_test)**2) / len(y_pred) )
mape = ((abs(y_pred - y_test)/y_pred)*100).mean()
rmse = mean_squared_error(y_pred, y_test)
rmse = math.sqrt(mean_squared_error(y_pred, y_test))
print('MAE: ', mae)
print('MAE: ', mape)
print('MSE: ', mse)
print('MAE: ', rmse)

#######################################################

from sklearn.model_selection import cross_val_score 
scores = cross_val_score(model, x, y, scoring='neg_mean_squared_error',cv=5)
scores.mean()

######################################################

print("학습 집합 정확도: {:.3f}".format(model.score(x_train, y_train)))
print("테스트 집합 정확도: {:.3f}".format(model.score(x_test, y_test)))

####################################################### 

print("테스트 집합 AUC 점수: {:.3f}".format(roc_auc_score(y_test, y_pred)))
scores = cross_val_score(model, x, y, scoring='roc_auc',cv=5)
scores.mean()


# 2주차 회귀분석 (회귀!)
지도 학습 방안 중 하나이며, 수치를 예측하는 것에 활용
- 모든 데이터에 대해 오차를 계산하고 오차의 합을 최소로 만드는 직선을 찾기
- 관찰된 연속형 변수들인 독립변수와 종속변수 사이의 상관관계에 따른 수학적 모델인 선형 관계식을 구하여 어떤 독립변수가 주어졌을 때 이에 따른 종속변수의 값을 예측함
- 종속변수: 연속형인 수치 변수 / 독립변수: 연속형, 범주형인 수치 데이터
- 독립변수 하나: 단순 회귀 분석 / 여러개: 다중 회귀 분석
- 상관관계가 있다 != 인과관계가 있다

In [None]:
# statsmodels 이용
model = sm.OLS(y, x).fit()
pred = model.predict(x)
model.summary()

### 결정계수 R-squared
- 종속변수의 총 변동에 대비해 회귀 모형이 얼마나 그 변동을 설명하는지 뜻함
- 범위: 0~1 => 1에 가까울수록 회귀 모형이 종속변수의 변동 많이 설명

### 다중 회귀 분석

In [None]:
model = sm.OLS(y, x).fit()
pred = model.predict(x)
model.summary()

### 수정결정계수 Adjusted R-squared
- 독립변수를 증가시켰음에도 불구하고 회귀모형의 설명력이 증가하지 않은 경우에는 오히려 값이 줄어듦

### 독립변수 선정
- 0.1 ~ 0.3 : 약한 상관관계
- 0.3 ~ 0.5 : 중간 상관관계
- 0.5 ~ 1.0 : 강한 상관관계

In [1]:
# scatter matrix
scatter_matrix(data_train, figsize=(6,6))

# 피어슨 상관관계
data.corr(method='pearson')

# 히트맵
cor = x_train.corr()
sns.heatmap(cor, annot=True, cmap=plt.cm.Reds)
plt.show()

NameError: name 'scatter_matrix' is not defined

### 공선성, 다중 공선성
- 공선성: 두 개 또는 그 이상의 독립변수들이 서로 밀접하게 상관되어 있는 경우
- 다중공선성 문제: 어떤 독립변수 쌍도 특별히 높은 상관성을 가지지 않아도 세개 또는 그 이상의 변수들 사이에 공선성 존재
- 판단: Variance Inflation Factor 1이 최저값이며 작을수록 좋지만 10이하면 문제없음

In [None]:
def calc_vif(inputs):
    vif = pd.DataFrame()
    vif["variables"] = inputs.columns
    vif["VIF"] = [variance_inflation_factor(inputs.values, i) for i in range(inputs.shape[1])]
    return(vif)

calc_vif(x)

### 변수 제거를 통한 독립변수 선정
독립변수들의 조합에 따라 입력후보 변수를 선정하고 이때의 성과를 측정하여 가장 성과가 좋은 변수의 조합 찾기
- 후진제거법
- 1) 모든 독립변수를 가지고 모델을 학습한다.
- 2) 독립변수 중에서 유의하지 않으며 가장 p-value 값이 높은 독립변수를 제거한다.
- 3) 2)에서 제거된 독립변수외의 다른 독립변수를 가지고 모델을 학습한다.
- 4) 2)-3)을 반복하며, 모든 독립변수가 유의하면 멈춘다

In [None]:
model = sm.OLS(y,x).fit()
model.pvalues

x = x.drop(['columns'], axis=1)
model = sm.OLS(y,x).fit()
model.pvalues

# 하나씩 제거해가면서 학습

### train test split

In [None]:
from sklearn.model_selection import trian_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y,
                                                   test_size=0.2,
                                                   random_state=None) 

### 교차검증
- 데이터 집합을 체계적으로 바꿔나가면서 모든 데이터에 대해 모형의 성과를 측정하는 방식
- 전체 데이터 집합을 학습 집합과 테스트 집합으로 나눠서 모형 학습에 학습 데이터 집합을 사용하고 학습된 모형의 성과를 평가하는 테스트 집합을 활용

In [None]:
from sklearn.model_selection import cross_val_score 
scores = cross_val_score(model, x, y, scoring='neg_mean_absolute_error',cv=5)
scores.mean()

# 3주차 로지스틱 회귀분석 (분류!)
1. 분류: 미리 정의된 여러 개의 범주(category or class) 중 하나에 할당
2. 비용 함수: 기계학습 모형이 학습하면서 최소화해야 하는 함수
3. 오차 행렬: 분류 문제의 성과를 측정하기 위한 기본적인 데이터
4. 정확도: 실제 양성, 음성인 데이터를 예측에서도 양성, 음성으로 정확하게 분류한 비율

### 로지스틱 회귀 분석이 범주를 분류하는 결정경계 시각화

In [None]:
# 입력변수 하나일때
X_new = np.linspace(6,32,1000).reshape(-1,1)
y_proba = log_reg.predict_proba(X_new)
plt.plot(X_new, y_proba[:,1], "g-", label="Yes")
plt.plot(X_new, y_proba[:,0], "b--", label="No")


# 입력변수 두개일때
y_predict = log_reg.predict(X)
X['predict'] = y_predict
X_1 = X[X['predict']==1].copy()
X_0 = X[X['predict']==0].copy()
plt.plot(X_1['Frequency'], X_1['Recency'], 'bo')
plt.plot(X_0['Frequency'], X_0['Recency'], 'ro')
plt.xlabel('Purchase Frequency')
plt.ylabel('Purchase Recency')

In [None]:
## smi로 회귀분석 ##
ogit_model=sm.Logit(y,x)
result=logit_model.fit()
print(result.summary2())

### 다항 로지스틱 회귀
- LogisticRegression: 이진 분류에 사용되지만
- multi_class='multinomial': 다항 로지스틱 회귀에 활용

In [None]:
softmax_reg = LogisticRegression(multi_class="multinomial", solver="lbfgs")
softmax_reg.fit(X_train,y_train)

y_prob = softmax_reg.predict_proba(X_test)

lb = LabelBinarizer()
y_p = lb.fit_transform(y_test)

log_loss(y_p, y_prob)
softmax_reg.score(X_test,y_test)

### 분류 성과 측정

In [None]:
## 정밀도와 채현율의 상충관계 ##
from sklearn.metrics import precision_recall_curve
y_score = log_reg.predict_proba(X_test)
y_score[:,1] # 1일 확률
precisions, recalls, thresholds = precision_recall_curve(y_test, y_score[:,1])

def plot_precision_recall_vs_threshold(precisions, recalls, threholds):
    plt.plot(thresholds, precisions[:-1], "b--", label="Precision")
    plt.plot(thresholds, recalls[:-1], "g--", label="Recall")
    plt.vlines(x=0.5,ymin=0,ymax=1)
    plt.legend(loc='best')

plot_precision_recall_vs_threshold(precisions, recalls, thresholds)
plt.show()
               
               
## ROC 곡선 ##
from sklearn.metrics import roc_curve
fpr, tpr, thresholds = roc_curve(y_test, y_score[:,1])
def plot_roc_curve(fpr, tpr, label=None):
    plt.plot(fpr, tpr, linewidth=2, label=label)
    plt.plot([[0],[1]], 'k--')
    plt.xlabel("False Positive Rate")
    plt.ylabel("True Positive Rate")
    plt.grid(which='major', axis='both', alpha=0.5)
plot_roc_curve(fpr, tpr)
plt.show()

# 4주차 릿지, 라쏘, 엘라스틱넷 회귀 분석 (회귀!)

1. 과적합(Overfitting): 학습한 모형이 학습 데이터에 과하게 적합되어 학습에 사용되지 않은 테스트 데이터는 정확하게 예측하거나 분류하지 못하는 경우
2. 규제(Regularization): 모형을 단순하게 하고 과대적합의 위험을 감소시키기 위해 모형에 제약을 가하는 것
3. 하이퍼파라미터(Hyper parameter): 모형에 따라 분석가가 지정해 주어야 하는 값이며, 최적의 값을 분석가가 찾아야하기에 튜닝 파라미터(tuning parameter)라고 불리기도 함
4. 그리드 탐색: 적합한 하이퍼파라미터를 탐색하기 위해서 가능한 모든 하이퍼파라미터 조합에 대해 성과를 측정하여 최적의 하이퍼파라미터 조합을 찾음

### 규제 있는 회귀 모형들

In [None]:
## 릿지 회귀 : L2 노름이 규제로 추가된 선형 회귀 모형 ##
import sklearn.linear_model import Ridge
ridge_reg = Ridge(alpha=0)
ridge_reg.fit(x,y)
y_pred = ridge_reg.predict(x)

In [None]:
## 라쏘 회귀 : L1 노름이 규제로 추가된 선형 회귀 모형 ##
import sklearn.linear_model import Lasso
lasso_reg = Lasso(alpha=0)
lasso_reg.fit(x,y)
y_pred = lasso_reg.predict(x)

In [None]:
## 엘라스틱넷 회귀 : 릿지회귀+라쏘회귀 (혼합비율 gamma 사용) ##
import sklearn.linear_model import ElasticNet
elastic_net = ElasticNet(alpha=1, l1_ratio=0.5)   # gamma=0:릿지 / gamma=1:라쏘
elastic_net.fit(x,y)
y_pred = elastic_net.predict(x)

### 규제
- 규제가 있는 회귀 모형은 변수의 범위에 따라 민감하게 반응하므로 범위 일치시켜주기

In [None]:
# StandardScaler : 평균 0 표준편차 1 인 표준정규분포
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
x = pd.DataFrame(scaler.fit_transform(x))


# MinMaxScaler : 최댓값,최솟값을 이용해 0과 1사이의 범위로 변환
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
x = pd.DataFrame(scaler.fit_transform(x))

In [None]:
## 활용 ##

# 기울기
ridge_reg.coef_
lasso_reg.coef_
elastic_net.coef_

# 확인
from regressors import stats
stats.summary(ridge_reg, x, y)
stats.summary(lasso_reg, x, y)
stats.summary(elastic_net, x, y)

# 성능 확인
from sklearn.metrics import mean_squared_error
import math
rmse_ridge = math.sqrt(mean_squared_error(y_ridge, y_test))
rmse_lasso = math.sqrt(mean_squared_error(y_lasso, y_test))
rmse_elastic = math.sqrt(mean_squared_error(y_elastic, y_test))

### 하이퍼 파라미터 튜닝
- 최적의 하이퍼 파라미터 조합 찾기

In [None]:
## 그리드 탐색 ##
from sklearn.model_selection import GridSearchCV
param_grid = {'alpha':[0.1,0.5,1,1.5,2], 'l1_ratio':[0,0.25,0.5,0.75,1]}
grid_search = GridSearchCV(elastic_net,
                           param_grid,
                           cv=5,
                           scoring='neg_mean_squared_error',
                           return_train_score=True)
grid_search.fit(x,y)
grid_search.best_params_     # 최적의 파라미터
grid_search.best_estimator_  # 최적의 파라미터 조합



## 랜덤 탐색 ##
from scipy.stats as stats
from sklearn.utils.fixes import loguniform
from sklearn.model_selection import RandomizedSearchCV

# 값으로 지정
param_list = {'alpha':[0.1,0.5,1,1.5,2], 'l1_ratio':[0,0.25,0.5,0.75,1]}
# 균등분포로 지정
param_list = {'alpha':stats.uniform(0,1), 'l1_ratio':loguniform(1e-4, 1e0)}
n_iter = 20     # 지정된 수만큼 이 중에서 무작위로 성과 측정
rand_search = RandomizedSearchCV(model,
                                 param_distributions = param_list,
                                 cv = 5,
                                 n_iter = n_iter,
                                 scoring = 'neg_mean_squared_error',
                                 return_train_score=True)
rand_search.fit(x,y)
rand_search.best_params_
rand_search.best_estimator_


# 조합마다 평가 (조합마다의 성과가 rmse로 출력)
cvres = rand_serach.cv_results_
for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
    print(np.sqrt(-mean_score),params)

In [None]:
## 로지스틱 선형회귀에서의 하이퍼 파라미터 튜닝 : L2노름을 기본 규제 ##
log_reg = LogisticRegression(solver='newton-cg')
param_grid = [{'C':[1e-2,0.1,0.3,0.5,0.7,0.9,1,5,10,20]}]
log_reg = LogisticRegression(C=grid_search.best_params_['C'].fit(x,y))

# 5주차 의사결정나무 (분류!)
대표적인 분류 기법의 하나, 목표 변수의 범주를 기준으로 동일한 범주의 데이터들끼리 분류하는 규칙을 반복적으로 만들어나가는 방안

1. 뿌리 노드(root node): 의사결정나무의 시작점으로 모든 데이터가 포함되는 노드이다.
2. 말단 노드(leaf node): 의삭결정나무 분할 규칙에 의해서 더 이상 나누어 지지 않는 노드이며, 따라서 자식 노드를 갖지 않는다.
3. 지니 불순도: 하나의 노드에 서로 다른 범주의 데이터가 섞여있는 정도를 나타내는 지표
4. 엔트로피: 열역학에서 분자의 무질서함을 측정하는 용어이지만, 정보이론에서 메시지의 평균 정보 양을 측정. 의사결정나무에서는 한 노드의 불순도 측정방법으로 사용
5. OneHotEncoding: 범주형 변수를 수치형 변수로 변경하는 방법 중 하나로, 한 특성만 1이고 나머지는 0으로 변경하는 방안

In [None]:
## 의사결정나무 ##
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier(max_depth=2)
tree.fit(x,y)

### 시각화

In [None]:
# 나무 시각화
from dtreeplt import dtreeplt
dtree = dtreeplt(model=tree, feature_names=x.columns, target_names=['Yes','No'])
fig = dtree.view()

# 점 시각화
x['predict'] = tree.predict(x)
x_yes = x[x['predict'] == 'Yes'].copy()
x_no = x[x['predict'] == 'No'].copy()
plt.plot(x_yes[], x_yes[], 'bo')
plt.plot(x_no[], x_no[], 'ro')

In [None]:
## max_depth수에 따른 AUC 평균값 변화 ##

score_list = []
I = range(2,11)

for i in I:
    tree_cv = DecisionTreeClassifier(criterion='entropy', max_depth=i)
    scores = cross_val_score(tree_cv, X_ohe, y, scoring='roc_auc', cv=5)
    score_list.append(scores.mean())
    print("AUC score with max_depth {}: {:.3f}".format(i,scores.mean()))

### 순수도
하나의 노드에 서로 다른 범주의 데이터가 섞여있는 정도를 나타내는 지표
- 어떤 규칙으로 나누었을 때 자식 노드의 순수도가 가장 높아지는 지 파악하기 위해 모든 분할 실시
- 결측값 존재 = 하나의 범주로 처리
- 의사결정나무가 최대로 분할된 경우: 최대 나무

In [None]:
# 지니 불순도 : 낮을수록 좋음
tree = DecisionTreeClassifier(criterion='gini')

# 엔트로피 : 낮을수록 좋음
tree = DecisionTreeClassifier(criterion='entropy')

### 규제 매개변수들
- 과적합을 피하기 위해 규제해야됨
- max_depth : 최대깊이 (줄이면 과적합 위험 감소)
- min_samples_split : 최소 데이터 수 (해당 노드가 자식 노드로 분할되기 위해 가져야 하는 최소 데이터 수)
- min_samples_leaf : 말단 노드 최소 데이터 수 (말단 노드가 가지고 있어야 할 최소 데이터 수)
- min_weight_fraction_leaf : 말단 노드 최소 데이터 수 (말단 노드가 가지고 있어야 할 전체 데이터 대비 비율)
- max_leaf_nodes : 말단 노드 최대 수 (의사결정나무가 가질 수 있는 말단 노드의 최대 수)

### 입력 변수 중요도 및 막대그래프

In [None]:
print("입력 변수 중요도:\n{}".format(tree.feature_importances_))

def plot_feature_importances(model):
    n_features = model.feature_importances_.shape[0]
    plt.barh(range(n_features), model.feature_importances_, align='center')
    plt.yticks(np.arange(n_features), x.columns)
    plt.xlabel("Feature Importances")
    plt.ylabel("Features")
    plt.ylim(-1, n_features)
    
plot_feature_importances(tree)

### 수치를 예측하는 회귀 문제에도 적용 가능

In [None]:
from sklearn.tree import DecisionTreeRegressor
tree_reg = DecisionTreeRegressor()
tree_reg.fit(x,y)

# 시각화
from graphviz import Source
from sklearn.tree import export_graphviz
export_graphviz(tree_reg, out_file='regression_tree.dot',
                feature_names=x.columns,
                rounded=True,
                filled=True)
Source.from_file('regression_tree.dot')

### 범주형 변수 인코딩
수치값을 갖지 않는 범주형 변수들은 수치값을 갖는 형태로 변환하여 기계학습에 활용
- 이진형 (Binary): 두 가지 범주 중에서만 값을 가지는 경우 (Yes/No, True/False)

=> 변수가 두가지 범주의 값만을 가지므로 하나의 범주는 0으로 나머지 범주는 1로 변환
- 서열형 (Ordinal): 범주 값이 순서를 갖는 경우 (성적: A, B, C, D, 경제수준: 상, 중, 하)

=> 범주의 순서가 의미가 있기 때문에 순서에 따라서 범주에 정수 혹은 실수의 값 지정

- 명목형 (Nominal): 수치적인 의미는 없고 대상을 구분하기 위해 범주를 부여한 경우 (성별: 남, 녀, 혈액형: A, B, O, AB)

=> One Hot Encoding

In [None]:
# 이진형 (아래 코드 둘 중 아무거나)
data['gender'] = data['sex'].replace({'M':0, 'F':1})
data['gender'] = (data['sex'] == 'F').astype(np.int)


# 서열형 (각각지정 / LabelEncoder / OrdinalEncoder / map)
data['Mcode'] = [    'L' if x <= 206468
                else 'H' if x>1022440
                else 'M' for x in data['Monetary']]
data.Mcode.value_counts()

from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
data['Mcode_ord'] = label_encoder.fit_transform(data['Mcode'])

from sklearn.preprocessing import OrdinalEncoder
ordinal_encoder = OrdinalEncoder()
data['Mcode_ord_3'] = ordinal_encoder.fit_transform(data.Mcode.values.reshape(-1,1))

ord = {'H':2, 'M':1, 'L':0}
data['Mcode_ord_2'] = data.Mcode.map(ord)


# 명목형
x_ohe = pd.get_dummies(x)

from sklearn.preprocessing import OneHotEncoder
ohc = OneHotEncoder()
ohe = ohc.fit_transform(data.Mcode.values.reshape(-1,1)).toarray()
dfOneHot = pd.DataFrame(ohe, columns=['Mcode_'+str(ohc.categories_[0][i])
                                     for i in range(len(ohc.categories_[0]))])
data = pd.concat([data, dfOneHot], axis=1)

# 6주차 나이브베이스 (분류!)
1. 나이브 베이스 알고리즘: 베이스 정리를 활용하여 현재는 알지 못하는 어떤 사건이 일어났을 때 다른 사건이 발생할 확률을 학습하는 방안
2. 지지 벡터(Support Vector): 서포트 벡터 머신에서 마진의 경계를 이루는 부분
3. 마진 : 서포트 벡터 머신에서 두 가지 범주에 대한 지지 벡터 사이의 넓이이며, 마진이 큰 서포트 벡터 머신 분류 모형을 찾도록 학습함
4. 마진 오류 : 완벽하게 분류되는 하드 마진 분류가 아니라, 완벽하게 분류하기 어려운 소프트 마진 분류에서 잘못 분류된 데이터가 어느 정도의 오차를 갖는 지를 나타냄
5. 커널 변환 : 선형 분류 모형으로 분류가 어려운 데이터를 변환하여 분류가 손쉽게 이루어지도록 함

### 나이브 베이즈
- GaussianNB: 연속적인 데이터에 적용
- BernoulliNB: 이진 데이터에 적용
- MultinomialNB: 어떤 것을 헤아린 정수 카운트 데이터에 적용

In [None]:
## 이진 분류 ##
gnb = GaussianNB()
gnb.fit(x_train, y_train)
y_pred = gnb.predict(x_test)
gnb.score(x_test, y_test)

y_prob = gnb.predict_proba(x_test)

from sklearn.metrics import log_loss
log_loss(y_test, y_pred)

### 서포트 벡터 머신
- LinearSVM : 마진을 가장 크게 하는 선형분류 모형을 찾아낼 수 있음
- 하드 마진 분류 : 두가지 범주를 완벽하게 분류
- 소프트 마진 분류 : 마진을 폭을 가능한 넓게 유지하고 마진 오류 사이에 적절한 균형 잡기
- SVM도 스케일에 민감하므로 scaler해주기 -> StandardScaler
- SVM 모델이 과대적합이라면 C를 감소시켜 모델 규제 (C가 낮을수록 마진폭 넓음)
- LinearSVC가 SVC(kernel='linaer') 보다 빠름

In [None]:
from sklearn.svm import LinearSVC

scaler = StandardScaler()
x_s = pd.DataFrame(scaler.fit_transform(x))
x_ohe = pd.get_dummies(x_s)
x_ohe.head()

linear_svm = LinearSVC(C=1)
linear_svm.fit(x_train, y_train)

### 서포트 벡터 머신 - 다항식 커널
- 낮은 차수의 다항식은 매우 복잡한 비선형 데이터 집합을 잘 분류하지 못할 수 있으며 높은 차수의 다항식은 굉장히 많은 특성을 추가하므로 모형을 느리게 만듦
- 커널 트릭을 통해 실제로는 특성을 추가하지 않으면서 다항식 특성을 많이 추가한 것과 같은 결과를 얻을 수 있음
- kernel='poly' : 다항실 커널 활용
- degree=3 : 3차원인 다항식 특성 추가하는 것과 같은 효과
- coef0 : 모형이 높은 차수와 낮은 차수에 얼마나 영향을 받을지를 조절
- C : 마진 오류를 조절

In [None]:
from sklearn.datasets import make_moons
x, y = make_moons(n_samples=100, noise=0.15)
svm_clf = SVC(kernel='poly', degree=3, coef0=1, C=5)


## 시각화 ##
Z = svm_clf.predict(np.c_[xx.ravel(), yy.ravel()])
## np.ravel() makes multiple dimension array into one dimension
Z = Z.reshape(xx.shape)
plt.contourf(xx,yy,Z,cmap=plt.cm.coolwarm, alpha=0.8)
plt.scatter(U2[:,0],U2[:,1],c=y)
plt.title("d = 3, coef0 = 1, C = 5")
plt.show()

### 서포트 벡터 머신 - RBF 커널
- Gaussian RBF 커널: 데이터 집합에 임의의 랜드마크를 설정하고 각 데이터가 랜드마크와 얼마나 유사한지를 측정하여 각 데이터의 값을 랜드마크와의 유사도로 변환하는 방안
- 랜드마크와 같은 위치일 경우 1, 아주 멀리 떨어진 경우는 0

In [None]:
rbf_svm_clf = SVC(kernel="rbf", gamma=5, C=0.001) 
X_train, X_test, y_train, y_test = train_test_split(X, y) 
rbf_svm_clf.fit(X_train,y_train)

### 서포트 벡터 머신 회귀

In [None]:
from sklearn.svm import SVR
svm_poly_reg = SVR(kernel="poly", degree=2, coef0=1, tol=0.001, C=5, epsilon=0.1) 
svm_poly_reg.fit(X_train,y_train)
y_pred = svm_poly_reg.predict(X_test)

# 7주차 앙상블과 랜덤포레스트
1. 앙상블: 분류 및 예측 알고리즘을 통해 각각 모형을 만든 후에 각 모형으로부터 나온 결과를 취합하여 최종 결과를 내리는 방안
2. 배깅과 페이스팅: 학습데이터에서 무작위로 데이터를 선택해서 여러 개의 부분집합을 만들고 이를 같은 알고리즘을 사용하여 여러 개의 모형을 학습하여 결과를 취합하는 방안. 하나의 부분집합에 데이터 중복을 허용하는 게 배깅 방안
3. 랜덤 포레스트: 의사결정나무를 배깅하는 방안을 사용해도 되지만 의사결정나무에 맞게 다양한 요소가 고려된 방안
4. 부스팅: Boosting은 여러 개의 학습모형을 연결하여 앞의 모형을 보완해 가면서 뒤로 갈수록 더욱 강한 모형을 만드는 앙상블 방안

### 투표 기반 앙상블
- 직접 투표 : 여러 모형의 결과를 모아서 다수결로 결정하는 방안
- 간접 투표 : 모든 분류기가 클래스의 확률 예측할 수 있으면 개별 분류기의 예측을 평균내어 확률이 가장 높은 클래스를 예측 / 분류 결과를 yes/no, 1/0이 아니라 yes 혹은 no일 확률로 구하여 각 분류모형으로부터 나온 확률값의 평균을 취해 최종 결정을 하는 방안

In [None]:
## 직접 투표 ##
from sklearn.ensemble import VotingClassifier
log_clf = LogisticRegression(max_iter=100000)
svm_clf = SVC()
nb_clf = GaussianNB()
voting_clf = VotingClassifier(estimators = [('log', log_clf), 
                                            ('svm', svm_clf),
                                            ('nb', nb_clf)], voting='hard')
voting_clf.fit(x_train, y_train)
for clf in (log_clf, svm_clf, nb_clf, voting_clf):
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))



## 간접 투표 ##
from sklearn.ensemble import VotingClassifier
log_clf = LogisticRegression(max_iter=100000)
svm_clf = SVC(probability=True)
nb_clf = GaussianNB()
voting_clf = VotingClassifier(estimators = [('log', log_clf), 
                                            ('svm', svm_clf),
                                            ('nb', nb_clf)], voting='soft')
voting_clf.fit(x_train, y_train)
for clf in (log_clf, svm_clf, nb_clf, voting_clf):
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

### 배깅과 페이스팅
- 배깅: 한 집합에 데이터 중복 허용 => bootstrap=True
- 페이스팅: 한 집합에 데이터 중복 불허용 => bootstrap=False
- 분류 문제에서는 하드 보팅 방식처럼 다수결의 원칙, 수치를 예측하는 회귀문제는 분류 모형 예측치의 평균값 사용
- 부분집합데이터가 편향된 데이터일 수 있지만 앙상블을 통해 편향과 분산을 감소시킬 수 있음
- n_jobs : 훈련과 에측에 사용할 CPU 코어 수 지정 (n_jobs=-1 : 가용한 모든 CPU 코어 사용)
- max_features : 각 모형에 활용되는 변수의 최대 비율
- bootstrap_features=True : 같은 변수를 중복해서 입력
- 랜덤패치 : 데이터와 변수를 모두 무작위로 선택하여 학습
- 랜덤 서브스페이스 : 모형이 데이터는 전부사용하지만 변수만 무작위로 선택하여 학습bootstrap=False, max_samples=1.0, bootstrap_features=True, max_features<1.0

In [None]:
from sklearn.ensemble import BaggingClassifier
bag_clf = BaggingClassifier(DecisionTreeClassifier(),
                            n_estimators=500,
                            max_samples=100,
                            bootstrap=True,
                            n_jobs=-1)
bag_clf.fit(x_train, y_train)
y_pred = bag_clf.predict(x_test)

### 랜덤 포레스트
RandomForestClassifier() == BaggingClassifier(DecisionTreeClassifier)
- max_features = 'auto' : 전체 변수 수에 root를 씌운 값 지정

In [None]:
from sklearn.ensemble import RandomForestClassifier
rnd_clf = RandomForestClassifier(n_estimators = 500,
                                 max_leaf_nodes = 16,
                                 max_features = 'auto',
                                 max_samples=0.5,
                                 bootstrap = True,
                                 n_jobs=-1)


bag_clf = BaggingClassifier(DecisionTreeClassifier(max_leaf_nodes = 16),
                            n_estimators = 500,
                            max_features = 'auto',
                            max_samples=0.5,
                            bootstrap = True,
                            n_jobs = -1)

# 변수의 중요도 산출
for name, score in zip(x.columns, rnd_clf.feature_importances_):
    print(name, score)

### 엑스트라 트리
- 무작위로 선택한 변수 중에서 무작위로 분할

In [None]:
from sklearn.ensemble import ExtraTreesClassifier

et_clf = ExtraTreesClassifier(n_estimators=500,
                              max_leaf_nodes=16,
                              max_features='auto',
                              n_jobs=-1)
et_clf.fit(x_train, y_train)
y_pred = et_clf.predict(x_test)
accuracy_score(y_test, y_pred)

### 수치 예측 문제에 적용 가능

In [None]:
from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor

tree_rnd = RandomForestRegressor(n_estimators=500,
                                 max_leaf_nodes=16,
                                 max_features='auto',
                                 max_samples=0.5,
                                 bootstrap=True,
                                 n_jobs=-1)

tree_et = ExtraTreesRegressor(n_estimators=500,
                              max_leaf_nodes=16,
                              max_features='auto',
                              max_samples=0.5,
                              bootstrap=True,
                              n_jobs=-1)

### 부스팅
- 여러개의 학습모형을 연결하여 앞의 모형을 보완해 가면서 뒤로 갈수록 더욱 강한 모형 만들기
- 에이다 부스트 : 이전 모형이 잘 맞추진 못한 데이터에 대해서 가중치 높이기 (학습률 값이 크면 더 많은 가중치 변화를 가져옴)
- 그래디언트 부스트 : 반복마다 데이터의 가중치를 수정하는 대신 이전 모형이 만든 잔여 오차에 새로운 모형을 학습시킴 (분류/수치예측 모두 적용 가능)
- 확률적 그래디언트 부스트 : 학습 데이터의 비율 지정
- 익스트림 그래디언트 부스트 : 젤 조음

In [None]:
## 에이다 부스트 ##
from sklearn.ensemble import AdaBoostClassifier

ada_clf = AdaBoostClassifier(DecisionTreeClassifier(max_depth=1),
                             n_estimators=200,
                             algorithm='SAMME.R',
                             learning_rate=0.5)



## 그래디언트 부스트 ##
from sklearn.ensemble import GradientBoostingRegressor

gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=3, learning_rate=1.0)
gbrt.fit(x,y)

errors = [math.sqrt(mean_squared_error(y_val, y_pred)) for y_pred in gbrt.staged_predict(X_val)]
bst_n_estimators = np.argmin(errors) + 1
print(bst_n_estimators)



## 익스트림 그래디언트 부스트 ##
import xgboost

xgb_reg = xgboost.XGBRegressor(max_depth=2, eta=1)
xgb_reg.fit(X_train, y_train, eval_set=[(X_val, y_val)],
            early_stopping_rounds=2)
y_pred = xgb_reg.predict(X_test)