In [1]:
#Gradient Boost algorithms
#Stump나 tree가 아닌 하나의 leaf부터 시작
# -*- coding:utf-8 -*-
from sklearn.datasets import load_iris
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV

import numpy as np

# 분류용 샘플 데이터 불러오기
iris = load_iris()
X, y, labels = iris.data, iris.target, iris.target_names

# 학습/테스트 데이터셋 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1, stratify=y)

# 데이터 전처리(표준화, Standardization)
std = StandardScaler()
X_train_std = std.fit_transform(X_train)
X_test_std = std.transform(X_test)

# 그래디언트부스팅 + 그리드서치로 모델 학습
gb = GradientBoostingClassifier(random_state=1)
param_grid = [{'n_estimators': range(5, 50, 10), 'max_features': range(1, 4),
               'max_depth': range(3, 5), 'learning_rate': np.linspace(0.1, 1, 10)}]
gs = GridSearchCV(estimator=gb, param_grid=param_grid, scoring='accuracy', cv=5, n_jobs=-1)
gs.fit(X_train_std, y_train)

# 그리드서치 학습 결과 출력
print('베스트 하이퍼 파라미터: {0}'.format(gs.best_params_))
print('베스트 하이퍼 파라미터 일 때 정확도: {0:.2f}'.format(gs.best_score_))

# 최적화 모델 추출
model = gs.best_estimator_

# 테스트세트 정확도 출력
score = model.score(X_test_std, y_test)
print('테스트세트에서의 정확도: {0:.2f}'.format(score))

# 테스트세트 예측 결과 샘플 출력
predicted_y = model.predict(X_test_std)
for i in range(10):
    print('실제 값: {0}, 예측 값: {1}'.format(labels[y_test[i]], labels[predicted_y[i]]))

베스트 하이퍼 파라미터: {'learning_rate': 0.30000000000000004, 'max_depth': 3, 'max_features': 1, 'n_estimators': 5}
베스트 하이퍼 파라미터 일 때 정확도: 0.96
테스트세트에서의 정확도: 0.98
실제 값: virginica, 예측 값: virginica
실제 값: setosa, 예측 값: setosa
실제 값: setosa, 예측 값: setosa
실제 값: virginica, 예측 값: versicolor
실제 값: versicolor, 예측 값: versicolor
실제 값: versicolor, 예측 값: versicolor
실제 값: virginica, 예측 값: virginica
실제 값: versicolor, 예측 값: versicolor
실제 값: virginica, 예측 값: virginica
실제 값: setosa, 예측 값: setosa


In [2]:
#NearestNeighbor algorithms
#유유상종, 새로운 데이터를 입력 받았을때 가장 가까이 있는 것이 무엇인지를 중심으로 새로운 데이터를 종류를 정해주는 알고리즘
# -*- coding:utf-8 -*-
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV

# 분류용 샘플 데이터 불러오기
iris = load_iris()
X, y, labels = iris.data, iris.target, iris.target_names

# 학습/테스트 데이터셋 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1, stratify=y)

# 데이터 전처리(표준화, Standardization)
std = StandardScaler()
X_train_std = std.fit_transform(X_train)
X_test_std = std.transform(X_test)

# KNN + 그리드서치로 모델 학습
knn = KNeighborsClassifier()
param_grid = [{'n_neighbors': range(3, 10)}]
gs = GridSearchCV(estimator=knn, param_grid=param_grid, scoring='accuracy', cv=5, n_jobs=-1)
gs.fit(X_train_std, y_train)

# 그리드서치 학습 결과 출력
print('베스트 하이퍼 파라미터: {0}'.format(gs.best_params_))
print('베스트 하이퍼 파라미터 일 때 정확도: {0:.2f}'.format(gs.best_score_))

# 최적화 모델 추출
model = gs.best_estimator_

# 테스트세트 정확도 출력
score = model.score(X_test_std, y_test)
print('테스트세트에서의 정확도: {0:.2f}'.format(score))

# 테스트세트 예측 결과 샘플 출력
predicted_y = model.predict(X_test_std)
for i in range(10):
    print('실제 값: {0}, 예측 값: {1}'.format(labels[y_test[i]], labels[predicted_y[i]]))

베스트 하이퍼 파라미터: {'n_neighbors': 8}
베스트 하이퍼 파라미터 일 때 정확도: 0.96
테스트세트에서의 정확도: 0.93
실제 값: virginica, 예측 값: virginica
실제 값: setosa, 예측 값: setosa
실제 값: setosa, 예측 값: setosa
실제 값: virginica, 예측 값: versicolor
실제 값: versicolor, 예측 값: versicolor
실제 값: versicolor, 예측 값: versicolor
실제 값: virginica, 예측 값: virginica
실제 값: versicolor, 예측 값: versicolor
실제 값: virginica, 예측 값: virginica
실제 값: setosa, 예측 값: setosa


In [1]:
#KernelSupportVector
# -*- coding:utf-8 -*-
from sklearn.datasets import load_iris
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV

import numpy as np

# 분류용 샘플 데이터 불러오기
iris = load_iris()
X, y, labels = iris.data, iris.target, iris.target_names

# 학습/테스트 데이터셋 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1, stratify=y)

# 데이터 전처리(표준화, Standardization)
std = StandardScaler()
X_train_std = std.fit_transform(X_train)
X_test_std = std.transform(X_test)

# RBF 커널 서포트 벡터 머신 + 그리드서치로 모델 학습
svm = SVC()
param_grid = [{'C': np.linspace(0.1, 10, 100), 'gamma': np.linspace(0.1, 10, 100)}]
gs = GridSearchCV(estimator=svm, param_grid=param_grid, scoring='accuracy', cv=5, n_jobs=-1)
gs.fit(X_train_std, y_train)

# 그리드서치 학습 결과 출력
print('베스트 하이퍼 파라미터: {0}'.format(gs.best_params_))
print('베스트 하이퍼 파라미터 일 때 정확도: {0:.2f}'.format(gs.best_score_))

# 최적화 모델 추출
model = gs.best_estimator_

# 테스트세트 정확도 출력
score = model.score(X_test_std, y_test)
print('테스트세트에서의 정확도: {0:.2f}'.format(score))

# 테스트세트 예측 결과 샘플 출력
predicted_y = model.predict(X_test_std)
for i in range(10):
    print('실제 값: {0}, 예측 값: {1}'.format(labels[y_test[i]], labels[predicted_y[i]]))

베스트 하이퍼 파라미터: {'C': 0.9, 'gamma': 0.1}
베스트 하이퍼 파라미터 일 때 정확도: 0.96
테스트세트에서의 정확도: 0.98
실제 값: virginica, 예측 값: virginica
실제 값: setosa, 예측 값: setosa
실제 값: setosa, 예측 값: setosa
실제 값: virginica, 예측 값: versicolor
실제 값: versicolor, 예측 값: versicolor
실제 값: versicolor, 예측 값: versicolor
실제 값: virginica, 예측 값: virginica
실제 값: versicolor, 예측 값: versicolor
실제 값: virginica, 예측 값: virginica
실제 값: setosa, 예측 값: setosa


In [2]:
#Logistic Regression Algorithms
# -*- coding:utf-8 -*-
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import RobustScaler
from sklearn.model_selection import GridSearchCV

import numpy as np

# 분류용 샘플 데이터 불러오기
iris = load_iris()
X, y, labels = iris.data, iris.target, iris.target_names

# 학습/테스트 데이터셋 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1, stratify=y)

# 데이터 전처리(스케일 조정)
scaler = RobustScaler()
X_train_std = scaler.fit_transform(X_train)
X_test_std = scaler.transform(X_test)

# 로지스틱 회귀 + 그리드서치로 모델 학습
lg = LogisticRegression(solver='liblinear')
param_grid = [{'C': np.linspace(0.1, 10, 100), 'penalty': ['l1', 'l2']}]
gs = GridSearchCV(estimator=lg, param_grid=param_grid, scoring='accuracy', cv=5, n_jobs=-1)
gs.fit(X_train_std, y_train)

# 그리드서치 학습 결과 출력
print('베스트 하이퍼 파라미터: {0}'.format(gs.best_params_))
print('베스트 하이퍼 파라미터 일 때 정확도: {0:.2f}'.format(gs.best_score_))

# 최적화 모델 추출
model = gs.best_estimator_

# 테스트세트 정확도 출력
score = model.score(X_test_std, y_test)
print('테스트세트에서의 정확도: {0:.2f}'.format(score))

# 테스트세트 예측 결과 샘플 출력
predicted_y = model.predict(X_test_std)
for i in range(10):
    print('실제 값: {0}, 예측 값: {1}'.format(labels[y_test[i]], labels[predicted_y[i]]))

베스트 하이퍼 파라미터: {'C': 3.1, 'penalty': 'l1'}
베스트 하이퍼 파라미터 일 때 정확도: 0.93
테스트세트에서의 정확도: 0.98
실제 값: virginica, 예측 값: virginica
실제 값: setosa, 예측 값: setosa
실제 값: setosa, 예측 값: setosa
실제 값: virginica, 예측 값: versicolor
실제 값: versicolor, 예측 값: versicolor
실제 값: versicolor, 예측 값: versicolor
실제 값: virginica, 예측 값: virginica
실제 값: versicolor, 예측 값: versicolor
실제 값: virginica, 예측 값: virginica
실제 값: setosa, 예측 값: setosa


In [9]:
#Support Vector Machine  
import sklearn.datasets as d
import pandas as pd
#breast_cancer 데이터 셋 로드
x = d.load_breast_cancer()
cancer = pd.DataFrame(data = x.data, columns = x.feature_names)
cancer['target'] = x.target

cancer.info()
cancer.describe()
cancer.target.value_counts

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 31 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   mean radius              569 non-null    float64
 1   mean texture             569 non-null    float64
 2   mean perimeter           569 non-null    float64
 3   mean area                569 non-null    float64
 4   mean smoothness          569 non-null    float64
 5   mean compactness         569 non-null    float64
 6   mean concavity           569 non-null    float64
 7   mean concave points      569 non-null    float64
 8   mean symmetry            569 non-null    float64
 9   mean fractal dimension   569 non-null    float64
 10  radius error             569 non-null    float64
 11  texture error            569 non-null    float64
 12  perimeter error          569 non-null    float64
 13  area error               569 non-null    float64
 14  smoothness error         5

<bound method IndexOpsMixin.value_counts of 0      0
1      0
2      0
3      0
4      0
      ..
564    0
565    0
566    0
567    0
568    1
Name: target, Length: 569, dtype: int32>

In [8]:
import sklearn.svm as svm
import sklearn.metrics as mt
from sklearn.model_selection import cross_val_score, cross_validate

# SVM, kernel = 'linear'로 선형분리 진행
 
svm_clf =svm.SVC(kernel = 'linear')

# 교차검증

scores = cross_val_score(svm_clf, X, y, cv = 5)
scores

pd.DataFrame(cross_validate(svm_clf, X, y, cv =5))

print('교차검증 평균: ', scores.mean())

교차검증 평균:  0.9800000000000001


In [11]:
# SVM, kernel = 'rbf'로 비선형분리 진행
 
svm_clf =svm.SVC(kernel = 'rbf')

# 교차검증

scores = cross_val_score(svm_clf, X, y, cv = 5)
scores

pd.DataFrame(cross_validate(svm_clf, X, y, cv =5))

print('교차검증 평균: ', scores.mean())

교차검증 평균:  0.9666666666666666


In [14]:
#Support Vector machine Example
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split  
import pandas as pd
from sklearn.svm import SVC  
from sklearn.metrics import classification_report, confusion_matrix  

iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = pd.DataFrame({'class':iris.target})
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20)  

svclassifier = SVC(kernel='linear', degree=8)  
svclassifier.fit(X_train, y_train) 

y_pred = svclassifier.predict(X_test)  
print('score : ',svclassifier.score(X_test,y_test))
print(confusion_matrix(y_test, y_pred))  
print(classification_report(y_test, y_pred))  

score :  0.9666666666666667
[[12  0  0]
 [ 0  8  1]
 [ 0  0  9]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        12
           1       1.00      0.89      0.94         9
           2       0.90      1.00      0.95         9

    accuracy                           0.97        30
   macro avg       0.97      0.96      0.96        30
weighted avg       0.97      0.97      0.97        30



  return f(**kwargs)
