In [2]:
import numpy as np

from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [3]:
iris_data = load_iris()

In [4]:
X_train, X_test, y_train, y_test = \
train_test_split(iris_data.data, iris_data.target, test_size=0.3)

In [5]:
knn_clf  = KNeighborsClassifier(n_neighbors=4)
rf_clf = RandomForestClassifier(n_estimators=100, random_state=0)
ada_clf = AdaBoostClassifier(n_estimators=100)
dt_clf = DecisionTreeClassifier()

In [6]:
knn_clf.fit(X_train, y_train)
rf_clf.fit(X_train , y_train)
ada_clf.fit(X_train, y_train)
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

In [7]:
knn_pred = knn_clf.predict(X_test)
rf_pred = rf_clf.predict(X_test)
ada_pred = ada_clf.predict(X_test)
dt_pred = dt_clf.predict(X_test)

In [8]:
print('KNN 정확도: {0:.4f}'.format(accuracy_score(y_test, knn_pred)))
print('랜덤 포레스트 정확도: {0:.4f}'.format(accuracy_score(y_test, rf_pred)))
print('에이다부스트 정확도: {0:.4f} :'.format(accuracy_score(y_test, ada_pred)))
print('랜덤 포레스트 정확도: {0:.4f}'.format(accuracy_score(y_test, rf_pred)))

KNN 정확도: 0.9333
랜덤 포레스트 정확도: 0.9333
에이다부스트 정확도: 0.9778 :
랜덤 포레스트 정확도: 0.9333


In [9]:
pred = np.array([rf_pred, ada_pred])
print(pred.shape)

# transpose를 이용해 행과 열의 위치 교환. 컬럼 레벨로 각 알고리즘의 예측 결과를 피처로 만듦. 
pred = np.transpose(pred)
print(pred.shape)

(2, 45)
(45, 2)


In [10]:
# 최종 Stacking 모델을 위한 Classifier생성. 
lr_final = LogisticRegression(C=10)

In [11]:
lr_final.fit(pred, y_test)
final = lr_final.predict(pred)

print('최종 메타 모델의 예측 정확도: {0:.4f}'.format(accuracy_score(y_test , final)))

최종 메타 모델의 예측 정확도: 0.9778


In [12]:
from  sklearn.decomposition import PCA

### PCA 적용
iris의 component = 4
pca의 n_component : 2

In [31]:
my_pca = PCA(n_components=2)
reduced_iris = my_pca.fit(iris_data.data.copy())

#### 축소된 차원의 변동성 알수 잇는 property : explained_variance_ratio_
n개의 변동성의 합이 원본 데이터에 비한 변동성의 퍼센트를 나타낸다.

In [32]:
print("줄여진 특성의 변동성", reduced_iris.explained_variance_ratio_)
print("원본 변동성 대비 줄여진 데이터가 나타내는 변동성 : ", np.sum(reduced_iris.explained_variance_ratio_))

줄여진 특성의 변동성 [0.92461872 0.05306648]
원본 변동성 대비 줄여진 데이터가 나타내는 변동성 :  0.977685206318795


In [33]:
reduced_iris = reduced_iris.fit_transform(iris_data.data.copy())

In [34]:
X_train, X_test, y_train, y_test = \
train_test_split(reduced_iris, iris_data.target, test_size=0.3)

In [35]:
knn_clf.fit(X_train, y_train)
rf_clf.fit(X_train , y_train)
ada_clf.fit(X_train, y_train)
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

In [36]:
knn_pred = knn_clf.predict(X_test)
rf_pred = rf_clf.predict(X_test)
ada_pred = ada_clf.predict(X_test)
dt_pred = dt_clf.predict(X_test)

In [37]:
print('KNN 정확도: {0:.4f}'.format(accuracy_score(y_test, knn_pred)))
print('랜덤 포레스트 정확도: {0:.4f}'.format(accuracy_score(y_test, rf_pred)))
print('에이다부스트 정확도: {0:.4f} :'.format(accuracy_score(y_test, ada_pred)))
print('결정 트리 정확도: {0:.4f}'.format(accuracy_score(y_test, dt_pred)))

KNN 정확도: 0.9333
랜덤 포레스트 정확도: 0.9333
에이다부스트 정확도: 0.8444 :
결정 트리 정확도: 0.9111


In [38]:
pred = np.array([knn_pred, rf_pred, ada_pred, dt_pred])
print(pred.shape)

# transpose를 이용해 행과 열의 위치 교환. 컬럼 레벨로 각 알고리즘의 예측 결과를 피처로 만듦. 
pred = np.transpose(pred)
print(pred.shape)

(4, 45)
(45, 4)


In [39]:
lr_final.fit(pred, y_test)
final = lr_final.predict(pred)

print('최종 메타 모델의 예측 정확도: {0:.4f}'.format(accuracy_score(y_test , final)))

최종 메타 모델의 예측 정확도: 0.9333
