### 앙상블(ensemble)
 * 랜덤 포레스트(RandomForest)
    * 분류 : RandomForestClassifier
      * gini, 엔트로피
    * 회귀 : randomForestRegressor
      * mse, rmse...
    * 부트 스트랩 샘플(bootstrap sample)
       * 01 중복을 허용한 샘플을 추출한다.
       * 02 feature를 정해진 수만큼 추출해서 모델을 만든다.
       
 * 그레디언트 부스팅(GradienBoosting)
    * 분류 : GradientBoostingClassifier
    * 회귀 : GradientBoostingRegressor
    * 매개변수 설정에 민감하다.
      * learning_rate
      * max_depth
      * colsample_bytree : 나무마다 사용하는 feature 퍼센트
 * 공통점
    * 여러개의 모델을 사용한다.
    * n_estimators : 모델의 개수를 지정할 수 있다.
 * 차이점
    * 여러개의 모델이 족립적이다.(랜덤 포레스트)
    * 여러개의 모델이 다 의존적으로 연결된다.(그레디언트 부스팅)

### 정확도, 결정계수

In [1]:
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

In [2]:
iris = load_iris()

X = iris.data
y = iris.target

model1 = KNeighborsClassifier()
model2 = DecisionTreeClassifier()
model3 = RandomForestClassifier()

In [3]:
model1.fit(X, y)
model2.fit(X, y)
model3.fit(X, y)

RandomForestClassifier()

In [4]:
scores1 = cross_val_score(model1, X, y, cv=5)
scores2 = cross_val_score(model2, X, y, cv=5)
scores3 = cross_val_score(model3, X, y, cv=5)

print(scores1)
print(scores2)
print(scores3)

[0.96666667 1.         0.93333333 0.96666667 1.        ]
[0.96666667 0.96666667 0.9        1.         1.        ]
[0.96666667 0.96666667 0.93333333 0.96666667 1.        ]


In [5]:
print(scores1.mean(), scores2.mean(), scores3.mean() )

0.9733333333333334 0.9666666666666668 0.9666666666666668


In [6]:

for k in range(1, 10, 1):
    model1 = KNeighborsClassifier(n_neighbors=k)
    scores1 = cross_val_score(model1, X, y, cv=20)
    print(scores1.mean())

0.9589285714285716
0.9446428571428571
0.9589285714285716
0.9589285714285716
0.9589285714285716
0.9517857142857142
0.9651785714285716
0.9580357142857142
0.9651785714285716


In [7]:
from sklearn.datasets import load_iris
iris = load_iris()
print('iris 레이블 :\n{}'.format(iris.target))

iris 레이블 :
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [8]:
from sklearn.model_selection import KFold

In [9]:
kfold = KFold(n_splits=3, shuffle=False)
model1 = KNeighborsClassifier()

print("교차 검증 점수 : \n{}".format(cross_val_score(model1,
                                               iris.data,
                                               iris.target, cv=kfold)))

교차 검증 점수 : 
[0. 0. 0.]


In [10]:
kfold = KFold(n_splits=3, shuffle=True)
model1 = KNeighborsClassifier()

scores = cross_val_score(model1, iris.data, iris.target, cv=kfold)
print('교차 검증 각각의 결과 ', scores)
print("교차 검증 점수 : \n{}".format(scores.mean()))

교차 검증 각각의 결과  [0.98 0.96 0.94]
교차 검증 점수 : 
0.96


In [17]:
from sklearn.model_selection import cross_val_score, KFold, StratifiedKFold
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
# from sklearn.linear_model import LogistcRegression
from sklearn.model_selection import RepeatedStratifiedKFold

iris = load_iris()
logreg = LogisticRegression()

In [18]:
import os, warnings
import numpy as np
# 경고 메시지 무시하거나 숨길때(ignore), 다시 보이게(default)
# warnings.filterwarnings(action='default')
warnings.filterwarnings(action='ignore')

In [19]:
# n_split : 5    분할 폴드 수 : 기본 5
# n_repeat = 10   반복횟수 : 기본 10
rskfold = RepeatedStratifiedKFold(random_state=42, n_splits=5, n_repeats=10)
scores = cross_val_score(logreg, iris.data, iris.target, cv=rskfold)

print('교차 검증 점수 : ', scores)
print('교차 검증 평균 점수 : {:.3f}'.format(scores.mean()))

교차 검증 점수 :  [1.         0.96666667 0.93333333 1.         0.93333333 0.96666667
 0.96666667 0.93333333 1.         0.96666667 0.93333333 1.
 1.         0.96666667 0.96666667 0.9        1.         1.
 0.93333333 0.96666667 0.93333333 0.96666667 0.96666667 1.
 0.96666667 1.         0.96666667 0.96666667 0.9        1.
 0.96666667 0.96666667 0.96666667 0.96666667 0.93333333 0.96666667
 0.96666667 1.         1.         0.9        0.96666667 1.
 0.9        0.96666667 0.96666667 0.9        0.96666667 0.96666667
 1.         0.96666667]
교차 검증 평균 점수 : 0.965
