In [29]:
import pandas as pd
import numpy as np

In [28]:
dataset = pd.read_csv('./dataset/iris.csv', encoding='utf_8_sig')

In [24]:
label = dataset.iloc[:,-1]
dataset = dataset.iloc[:,:-1]
print(dataset.head())
print(label.head())

   5.1  3.5  1.4  0.2
0  4.9  3.0  1.4  0.2
1  4.7  3.2  1.3  0.2
2  4.6  3.1  1.5  0.2
3  5.0  3.6  1.4  0.2
4  5.4  3.9  1.7  0.4
0    Iris-setosa
1    Iris-setosa
2    Iris-setosa
3    Iris-setosa
4    Iris-setosa
Name: Iris-setosa, dtype: object


In [25]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import explained_variance_score, mean_squared_error, mean_absolute_error, r2_score

from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import precision_score
from sklearn.metrics import f1_score

In [26]:
X_train, X_test, y_train, y_test = train_test_split(dataset, label, test_size=0.3, random_state=42)

## Logistic Regression

로지스틱 회귀는 이항형 또는 다항형이 될 수 있다. 이항형 로지스틱 회귀(binomial logistic regression)의 경우 종속 변수의 결과가 (성공, 실패) 와 같이 2개의 카테고리가 존재하는 것을 의미하며, 다항형 로지스틱 회귀는 종속형 변수가 (맑음, 흐림, 비)와 같이 2개 이상의 카테고리로 분류되는 것을 가리킨다. 이항형 로지스틱의 회귀 분석에서 2개의 카테고리는 0과 1로 나타내어지고 각각의 카테고리로 분류될 확률의 합은 1이 된다.

로지스틱 회귀는 일반적인 선형 모델(generalized linear model)의 특수한 경우로 볼 수 있으므로 선형 회귀와 유사하다. 하지만, 로지스틱 회귀의 모델은 종속 변수와 독립 변수 사이의 관계에 있어서 선형 모델과 차이점을 지니고 있다. 첫 번째 차이점은 이항형인 데이터에 적용하였을 때 종속 변수 y의 결과가 범위[0,1]로 제한된다는 것이고 두 번째 차이점은 종속 변수가 이진적이기 때문에 조건부 확률(P(y│x))의 분포가 정규분포 대신 이항 분포를 따른다는 점이다.

따라서, 대상이 되는 데이터의 종속 변수 y의 결과는 0과 1, 두 개의 경우만 존재하는 데 반해, 단순 선형 회귀를 적용하면 범위[0,1]를 벗어나는 결과가 나오기 때문에 오히려 예측의 정확도만 떨어뜨리게 된다.

이를 해결하기 위해 로지스틱 회귀는 연속이고 증가함수이며 [0,1]에서 값을 갖는 연결 함수 g(x)를 제안하였다. 연결함수의 형태는 다양하게 존재하는데 그 중 대표적인 두 개는 아래와 같다.

1. 로지스틱 모형: 
2. 검벨 모형: 

In [27]:
from sklearn.linear_model import LogisticRegression

LR = LogisticRegression()
LR.fit(X_train,y_train)
y_pred = LR.predict(X_test)
confusion_matrix(y_test, y_pred)



array([[19,  0,  0],
       [ 0, 10,  3],
       [ 0,  0, 13]], dtype=int64)

In [7]:
print(accuracy_score(y_test, y_pred))
print(recall_score(y_test, y_pred, average='micro'))
print(precision_score(y_test, y_pred, average='macro'))
print(f1_score(y_test, y_pred, average='micro'))

0.9333333333333333
0.9333333333333333
0.9375
0.9333333333333333


## KNN K-nearest neighbors

In [8]:
from sklearn.neighbors import KNeighborsClassifier

KNN = KNeighborsClassifier(n_neighbors=3)
KNN.fit(X_train,y_train)
y_pred = KNN.predict(X_test)
confusion_matrix(y_test, y_pred)

array([[19,  0,  0],
       [ 0, 10,  3],
       [ 0,  1, 12]], dtype=int64)

In [9]:
print(accuracy_score(y_test, y_pred))
print(recall_score(y_test, y_pred, average='micro'))
print(precision_score(y_test, y_pred, average='macro'))
print(f1_score(y_test, y_pred, average='micro'))

0.9111111111111111
0.9111111111111111
0.903030303030303
0.9111111111111111


## Navie bayes

나이브 베이즈는 분류기를 만들 수 있는 간단한 기술로써 단일 알고리즘을 통한 훈련이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용하여 훈련된다. 모든 나이브 베이즈 분류기는 공통적으로 모든 특성 값은 서로 독립임을 가정한다. 예를 들어, 특정 과일을 사과로 분류 가능하게 하는 특성들 (둥글다, 빨갛다, 지름 10cm)은 나이브 베이즈 분류기에서 특성들 사이에서 발생할 수 있는 연관성이 없음을 가정하고 각각의 특성들이 특정 과일이 사과일 확률에 독립적으로 기여 하는 것으로 간주한다.

나이브 베이즈의 장점은 다음과 같다. 첫째, 일부의 확률 모델에서 나이브 베이즈 분류는 지도 학습 (Supervised Learning) 환경에서 매우 효율적으로 훈련 될 수 있다. 많은 실제 응용에서, 나이브 베이즈 모델의 파라미터 추정은 최대우도방법 (Maximum Likelihood Estimation (MLE))을 사용하며, 베이즈 확률론이나 베이지안 방법들은 이용하지 않고도 훈련이 가능하다. 둘째, 분류에 필요한 파라미터를 추정하기 위한 트레이닝 데이터의 양이 매우 적다는 것이다. 셋째, 간단한 디자인과 단순한 가정에도 불구하고, 나이브 베이즈 분류는 많은 복잡한 실제 상황에서 잘 작동한다. 2004 년의 한 분석[3]은 나이브 베이즈 분류의 이러한 능력에 명확한 이론적인 이유가 있음을 보여 주었다. 또한 2006 년에는 다른 분류 알고리즘과의 포괄적인 비교를 통하여 베이지안 분류는 부스트 트리 또는 랜덤 포레스트와 같은 다른 접근 방식을 넘어섰다는 것이 밝혀졌다.


In [10]:
from sklearn.naive_bayes import GaussianNB

NB = GaussianNB()
NB.fit(X_train,y_train)
y_pred = NB.predict(X_test)
confusion_matrix(y_test, y_pred)

array([[19,  0,  0],
       [ 0,  8,  5],
       [ 0,  1, 12]], dtype=int64)

In [11]:
print(accuracy_score(y_test, y_pred))
print(recall_score(y_test, y_pred, average='micro'))
print(precision_score(y_test, y_pred, average='macro'))
print(f1_score(y_test, y_pred, average='micro'))

0.8666666666666667
0.8666666666666667
0.8649237472766885
0.8666666666666667


## Decision Tree

설명 변수들(feature)의 규칙, 관계, 패턴등으로 목표변수(Label)를 분류하는 나무구조의 모델을 만들고, 설명 변수들(feature)의 관측값을 나무 모델에 대입하여 목표변수(Label)를 분류(classification)/예측(regression)하는 지도학습 기법이다.

일반적으로 의사결정나무 모델은 분류(Classification) 문제에 적용된다. 모델의 결과해석이 쉽고, 데이터 전처리를 간단하게 할 수 있다는 장점을 가지고 있다. 또한, 범주형 데이터에도 적용이 가능하다. 회귀모델처럼 정규성이나 등분산성을 확인할 필요가 없는 비모수적 방법이라, 간편하다. 그러나 과대적합의 위험성이 크고, 선형성이 미흡해 전체적 모델의 안정성 자체가 낮다는 단점을 가지고 있다.

[용어정리]
- Root Node : 나무 구조가 시작되는 node (그림의 1번)
- Child Node : 상위의 node에서 분리된 node (그림의 2번은 1번의 child node)
- Parent Node : childe node의 상위 node (그림 1번은 2번의 parent node)
- Internal Node: 끝 node 가 아닌 나무 중간에 있는 node (그림 3번)
- Terminal Node (or Leaf) : 나무 각 줄기의 끝에 위치한 node (그림 4번)
- Branch : 하나의 node로 부터 끝 node까지 연결된 일련의 node들
- Depth : Branch를 이루고 있는 node의 층 수 (위의 그림은 총 4층)
- Pure Node : 목표변수 값이 하나의 종류만 가지는 node
- Full Tree : 모든 terminal node가 pure node로 이루어진 Tree


In [12]:
from sklearn import tree

DT = tree.DecisionTreeClassifier()
DT.fit(X_train,y_train)
y_pred = DT.predict(X_test)
confusion_matrix(y_test, y_pred)

array([[19,  0,  0],
       [ 0, 10,  3],
       [ 0,  1, 12]], dtype=int64)

In [13]:
print(accuracy_score(y_test, y_pred))
print(recall_score(y_test, y_pred, average='micro'))
print(precision_score(y_test, y_pred, average='macro'))
print(f1_score(y_test, y_pred, average='micro'))

0.9111111111111111
0.9111111111111111
0.903030303030303
0.9111111111111111


## Ensemble Model

## 7.1 투표 기반 분류기(Voting Classifier)

투표 기반 분류기는 아래의 그림에서 볼 수 있듯이, 학습 단계에서 여러개의 머신러닝 알고리즘 모델을 학습시킨 후 이러한 모델들을 이용해 새로운 데이터에 대해 각 모델의 예측값을 가지고 **다수결 투표**를 통해 최종 클래스를 예측하는 방법을 말한다. 이러한 분류기를 **직접 투표**(hard voting) 분류기라고 한다.

![](./Hands-On-ML-master/Chap07-Ensemble_Learning_and_Random_Forests/images/ensemble02.png)

### 투표 분류기가 더 좋은 이유

예를 들어 앞면이 나올 확률이 51%이고, 뒷면이 나올 확률이 49%인 동전 던지기를 한다고 가정하자. 이러한 동전을 1,000번 던지면 약 510번은 앞면, 490번은 뒷면이 나오게 될것이다. 따라서 더 많은 횟수로 앞면이 나온다는 것을 알 수 있다. 이를 수학적으로 계산해보면 1,000번을 던진 후 앞면이 더 많이 나올 확률은 75%에 가까운 것을 알 수 있다. 동전 던지기는 이항분포이므로 다음과 같이 나타낼 수 있다.

$$
\binom{n}{k} p^{k}\left( 1-p \right)^{n-k}
$$

위의 식을 이용해 0~499 까지의 누적 분포 함수(CDF, Cumulative Distribution Function)를 이용해 누적 확률을 계산한 뒤, 전체 확률 1에서 빼주면 75%를 구할 수 있다. 이를 [`SciPy`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binom.html)를 이용해 `1-scipy.stats.binom.cdf(499, 1000, 0.51)` 구할 수 있다. 또한, 동전을 10,000번 던진다면 앞면이 더 많이 나올 확률이 97%(`1 - scipy.stats.binom.cdf(4999, 10000, 0.51)`) 이상으로 올라간다. 

이와 비슷하게 51% 정확도를 가진 1,000개의 분류기로 앙상블 모델을 구축할 경우 정확도는 75%로 기대할 수 있다. 그러나 이러한 가정은 모든 분류기가 독립적이어야 하고, 오차에 대해 상관관계가 없어야 한다. 

따라서, 앙상블 기법에서 독립적인 모델을 만들어 주기 위해서는 다른 머신러닝 알고리즘으로 학습시키는 것이 좋다. 그 이유는 모델 별로 다른 종류의 오차를 가지므로 상관관계가 작어지기 때문이다.

In [30]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

log_clf = LogisticRegression(random_state=42)
rnd_clf = RandomForestClassifier(random_state=42)
svm_clf = SVC(random_state=42)

voting_clf = VotingClassifier(
    estimators=[('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)],
    voting='hard')
voting_clf.fit(X_train, y_train)
y_pred = voting_clf.predict(X_test)
confusion_matrix(y_test, y_pred)



array([[19,  0,  0],
       [ 0, 10,  3],
       [ 0,  0, 13]], dtype=int64)

In [31]:
print(accuracy_score(y_test, y_pred))
print(recall_score(y_test, y_pred, average='micro'))
print(precision_score(y_test, y_pred, average='macro'))
print(f1_score(y_test, y_pred, average='micro'))

0.9333333333333333
0.9333333333333333
0.9375
0.9333333333333333


### Bagging / Pasting

앞서 말했듯이 다양한 분류기를 만드는 한 가지 방법은 각기 다른 훈련 알고리즘을 사용하는 것이다. 또 다른 방법은 같은 알고리즘을 사용하지만 훈련 세트의 서브셋을 무작위로 구성하여 분류기를 각기 다르게 학습시키는 것이다.
이 때 훈련세트에서 중복을 허용하는 방식을 배깅이라고 하며, 중복을 허용하지 않는 경우를 페이스팅이라고 한다.
- Bagging : 훈련세트에서 중복허용하여 resampling(bootstrap sampling)
- pasting : 훈련세트에서 중복허용하지 않고 resampling

In [32]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

bag_clf = BaggingClassifier(
    DecisionTreeClassifier(random_state=42), n_estimators=500,
    max_samples=100, bootstrap=True, n_jobs=-1, random_state=42)
bag_clf.fit(X_train, y_train)
y_pred = bag_clf.predict(X_test)
confusion_matrix(y_test, y_pred)

array([[19,  0,  0],
       [ 0, 10,  3],
       [ 0,  1, 12]], dtype=int64)

In [33]:
print(accuracy_score(y_test, y_pred))
print(recall_score(y_test, y_pred, average='micro'))
print(precision_score(y_test, y_pred, average='macro'))
print(f1_score(y_test, y_pred, average='micro'))

0.9111111111111111
0.9111111111111111
0.903030303030303
0.9111111111111111


## Random Forest

In [14]:
from sklearn.ensemble import RandomForestClassifier

RF = RandomForestClassifier(max_depth=2, random_state=0)
RF.fit(X_train,y_train)
y_pred = RF.predict(X_test)
confusion_matrix(y_test, y_pred)



array([[19,  0,  0],
       [ 0, 11,  2],
       [ 0,  1, 12]], dtype=int64)

In [15]:
print(accuracy_score(y_test, y_pred))
print(recall_score(y_test, y_pred, average='micro'))
print(precision_score(y_test, y_pred, average='macro'))
print(f1_score(y_test, y_pred, average='micro'))

0.9333333333333333
0.9333333333333333
0.9246031746031745
0.9333333333333333


## XGBoost

In [16]:
import xgboost as xgb
from xgboost import XGBClassifier

XGB = XGBClassifier(n_estimators=300, learningrate=0.05, max_depth = 15)
XGB.fit(X_train,y_train)
y_pred = XGB.predict(X_test)
confusion_matrix(y_test, y_pred)

array([[19,  0,  0],
       [ 0, 10,  3],
       [ 0,  1, 12]], dtype=int64)

In [17]:
print(accuracy_score(y_test, y_pred))
print(recall_score(y_test, y_pred, average='micro'))
print(precision_score(y_test, y_pred, average='macro'))
print(f1_score(y_test, y_pred, average='micro'))

0.9111111111111111
0.9111111111111111
0.903030303030303
0.9111111111111111


## SVM Classifier

In [18]:
from sklearn.svm import SVC

SVC = SVC(gamma='auto')
SVC.fit(X_train,y_train)
y_pred = SVC.predict(X_test)
confusion_matrix(y_test, y_pred)

array([[19,  0,  0],
       [ 0, 10,  3],
       [ 0,  1, 12]], dtype=int64)

In [19]:
print(accuracy_score(y_test, y_pred))
print(recall_score(y_test, y_pred, average='micro'))
print(precision_score(y_test, y_pred, average='macro'))
print(f1_score(y_test, y_pred, average='micro'))

0.9111111111111111
0.9111111111111111
0.903030303030303
0.9111111111111111


## Neural Network

In [20]:
from sklearn.neural_network import MLPClassifier

ANN = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5), random_state=1)
ANN.fit(X_train,y_train)
y_pred = ANN.predict(X_test)
confusion_matrix(y_test, y_pred)

array([[19,  0,  0],
       [ 1, 10,  2],
       [ 0,  0, 13]], dtype=int64)

In [21]:
print(accuracy_score(y_test, y_pred))
print(recall_score(y_test, y_pred, average='micro'))
print(precision_score(y_test, y_pred, average='macro'))
print(f1_score(y_test, y_pred, average='micro'))

0.9333333333333333
0.9333333333333333
0.9388888888888888
0.9333333333333333
