DecisionTree, Ensemble, Random Forest
===================

간단한 이진트리 분류기 만들기
--------------

In [1]:
import numpy as np
import pandas as pd


# 직업, 키, 성별로 이름을 구분하는 간단한 이진트리 분류기를 만들어보겠습니다.
name = ['하하', '김범수', '다현', '아이유', '최민식', '김혜수']
job  = ['가수', '가수'  , '가수', '가수'  , '배우'  , '배우']
height = [171, 182, 158, 160, 177, 170]
sex = ['M', 'M', 'F', 'F', 'M', 'F']

# Node 번호를 지정해주기 위한 변수
num = 0

# 데이터 프레임 만들기
data = pd.DataFrame({'이름': name, '직업': job, '키': height,'성별': sex})
print(data,'\n')

# 키 분류 Node
def Height_Node(df, idx, depth):
    # 전역 변수를 함수 내에서 사용하기 위해 Global 선언
    global num
    num +=1
    # Node num, Depth, Node Name 출력
    print('Node_num : {} | Node Depth : {} | Height_Node'.format(num, depth))
    
    for i in idx:
        num +=1
        # 성별에 따라 키의 기준이 다르기 때문에 성별을 우선 분류
        if df['성별'][i] == 'M':
            # 남자의 경우 키에 따라 분류
            # 키가 180보다 작은 경우
            if df['키'][i] < 180:
                print('Node_num : {} | Node Depth : {} | Name : {}'.format(num, depth+1, df['이름'][i]))
            # 키가 180보다 큰 경우
            else:
                print('Node_num : {} | Node Depth : {} | Name : {}'.format(num, depth+1, df['이름'][i]))
        else:
            # 여자의 경우 키에 따라 분류
            # 키가 160보다 작은 경우
            if df['키'][i] < 160:
                print('Node_num : {} | Node Depth : {} | Name : {}'.format(num, depth+1, df['이름'][i]))
            # 키가 160보다 큰 경우
            else:
                print('Node_num : {} | Node Depth : {} | Name : {}'.format(num, depth+1, df['이름'][i]))

# 직업 분류 Node
def Job_Node(df,idx, depth):
    # 전역 변수를 함수 내에서 사용하기 위해 Global 선언
    global num
    num +=1
    
    # Node num, Depth, Node Name 출력
    print('Node_num : {} | Node Depth : {} | Job_Node'.format(num, depth))
    
    # Index 저장을 위한 리스트 
    singer = []
    
    for i in idx:
        # 가수인 경우 Index 저장
        if df['직업'][i] == '가수':
            singer.append(i)
            
        # 배우인 경우 Node 번호와 해당 배우의 이름 출력    
        else:
            num += 1
            print('Node_num : {} | Node Depth : {} | Name : {}'.format(num, depth, df['이름'][i]))
    
    # 가수인 경우 분류가 끝나지 않았으므로 Index 출력
    print('가수 Index : ',singer)
    
    # 마지막 분류 기준인 키를 통해 가수를 분류
    # 다음 Node를 호출할 때 depth를 하나 증가시켜줍니다.
    Height_Node(df, singer, depth+1)

# 성별 분류 Node
def Sex_Node(df, depth):
    # 전역 변수를 함수 내에서 사용하기 위해 Global 선언
    global num
    # Node num, Depth, Node Name 출력
    num +=1
    print('Node_num : {} | Node Depth : {} | Sex_Node'.format(num, depth))
    
    male = []
    female = []
    # 처음 성별 데이터 전체로 분류
    for idx, sex in enumerate(df['성별']):
        # 남자인 경우 Index 저장
        if sex == 'M':
            male.append(idx)
        # 여자인 경우 Index 저장
        elif sex == 'F':
            female.append(idx)
    
    # Index 확인
    print('남자 Index : ',male)
    print('여자 Index : ',female)
    
    # 성별 분류 후 직업을 분류하는 Node를 호출합니다.
    # 다음 Node를 호출할 때 depth를 하나 증가시켜줍니다.
    Job_Node(df, male, depth+1)
    Job_Node(df, female, depth+1)

# 첫 번째 분류 기준으로 성별을 설정합니다.
Sex_Node(data, 1)

    이름  직업    키 성별
0   하하  가수  171  M
1  김범수  가수  182  M
2   다현  가수  158  F
3  아이유  가수  160  F
4  최민식  배우  177  M
5  김혜수  배우  170  F 

Node_num : 1 | Node Depth : 1 | Sex_Node
남자 Index :  [0, 1, 4]
여자 Index :  [2, 3, 5]
Node_num : 2 | Node Depth : 2 | Job_Node
Node_num : 3 | Node Depth : 2 | Name : 최민식
가수 Index :  [0, 1]
Node_num : 4 | Node Depth : 3 | Height_Node
Node_num : 5 | Node Depth : 4 | Name : 하하
Node_num : 6 | Node Depth : 4 | Name : 김범수
Node_num : 7 | Node Depth : 2 | Job_Node
Node_num : 8 | Node Depth : 2 | Name : 김혜수
가수 Index :  [2, 3]
Node_num : 9 | Node Depth : 3 | Height_Node
Node_num : 10 | Node Depth : 4 | Name : 다현
Node_num : 11 | Node Depth : 4 | Name : 아이유


의사 결정 트리(DecisionTreeClassifier)
-------------

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

def main():
    # Iris 데이터 세트 불러오기
    iris = load_iris()
    # Iris 데이터 세트 Train과 Test 분할하기
    # Train : Test = 8 : 2
    X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size = 0.2)
    
    # 의사 결정 트리 불러오기
    dtree = DecisionTreeClassifier()
    
    # 의사 결정 트리 학습
    dtree.fit(X_train, y_train)
    
    # 검증 데이터로 결과 예측
    pred = dtree.predict(X_test)
    print('검증 데이터 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))
    
    
if __name__ == "__main__":
    main()

검증 데이터 정확도 : 0.9000


최적의 파라미터 찾기 : GridSearceCV
    ------------------

In [3]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV

def main():
    # Iris 데이터 세트 불러오기
    iris = load_iris()
    # Iris 데이터 세트 Train과 Test 분할하기
    X_train, X_test, y_train,y_test = train_test_split(iris.data, iris.target)
    
    # 의사 결정 트리 불러오기
    dtree = DecisionTreeClassifier()
    
    # 의사 결정 트리의 인자 값 설정
    # 학습을 진행할 때 트리의 깊이와 각 트리당 노드의 개수를 정해줍니다. 
    param_grid = {'max_depth' : [1,2,3], 'min_samples_split' : [2,3]}
    
    # 이러면 총 6가지 경우에 대해 학습을 진행하며 최종적으로는 GridSearchCV가 가장 성능이 좋은 파라미터를 선택합니다.
    grid_dtree = GridSearchCV(dtree, param_grid = param_grid, cv = 5, refit= True, return_train_score=True, iid = True)
    
    # 의사 결정 트리 학습
    grid_dtree.fit(X_train, y_train)
    
    # 출력을 위한 데이터 프레임 만들기
    scores_df = pd.DataFrame(grid_dtree.cv_results_)
    scores_df[['params', 'mean_test_score', 'rank_test_score', 'split0_test_score', 'split1_test_score', 'split2_test_score']]
    
    # GridSearchCV()가 가지고 있는 속성들을 불러 결과를 출력해보세요.
    print('GridSearchCV 최적 파라미터 : ', grid_dtree.best_params_)
    print('GridSearchCV 최고 정확도 : {0:.4f}'.format(grid_dtree.best_score_))
    
    # 최적의 파라미터로 학습된 트리 Estimator 가져오세요.
    estimator = grid_dtree.best_estimator_
    
    # 검증 데이터로 결과 예측
    pred = estimator.predict(X_test)
    print('Test Dataset accuracy : {0:.4f}'.format(accuracy_score(y_test, pred)))
    
    
if __name__ == "__main__":
    main()

GridSearchCV 최적 파라미터 :  {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도 : 0.9464
Test Dataset accuracy : 0.9737


앙상블(Ensemble) 학습 (1)
----------

In [5]:
import pandas as pd
from sklearn.ensemble import VotingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 유방암 데이터 불러오기
cancer = load_breast_cancer()

# 데이터 프레임을 만들기
data_df = pd.DataFrame(cancer.data, columns = cancer.feature_names)

# Voting과 비교할 각각 다른 분류기 불러오기
# KNeighborsClassifier, LogisticRegression
lr_clf = KNeighborsClassifier()
knn_clf = LogisticRegression(solver = 'liblinear')

# Voting에 사용할 분류기
# 분류기로 LogisticRegressor와 KNeighborClassifier를 사용합니다.
# Voting 방식은 Soft Voting을 사용합니다.
vo_clf = VotingClassifier(estimators=[('lr', lr_clf), ('knn', knn_clf)], voting='soft')

# 학습 데이터와 검증 데이터로 나누기
X_train, X_test, y_train,y_test = train_test_split(data_df, cancer.target, test_size = 0.25) 

# Voting Classifier 학습
vo_clf.fit(X_train, y_train)

# Voting 결과 예측
pred = vo_clf.predict(X_test)
print('Voting Classifier 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

# 다른 분류기를 각각 학습했을 때 결과 예측
# classifiers에 lr_clf, knn_clf를 넣어주세요.
classifiers = [lr_clf, knn_clf, vo_clf]
for classifier in classifiers:
    classifier.fit(X_train, y_train)
    pred = classifier.predict(X_test)
    class_name = classifier.__class__.__name__
    print("{0} 정확도 : {1:.4f}".format(class_name, accuracy_score(y_test, pred)))

Voting Classifier 정확도 : 0.9441
KNeighborsClassifier 정확도 : 0.9301
LogisticRegression 정확도 : 0.9510
VotingClassifier 정확도 : 0.9441


앙상블(Ensemble) 학습 (2)
----------------

In [8]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer

# 유방암 데이터 세트 불러오기
bc = load_breast_cancer()

# 학습 데이터와 검증 데이터로 분할하기
X_train, X_test, y_train, y_test = train_test_split(bc.data, bc.target, test_size = 0.2, random_state = 121)

# RandomForestClassifier 객체 불러오기
rfc = RandomForestClassifier()

# GridSearchCV에 넣을 파라미터
param ={
    'n_estimators'      : [1],
    'max_depth'         : [1,2],
    'min_samples_leaf'  : [1,2],
    'min_samples_split' : [2,3]
}

# GridSearchCV 불러오기
grid_rfc = GridSearchCV(rfc, param_grid = param, cv = 5, iid = True)

# RandomForestClassifier 학습
grid_rfc.fit(X_train, y_train)

# 최적의 파라미터와 최고 예측 정확도 계산
print('최적 파라미터      : ', grid_rfc.best_params_)
print('최고 예측 정확도   : {0:.4f}'.format(grid_rfc.best_score_))

# 최적의 파라미터로 학습된 트리 Estimator 가져오기
estimator = grid_rfc.best_estimator_

# 검증 데이터로 결과 예측
pred = estimator.predict(X_test)
print('검증 데이터 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

최적 파라미터      :  {'max_depth': 2, 'min_samples_leaf': 2, 'min_samples_split': 2, 'n_estimators': 1}
최고 예측 정확도   : 0.9231
검증 데이터 정확도 : 0.9211


In [9]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_digits
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold, train_test_split
from sklearn.model_selection import GridSearchCV

# digits 데이터를 불러오고 feature와 label에 data와 target을 저장해주세요.
digits = load_digits()
feature = digits.data
label = digits.target

# DecisionTreeClassifier를 불러와주세요.
dt_clf = DecisionTreeClassifier()

# GridSearchCV에 사용할 Param 값을 정해주세요.
param_grid = {'max_depth' : [14,15,16,17,18,19], 'min_samples_split' : [2,3,4,5,6]}

# 파라미터를 설정해주세요.
n_splits = 5
kfold = KFold(n_splits = n_splits)
n_iter = 0
cv_accuracy = []

# 데이터를 분리해주세요.
X_train, X_test, y_train, y_test = train_test_split(feature, label, test_size = 0.2)

# X_train 데이터를 K-fold를 사용해서 총 5개의 fold로 나눠주세요.
for train_idx, vali_idx in kfold.split(X_train):
    X_fold_train, X_fold_vali = X_train[train_idx], X_train[vali_idx]
    y_fold_train, y_fold_vali = y_train[train_idx], y_train[vali_idx]
    
    # GridSearchCV를 이용해 결정 트리를 학습시켜주세요.
    grid_dtree = GridSearchCV(dt_clf, param_grid=param_grid, refit= True, cv = 5, iid = True)
    grid_dtree.fit(X_fold_train, y_fold_train)
    
    # Iter 별 교차 검증 정확도를 계산해보세요.
    fold_pred = grid_dtree.predict(X_fold_vali)
    
    n_iter += 1
    print('Iter : {0}, 교차 검증 정확도 : {1:.4f}'.format(n_iter ,accuracy_score(y_fold_vali, fold_pred)))
    
    # 교차 검증 평균 정확도를 위해 Iter별 교차 검증 정확도를 cv_accuracy에 넣어주세요.
    cv_accuracy.append(accuracy_score(y_fold_vali, fold_pred))

# 교차 검증 평균 정확도를 계산해주세요.
cv_accuracy = sum(cv_accuracy) / len(cv_accuracy)
print("교차 검증 평균 정확도 : {0:.4f}".format(cv_accuracy))

# GricSearchCV 최적 파라미터와 최고 정확도를 출력해보세요.
print('GridSearchCV 최적 파라미터 : ', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도 : {0:.4f}'.format(grid_dtree.best_score_))
    
# 최적의 파라미터로 학습된 grid_dtree의 best_estimator를 불러와주세요.
estimator = grid_dtree.best_estimator_

# 검증 데이터로 결과를 예측해보세요.
pred = estimator.predict(X_test)

# 검증 데이터 정확도를 출력해보세요.
test_accuracy = accuracy_score(pred, y_test)
print("검증 데이터 정확도 : {0:.4f}".format(test_accuracy))

Iter : 1, 교차 검증 정확도 : 0.8611
Iter : 2, 교차 검증 정확도 : 0.8507
Iter : 3, 교차 검증 정확도 : 0.8432
Iter : 4, 교차 검증 정확도 : 0.8641
Iter : 5, 교차 검증 정확도 : 0.8502
교차 검증 평균 정확도 : 0.8539
GridSearchCV 최적 파라미터 :  {'max_depth': 17, 'min_samples_split': 2}
GridSearchCV 최고 정확도 : 0.8461
검증 데이터 정확도 : 0.8250
