In [12]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

## 사용할 데이터 선언
df_wine = pd.read_csv('https://bit.ly/wine_csv_data')

## 샘플과 타겟 분리
arr_data = df_wine[['alcohol', 'sugar', 'pH']].to_numpy()
arr_target = df_wine['class'].to_numpy()

## 훈련 세트, 테스트 세트 나누기
## 매개변수 test_size로 비율 정해주기
arr_train_input, arr_test_input, arr_train_target, arr_test_target = train_test_split(
    arr_data, arr_target, test_size= 0.2, random_state= 42
)

In [13]:
## 랜덤 포레스트 알고리즘을 사용하기 위해 필요한 모듈 import
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier

## 객체 선언
c_rf = RandomForestClassifier(n_jobs= -1, random_state= 42)

## 교차 검증
## return_train_score를 True로 하면 훈련 세트에 대한 성능도 같이 반환
dict_scores = cross_validate(c_rf, arr_train_input, arr_train_target, return_train_score= True, n_jobs= -1)

## 훈련세트와 검증세트의 성능 값들의 평균 출력
print(np.mean(dict_scores['train_score']), np.mean(dict_scores['test_score']))

0.9973541965122431 0.8905151032797809


In [14]:
## 훈련 후 특성 중요도 확인
c_rf.fit(arr_train_input, arr_train_target)
print(c_rf.feature_importances_)

[0.23167441 0.50039841 0.26792718]


In [15]:
## oob샘플로 훈련한 결정트리점수를 확인하기위해 매개변수 oob_score를 True로 해서 선언
## 훈련 후 oob샘플의 점수 출력
c_rf = RandomForestClassifier(oob_score=True, n_jobs= -1, random_state= 42)
c_rf.fit(arr_train_input,arr_train_target)
print(c_rf.oob_score_)

0.8934000384837406


In [16]:
## 엑스트라 트리 알고리즘을 사용하기 위해 필요한 모듈 import
from sklearn.ensemble import ExtraTreesClassifier

## 객체 선언
c_et = ExtraTreesClassifier(n_jobs= -1, random_state= 42)

## 교차 검증
dict_scores = cross_validate(c_et, arr_train_input, arr_train_target,
                        return_train_score= True, n_jobs= -1)

## 훈련세트와 검증세트의 성능 값들의 평균 출력
print(np.mean(dict_scores['train_score']), np.mean(dict_scores['test_score']))

0.9974503966084433 0.8887848893166506


In [17]:
## 훈련 후 특성 중요도 확인
c_et.fit(arr_train_input, arr_train_target)
print(c_et.feature_importances_)

[0.20183568 0.52242907 0.27573525]
