In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

## 데이터 불러오기

In [2]:
# 데이터 생성
from sklearn.datasets import load_breast_cancer

def make_dataset():
    iris = load_breast_cancer()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris.target
    X_train, X_test, y_train, y_test = train_test_split(
        df.drop('target', axis=1), df['target'], test_size=0.5, random_state=1004)
    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = make_dataset()
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((284, 30), (285, 30), (284,), (285,))

test_size가 0.5이므로 5대5로 나누어진 것을 확인할 수 있다.

In [3]:
# target check
y_train.value_counts()

target
1    190
0     94
Name: count, dtype: int64

## 의사결정나무

In [6]:
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(random_state=0) # 모델 선택

model.fit(X_train, y_train) # 모델 학습
pred = model.predict(X_test) # 모델 예측

accuracy_score(y_test,pred) # 정확도 평가

0.9263157894736842

### 의사결정나무 하이퍼파라미터
- criterion(default gini): 불순도 지표
- max_depth(default none): 최대 한도 깊이, 데이터 수가 많지 않을 경우 일정 깊이 이상은 같은 정확도 출력
- min_samples_split(default 2): 자식 노드를 갖기 위한 최소한의 데이터 수
- min_samples_leaf(default 1): 리프 노드가 되기 위한 최소 샘플 수
  

In [16]:
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(criterion='entropy',
                               max_depth=7,
                               min_samples_split=2,
                               min_samples_leaf=2,
                               random_state=0) # 모델 선택, 하이퍼파라터

model.fit(X_train, y_train) # 모델 학습
pred = model.predict(X_test) # 모델 예측

accuracy_score(y_test,pred) # 정확도 평가

0.9228070175438596

## 랜덤포레스트
- 지도학습 알고리즘(분류, 회귀)
- 의사결정나무가 여러 개 있는 구성 = 의사결정나무의 앙상블
- 성능이 좋음(과대적합 가능성 낮음)
- 부트스트랩 샘플링(데이터셋 중복 허용)
- 최종 다수결 투표
- 앙상블 -> 배깅(랜덤포레스트), 부스팅(XGBoost)
  
*배깅: 같은 알고리즘으로 여러 모델 만들어 분류  
*부스팅: 학습과 예측하며 가중치 반

In [20]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9438596491228071

### 랜덤포레스트 하이퍼파라미터
- n_estimators (default 100) : 트리의 수
- criterion (default gini) : 불순도 지표
- max_depth (default None) : 최대 한도 깊이
- min_samples_split (default 2) : 자식 노드를 갖기 위한 최소한의 데이터 수
- min_samples_leaf (default 1) : 리프 노드가 되기 위한 최소 샘플 수

In [23]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=200, # 트리가 많으면 속도가 느리다.
                               max_depth=3,
                               random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9473684210526315