In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns

In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [3]:
X = np.random.random(size=(2000, 500))
y = np.random.randint(8, size = (2000,1))

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.3, shuffle = True)
tree = DecisionTreeClassifier(random_state=0)
tree.fit(X_train, y_train)
print("train_accuracy: {:.3f}".format(tree.score(X_train, y_train)))
print("test_accuracy: {:.3f}".format(tree.score(X_test, y_test)))

train_accuracy: 1.000
test_accuracy: 0.112


In [5]:
# tree의 깊이 제한 max_depth = n

tree = DecisionTreeClassifier(max_depth=4, random_state=0)
tree.fit(X_train, y_train)

print("train_accuracy: {:.3f}".format(tree.score(X_train, y_train)))
print("test_accuracy: {:.3f}".format(tree.score(X_test, y_test)))

train_accuracy: 0.202
test_accuracy: 0.110


In [6]:
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.3, shuffle = True)
rf = RandomForestClassifier(n_estimators = 50, random_state = 42)
rf.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=50,
                       n_jobs=None, oob_score=False, random_state=42, verbose=0,
                       warm_start=False)

In [7]:
print("train_accuracy: {:.3f}".format(tree.score(X_train, y_train)))
print("test_accuracy: {:.3f}".format(tree.score(X_test, y_test)))

train_accuracy: 0.176
test_accuracy: 0.172


In [8]:
rf.param_grid = {
    'n_estimators' : [100,200],
    'max_depth' : [6, 8, 10, 12],
    'min_samples_leaf' : [3, 5, 7, 10],
    'min_smaples_split' : [2, 3, 5, 10]
}

In [9]:
# 파라미터
# n_estimator = 결정 트리 개수, defalt는 10, 많을수록 좋은 성능이 나올 수 있지만 무조건은 아님
# max_features = 사용할 특성의 수, 데이터의 feature를 참조할 비율, 개수를 뜻함, 각 트리가 얼마나 무작위가 될 지                     결정, 적게 설정하면 과대적합을 줄여줌, 분류모델이면 max_features = sqrt(n_features)
# n_job = 사용할 코어 수 지정 가능(-1로 지정하면 모든 코어 사용), 모델 만들 때 시간이 오래 걸리는 경우
# random_state = 지정한 값에 따라 같은 결과를 만들어야하면 고정해야함
#                n_estimator로 만드는 트리 개수를 많이 지정하면 random_state값의 변화에 따른 변동이 적음
# max_depth = 트리의 깊이
# max_simples_leaf = leaf node가 되기 위한 최소한의 샘플 데이터 수
# max_samples_split = node를 분할하기 위한 최소한의 데이터 수