In [1]:
# Desicion Tree = 해석력이 좋다!
# 결정 트리의 장점 : 스케일이나 평균을 원점에 맞추는 것과 같은 데이터 전처리가 거의 필요하지 않다. 카테고리컬한 데이터에 유리하다!
# 사이킷런은 이진 트리(자식 노드의 수가 2개 이하)만 만드는 CART 알고리즘을 사용한다. 
# 결정 트리는 위와 같이 매우 직관적이고 이해하기 쉽고, 해석력이 아주 좋다. (이러한 모델을 '화이트 박스'라고 부른다') 
# 반대로 다음 시간에 할 랜덤 포레스트와 신경망은 '블랙 박스'인데, 성능은 뛰어나지만 해석력이 떨어집니다.
# 그래서 상황(데이터 종류, 모델 적용할 비즈니스 모델, 환경 등등)을 고려해서 모델선택을 하여야 한다.


from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz # 결정트리 시각화
from subprocess import check_call 

iris = load_iris() # iris데이터 로드
x = iris.data[:,2:] # 꽃잎의 길이, 너비 변수 사용하겠음
y = iris.target

# Decision tree 모형 인스턴스 생성 및 하이퍼파라미터를 설정 하겠음.
# 사이킷런에서 제공하는 모델 => 모형 인스턴스 생성 => 인스턴스.fit() 반복
tree_model = DecisionTreeClassifier(max_depth=3) # max_depth = 3
tree_model.fit(x,y)

export_graphviz(
    tree_model, # 학습모형
    feature_names=iris.feature_names[2:], # 사용한 변수 이름
    class_names=iris.target_names, # 예측할 타겟 클래스 이름
    rounded=True,
    filled=True,
    out_file='./iris_tree_model.dot'
)

# 예측한 모형 png로 바꿔서, 시각화해보기
check_call(['dot', '-Tpng', 'iris_tree_model.dot','-o', 'OutputFile.png'])

0

In [2]:
# decision tree 클래스 확률 추정

# tree_model.predict_proba([[3.1,2]]) # 길이 : 3.1, 너비 : 2
tree_model.predict([[3.1,2]]) #하나의 인자값 확률값중 가장 높은 확률인덱스를 반환

array([2])

In [27]:
tree_model.predict_proba([[3.1,2]])  #확률값을 전부 보여줌

array([[0.        , 0.33333333, 0.66666667]])

In [None]:
'''
max_depth : 트리 최대 깊이

max_depth 감소 => 모델 규제 증가 => 과적합 감소
min_samples_split : 분할되기 위해 노드가 가져야 하는 최소 샘플 수

min_samples_split 증가 => 모델 규제 증가 => 과적합 감소
min_samples_leaf : leaf node가 가지고 있어야할 최소 샘플 수

min_samples_leaf 증가 => 모델 규제 증가 => 과적합 감소
min_weight_fraction_leaf : min_samples_leaf와 비슷하지만, 가중치가 부여된 전체 샘플 수에서의 비율

min_weight_fraction_leaf 증가 => 모델 규제 증가 => 과적합 감소
max_leaf_nodes : leaf node의 총 최대 개수

max_leaf_nodes 감소 => 모델 규제 증가 => 과적합 감소
max_features : 최상의 분할을 찾을 때 고려할 기능의 수

max_features 감소 => 모델 규제 증가 => 과적합 감소
'''

In [4]:
# Decision Tree를 활용한 회귀

from sklearn.tree import DecisionTreeRegressor

# max_depth = 3
tree_model = DecisionTreeRegressor(max_depth=3)
tree_model.fit(x,y)

export_graphviz(
    tree_model, # 학습한 모형
    out_file = './iris_tree_model_reg.dot', # .dot 파일 저장 위치
    feature_names = iris.feature_names[2:], # 사용한 변수 이름
    rounded=True, # 사각형 끝을 둥글게
    filled=True # 사각형 안 색깔 채우기
)

# 예측한 모형 png로 바꿔서, 시각화 하기
check_call(['dot','-Tpng','iris_tree_model_reg.dot','-o','OutputFile_reg.png'])

0