# Decision tree

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

iris = load_iris()
X = iris.data[:,2:]
y = iris.target

tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X,y)

DecisionTreeClassifier(max_depth=2)

In [8]:
!conda install python-graphviz

Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... done

# All requested packages already installed.



In [11]:
from sklearn.tree import export_graphviz

export_graphviz(
    tree_clf,
    out_file=image_path (" iris_tree.dot" ),
    feature_names=iris.feature_names[2:],
    class_names=iris.target_names,
    rounded=True,
    filled=True
)

NameError: name 'image_path' is not defined

In [12]:
!dot -Tpng iris_tree.dot -o iris_tree.png

Error: dot: can't open iris_tree.dot


## 예측하기

* 결정트리의 장점 중 하나는 데이터 전처리가 거의 필요하지 않다는 점

* 여기서 gini속성은 불순도 의미 ( 한 노드의 모든 샘플이 같은 클래스면 0 -> 순수노드)

- 결정트리 화이트박스 모델로 어떻게 판단했는지가 직관적이다.
- 랜덤 포레스트나 신경망은 블랙박스 모델로 어떻게 이러한 결과를 냈는 지 파악하기 힘들다.

## 클래스 확률 추정

- 결정트리는 특정 클래스에 속할 확률 추정 가능하다.

In [15]:
# 길이가 5, 너비가 1.5인 꽃잎의 예측
print(tree_clf.predict_proba([[5,1.5]]))
print(tree_clf.predict([[5,1.5]]))

[[0.         0.90740741 0.09259259]]
[1]


## CART 훈련 알고리즘

* Tree training을 위해 CART( Classification and Regression tree ) 알고리즘 사용

훈련 세트를 하나의 특성 k의 임곗값 $$t_k$$와 지니계수를 사용해 두 개의 서브셋으로 나눈다

$$J(k,t_k) = m_{left} / m * G_{left}  + m_{right} / m * G_{right}$$

- max_depth가 되거나 불순도를 줄이는 분할을 찾을 수 없을 때 멈춘다.

- CART는 greedy algorithm이다. 그래서 최적을 보장하지는 않는다.

## criterion 엔트로피 / 지니계수

- 큰 차이 없음
- 지니 불순도가 조금 더 계산이 빨라 기본값으로 좋다.
- 그러나 지니 불순도가 가장 빈도 높은 클래스를 한쪽 branch로 고립시키는 경향이 있다.
- 그래서 엔트로피가 조금 더 균형 잡힌 트리를 만들기 좋다.

## 규제 매개변수

* 결정트리는 비파라미터 모델로 파라미터 수가 훈련 전에 결정되지 않는다.
* 파라미터 모델은 미리 파라미터 수가 정해져있어 과대적합될 위험이 줄어든다.

- max_depth : depth 수(가장 중요)
- min_samples_split ; 분할되기 위해 노드가 가져야하는 최소 샘플 수
- min_samples_leat : 리프 노드가 가지고 있어야 할 최소 샘플 수
- min_weight_fraction_leaf : min_samples_leaf와 같지만 가중치가 부여된 전체 샘플 수에서의 비율
- max_leaf_nodes : 리프 노드의 최대 수
- max_features : 각 노드에서 분할에 사용할 특성의 최대 수

* => min_ 은 증가시킬수록, max_ 감소시킬수록 규제가 커진다.

## 회귀

In [16]:
from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor(max_depth=2)
tree_reg.fit(X,y)

DecisionTreeRegressor(max_depth=2)

- 이전 분류와 차이점은 클래스 예측대신 어떠한 값을 예측한다는 점이다.
- CART알고리즘은 훈련을 불순도(지니계수)말고 MSE를 최소화 하도록 바꾼다.

- 트리구조여서 훈련데이터 회전에 민감하다 (수직 수평방향이 좋음) -> PCA

- 훈련데이터 세부사항에 민감하다