# Decision Tree

- 분류와 회귀 모두 가능한 지도 학습 모델  
- 결정 트리 모델 = 특정 기준(질문)에 따라 데이터를 구분하는 모델  
- 질문이나 정답을 담은 네모 상자를 ``노드(Node)``라고 함

![image.png](attachment:image.png)

In [45]:
import sklearn
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt

In [46]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

iris = load_iris()

In [47]:
iris_df = pd.DataFrame(columns=iris.feature_names, data=iris.data)
iris_df.head()

#sepal : 꽃받침
#petal : 꽃잎

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [48]:
print("타깃의 이름 : {}".format(iris['target_names']))

타깃의 이름 : ['setosa' 'versicolor' 'virginica']


In [53]:
iris_df.info()
#데이터에 대한 전반적인 내용을 알 수 있는 함수

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


# 분류

In [50]:
X = iris.data[:, 2:] # 꽃잎 길이와 너비
y = iris.target #붓꽃의 종

tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X, y)

DecisionTreeClassifier(max_depth=2)

![image.png](attachment:image.png)

루트 노드(깊이가 0인 맨 꼭대기의 노드, root node)에서 시작  
-> 리프 노드(자식을 가지지 않는 노드, leaf node)일 경우 추가적인 검사X  
-> 리프 노드가 아닐 경우 추가로 조건을 더해서 검사  

계속적으로 분류..

* 사이킷런은 `이진 트리`만 만드는 CART 알고리즘을 사용.  
  ID3 같은 알고리즘은 둘 이상의 자식 노드를 가진 결정 트리를 만들 수 있음

***지니불순도** : 한 노드의 모든 샘플이 같은 클래스에 속해 있다면 그 노드를 순수(gini=0)하다고 함.  
* 이 식에서 pi,k는 i번째 노드에 있는 훈련 샘플 중 클래스 k에 속한 샘플의 비율

feat. 엔트로피 불순도

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# 회귀

결정 트리를 회귀 문제에도 사용 가능.

In [51]:
from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor(max_depth=2)
tree_reg.fit(X,y)

DecisionTreeRegressor(max_depth=2)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

                                                y = 4(x-0.5)^2, y값에 랜덤한 잡음을 섞어서 만듦

## 결정 트리의 주된 문제

작은 변화에도 매우 민감

1) 랜덤 포레스트는 많은 트리에서 만든 예측을 평균하여 이런 불안정성을 극복할 수 있음  
2) PCA(Principal component analysis) 기법을 통해 이러한 문제를 해결할 수 있음(회전)