## 의사결정나무 모델
### 분류 나무 (Classification Tree)
- 종속변수가 명목형인 경우 사용하는 의사결정나무 모델
- 각 노드 분류 알고리즘은 이진 분류 시 지니지수(Gini index) 기반의 CART 사용
- 과적합 방지 및 모델 단순화를 위해 Depth, Impurity 등 관련 설정 활용
### 회귀 나무 (Regression Tree)
- 종속변수가 연속형인 경우 사용하는 의사결정나무 모델
- 각 노드 분류에 평균과 표준편차 사용
- 과적합 방지 및 모델 단순화를 위해 Depth, Impurity 등 관련 설정 활용
#### sklearn - DecisionTreeClassifier()
- 분류 나무를 수행할 때 사용하는 sklearn 함수
- max_depth와 random_state로 모델의 성장과 결과 고정 설정 가능
- 함수의 fit() 메서드에 독립변수와 종속변수를 할당
#### sklearn - DecisionTreeRegressor()
- 회귀 나무를 수행할 때 사용하는 sklearn 함수
- max_depth와 random_state로 모델의 성장과 결과 고정 설정 가능
- 함수의 fit() 메서드에 독립변수와 종속변수를 할당

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import DecisionTreeRegressor

In [2]:
df = pd.read_csv('ex/iris.csv')
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [3]:
df['is_setosa'] = (df['Species']=='setosa') + 0
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1


In [4]:
model_c = DecisionTreeClassifier(random_state=123)
model_c.fit(X = df.iloc[:, :4],
            y = df['is_setosa'])
model_c

In [6]:
pred_c = model_c.predict(df.iloc[:,:4])
pred_c[:4]

array([1, 1, 1, 1])

In [7]:
model_r = DecisionTreeRegressor(random_state=123)
model_r.fit(X=df.iloc[:, :3], y=df['Petal.Width'])
model_r

In [9]:
pred_r = model_r.predict(df.iloc[:,:3])
pred_r[:4]

array([0.25, 0.2 , 0.2 , 0.2 ])