# 17차시 의사결정나무 모델: 분류 및 회귀나무

## 01 의사결정나무 모델 개요

### 분류 나무(Classification Tree)

- 종속변수가 명목형인 경우 사용하는 의사결정나무 모델
- 각 노드 분류 알고리즘은 이진 분류 시 지니지수(Gini index) 기반의 CART(Classification & Regression Tree) 사용
- 과적합 방지 및 모델 단순화를 위해 Depth, Impurity 등 관련 설정 활용

## 02 주요 함수 및 메서드 소개

### sklearn - DecisionTreeClassifier()

- 의사결정나무의 분류나무를 수행할 때 사용하는 sklearn의 함수
- max_depth와 random_state로 모델의 성장과 결과 고정 설정 가능
- DecisionTreeclassifier() 함수의 fit() 메서드에 독립변수와 종속변수를 할당

### sklearn - DecisionTreeRegressor()

- 의사결정나무의 회귀나무를 수행할 때 사용하는 sklearn의 함수
- max_depth와 random_state로 모델의 성장과 결과 고정 설정 가능
- DecisionTreeRegressor() 함수의 fit() 메서드에 독립변수와 종속변수를 할당

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import DecisionTreeRegressor

In [2]:
df = pd.read_csv("강의자료/실습파일/iris.csv")
df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [3]:
df["is_setosa"] = (df["Species"] == "setosa") + 0
df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1


In [4]:
model_c = DecisionTreeClassifier(random_state = 123)
model_c.fit(X = df.iloc[:, :4],
           y = df["is_setosa"])
model_c

DecisionTreeClassifier(random_state=123)

In [5]:
pred_c = model_c.predict(df.iloc[:, :4])
pred_c[:4]

array([1, 1, 1, 1])

In [8]:
model_r = DecisionTreeRegressor(random_state = 123)
model_r.fit(X = df.iloc[:, :3],
            y = df["Petal.Width"])
pred_r = model_r.predict(df.iloc[:, :3])
pred_r[:4]

array([0.25, 0.2 , 0.2 , 0.2 ])

## Q1 당뇨병 발병 여부를 예측하기 위해서 의사결정나무를 사용하고자 한다. 이 대 혈당, 혈압, 임신 횟수를 기반으로 예측을 했을 때 예측 정확도는?
1) 데이터를 학습8, 평가2의 비율로 분할하시오.

In [25]:
Q1 = pd.read_csv("강의자료/실습파일/diabetes.csv")
Q1.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [26]:
from sklearn.model_selection import train_test_split

In [27]:
Q1_train, Q1_test = train_test_split(Q1, train_size = 0.8, random_state = 123)
Q1_train.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
318,3,115,66,39,140,38.1,0.15,28,0
313,3,113,50,10,85,29.5,0.626,25,0
195,5,158,84,41,210,39.4,0.395,29,1
570,3,78,70,0,0,32.5,0.27,39,0
226,0,101,76,0,0,35.7,0.198,26,0


In [28]:
Q1_c = DecisionTreeClassifier(random_state = 123)
Q1_c.fit(X = Q1_train[["Glucose", "BloodPressure", "Pregnancies"]],
         y = Q1_train["Outcome"])
Q1_c

DecisionTreeClassifier(random_state=123)

In [29]:
Q1_pred_c = Q1_c.predict(Q1_test[["Glucose", "BloodPressure", "Pregnancies"]])
Q1_pred_c[:4]

array([1, 0, 1, 0], dtype=int64)

In [18]:
from sklearn.metrics import accuracy_score

In [30]:
accuracy_score(y_true = Q1_test["Outcome"],
              y_pred = Q1_pred_c)

0.6298701298701299

## Q2 환자의 BMI를 예측하기 위하여 회귀나무를 사용하고자 한다. 이 때 혈당, 혈압, 피부 두께를 독립변수로 했을 경우 RMSE는 얼마인가?

In [32]:
Q2_r = DecisionTreeRegressor(random_state = 123)
Q2_r.fit(X = Q1_train[["Glucose", "BloodPressure", "SkinThickness"]],
         y = Q1_train["BMI"])

DecisionTreeRegressor(random_state=123)

In [33]:
from sklearn.metrics import mean_squared_error

In [34]:
Q2_pred_r = Q2_r.predict(Q1_test[["Glucose", "BloodPressure", "SkinThickness"]])
Q2_pred_r[:4]

array([30.8, 28.6, 33.8, 32.2])

In [35]:
mean_squared_error(y_true = Q1_test["BMI"],
                  y_pred = Q2_pred_r) **0.5

9.924605211306321

## Q3 분류나무의 파라미터를 바꿔가면서 성능 평가를 하려고 한다. 당뇨 발병 여부를 종속변수로 하고 혈당, 혈압, 임신 횟수, BMI, 나이를 독립변수로 하고 Depth를 3에서 6까지 변화시킬 때 그 결과로 틀린 것은?
1) 데이터를 학습7, 평가3의 비율로 분할하시오.  
2) Seed는 345

In [36]:
Q3_train, Q3_test = train_test_split(Q1, train_size = 0.7, random_state = 345)
Q3_train.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
390,1,100,66,29,196,32.0,0.444,42,0
229,0,117,80,31,53,45.2,0.089,24,0
703,2,129,0,0,0,38.5,0.304,41,0
360,5,189,64,33,325,31.2,0.583,29,1
599,1,109,38,18,120,23.1,0.407,26,0


In [49]:
for i in [3, 4, 5, 6]:
    Q3_c = DecisionTreeClassifier(max_depth = i, random_state = 123)
    Q3_c.fit(X = Q3_train[["Glucose", "BloodPressure", "Pregnancies", "BMI", "Age"]],
         y = Q3_train["Outcome"])
    Q3_pred_c = Q3_c.predict(Q3_test[["Glucose", "BloodPressure", "Pregnancies", "BMI", "Age"]])
    result = accuracy_score(y_true = Q3_test["Outcome"],
              y_pred = Q3_pred_c)
    print(i, result.round(2))

3 0.77
4 0.76
5 0.76
6 0.77


In [51]:
## 답안
cols = ["Glucose", "BloodPressure", "Pregnancies", "BMI", "Age"]
depth_list = [3, 4, 5, 6]
accs = []
for depth in depth_list:
    model = DecisionTreeClassifier(max_depth = depth, random_state = 345)
    model.fit(X = Q3_train.loc[:, cols],
             y = Q3_train["Outcome"])
    pred = model.predict(Q3_test.loc[:, cols])
    accs = accs + [accuracy_score(y_pred = pred,
                                 y_true = Q3_test["Outcome"])]
    
df_score = pd.DataFrame({"depth": depth_list,
                        "accs": accs})
df_score["accs"] = df_score["accs"].round(2)
df_score

Unnamed: 0,depth,accs
0,3,0.77
1,4,0.76
2,5,0.76
3,6,0.77
