## Key words
### 분류나무, 회귀나무, DecisionTreeClassifier, DecisionTreeRegressor

### 분류 나무(Classification Tree)
- `종속변수`가 `명목형`인 경우 사용하는 의사결정나무 모델
- 각 노드 분류 알고리즘은 이진 분류 시 `지니지수(Gini index)` 기반의 `CART` 사용
- 과적합 방지 및 모델 단순화를 위해 Depth, Impurity 등 관련 설정 활용

### 회귀나무(Regression Tree)
- `종속변수`가 `연속형`인 경우 사용하는 의사결정나무 모델
- 각 노드 분류에는 `평균과 표준편차`를 활용
- 과적합 방지 및 모델 단순화를 위해 Depth, Impurity 등 관련 설정 활용

### sklearn - DecisionTreeClassifier()
- 의사결정나무의 `분류나무`를 수행할 때 사용하는 sklearn의 함수
- max_depth와 random_state로 모델의 설장과 결과 고정 설정 가능
- DecisionTreeClassifier() 함수의 fit() 메서드에 독립변수와 종속변수를 할당

### sklearn - DecisionTreeRegressor()
- 의사결정나무의 `회귀나무`를 수행할 때 사용하는 sklearn의 함수
- max_depth와 random_state로 모델의 설장과 결과 고정 설정 가능
- DecisionTreeRegressor() 함수의 fit() 메서드에 독립변수와 종속변수를 할당

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import DecisionTreeRegressor

In [16]:
df = pd.read_csv("iris.csv")
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [17]:
df["is_setosa"] = (df["Species"] == "setosa") + 0
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1


In [18]:
# 분류나무
model_c = DecisionTreeClassifier(random_state = 123)
model_c.fit(X = df.iloc[:, :4],
            y = df["is_setosa"])
model_c

DecisionTreeClassifier(random_state=123)

In [21]:
# 예측값 생성
pred_c = model_c.predict(df.iloc[:, :4])
pred_c[:4]

array([1, 1, 1, 1])

- 분류모델이므로 accuracy, precision, recall, f1 Score 등을 쓸 수 있음(10일차1 파일)

회귀나무 만들기

In [6]:
model_r = DecisionTreeRegressor(random_state = 123) # 틀만만듬
model_r.fit(X = df.iloc[:, :3], 
            y = df["Petal.Width"]) # 학습시킴
pred_r = model_r.predict(df.iloc[:, :3]) # 예측값 생성
pred_r

array([0.25, 0.2 , 0.2 , 0.2 , 0.2 , 0.4 , 0.3 , 0.2 , 0.2 , 0.15, 0.2 ,
       0.2 , 0.2 , 0.1 , 0.2 , 0.4 , 0.4 , 0.25, 0.3 , 0.3 , 0.2 , 0.4 ,
       0.2 , 0.5 , 0.2 , 0.2 , 0.4 , 0.2 , 0.2 , 0.2 , 0.2 , 0.4 , 0.1 ,
       0.2 , 0.15, 0.2 , 0.2 , 0.1 , 0.2 , 0.2 , 0.3 , 0.3 , 0.2 , 0.6 ,
       0.4 , 0.2 , 0.2 , 0.2 , 0.2 , 0.2 , 1.4 , 1.5 , 1.5 , 1.3 , 1.5 ,
       1.3 , 1.6 , 1.  , 1.3 , 1.4 , 1.  , 1.5 , 1.  , 1.4 , 1.3 , 1.4 ,
       1.5 , 1.  , 1.5 , 1.1 , 1.8 , 1.3 , 1.5 , 1.2 , 1.3 , 1.4 , 1.4 ,
       1.7 , 1.5 , 1.  , 1.1 , 1.  , 1.2 , 1.6 , 1.5 , 1.6 , 1.5 , 1.3 ,
       1.3 , 1.3 , 1.2 , 1.4 , 1.2 , 1.  , 1.3 , 1.2 , 1.3 , 1.3 , 1.1 ,
       1.3 , 2.5 , 1.9 , 2.1 , 1.8 , 2.2 , 2.1 , 1.7 , 1.8 , 1.8 , 2.5 ,
       2.  , 1.9 , 2.1 , 2.  , 2.4 , 2.3 , 1.8 , 2.2 , 2.3 , 1.5 , 2.3 ,
       2.  , 2.  , 1.8 , 2.3 , 1.8 , 1.8 , 1.8 , 2.15, 1.6 , 1.9 , 2.  ,
       2.15, 1.5 , 1.4 , 2.3 , 2.4 , 1.8 , 1.8 , 2.1 , 2.4 , 2.3 , 1.9 ,
       2.3 , 2.3 , 2.3 , 1.9 , 2.  , 2.3 , 1.8 ])

- 회귀모델이므로 sklearn_metrics의 MSE, RMSE, MAE 산출 가능

### 1. 당뇨병 발병 여부를 예측하기 위하여 의사결정나무를 사용하고자 한다. 이때 혈당, 혈압, 임신 횟수를 기반으로 예측을 했을 때 예측 정확도는?
- diabates.csv 
- 데이터를 학습8, 평가2의 비율로 분할
- Seed는 123

In [7]:
from sklearn.model_selection import train_test_split

In [8]:
df = pd.read_csv("diabetes.csv")
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [9]:
df_train, df_test = train_test_split(df, train_size = 0.8, random_state = 123)

In [10]:
from sklearn.tree import DecisionTreeClassifier

In [11]:
model = DecisionTreeClassifier(random_state=123).fit(X = df_train.iloc[:, [1, 2, 0]],
                                             y = df_train["Outcome"])
model

DecisionTreeClassifier(random_state=123)

In [12]:
pred = model.predict(df_test.iloc[:, [1, 2, 0]])
pred                                  

array([1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0,
       0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1,
       0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0,
       1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0,
       1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0,
       0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1,
       1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0],
      dtype=int64)

In [13]:
from sklearn.metrics import accuracy_score

In [22]:
accuracy_score(y_true = df_test["Outcome"],
               y_pred = (pred > 0.5) + 0)

0.6298701298701299

정답: 63%

### 2. 환자의 BMI를 예측하기 위하여 회귀나무를 사용하고자한다. 이 때 혈당, 혈압, 피부두께를 독립변수로 했을 경우 RMSE는 얼마인가?
- diabates.csv
- 데이터를 학습8, 평가2의 비율로 분할
- Seed는 123

In [23]:
df = pd.read_csv("diabetes.csv")
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [24]:
from sklearn.model_selection import train_test_split

In [25]:
df_train, df_test = train_test_split(df, train_size=0.8, random_state=123)

In [26]:
from sklearn.tree import DecisionTreeRegressor

In [27]:
model = DecisionTreeRegressor(random_state=123).fit(X = df_train.iloc[:, [1, 2, 3]],
                                                    y = df_train["BMI"])
model

DecisionTreeRegressor(random_state=123)

In [28]:
pred = model.predict(df_test.iloc[:, [1, 2, 3]])
pred[:3]

array([30.8, 28.6, 33.8])

In [29]:
from sklearn.metrics import mean_squared_error

In [30]:
mean_squared_error(y_true = df_test["BMI"],
                   y_pred = pred) ** 0.5

9.924605211306321

### 3. 분류나무의 파라미터를 바꿔가면서 성능 평가를 하려고 한다. 당뇨 발병 여부를 종속변수로하고 혈당, 혈압, 임신횟수, BMI, 나이를 독립변수로 하고 Depth를 3에서 6까지 변화시킬 때 그 결과로 틀린 것은?
- diabates.csv
- 데이터를 학습7, 평가3의 비율로 분할
- Seed는 123

정답

In [31]:
from sklearn.model_selection import train_test_split

In [32]:
df = pd.read_csv("diabetes.csv")
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [33]:
df_train, df_test = train_test_split(df, train_size=0.7, random_state=345)

In [34]:
from sklearn.tree import DecisionTreeRegressor

In [44]:
depth_list = [3, 4, 5, 6]
accs = []
for depth in depth_list:
    model = DecisionTreeClassifier(max_depth = depth, random_state=345)
    model.fit(X = df_train.iloc[:, [0, 1, 2, 5, 7]], y = df_train["Outcome"])
    pred = model.predict(df_test.iloc[:, [0, 1, 2, 5, 7]])
    accs = accs + [accuracy_score(y_pred = pred, y_true = df_test["Outcome"])] # accs에 값 축적

In [45]:
df_score = pd.DataFrame({"depth": depth_list,
                         "accs": accs})
df_score["accs"] = df_score["accs"].round(2)
df_score

Unnamed: 0,depth,accs
0,3,0.77
1,4,0.76
2,5,0.76
3,6,0.77


In [46]:
accs

[0.7705627705627706,
 0.7575757575757576,
 0.7619047619047619,
 0.7705627705627706]