## 의사결정나무 모델
### 분류 나무 (Classification Tree)
- 종속변수가 명목형인 경우 사용하는 의사결정나무 모델
- 각 노드 분류 알고리즘은 이진 분류 시 지니지수(Gini index) 기반의 CART 사용
- 과적합 방지 및 모델 단순화를 위해 Depth, Impurity 등 관련 설정 활용
### 회귀 나무 (Regression Tree)
- 종속변수가 연속형인 경우 사용하는 의사결정나무 모델
- 각 노드 분류에 평균과 표준편차 사용
- 과적합 방지 및 모델 단순화를 위해 Depth, Impurity 등 관련 설정 활용
#### sklearn - DecisionTreeClassifier()
- 분류 나무를 수행할 때 사용하는 sklearn 함수
- max_depth와 random_state로 모델의 성장과 결과 고정 설정 가능
- 함수의 fit() 메서드에 독립변수와 종속변수를 할당
#### sklearn - DecisionTreeRegressor()
- 회귀 나무를 수행할 때 사용하는 sklearn 함수
- max_depth와 random_state로 모델의 성장과 결과 고정 설정 가능
- 함수의 fit() 메서드에 독립변수와 종속변수를 할당

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import DecisionTreeRegressor

In [2]:
df = pd.read_csv('ex/iris.csv')
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [3]:
df['is_setosa'] = (df['Species']=='setosa') + 0
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1


In [4]:
model_c = DecisionTreeClassifier(random_state=123)
model_c.fit(X = df.iloc[:, :4],
            y = df['is_setosa'])
model_c

In [6]:
pred_c = model_c.predict(df.iloc[:,:4])
pred_c[:4]

array([1, 1, 1, 1])

In [7]:
model_r = DecisionTreeRegressor(random_state=123)
model_r.fit(X=df.iloc[:, :3], y=df['Petal.Width'])
model_r

In [9]:
pred_r = model_r.predict(df.iloc[:,:3])
pred_r[:4]

array([0.25, 0.2 , 0.2 , 0.2 ])

In [10]:
# 당뇨병 발병 여부를 예측하기 위하여 의사결정나무를 사용하고자 한다.
# 이때 혈당, 혈압, 임신 횟수를 기반으로 예측했을 때 예측 정확도는?
df = pd.read_csv('ex/diabetes.csv')
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [11]:
from sklearn.model_selection import train_test_split
train_df, test_df = train_test_split(df, train_size=0.8, random_state=123)

In [18]:
model = DecisionTreeClassifier(random_state=123)
model.fit(X = train_df[['BloodPressure', 'Glucose', 'Pregnancies']],
            y = train_df['Outcome'])
model

In [19]:
pred = model.predict(X=test_df[['BloodPressure', 'Glucose', 'Pregnancies']])
pred

array([1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0,
       0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1,
       0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0,
       1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0,
       1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0,
       0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1,
       1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0],
      dtype=int64)

In [15]:
from sklearn.metrics import accuracy_score

In [20]:
accuracy_score(y_true = test_df['Outcome'],
               y_pred = pred)

0.6298701298701299

In [22]:
# 환자의 BMI를 예측하기 위해 회귀나무를 사용하고자 한다.
# 이때 혈당, 혈압, 피부 두께를 독립변수로 했을 경우 RMSE는 얼마인가?
# 8:2, seed:123, diabetes.csv
# 9.9
df = pd.read_csv('ex/diabetes.csv')
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [23]:
from sklearn.model_selection import train_test_split
train_df, test_df = train_test_split(df, train_size=0.8, random_state=123)

In [24]:
model = DecisionTreeRegressor(random_state=123)
model.fit(X = train_df[['BloodPressure', 'Glucose', 'SkinThickness']],
            y = train_df['BMI'])
model

In [25]:
pred = model.predict(test_df[['BloodPressure', 'Glucose', 'SkinThickness']])
pred[:3]

array([30.8, 28.6, 33.8])

In [26]:
from sklearn.metrics import mean_squared_error as mse

In [28]:
mse(y_true=test_df['BMI'],
    y_pred=pred) ** 0.5

9.924605211306321

In [29]:
# 분류나무의 파라미터를 바꿔가면서 성능 평가를 하려고 한다.
# 당뇨 발병 여부를 종속변수로 하고 혈당, 혈압, 임신 횟수, BMI, 나이를
# 독립변수로 하고 Depth를 3에서 6까지 변화시킬 때 그 결과로 틀린 것은
# diabetes.csv, 7:3, seed:345
df = pd.read_csv('ex/diabetes.csv')
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [30]:
from sklearn.model_selection import train_test_split
train_df, test_df = train_test_split(df, train_size=0.7, random_state=345)

In [36]:
for depth in range(3,7):
    model = DecisionTreeClassifier(max_depth=depth, random_state=345)
    model.fit(X = train_df[['Glucose', 'BloodPressure', 'Pregnancies', 'BMI', 'Age']],
              y = train_df['Outcome'])
    
    pred = model.predict(test_df[['Glucose', 'BloodPressure', 'Pregnancies', 'BMI', 'Age']])
    
    acc = accuracy_score(y_true = test_df['Outcome'], y_pred = pred)
    
    print(f"depth = {depth}, accuracy_score = {round(acc, 2)}")

depth = 3, accuracy_score = 0.77
depth = 4, accuracy_score = 0.76
depth = 5, accuracy_score = 0.76
depth = 6, accuracy_score = 0.77
