# 의사결정나무 모델 : 분류 및 회귀나무

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor

In [3]:
df = pd.read_csv('../datasets/iris.csv')
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [4]:
df['is_setosa'] = (df['Species'] == 'setosa') + 0
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1


In [5]:
model_c = DecisionTreeClassifier(random_state=123)
model_c.fit(X=df.iloc[:, :4], y=df['is_setosa'])
model_c

In [6]:
pred_c = model_c.predict(df.iloc[:, :4])
pred_c[:4]

array([1, 1, 1, 1])

In [7]:
model_r = DecisionTreeRegressor(random_state=123)
model_r.fit(X=df.iloc[:, :3], y=df['Petal.Width'])
pred_r = model_r.predict(df.iloc[:, :3])
pred_r[:4]

array([0.25, 0.2 , 0.2 , 0.2 ])

### 1. 당뇨병 발병 여부를 예측하기 위하여 의사결정나무를 사용하고자 한다. 이 때 혈당, 혈압, 임신 횟수를 기반으로 예측을 했을 때 예측 정확도는?

diabates.csv 파일 사용
데이터를 학습8, 평가2의 비율로 분할하시오.
Seed는 123

1. 60%
2. 61%
3. 62%
4. 63%

In [11]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [13]:
# 데이터 불러오기
df = pd.read_csv('../datasets/diabetes.csv')

df.head(2)

# 데이터 분리
df_train, df_test = train_test_split(df, train_size=0.8, random_state=123)

# 모델 구축
model = DecisionTreeRegressor(random_state=123).fit(
    X=df_train.loc[:, ['Glucose', 'BloodPressure', 'Pregnancies']],
    y=df_train['Outcome']
)

# 예측
pred = model.predict(X=df_test.loc[:, ['Glucose', 'BloodPressure', 'Pregnancies']])
print(pred[:4])

# 정확도
accuracy_score(y_true=df_test['Outcome'], y_pred=pred)

[1. 0. 1. 0.]


0.6168831168831169

### 2. 환자의 BMI를 예측하기 위해서 회귀나무를 사용하고자 한다. 이 때 혈당, 혈압, 피부 두께를 독립변수로 했을 경우 RMSE는 얼마인가?

diabates.csv 파일 사용
데이터를 학습8, 평가2의 비율로 분할하시오.
Seed는 123

In [17]:
from sklearn.metrics import mean_squared_error

In [14]:
# 데이터 불러오기
df = pd.read_csv('../datasets/diabetes.csv')
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [15]:
# 데이터 분리
df_train, df_test = train_test_split(df, train_size=0.8, random_state=123)

In [16]:
# 모델 구축
model = DecisionTreeRegressor(random_state=123).fit(
    X=df_train.loc[:, ['Glucose', 'BloodPressure', 'SkinThickness']],
    y=df_train['BMI']
)
model

In [18]:
# 예측
pred = model.predict(X=df_test.loc[:, ['Glucose', 'BloodPressure', 'SkinThickness']])

In [19]:
# RMSE값 가져오기
rmse = mean_squared_error(y_true=df_test['BMI'], y_pred=pred) ** 0.5
round(rmse, 1)

9.9

### 3. 분류나무의 파라미터를 바꿔가면서 성능 평가를 하려고 한다. 당뇨 발병 여부를 종속변수로 하고 혈당, 혈압, 임신 횟수, BMI, 나이를 독립변수로 하고 Depth를 3에서 6까지 변화시킬 때 그 결과로 틀린 것은?

diabates.csv 파일 사용
데이터를 학습7, 평가3의 비율로 분할하시오.
Seed는 345

1. Depth 3, 정확도: 0.77
2. Depth 4, 정확도: 0.76
3. Depth 5, 정확도: 0.76
4. Depth 6, 정확도: 0.78

In [20]:
# 데이터 가져오기
df = pd.read_csv('../datasets/diabetes.csv')

# 데이터 분리
df_train, df_test = train_test_split(df, train_size=0.7, random_state=345)

In [21]:
# 정확도 구하는 함수
def get_acc(depth):
    # 모델 구축
    model = DecisionTreeClassifier(random_state=345, max_depth=depth).fit(
        X=df_train.loc[:, ['Glucose', 'BloodPressure', 'Pregnancies', 'BMI', 'Age']],
        y=df_train['Outcome']
    )

    # 예측
    pred = model.predict(
        X=df_test.loc[:, ['Glucose', 'BloodPressure', 'Pregnancies', 'BMI', 'Age']]
    )

    # 정확도 평가
    acc = accuracy_score(
        y_true=df_test['Outcome'],
        y_pred=pred
    )
    acc = round(acc, 2)

    return acc

In [22]:
depths = [3, 4, 5, 6]

for depth in depths:
    print(f'Depth {depth}, 정확도: {get_acc(depth)}')

Depth 3, 정확도: 0.77
Depth 4, 정확도: 0.76
Depth 5, 정확도: 0.76
Depth 6, 정확도: 0.77
