## 결정트리
- 학습 데이터의 값을 보고 질문을 생성하는 방식으로 학습하는 알고리즘
- 학습 데이터에 최적화 되기 때문에 과적합이 발생하는 알고리즘
- 학습속도, 예측속도 모두 선형 모델보다 느리다.
- 과적합이 발생하기 때문에 성능이 좋지 않을 가능성이 매우 높다.


### 분류

#### 데이터 준비>데이터 전처리(X,y-인코딩( LabelEncoder())-표준화(StandardScaler()))

### 기본 모델 사용 DecisionTreeClassifier()

In [None]:
model1 = DecisionTreeClassifier()

# 교차 검증
kfold = KFold(n_splits=10, shuffle=True, random_state=1)
r1 = cross_val_score(model1, X, y, scoring='f1', cv=kfold)
print(f'평균 정확도 : {r1.mean()}')

### 모델 하이퍼 파라미터 튜닝
- 사실 결정트리에서 이 작업은 거의 하지 않는다.
- 결정트리의 하이퍼 파라미터 튜닝의 목적은 과적합 방지를 위해 학습을 덜 시키는 의미이다.
- 결정트리는 단독으로 사용하기 보다는 앙상블 모델을 위해서 사용한다.

In [None]:
# max_depth: 생성될 최대 질문 깊이, None은 무한대 
params = {
    'max_depth' : [ None, 1,2,3,4,5,6,7,8,9,10]
}

model1 = DecisionTreeClassifier()

kfold = KFold(n_splits=10, shuffle=True, random_state=1)

grid_clf1 = GridSearchCV(model1, param_grid=params, scoring='f1', cv=kfold)
grid_clf1.fit(X, y)
print(f'최적의 하이퍼 파라미터 : {grid_clf1.best_params_}')
print(f'최적의 모델 평균 성능 : {grid_clf1.best_score_}')

### 최적의 모델에 데이터를 학습시킨다.

In [None]:
# 최적의 하이퍼파라미터가 셋팅된 모델을 받아온다.
best_model1 = grid_clf1.best_estimator_

# 학습
best_model1.fit(X, y)

### 학습한 데이터를 통해 검증 한다.

In [None]:
y_pred1 = best_model1.predict(X)

plt.scatter(list(range(len(y))), y, label='original')
plt.scatter(list(range(len(y_pred1))), y_pred1, label='prediction')
plt.legend()
plt.title('DecisionTreeClassifier')
plt.show()

In [None]:
# 결과 확률
proba_a1 = best_model1.predict_proba(X)

# 0일 확률들
a10 = proba_a1[:, 0]
# 1일 확률들
a11 = proba_a1[:, 1]

plt.scatter(list(range(len(a10))), a10, label='0일 확률')
plt.scatter(list(range(len(a11))), a11, label='1일 확률')
plt.legend()
plt.show()

### 새로운 데이터에 대한 예측을 수행한다.

#### 데이터 준비>데이터 전처리(표준화(StandardScaler())>결과 예측>시각화

In [None]:
# 결과를 예측한다.
y_pred1 = best_model1.predict(scaled_data)

display(y_pred1)

In [None]:
# 예측 확률을 시각화한다.
proba_data = best_model1.predict_proba(scaled_data)

# 0일확률과 1일 확률 값을 각각 가져온다.
a10 = proba_data[:, 0]
a11 = proba_data[:, 1]

plt.scatter(list(range(len(a10))), a10, label='0일 확률')
plt.scatter(list(range(len(a11))), a11, label='1일 확률')
plt.legend()
plt.show()


In [None]:
# 결과 데이터를 복원한다.
result_data1 = encoder1.inverse_transform(y_pred1)

display(result_data1)

In [None]:
# 결과를 저장한다.
df2['target'] = result_data1
df2.to_csv('data/breast_cancer_DecisionTree.csv')

print('저장완료')
