<a href="https://colab.research.google.com/github/daniel-usp/MachineLearning/blob/main/Prompt_DecisionTreeClassifier.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [13]:
# Importar bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.metrics import accuracy_score, classification_report
import matplotlib.pyplot as plt
import graphviz

# Carregar o banco de dados
dados = pd.read_excel('https://github.com/daniel-usp/MachineLearning/raw/main/04%20-%20DecisionTrees/assinatura.xlsx')

# Definir X e y
y = dados['cancel']
X = dados.drop('cancel', axis=1)

# Separar amostra treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Definir a grade de parâmetros
param_grid = {
    'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15],
    'splitter': ['best', 'random']
}

# Realizar a busca em grade (grid search) para encontrar os melhores parâmetros
grid_search = GridSearchCV(DecisionTreeClassifier(random_state=42), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# Obter os melhores parâmetros
best_params = grid_search.best_params_
best_max_depth = best_params['max_depth']
best_splitter = best_params['splitter']
best_accuracy = grid_search.best_score_

print(f"O melhor valor de max_depth é: {best_max_depth}")
print(f"O melhor valor de splitter é: {best_splitter}")
print(f"A melhor acurácia durante a validação cruzada é: {best_accuracy:.2f}")

# Treinar o modelo de Árvore de Decisão com os melhores parâmetros
tree = DecisionTreeClassifier(max_depth=best_max_depth, splitter=best_splitter, random_state=42)
tree.fit(X_train, y_train)

# Prever y no conjunto de teste
y_pred = tree.predict(X_test)

# Avaliar a taxa de acerto fora da amostra
accuracy = accuracy_score(y_test, y_pred)
print(f"Taxa de acerto fora da amostra: {accuracy:.2f}")

# Gerar o relatório de classificação
report = classification_report(y_test, y_pred, target_names=['0', '1'])
print(report)


# Exportar a árvore de decisão para o formato Graphviz
dot_data = export_graphviz(
    tree,
    out_file=None,
    feature_names=X.columns,
    class_names=['0', '1'],
    filled=True,
    rounded=True,
    special_characters=True
)

# Visualizar a árvore de decisão com Graphviz
graph = graphviz.Source(dot_data)
graph.render("decision_tree")

# Exibir a árvore renderizada
graph.view()


O melhor valor de max_depth é: 3
O melhor valor de splitter é: random
A melhor acurácia durante a validação cruzada é: 0.78
Taxa de acerto fora da amostra: 0.80
              precision    recall  f1-score   support

           0       0.84      0.91      0.87       457
           1       0.61      0.44      0.51       143

    accuracy                           0.80       600
   macro avg       0.72      0.68      0.69       600
weighted avg       0.78      0.80      0.79       600



'decision_tree.pdf'