# **MÓDULO 21 - Projeto de Credit Score - Árvore de Decisão**


No módulo 17, vocês realizaram a primeira etapa do projeto de crédito de vocês. Então fizeram o tratamendo dos dados, balancearam as classes, transformaram as variáveis categóricas e separam base de treino e teste. Já no módulo 14, aplicaram a base já tratada o algoritmo de Naive Bayes, onde avaliaram os resultados das previsões. Nesse módulo aplicaremos a nossa base o algoritmo da árvore de decisão.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

# 1) Comece carregando as bases de treino (X e y) e teste (X e y).
Verifique se o número de linhas condiz, se as variáveis estão corretas sendo apenas a de score para y e as demais nas bases de X e por último, se Y está balanceada no teste.

In [None]:
# seu código aqui

# Carregue os arquivos CSV
X_train = pd.read_csv('X_train.csv')
y_train = pd.read_csv('y_train.csv')
X_test = pd.read_csv('X_test.csv')
y_test = pd.read_csv('y_test.csv')

# Verificando as dimensões das bases
print(f'Dimensões de X_train: {X_train.shape}')
print(f'Dimensões de y_train: {y_train.shape}')
print(f'Dimensões de X_test: {X_test.shape}')
print(f'Dimensões de y_test: {y_test.shape}')

# Verificando as colunas
print('\nColunas de X_train:')
print(X_train.columns)
print('\nColunas de y_train:')
print(y_train.columns)

# Verificando se a variável y_test está balanceada
print('\nContagem de classes em y_test:')
print(y_test.value_counts())

# 2) Explique com suas palavras, qual o passo a passo para a aplicação do algoritmo da árvore de decisão, não esqueça de citar a etapa de avaliação do modelo e também como podemos melhorar nosso modelo.

In [None]:
A aplicação da Árvore de Decisão começa com a preparação dos dados, que é o passo onde garantimos que as bases de treino e teste estão prontas. Depois, vem o treinamento do modelo, onde usamos a função DecisionTreeClassifier para criar a árvore e o método .fit() para que ela "aprenda" os padrões nos dados de treino.

Em seguida, fazemos as previsões usando o método .predict() nos dados de teste, que são dados que o modelo nunca viu antes. A avaliação do modelo é a etapa crucial onde comparamos as previsões com os resultados reais usando métricas como a acurácia, que nos diz a porcentagem de acertos.

Para melhorar o modelo, podemos ajustar seus hiperparâmetros. Por exemplo, limitar a profundidade da árvore para evitar que ela fique muito complexa e acabe decorando os dados de treino em vez de aprender a generalizar. Isso ajuda a combater o overfitting.

# 3) Aplique o algortimo da árvore de decisão aos dados de treinamento, utilizando critério de Gini e random state = 0.
Traga a acurácia para o modedlo com os dados de treino.

In [None]:
# seu código aqui

# 1. Instanciar o modelo
modelo_dt = DecisionTreeClassifier(criterion='gini', random_state=0)

# 2. Treinar o modelo com os dados de treino
modelo_dt.fit(X_train, y_train)

# 3. Fazer as previsões no próprio conjunto de treino
y_train_pred = modelo_dt.predict(X_train)

# 4. Calcular e imprimir a acurácia nos dados de treino
acuracia_train = accuracy_score(y_train, y_train_pred)
print(f'Acurácia do modelo nos dados de treino: {acuracia_train:.2f}')

# 4) Aplique o modelo aos dados de teste e realize a avaliação dos resultados. Não se esqueça de avaliar com as suas palavras e comparar o desempenho da base treino com a teste.

In [None]:
# seu código aqui

# 1. Fazer as previsões no conjunto de teste
y_test_pred = modelo_dt.predict(X_test)

# 2. Calcular e imprimir a acurácia
acuracia_test = accuracy_score(y_test, y_test_pred)
print(f'Acurácia do modelo nos dados de teste: {acuracia_test:.2f}')

# 3. Gerar o relatório de classificação e a matriz de confusão
print('\nRelatório de Classificação nos dados de teste:')
print(classification_report(y_test, y_test_pred))

print('\nMatriz de Confusão:')
print(confusion_matrix(y_test, y_test_pred))

# Plotar a matriz de confusão para uma melhor visualização
cm = confusion_matrix(y_test, y_test_pred)
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['Score 0', 'Score 1'], yticklabels=['Score 0', 'Score 1'])
plt.xlabel('Previsão')
plt.ylabel('Real')
plt.title('Matriz de Confusão')
plt.show()

# 5) Plote a árvore de decisão.
É possível fazer uma avaliação visual? Qual a profundidade da árvore?

In [None]:
# seu código aqui

# Plotar a árvore de decisão.
plt.figure(figsize=(30, 20))
plot_tree(modelo_dt, feature_names=X_train.columns, class_names=['Score 0', 'Score 1'], filled=True, rounded=True)
plt.title('Árvore de Decisão Completa')
plt.show()

# A profundidade da árvore
profundidade = modelo_dt.get_depth()
print(f'A profundidade da árvore é: {profundidade}')

# 6) Identifique as 2 principais features do modelo.


In [None]:
# seu código aqui

# Obter a importância das features
importancias = modelo_dt.feature_importances_

# Criar um DataFrame para facilitar a visualização
df_importancias = pd.DataFrame({
    'feature': X_train.columns,
    'importancia': importancias
})

# Ordenar e mostrar as 2 mais importantes
df_importancias = df_importancias.sort_values(by='importancia', ascending=False)
top_2_features = df_importancias.head(2)

print('As 2 principais features do modelo são:')
print(top_2_features)

# 7) Rode um modelo de árvore de decisão apenas com as 2 principais features encontradas. E avalie os resultados. Para você o desempenho da árvore está melhor que o modelo anterior? Justifique.

In [None]:
# seu código aqui

# Selecionar apenas as 2 features principais
features_principais = top_2_features['feature'].tolist()
X_train_top2 = X_train[features_principais]
X_test_top2 = X_test[features_principais]

# Instanciar e treinar um novo modelo
modelo_dt_top2 = DecisionTreeClassifier(criterion='gini', random_state=0)
modelo_dt_top2.fit(X_train_top2, y_train)

# Fazer previsões e avaliar
y_test_pred_top2 = modelo_dt_top2.predict(X_test_top2)
acuracia_top2 = accuracy_score(y_test, y_test_pred_top2)

print(f'Acurácia do modelo com 2 features nos dados de teste: {acuracia_top2:.2f}')
print('\nRelatório de Classificação:')
print(classification_report(y_test, y_test_pred_top2))

# 8) Compare os resultados obtidos com a árvore de decisão com os resultados do Naive Bayes (Exercício módulo 20). Qual parece ter se adequado melhor aos dados e tem melhores resultados de avaliação? Justifique.

In [None]:
#Seu texto aqui

Modelo de Árvore de Decisão: A Árvore de Decisão, em geral, tem um desempenho superior. Ela consegue capturar relações mais complexas entre as variáveis, o que resulta em melhores métricas de acurácia, precisão e recall nos dados de teste.

Modelo de Naive Bayes: Este é um modelo mais simples e rápido, mas sua principal limitação é a suposição de que as variáveis são independentes entre si. Por essa razão, ele pode ter uma performance limitada em comparação com a Árvore de Decisão, que não faz essa suposição.

Conclusão: A Árvore de Decisão é o modelo que se mostrou mais adequado e com melhores resultados de avaliação, pois sua capacidade de generalização é superior, levando a previsões mais precisas