##**Atividade 3** - Rodar os algoritmos de árvore de decisão para as bases de dados **Wine** e **Heart Disease Dataset**

**Aluno:** Vinícius Venceslau Venancio da Penha

**Turma: ELE0606** - Tópicos Especiais em IA

In [None]:
#Importações de bibliotecas:
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

#Carregamento da base de dados WINE:
banco_de_dados = load_wine()
wine_df = pd.DataFrame(banco_de_dados.data, columns=banco_de_dados.feature_names)

#Adição da coluna 'classe' ao DataFrame:
wine_df['classe'] = banco_de_dados['target']

#Armazenamento dos rótulos de classe em uma variável:
wine_classe = wine_df['classe']

#Remoção da coluna 'classe' do DataFrame, porque ela representa a variável de resposta ou saída do sistema e não deve ser usada como atributo de entrada para o modelo.
wine_df.drop(['classe'], axis=1, inplace=True)

#Divisão dos dados em conjuntos de treinamento e teste:
X_train, X_test, y_train, y_test = train_test_split(wine_df, wine_classe, test_size=0.4, random_state=13)

#Criação do modelo de árvore de decisão:
arvore_de_decisao = DecisionTreeClassifier(random_state=13)

#Treinamento do modelo:
arvore_de_decisao.fit(X_train, y_train)

#Previsões com o modelo treinado:
y_previsao = arvore_de_decisao.predict(X_test)

#Avaliação do desempenho do modelo:
accuracy = accuracy_score(y_test, y_previsao)
conf_matrix = confusion_matrix(y_test, y_previsao)
class_report = classification_report(y_test, y_previsao, target_names=banco_de_dados.target_names)

#Impressão dos resultados:
print(f'Acurácia: {accuracy:.4f}\n')
print('Matriz de Confusão:\n')
print(conf_matrix)
print('\n')
print('Relatório de Classificação:\n')
print(class_report)

Acurácia: 0.9444

Matriz de Confusão:

[[22  2  0]
 [ 1 30  0]
 [ 0  1 16]]


Relatório de Classificação:

              precision    recall  f1-score   support

     class_0       0.96      0.92      0.94        24
     class_1       0.91      0.97      0.94        31
     class_2       1.00      0.94      0.97        17

    accuracy                           0.94        72
   macro avg       0.96      0.94      0.95        72
weighted avg       0.95      0.94      0.94        72



Desenvolver a árvore de decisão para a base de dados **Heart Disease Dataset**:

In [None]:
#Permitir o google colab acessar os arquivos do Drive:
from google.colab import drive
drive.mount('/content/drive')

#Importar bibliotecas:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

#Carregamento da base de dados de doença cardíaca a partir do Google Drive:
caminho_arquivo = "/content/drive/My Drive/heart.csv"  #Caminho correto para o arquivo no Google Drive.
banco_de_dados = pd.read_csv(caminho_arquivo)

#Criar um Dataframe:
heart_df = banco_de_dados

#Armazenamento dos rótulos de classe em uma variável:
heart_classe = heart_df['target']

#Remoção da coluna 'target' do DataFrame, porque ela representa a variável de resposta ou saída do sistema e não deve ser usada como atributo de entrada para o modelo.
heart_df.drop(['target'], axis=1, inplace=True)

#Divisão dos dados em conjuntos de treinamento e teste:
X_train, X_test, y_train, y_test = train_test_split(heart_df, heart_classe, test_size=0.4, random_state=13)

#Criação do modelo de árvore de decisão:
arvore_de_decisao = DecisionTreeClassifier(random_state=13)

#Treinamento do modelo:
arvore_de_decisao.fit(X_train, y_train)

#Previsões com o modelo treinado:
y_previsao = arvore_de_decisao.predict(X_test)

#Avaliação do desempenho do modelo:
accuracy = accuracy_score(y_test, y_previsao)
conf_matrix = confusion_matrix(y_test, y_previsao)
class_report = classification_report(y_test, y_previsao, target_names=['Classe 0', 'Classe 1'])

#Impressão dos resultados:
print(f'Acurácia: {accuracy:.4f}\n')
print('Matriz de Confusão:\n')
print(conf_matrix)
print('\n')
print('Relatório de Classificação:\n')
print(class_report)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Acurácia: 0.9707

Matriz de Confusão:

[[198   9]
 [  3 200]]


Relatório de Classificação:

              precision    recall  f1-score   support

    Classe 0       0.99      0.96      0.97       207
    Classe 1       0.96      0.99      0.97       203

    accuracy                           0.97       410
   macro avg       0.97      0.97      0.97       410
weighted avg       0.97      0.97      0.97       410



**Referências:**

**A Árvore de Decisão - Algoritmos de Aprendizado de Máquinas**. Disponível em: <https://www.youtube.com/watch?v=aNrdgC0lIZ8&t=2033s>.

**PYTHON MACHINE LEARNING (03): Criar e treinar modelo – Árvore de Decisão**. Disponível em: <https://www.youtube.com/watch?v=ba3_UMjhAQc>.

LAPP, D. Heart Disease Dataset. Disponível em: <https://www.kaggle.com/datasets/johnsmith88/heart-disease-dataset>.