Inteligência Artificial 

813213 - Daniel Victor Rocha Costa

Lista 4

### Projeto: Implementação de Árvores de Decisão
 Este notebook está estruturado da seguinte forma:

- **Seção 1**: Preparação dos Dados: Carregamento, limpeza, pré-processamento e divisão dos datasets Titanic e Play Tennis. As transformações específicas para cada algoritmo, como a discretização para o ID3, são realizadas e justificadas nesta etapa.

- **Seção 2**: Análise dos Algoritmos e Resultados: Nesta seção, os três algoritmos implementados são treinados com os dados preparados. Para cada um, são apresentadas as saídas exigidas:

    - A estrutura da árvore de decisão aprendida.

    - A interpretação das regras geradas.

    - As métricas de desempenho (Acurácia, Matriz de Confusão, etc.).

- **Seção 3**: Comparação e Conclusão: Os resultados dos modelos são comparados e uma conclusão sobre o desempenho e as características de cada algoritmo é apresentada.

- **Link para repositório dos códigos**: ...


#### Setup Inicial: Importações e Instalação da Biblioteca
- importando todas as bibliotecas necessárias. 

In [2]:
%pip install seaborn

Collecting seaborn
  Obtaining dependency information for seaborn from https://files.pythonhosted.org/packages/83/11/00d3c3dfc25ad54e731d91449895a79e4bf2384dc3ac01809010ba88f6d5/seaborn-0.13.2-py3-none-any.whl.metadata
  Downloading seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Downloading seaborn-0.13.2-py3-none-any.whl (294 kB)
   ---------------------------------------- 294.9/294.9 kB 1.4 MB/s eta 0:00:00
Installing collected packages: seaborn
Successfully installed seaborn-0.13.2
Note: you may need to restart the kernel to use updated packages.


In [6]:
# Importações gerais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import json # Para "pretty-print" das árvores

# Importações do Scikit-learn para pré-processamento e métricas
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, ConfusionMatrixDisplay
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree

# Importando meus algoritmos
from decision_tree_lib.id3 import ID3
from decision_tree_lib.c45 import C45
from decision_tree_lib.cart import CART


# Importando funções de pré-processamento
from decision_tree_lib.preprocessing import clean_titanic_data, discretize_for_id3

# Configurações visuais
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

ModuleNotFoundError: No module named 'decision_tree_lib'

#### **Seção 1: Preparação dos Dados**
- Nesta seção, realizaremos todo o tratamento necessário nos dados do Titanic para que possam ser utilizados pelos algoritmos.

 **1.1 Carregamento dos Dados**

In [None]:
# Carregando o dataset do Titanic
df_titanic_raw = pd.read_csv('../data/train.csv')

print("Informações iniciais do dataset Titanic:")
df_titanic_raw.info()

print("\n5 primeiras linhas:")
display(df_titanic_raw.head())

 **1.2 Limpeza e Pré-Processamento Geral**

Aqui, utilizamos a função ``clean_titanic_data`` para tratar valores ausentes e converter dados categóricos. 

In [None]:
# Aplicando a função de limpeza
df_titanic_clean = clean_titanic_data(df_titanic_raw)

print("Informações do dataset após a limpeza:")
df_titanic_clean.info()

print("\n5 primeiras linhas do dataset limpo:")
display(df_titanic_clean.head())

-  As **decisões** de preencher a idade (Age) com a mediana e o porto de embarque (Embarked) com a moda são estratégias padrão para lidar com dados faltantes. A mediana é preferível à média para a idade por ser menos sensível a valores extremos (outliers). As colunas de texto como Sex e Embarked foram convertidas para números para que os algoritmos C4.5 e CART possam processá-las.

**1.3 Preparação Específica para ID3: Discretização**

O algoritmo ID3 não lida com atributos contínuos. Portanto, precisamos converter as colunas numéricas Age e Fare em categorias.



In [None]:
# Aplicando a função de discretização
df_titanic_id3 = discretize_for_id3(df_titanic_clean)

print("5 primeiras linhas do dataset para o ID3:")
display(df_titanic_id3.head())

- A **discretização** é um requisito do ID3. A idade foi dividida em faixas etárias lógicas (criança, adulto, idoso), e a tarifa (Fare) foi dividida por quantis (qcut), uma técnica eficaz para atributos com distribuição assimétrica, garantindo que cada categoria tenha um número similar de passageiros.

**1.4 Divisão em Conjuntos de Treino e Teste**

Dividimos os dados em 80% para treino e 20% para teste. Usamos a estratificação para garantir que a proporção de sobreviventes seja a mesma em ambos os conjuntos

In [None]:
# Dados para C4.5 e CART (contínuos)
X_cc = df_titanic_clean.drop('Survived', axis=1)
y_cc = df_titanic_clean['Survived']
X_train_cc, X_test_cc, y_train_cc, y_test_cc = train_test_split(X_cc, y_cc, test_size=0.2, random_state=42, stratify=y_cc)

# Dados para ID3 (discretizados)
X_id3 = df_titanic_id3.drop('Survived', axis=1)
y_id3 = df_titanic_id3['Survived']
X_train_id3, X_test_id3, y_train_id3, y_test_id3 = train_test_split(X_id3, y_id3, test_size=0.2, random_state=42, stratify=y_id3)

print(f"Tamanho do treino (C4.5/CART): {len(X_train_cc)} amostras")
print(f"Tamanho do teste (C4.5/CART): {len(X_test_cc)} amostras")
print(f"Tamanho do treino (ID3): {len(X_train_id3)} amostras")
print(f"Tamanho do teste (ID3): {len(X_test_id3)} amostras")