In [None]:
# ETAPA 0: IMPORTAÇÃO DAS BIBLIOTECAS
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# ---
# ETAPA 1: EXPLORAÇÃO DOS DADOS
# ---

# Carregando o dataset Iris
iris = load_iris()
# Convertendo para um DataFrame do pandas para facilitar a manipulação
# iris.data contém as 4 características (features)
# iris.feature_names contém os nomes das colunas
df_iris = pd.DataFrame(data=iris.data, columns=iris.feature_names)
# Adicionando a coluna "target" com as espécies de flores
df_iris['species'] = iris.target_names[iris.target]

print("--- Análise Inicial do Conjunto de Dados ---")
# Exibindo as primeiras 5 linhas para entender a estrutura
print("Cabeçalho do DataFrame:")
print(df_iris.head())
print("\n")

# Verificando informações gerais: tipos de dados e valores não nulos
print("Informações Gerais do DataFrame:")
df_iris.info()
print("\n")

# Obtendo estatísticas descritivas (média, desvio padrão, etc.)
print("Estatísticas Descritivas:")
print(df_iris.describe())
print("\n")

# Verificando a distribuição das classes (balanceamento)
print("Contagem de Amostras por Espécie:")
print(df_iris['species'].value_counts())
print("\n")

# Visualizações para entender as relações entre as variáveis
print("--- Gerando Visualizações ---")
# Gráfico de pares (pairplot) para visualizar a relação entre todas as características
# colorindo por espécie. Isso nos ajuda a ver se as classes são separáveis.
sns.pairplot(df_iris, hue='species', markers=["o", "s", "D"])
plt.suptitle("Pairplot do Dataset Iris", y=1.02)
plt.show()

# Boxplot para visualizar a distribuição de cada característica por espécie
plt.figure(figsize=(12, 8))
for i, feature in enumerate(iris.feature_names):
    plt.subplot(2, 2, i + 1)
    sns.boxplot(x='species', y=feature, data=df_iris)
plt.tight_layout()
plt.show()
print("Visualizações geradas. Verifique as janelas de plotagem.")


# ---
# ETAPA 2: PRÉ-PROCESSAMENTO
# ---

# Neste caso, o dataset Iris é muito limpo.
# 1. Valores Ausentes: Verificamos com df_iris.info() que não há valores ausentes.
# 2. Normalização: Árvores de decisão não são sensíveis à escala das características,
#    então a normalização (como StandardScaler ou MinMaxScaler) não é estritamente necessária.
#    Portanto, esta etapa é bastante simples para este dataset.
print("\n--- Pré-processamento ---")
print("O dataset Iris não possui valores ausentes e não requer normalização para Árvores de Decisão.")


# ---
# ETAPA 3: DIVISÃO DOS DADOS
# ---

# Separando as características (features, X) e a variável alvo (target, y)
X = df_iris.drop('species', axis=1) # Todas as colunas, exceto a de espécie
y = df_iris['species']              # Apenas a coluna de espécie

# Dividindo os dados em conjuntos de treino e teste
# 80% para treino, 20% para teste. random_state garante a reprodutibilidade.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print("\n--- Divisão dos Dados ---")
print(f"Tamanho do conjunto de treino: {X_train.shape[0]} amostras")
print(f"Tamanho do conjunto de teste: {X_test.shape[0]} amostras")


# ---
# ETAPA 4: TREINAMENTO DO MODELO
# ---

# Criando a instância do modelo de Árvore de Decisão
# random_state é usado para garantir que os resultados sejam os mesmos a cada execução
modelo_arvore = DecisionTreeClassifier(random_state=42)

# Treinando o modelo com os dados de treino
modelo_arvore.fit(X_train, y_train)

print("\n--- Treinamento do Modelo ---")
print("Modelo de Árvore de Decisão treinado com sucesso!")


# ---
# ETAPA 5: AVALIAÇÃO DO MODELO
# ---

# Fazendo previsões nos dados de teste
y_pred = modelo_arvore.predict(X_test)

# Calculando a acurácia
acuracia = accuracy_score(y_test, y_pred)

print("\n--- Avaliação do Desempenho ---")
print(f"Acurácia do modelo: {acuracia:.2f}")

# Exibindo o relatório de classificação com outras métricas importantes
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred, target_names=iris.target_names))

# Gerando e visualizando a Matriz de Confusão
print("\nMatriz de Confusão:")
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=iris.target_names, yticklabels=iris.target_names)
plt.xlabel('Previsto')
plt.ylabel('Verdadeiro')
plt.title('Matriz de Confusão')
plt.show()