# Classificação de Flores Iris - Projeto Inicial de ML

Neste notebook, vamos aprender os fundamentos de Machine Learning usando o famoso dataset Iris.

## O que vamos aprender:
- Carregar e explorar dados
- Visualizar dados
- Preparar dados (train/test split)
- Treinar modelos de classificação
- Avaliar performance

## 1. Importar Bibliotecas

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Configurar visualizações
sns.set_style('whitegrid')
%matplotlib inline

## 2. Carregar os Dados

In [None]:
# Carregar dataset Iris
iris = load_iris()

# Criar DataFrame para facilitar a análise
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['species'] = iris.target
df['species_name'] = df['species'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})

print("Primeiras linhas do dataset:")
df.head()

## 3. Explorar os Dados

In [None]:
# Informações gerais
print("Forma do dataset (linhas, colunas):")
print(df.shape)
print("\nInformações do dataset:")
print(df.info())
print("\nEstatísticas descritivas:")
df.describe()

In [None]:
# Verificar distribuição das classes
print("Distribuição das espécies:")
print(df['species_name'].value_counts())

# Visualizar distribuição
plt.figure(figsize=(8, 5))
df['species_name'].value_counts().plot(kind='bar')
plt.title('Distribuição das Espécies de Iris')
plt.xlabel('Espécie')
plt.ylabel('Quantidade')
plt.xticks(rotation=45)
plt.show()

## 4. Visualizar os Dados

In [None]:
# Pairplot - mostra relações entre todas as features
sns.pairplot(df, hue='species_name', height=2.5)
plt.suptitle('Relações entre Features do Dataset Iris', y=1.02)
plt.show()

In [None]:
# Boxplots para cada feature
fig, axes = plt.subplots(2, 2, figsize=(12, 10))
fig.suptitle('Distribuição das Features por Espécie')

for idx, col in enumerate(iris.feature_names):
    ax = axes[idx // 2, idx % 2]
    df.boxplot(column=col, by='species_name', ax=ax)
    ax.set_title(col)
    ax.set_xlabel('Espécie')
    
plt.tight_layout()
plt.show()

In [None]:
# Matriz de correlação
plt.figure(figsize=(10, 8))
correlation = df[iris.feature_names].corr()
sns.heatmap(correlation, annot=True, cmap='coolwarm', center=0)
plt.title('Matriz de Correlação das Features')
plt.show()

## 5. Preparar os Dados para Treinamento

In [None]:
# Separar features (X) e target (y)
X = iris.data
y = iris.target

print(f"Shape de X: {X.shape}")
print(f"Shape de y: {y.shape}")

# Dividir em treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"\nDados de treino: {X_train.shape[0]} amostras")
print(f"Dados de teste: {X_test.shape[0]} amostras")

In [None]:
# Normalizar os dados (importante para alguns algoritmos)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("Dados normalizados com sucesso!")

## 6. Treinar Modelos de Machine Learning

### 6.1 Decision Tree (Árvore de Decisão)

In [None]:
# Criar e treinar o modelo
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)

# Fazer previsões
y_pred_dt = dt_model.predict(X_test)

# Avaliar
accuracy_dt = accuracy_score(y_test, y_pred_dt)
print(f"Acurácia da Decision Tree: {accuracy_dt:.2%}")
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred_dt, target_names=iris.target_names))

### 6.2 K-Nearest Neighbors (KNN)

In [None]:
# Criar e treinar o modelo (usando dados normalizados)
knn_model = KNeighborsClassifier(n_neighbors=3)
knn_model.fit(X_train_scaled, y_train)

# Fazer previsões
y_pred_knn = knn_model.predict(X_test_scaled)

# Avaliar
accuracy_knn = accuracy_score(y_test, y_pred_knn)
print(f"Acurácia do KNN: {accuracy_knn:.2%}")
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred_knn, target_names=iris.target_names))

### 6.3 Logistic Regression

In [None]:
# Criar e treinar o modelo (usando dados normalizados)
lr_model = LogisticRegression(random_state=42, max_iter=200)
lr_model.fit(X_train_scaled, y_train)

# Fazer previsões
y_pred_lr = lr_model.predict(X_test_scaled)

# Avaliar
accuracy_lr = accuracy_score(y_test, y_pred_lr)
print(f"Acurácia da Logistic Regression: {accuracy_lr:.2%}")
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred_lr, target_names=iris.target_names))

## 7. Comparar Modelos

In [None]:
# Comparar acurácias
models_comparison = pd.DataFrame({
    'Modelo': ['Decision Tree', 'KNN', 'Logistic Regression'],
    'Acurácia': [accuracy_dt, accuracy_knn, accuracy_lr]
})

print(models_comparison)

# Visualizar comparação
plt.figure(figsize=(10, 6))
plt.bar(models_comparison['Modelo'], models_comparison['Acurácia'])
plt.title('Comparação de Acurácia dos Modelos')
plt.ylabel('Acurácia')
plt.ylim([0, 1.1])
plt.xticks(rotation=45)
for i, v in enumerate(models_comparison['Acurácia']):
    plt.text(i, v + 0.02, f'{v:.2%}', ha='center', fontweight='bold')
plt.show()

## 8. Matriz de Confusão

In [None]:
# Visualizar matriz de confusão para o melhor modelo
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

models_predictions = [
    ('Decision Tree', y_pred_dt),
    ('KNN', y_pred_knn),
    ('Logistic Regression', y_pred_lr)
]

for idx, (name, y_pred) in enumerate(models_predictions):
    cm = confusion_matrix(y_test, y_pred)
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=axes[idx],
                xticklabels=iris.target_names, yticklabels=iris.target_names)
    axes[idx].set_title(f'Matriz de Confusão - {name}')
    axes[idx].set_ylabel('Real')
    axes[idx].set_xlabel('Previsto')

plt.tight_layout()
plt.show()

## 9. Testar com Novos Dados

In [None]:
# Exemplo: prever espécie de uma nova flor
# [sepal length, sepal width, petal length, petal width]
nova_flor = np.array([[5.1, 3.5, 1.4, 0.2]])  # Valores típicos de uma Setosa

# Normalizar
nova_flor_scaled = scaler.transform(nova_flor)

# Prever com cada modelo
pred_dt = dt_model.predict(nova_flor)
pred_knn = knn_model.predict(nova_flor_scaled)
pred_lr = lr_model.predict(nova_flor_scaled)

print("Nova flor: sepal_length=5.1, sepal_width=3.5, petal_length=1.4, petal_width=0.2")
print(f"\nPrevisão Decision Tree: {iris.target_names[pred_dt[0]]}")
print(f"Previsão KNN: {iris.target_names[pred_knn[0]]}")
print(f"Previsão Logistic Regression: {iris.target_names[pred_lr[0]]}")

## 10. Conclusões

Neste notebook você aprendeu:
- ✅ Carregar e explorar um dataset
- ✅ Visualizar dados com gráficos
- ✅ Preparar dados (train/test split e normalização)
- ✅ Treinar 3 modelos diferentes de classificação
- ✅ Avaliar e comparar modelos
- ✅ Fazer previsões com novos dados

### Próximos Passos:
1. Experimentar com diferentes valores de hiperparâmetros (ex: n_neighbors no KNN)
2. Testar outros algoritmos (SVM, Random Forest, etc.)
3. Usar cross-validation para avaliação mais robusta
4. Experimentar com feature engineering
5. Partir para um dataset mais complexo (ex: Titanic)