# Palmer Penguins - Pipeline de Machine Learning

**Projeto 02 - Constru√ß√£o de Esteira de Aprendizado de M√°quina**

Neste projeto, implementamos uma esteira completa de Machine Learning utilizando o dataset Palmer Penguins.

## Dataset
O Palmer Penguins √© um dataset que cont√©m informa√ß√µes sobre pinguins de tr√™s esp√©cies diferentes (Adelie, Chinstrap e Gentoo) coletadas nas ilhas Palmer, Ant√°rtica.

## Objetivo
Criar um modelo de classifica√ß√£o para prever a esp√©cie do pinguim com base em suas caracter√≠sticas f√≠sicas.

## 1. Importa√ß√£o de Bibliotecas e Carregamento dos Dados

In [None]:
# Importa√ß√£o de bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√£o de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("‚úì Bibliotecas importadas com sucesso!")

In [None]:
# Carregamento do dataset Palmer Penguins
# O dataset pode ser carregado via seaborn ou URL direta do UCI
df = sns.load_dataset('penguins')

print(f"Dataset carregado com sucesso!")
print(f"Dimens√µes: {df.shape[0]} linhas e {df.shape[1]} colunas\n")
print("Primeiras 5 linhas do dataset:")
df.head()

In [None]:
# Informa√ß√µes gerais sobre o dataset
print("Informa√ß√µes do Dataset:")
print(df.info())
print("\n" + "="*50)
print("Tipos de dados:")
print(df.dtypes)

## 2. Estat√≠sticas Descritivas

In [None]:
# Estat√≠sticas descritivas das vari√°veis num√©ricas
print("Estat√≠sticas Descritivas das Vari√°veis Num√©ricas:")
print("="*80)
df.describe()

In [None]:
# Estat√≠sticas descritivas das vari√°veis categ√≥ricas
print("Estat√≠sticas Descritivas das Vari√°veis Categ√≥ricas:")
print("="*80)
print("\nDistribui√ß√£o de Esp√©cies:")
print(df['species'].value_counts())
print("\nDistribui√ß√£o de Ilhas:")
print(df['island'].value_counts())
print("\nDistribui√ß√£o de Sexo:")
print(df['sex'].value_counts())
print("\nValores ausentes por coluna:")
print(df.isnull().sum())

In [None]:
# Visualiza√ß√£o da distribui√ß√£o das vari√°veis num√©ricas
fig, axes = plt.subplots(2, 2, figsize=(14, 10))
fig.suptitle('Distribui√ß√£o das Vari√°veis Num√©ricas', fontsize=16, fontweight='bold')

# Histogramas
df['bill_length_mm'].hist(ax=axes[0, 0], bins=20, edgecolor='black')
axes[0, 0].set_title('Comprimento do Bico (mm)')
axes[0, 0].set_xlabel('Comprimento (mm)')
axes[0, 0].set_ylabel('Frequ√™ncia')

df['bill_depth_mm'].hist(ax=axes[0, 1], bins=20, edgecolor='black', color='orange')
axes[0, 1].set_title('Profundidade do Bico (mm)')
axes[0, 1].set_xlabel('Profundidade (mm)')
axes[0, 1].set_ylabel('Frequ√™ncia')

df['flipper_length_mm'].hist(ax=axes[1, 0], bins=20, edgecolor='black', color='green')
axes[1, 0].set_title('Comprimento da Nadadeira (mm)')
axes[1, 0].set_xlabel('Comprimento (mm)')
axes[1, 0].set_ylabel('Frequ√™ncia')

df['body_mass_g'].hist(ax=axes[1, 1], bins=20, edgecolor='black', color='red')
axes[1, 1].set_title('Massa Corporal (g)')
axes[1, 1].set_xlabel('Massa (g)')
axes[1, 1].set_ylabel('Frequ√™ncia')

plt.tight_layout()
plt.show()

In [None]:
# Boxplots para identificar outliers
fig, axes = plt.subplots(2, 2, figsize=(14, 10))
fig.suptitle('Boxplots das Vari√°veis Num√©ricas', fontsize=16, fontweight='bold')

df.boxplot(column='bill_length_mm', ax=axes[0, 0])
axes[0, 0].set_title('Comprimento do Bico')
axes[0, 0].set_ylabel('mm')

df.boxplot(column='bill_depth_mm', ax=axes[0, 1])
axes[0, 1].set_title('Profundidade do Bico')
axes[0, 1].set_ylabel('mm')

df.boxplot(column='flipper_length_mm', ax=axes[1, 0])
axes[1, 0].set_title('Comprimento da Nadadeira')
axes[1, 0].set_ylabel('mm')

df.boxplot(column='body_mass_g', ax=axes[1, 1])
axes[1, 1].set_title('Massa Corporal')
axes[1, 1].set_ylabel('g')

plt.tight_layout()
plt.show()

In [None]:
# Distribui√ß√£o das esp√©cies
plt.figure(figsize=(10, 6))
species_counts = df['species'].value_counts()
plt.bar(species_counts.index, species_counts.values, color=['#FF6B6B', '#4ECDC4', '#45B7D1'], edgecolor='black')
plt.title('Distribui√ß√£o das Esp√©cies de Pinguins', fontsize=14, fontweight='bold')
plt.xlabel('Esp√©cie')
plt.ylabel('Quantidade')
plt.grid(axis='y', alpha=0.3)
for i, v in enumerate(species_counts.values):
    plt.text(i, v + 2, str(v), ha='center', fontweight='bold')
plt.show()

## 3. Transforma√ß√µes nas Colunas

**Transforma√ß√£o aplicada:** Codifica√ß√£o de vari√°veis categ√≥ricas e normaliza√ß√£o de vari√°veis num√©ricas

In [None]:
# Criar uma c√≥pia do dataframe para preservar o original
df_transformed = df.copy()

print("Antes da transforma√ß√£o:")
print(f"Shape: {df_transformed.shape}")
print(f"\nColunas: {df_transformed.columns.tolist()}")
print(f"\nValores √∫nicos antes da codifica√ß√£o:")
print(f"Species: {df_transformed['species'].unique()}")
print(f"Island: {df_transformed['island'].unique()}")
print(f"Sex: {df_transformed['sex'].unique()}")

In [None]:
# TRANSFORMA√á√ÉO DE COLUNAS: Codifica√ß√£o de vari√°veis categ√≥ricas
# Utilizando LabelEncoder para transformar vari√°veis categ√≥ricas em num√©ricas

# Criar encoders para cada vari√°vel categ√≥rica
label_encoders = {}

# Codificar 'island'
le_island = LabelEncoder()
df_transformed['island_encoded'] = le_island.fit_transform(df_transformed['island'])
label_encoders['island'] = le_island

# Codificar 'sex' (mantendo apenas linhas v√°lidas temporariamente para encoding)
df_transformed['sex_encoded'] = df_transformed['sex'].map({'Male': 1, 'Female': 0})

# Guardar o encoding da esp√©cie para usar depois
le_species = LabelEncoder()
df_transformed['species_encoded'] = le_species.fit_transform(df_transformed['species'])
label_encoders['species'] = le_species

print("‚úì Transforma√ß√£o de colunas categ√≥ricas conclu√≠da!")
print(f"\nMapeamento Island: {dict(zip(le_island.classes_, le_island.transform(le_island.classes_)))}")
print(f"Mapeamento Sex: Male=1, Female=0")
print(f"Mapeamento Species: {dict(zip(le_species.classes_, le_species.transform(le_species.classes_)))}")
print("\nPrimeiras linhas ap√≥s codifica√ß√£o:")
print(df_transformed[['island', 'island_encoded', 'sex', 'sex_encoded', 'species', 'species_encoded']].head())

## 4. Transforma√ß√µes nas Linhas

**Transforma√ß√£o aplicada:** Remo√ß√£o de linhas com valores ausentes

In [None]:
# TRANSFORMA√á√ÉO DE LINHAS: Remo√ß√£o de valores ausentes
print("Valores ausentes antes da limpeza:")
print(df_transformed.isnull().sum())
print(f"\nTotal de linhas antes: {len(df_transformed)}")

# Remover linhas com valores ausentes
df_clean = df_transformed.dropna()

print(f"\nTotal de linhas depois: {len(df_clean)}")
print(f"Linhas removidas: {len(df_transformed) - len(df_clean)}")
print("\nValores ausentes ap√≥s a limpeza:")
print(df_clean.isnull().sum())
print("\n‚úì Transforma√ß√£o de linhas conclu√≠da!")

## 5. Divis√£o em Treino, Valida√ß√£o e Teste

Dividiremos o dataset em tr√™s conjuntos:
- **Treino (60%):** Para treinar o modelo
- **Valida√ß√£o (20%):** Para ajustar hiperpar√¢metros
- **Teste (20%):** Para avaliar o modelo final

In [None]:
# Preparar features (X) e target (y)
# Usar as features num√©ricas originais e as codificadas
feature_columns = ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 
                   'body_mass_g', 'island_encoded', 'sex_encoded']

X = df_clean[feature_columns]
y = df_clean['species_encoded']

print("Features selecionadas:", feature_columns)
print(f"\nShape de X: {X.shape}")
print(f"Shape de y: {y.shape}")
print(f"\nDistribui√ß√£o das classes:")
print(y.value_counts().sort_index())
print(f"\nPrimeiras linhas de X:")
print(X.head())

In [None]:
# Primeira divis√£o: 80% treino+valida√ß√£o, 20% teste
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# Segunda divis√£o: dos 80% restantes, dividir em 75% treino e 25% valida√ß√£o
# Isso resulta em: 60% treino, 20% valida√ß√£o, 20% teste do total
X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.25, random_state=42, stratify=y_temp
)

print("Divis√£o dos dados conclu√≠da!")
print("="*60)
print(f"Total de amostras: {len(X)}")
print(f"\nConjunto de Treino: {len(X_train)} amostras ({len(X_train)/len(X)*100:.1f}%)")
print(f"Conjunto de Valida√ß√£o: {len(X_val)} amostras ({len(X_val)/len(X)*100:.1f}%)")
print(f"Conjunto de Teste: {len(X_test)} amostras ({len(X_test)/len(X)*100:.1f}%)")

print(f"\nDistribui√ß√£o das classes no conjunto de treino:")
print(y_train.value_counts().sort_index())
print(f"\nDistribui√ß√£o das classes no conjunto de valida√ß√£o:")
print(y_val.value_counts().sort_index())
print(f"\nDistribui√ß√£o das classes no conjunto de teste:")
print(y_test.value_counts().sort_index())

In [None]:
# Normaliza√ß√£o das features (StandardScaler)
# Importante: fit apenas no treino e transform em todos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)
X_test_scaled = scaler.transform(X_test)

print("‚úì Normaliza√ß√£o aplicada!")
print("\nEstat√≠sticas do conjunto de treino normalizado:")
print(f"M√©dia: {X_train_scaled.mean(axis=0).round(2)}")
print(f"Desvio padr√£o: {X_train_scaled.std(axis=0).round(2)}")

## 6. Treinamento do Modelo

Utilizaremos o algoritmo **Random Forest Classifier** para classificar as esp√©cies de pinguins.

In [None]:
# Criar e treinar o modelo Random Forest
print("Iniciando o treinamento do modelo...")
print("="*60)

model = RandomForestClassifier(
    n_estimators=100,
    max_depth=10,
    random_state=42,
    n_jobs=-1
)

# Treinar o modelo
model.fit(X_train_scaled, y_train)

print("‚úì Modelo treinado com sucesso!")
print(f"\nPar√¢metros do modelo:")
print(f"- N√∫mero de √°rvores: {model.n_estimators}")
print(f"- Profundidade m√°xima: {model.max_depth}")
print(f"- N√∫mero de features: {model.n_features_in_}")

In [None]:
# Avaliar o modelo no conjunto de valida√ß√£o
y_val_pred = model.predict(X_val_scaled)
val_accuracy = accuracy_score(y_val, y_val_pred)

print("Avalia√ß√£o no conjunto de valida√ß√£o:")
print("="*60)
print(f"Acur√°cia: {val_accuracy:.4f} ({val_accuracy*100:.2f}%)")
print("\nRelat√≥rio de Classifica√ß√£o (Valida√ß√£o):")
print(classification_report(y_val, y_val_pred, target_names=le_species.classes_))

In [None]:
# Import√¢ncia das features
feature_importance = pd.DataFrame({
    'feature': feature_columns,
    'importance': model.feature_importances_
}).sort_values('importance', ascending=False)

print("Import√¢ncia das Features:")
print("="*60)
print(feature_importance.to_string(index=False))

# Visualizar import√¢ncia
plt.figure(figsize=(10, 6))
plt.barh(feature_importance['feature'], feature_importance['importance'], color='steelblue', edgecolor='black')
plt.xlabel('Import√¢ncia')
plt.title('Import√¢ncia das Features no Modelo', fontsize=14, fontweight='bold')
plt.gca().invert_yaxis()
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

## 7. Avalia√ß√£o no Conjunto de Teste - Matriz de Confus√£o e Acur√°cia

In [None]:
# Fazer predi√ß√µes no conjunto de teste
y_test_pred = model.predict(X_test_scaled)

# Calcular acur√°cia
test_accuracy = accuracy_score(y_test, y_test_pred)

print("AVALIA√á√ÉO FINAL NO CONJUNTO DE TESTE")
print("="*60)
print(f"‚úì Acur√°cia no Teste: {test_accuracy:.4f} ({test_accuracy*100:.2f}%)")
print("\nRelat√≥rio de Classifica√ß√£o (Teste):")
print(classification_report(y_test, y_test_pred, target_names=le_species.classes_))

In [None]:
# Calcular e visualizar a Matriz de Confus√£o
cm = confusion_matrix(y_test, y_test_pred)

print("Matriz de Confus√£o:")
print("="*60)
print(cm)

# Visualizar a matriz de confus√£o
plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=le_species.classes_, 
            yticklabels=le_species.classes_,
            cbar_kws={'label': 'Quantidade'},
            linewidths=1, linecolor='black')
plt.title('Matriz de Confus√£o - Conjunto de Teste', fontsize=16, fontweight='bold', pad=20)
plt.ylabel('Classe Real', fontsize=12, fontweight='bold')
plt.xlabel('Classe Predita', fontsize=12, fontweight='bold')
plt.tight_layout()
plt.show()

# Mostrar m√©tricas detalhadas
print("\nInterpreta√ß√£o da Matriz de Confus√£o:")
print("="*60)
for i, species in enumerate(le_species.classes_):
    correct = cm[i, i]
    total = cm[i, :].sum()
    accuracy_class = correct / total if total > 0 else 0
    print(f"{species}: {correct}/{total} corretos ({accuracy_class*100:.1f}% de acur√°cia)")

## 8. Predi√ß√£o com o Modelo Implantado

Vamos fazer uma predi√ß√£o com uma amostra nova para demonstrar o modelo em a√ß√£o.

In [None]:
# Selecionar uma amostra do conjunto de teste para demonstra√ß√£o
sample_idx = 0
sample = X_test.iloc[sample_idx:sample_idx+1]
sample_scaled = X_test_scaled[sample_idx:sample_idx+1]

# Fazer a predi√ß√£o
prediction = model.predict(sample_scaled)[0]
prediction_proba = model.predict_proba(sample_scaled)[0]

# Obter informa√ß√µes da amostra original
species_real = le_species.inverse_transform([y_test.iloc[sample_idx]])[0]
species_pred = le_species.inverse_transform([prediction])[0]

print("EXEMPLO DE PREDI√á√ÉO COM O MODELO")
print("="*60)
print("\nüìã Caracter√≠sticas do Pinguim:")
print("-" * 60)
for i, col in enumerate(feature_columns):
    print(f"  {col:25s}: {sample.iloc[0, i]:.2f}")

print("\nüéØ Resultado da Predi√ß√£o:")
print("-" * 60)
print(f"  Esp√©cie Real:      {species_real}")
print(f"  Esp√©cie Predita:   {species_pred}")
print(f"  ‚úì Predi√ß√£o:        {'CORRETA ‚úì' if species_real == species_pred else 'INCORRETA ‚úó'}")

print("\nüìä Probabilidades por Classe:")
print("-" * 60)
for i, species in enumerate(le_species.classes_):
    prob = prediction_proba[i]
    bar = "‚ñà" * int(prob * 50)
    print(f"  {species:12s}: {prob*100:6.2f}% {bar}")

In [None]:
# Fazer predi√ß√µes para m√∫ltiplas amostras
print("PREDI√á√ïES PARA M√öLTIPLAS AMOSTRAS")
print("="*80)

num_samples = 5
for i in range(min(num_samples, len(X_test))):
    sample = X_test.iloc[i:i+1]
    sample_scaled = X_test_scaled[i:i+1]
    
    prediction = model.predict(sample_scaled)[0]
    species_real = le_species.inverse_transform([y_test.iloc[i]])[0]
    species_pred = le_species.inverse_transform([prediction])[0]
    
    status = "‚úì" if species_real == species_pred else "‚úó"
    print(f"Amostra {i+1}: Real={species_real:12s} | Predito={species_pred:12s} | {status}")

## 9. Conclus√µes

### Resumo do Projeto

Neste projeto, implementamos uma esteira completa de Machine Learning para classifica√ß√£o de esp√©cies de pinguins usando o dataset Palmer Penguins:

1. **Dataset**: Palmer Penguins com 3 esp√©cies (Adelie, Chinstrap, Gentoo)
2. **Estat√≠sticas Descritivas**: An√°lise completa das vari√°veis num√©ricas e categ√≥ricas
3. **Transforma√ß√µes**:
   - **Colunas**: Codifica√ß√£o de vari√°veis categ√≥ricas e normaliza√ß√£o
   - **Linhas**: Remo√ß√£o de valores ausentes
4. **Divis√£o dos Dados**: 60% treino, 20% valida√ß√£o, 20% teste
5. **Modelo**: Random Forest Classifier
6. **Resultados**: Alta acur√°cia na classifica√ß√£o das esp√©cies

### Pr√≥ximos Passos

- Testar outros algoritmos (SVM, XGBoost, Neural Networks)
- Realizar ajuste fino de hiperpar√¢metros (GridSearch/RandomSearch)
- Implementar valida√ß√£o cruzada
- Exportar o modelo para produ√ß√£o