# Modelagem e Avalia√ß√£o Comparativa
## Sistema de Predi√ß√£o de Evas√£o Estudantil

Este notebook implementa tr√™s modelos de classifica√ß√£o, avalia seu desempenho e compara os resultados para selecionar o melhor modelo.


In [None]:
# Importa√ß√µes
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# M√©tricas de avalia√ß√£o
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.metrics import roc_curve, auc, roc_auc_score

# Serializa√ß√£o
import joblib

# Configura√ß√µes
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)

%matplotlib inline


## 1. Carregamento e Prepara√ß√£o dos Dados


In [None]:
# Carregar dataset
df = pd.read_csv('../data/student_dropout_dataset.csv')

print(f"üìä Dataset carregado: {df.shape}")
print(f"üìã Colunas: {list(df.columns)}")
df.head()


In [None]:
# Separar features e target
X = df.drop(['dropout', 'student_id'], axis=1)
y = df['dropout']

print(f"üìä Features (X): {X.shape}")
print(f"üìä Target (y): {y.shape}")
print(f"üìà Distribui√ß√£o do target:\n{y.value_counts()}")


In [None]:
# Codificar vari√°veis categ√≥ricas
label_encoders = {}
for col in X.select_dtypes(include=['object']).columns:
    le = LabelEncoder()
    X[col] = le.fit_transform(X[col])
    label_encoders[col] = le
    print(f"‚úÖ Codificada: {col}")

print(f"\nüìä Features ap√≥s encoding: {X.shape}")
print(f"üìã Tipos de dados:\n{X.dtypes}")


In [None]:
# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"üìä Conjunto de Treino: {X_train.shape[0]} amostras")
print(f"üìä Conjunto de Teste: {X_test.shape[0]} amostras")
print(f"\nüìà Distribui√ß√£o no treino:\n{y_train.value_counts()}")
print(f"\nüìà Distribui√ß√£o no teste:\n{y_test.value_counts()}")


In [None]:
# Normalizar features (importante para Regress√£o Log√≠stica e KNN)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("‚úÖ Features normalizadas com StandardScaler")


## 2. Explica√ß√£o das M√©tricas de Avalia√ß√£o

Antes de treinar os modelos, vamos entender o que cada m√©trica significa e por que √© relevante para nosso problema de predi√ß√£o de evas√£o:


### 2.1 Acur√°cia (Accuracy)
- **O que mede**: Taxa de acertos gerais do modelo
- **F√≥rmula**: (Verdadeiros Positivos + Verdadeiros Negativos) / Total
- **Relev√¢ncia**: D√° uma vis√£o geral do desempenho, mas pode ser enganosa em datasets desbalanceados

### 2.2 Precis√£o (Precision)
- **O que mede**: Entre os estudantes preditos como evas√£o, quantos realmente evadiram
- **F√≥rmula**: Verdadeiros Positivos / (Verdadeiros Positivos + Falsos Positivos)
- **Relev√¢ncia**: Importante para evitar alarmes falsos. Queremos ter certeza quando identificamos um estudante em risco.

### 2.3 Recall (Sensibilidade)
- **O que mede**: Entre os estudantes que realmente evadiram, quantos foram identificados pelo modelo
- **F√≥rmula**: Verdadeiros Positivos / (Verdadeiros Positivos + Falsos Negativos)
- **Relev√¢ncia**: **CRUCIAL** para nosso problema! N√£o podemos deixar passar estudantes em risco de evas√£o.

### 2.4 F1-Score
- **O que mede**: M√©dia harm√¥nica entre Precis√£o e Recall
- **F√≥rmula**: 2 √ó (Precis√£o √ó Recall) / (Precis√£o + Recall)
- **Relev√¢ncia**: Balanceia Precis√£o e Recall, √∫til quando precisamos de um equil√≠brio entre ambos.


## 3. Treinamento dos Modelos

Vamos treinar tr√™s algoritmos diferentes:
1. **Regress√£o Log√≠stica** - Modelo linear interpret√°vel
2. **Random Forest** - Ensemble robusto com √°rvores de decis√£o
3. **KNN (K-Nearest Neighbors)** - M√©todo n√£o-param√©trico baseado em proximidade


In [None]:
# Dicion√°rio para armazenar os modelos
models = {}

# 1. Regress√£o Log√≠stica
print("üîÑ Treinando Regress√£o Log√≠stica...")
lr_model = LogisticRegression(random_state=42, max_iter=1000)
lr_model.fit(X_train_scaled, y_train)
models['Regress√£o Log√≠stica'] = lr_model
print("‚úÖ Regress√£o Log√≠stica treinada!")

# 2. Random Forest
print("\nüîÑ Treinando Random Forest...")
rf_model = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)
rf_model.fit(X_train, y_train)
models['Random Forest'] = rf_model
print("‚úÖ Random Forest treinado!")

# 3. KNN
print("\nüîÑ Treinando KNN...")
knn_model = KNeighborsClassifier(n_neighbors=5)
knn_model.fit(X_train_scaled, y_train)
models['KNN'] = knn_model
print("‚úÖ KNN treinado!")

print(f"\n‚úÖ Total de modelos treinados: {len(models)}")


## 4. Avalia√ß√£o dos Modelos

Vamos avaliar cada modelo usando as quatro m√©tricas definidas.


In [None]:
# Fun√ß√£o para avaliar modelo
def evaluate_model(model, X_test_data, y_test_data, model_name, use_scaled=True):
    """Avalia um modelo e retorna as m√©tricas"""
    if use_scaled:
        y_pred = model.predict(X_test_scaled)
        y_pred_proba = model.predict_proba(X_test_scaled)[:, 1]
    else:
        y_pred = model.predict(X_test_data)
        y_pred_proba = model.predict_proba(X_test_data)[:, 1]
    
    metrics = {
        'Modelo': model_name,
        'Acur√°cia': accuracy_score(y_test_data, y_pred),
        'Precis√£o': precision_score(y_test_data, y_pred),
        'Recall': recall_score(y_test_data, y_pred),
        'F1-Score': f1_score(y_test_data, y_pred),
        'ROC-AUC': roc_auc_score(y_test_data, y_pred_proba)
    }
    
    return metrics, y_pred, y_pred_proba

# Avaliar todos os modelos
results = []
predictions = {}

print("üìä Avaliando Modelos:\n")

# Regress√£o Log√≠stica
metrics_lr, pred_lr, proba_lr = evaluate_model(
    lr_model, X_test_scaled, y_test, 'Regress√£o Log√≠stica', use_scaled=True
)
results.append(metrics_lr)
predictions['Regress√£o Log√≠stica'] = {'pred': pred_lr, 'proba': proba_lr}
print(f"‚úÖ {metrics_lr['Modelo']} avaliado!")

# Random Forest
metrics_rf, pred_rf, proba_rf = evaluate_model(
    rf_model, X_test, y_test, 'Random Forest', use_scaled=False
)
results.append(metrics_rf)
predictions['Random Forest'] = {'pred': pred_rf, 'proba': proba_rf}
print(f"‚úÖ {metrics_rf['Modelo']} avaliado!")

# KNN
metrics_knn, pred_knn, proba_knn = evaluate_model(
    knn_model, X_test_scaled, y_test, 'KNN', use_scaled=True
)
results.append(metrics_knn)
predictions['KNN'] = {'pred': pred_knn, 'proba': proba_knn}
print(f"‚úÖ {metrics_knn['Modelo']} avaliado!")


In [None]:
# Criar DataFrame com resultados
results_df = pd.DataFrame(results)
results_df = results_df.set_index('Modelo')

# Formatar para melhor visualiza√ß√£o
results_display = results_df.copy()
for col in ['Acur√°cia', 'Precis√£o', 'Recall', 'F1-Score', 'ROC-AUC']:
    results_display[col] = results_display[col].apply(lambda x: f"{x:.4f}")

print("üìä RESULTADOS COMPARATIVOS DOS MODELOS:\n")
print(results_display.to_string())


In [None]:
# Visualiza√ß√£o comparativa
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

metrics_to_plot = ['Acur√°cia', 'Precis√£o', 'Recall', 'F1-Score']
for idx, metric in enumerate(metrics_to_plot):
    ax = axes[idx // 2, idx % 2]
    results_df[metric].plot(kind='barh', ax=ax, color=['#3498db', '#2ecc71', '#e74c3c'])
    ax.set_title(f'{metric}', fontsize=14, fontweight='bold')
    ax.set_xlabel('Score', fontsize=12)
    ax.set_ylabel('')
    ax.set_xlim(0, 1)
    for i, v in enumerate(results_df[metric]):
        ax.text(v + 0.01, i, f'{v:.3f}', va='center', fontweight='bold')

plt.suptitle('Compara√ß√£o de M√©tricas entre Modelos', fontsize=16, fontweight='bold', y=0.995)
plt.tight_layout()
plt.show()


## 5. Matrizes de Confus√£o


In [None]:
# Visualizar matrizes de confus√£o
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

model_names = ['Regress√£o Log√≠stica', 'Random Forest', 'KNN']
for idx, model_name in enumerate(model_names):
    cm = confusion_matrix(y_test, predictions[model_name]['pred'])
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=axes[idx],
                xticklabels=['N√£o Evadiu', 'Evadiu'],
                yticklabels=['N√£o Evadiu', 'Evadiu'])
    axes[idx].set_title(f'{model_name}', fontsize=14, fontweight='bold')
    axes[idx].set_ylabel('Verdadeiro', fontsize=12)
    axes[idx].set_xlabel('Predito', fontsize=12)

plt.suptitle('Matrizes de Confus√£o', fontsize=16, fontweight='bold', y=1.02)
plt.tight_layout()
plt.show()


## 6. Curvas ROC


In [None]:
# Plotar curvas ROC
plt.figure(figsize=(10, 8))

for model_name in model_names:
    fpr, tpr, _ = roc_curve(y_test, predictions[model_name]['proba'])
    roc_auc = auc(fpr, tpr)
    plt.plot(fpr, tpr, label=f'{model_name} (AUC = {roc_auc:.3f})', linewidth=2)

plt.plot([0, 1], [0, 1], 'k--', label='Classificador Aleat√≥rio', linewidth=1)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Taxa de Falsos Positivos', fontsize=12)
plt.ylabel('Taxa de Verdadeiros Positivos', fontsize=12)
plt.title('Curvas ROC - Compara√ß√£o de Modelos', fontsize=16, fontweight='bold')
plt.legend(loc="lower right", fontsize=11)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()


## 7. An√°lise Comparativa e Sele√ß√£o do Melhor Modelo


In [None]:
# An√°lise detalhada
print("=" * 70)
print("AN√ÅLISE COMPARATIVA DOS MODELOS")
print("=" * 70)

# Identificar melhor modelo em cada m√©trica
for metric in ['Acur√°cia', 'Precis√£o', 'Recall', 'F1-Score', 'ROC-AUC']:
    best_model = results_df[metric].idxmax()
    best_score = results_df[metric].max()
    print(f"\nüèÜ Melhor em {metric}: {best_model} ({best_score:.4f})")

# Selecionar melhor modelo baseado em F1-Score (balanceia Precis√£o e Recall)
best_model_name = results_df['F1-Score'].idxmax()
best_model_score = results_df['F1-Score'].max()

print("\n" + "=" * 70)
print(f"üéØ MELHOR MODELO SELECIONADO: {best_model_name}")
print(f"   F1-Score: {best_model_score:.4f}")
print("=" * 70)

# Mostrar todas as m√©tricas do melhor modelo
print(f"\nüìä M√©tricas Completas do {best_model_name}:")
print(results_df.loc[best_model_name].to_string())


## 8. Salvamento do Melhor Modelo


In [None]:
# Selecionar o melhor modelo
if best_model_name == 'Regress√£o Log√≠stica':
    best_model = lr_model
    model_uses_scaled = True
elif best_model_name == 'Random Forest':
    best_model = rf_model
    model_uses_scaled = False
else:  # KNN
    best_model = knn_model
    model_uses_scaled = True

# Salvar modelo
model_path = '../modelo_final.pkl'
joblib.dump(best_model, model_path)
print(f"‚úÖ Modelo salvo em: {model_path}")

# Salvar scaler se necess√°rio
if model_uses_scaled:
    scaler_path = '../scaler.pkl'
    joblib.dump(scaler, scaler_path)
    print(f"‚úÖ Scaler salvo em: {scaler_path}")

# Salvar label encoders
encoders_path = '../label_encoders.pkl'
joblib.dump(label_encoders, encoders_path)
print(f"‚úÖ Label encoders salvos em: {encoders_path}")

print(f"\nüìù Informa√ß√µes do modelo salvo:")
print(f"   - Modelo: {best_model_name}")
print(f"   - Usa normaliza√ß√£o: {model_uses_scaled}")
print(f"   - F1-Score: {best_model_score:.4f}")


## 9. Relat√≥rio de Classifica√ß√£o Detalhado

Vamos ver o relat√≥rio completo de classifica√ß√£o do melhor modelo:


In [None]:
# Relat√≥rio de classifica√ß√£o do melhor modelo
print(f"üìä RELAT√ìRIO DE CLASSIFICA√á√ÉO - {best_model_name}\n")
print("=" * 70)

if model_uses_scaled:
    y_pred_best = best_model.predict(X_test_scaled)
else:
    y_pred_best = best_model.predict(X_test)

print(classification_report(y_test, y_pred_best, 
                          target_names=['N√£o Evadiu', 'Evadiu']))
print("=" * 70)
