# 📊 Predição de Evasão Escolar com Machine Learning
Este notebook realiza a análise e modelagem de dados para prever evasão escolar utilizando técnicas de aprendizado de máquina.

In [None]:

# Importação de bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, ConfusionMatrixDisplay
import joblib


## 📂 Coleta de Dados
Para este projeto, utilizaremos um dataset sintético representando informações acadêmicas e socioeconômicas de alunos.

In [None]:

# Gerando dataset sintético
np.random.seed(42)
n = 5000
df = pd.DataFrame({
    "idade": np.random.randint(14, 20, n),
    "sexo": np.random.choice(["M", "F"], n),
    "frequencia": np.random.randint(50, 100, n),
    "nota_media": np.random.uniform(0, 10, n).round(2),
    "trabalha": np.random.choice([0, 1], n),
    "apoio_familiar": np.random.choice([0, 1], n),
    "evasao": np.random.choice([0, 1], n, p=[0.7, 0.3])
})
df.head()


## 🔎 Análise Exploratória de Dados (EDA)
Visualizando a distribuição das variáveis e a proporção de evasão.

In [None]:

df['evasao'].value_counts(normalize=True).plot(kind='bar')
plt.title("Distribuição da variável alvo (evasão)")
plt.xlabel("Evasão (0=Não, 1=Sim)")
plt.ylabel("Proporção")
plt.show()


## ⚙️ Pré-processamento e Divisão dos Dados

In [None]:

X = df.drop("evasao", axis=1)
y = df["evasao"]

num_cols = ["idade", "frequencia", "nota_media"]
cat_cols = ["sexo", "trabalha", "apoio_familiar"]

numeric_transformer = Pipeline(steps=[("scaler", StandardScaler())])
categorical_transformer = OneHotEncoder(handle_unknown="ignore")

preprocess = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, num_cols),
        ("cat", categorical_transformer, cat_cols)
    ]
)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)


## 🤖 Modelagem e Avaliação

In [None]:

modelos = {
    "LogisticRegression": LogisticRegression(max_iter=1000),
    "DecisionTree": DecisionTreeClassifier(),
    "RandomForest": RandomForestClassifier()
}

resultados = {}

for nome, modelo in modelos.items():
    clf = Pipeline(steps=[("preprocess", preprocess), ("model", modelo)])
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print(f"\nModelo: {nome}")
    print(classification_report(y_test, y_pred))
    resultados[nome] = clf

# Exibir matriz de confusão do melhor modelo (exemplo: RandomForest)
best_model = resultados["LogisticRegression"]
ConfusionMatrixDisplay.from_estimator(best_model, X_test, y_test)
plt.show()


## 💾 Salvando o Modelo Treinado

In [None]:

joblib.dump(best_model, "modelo_evasao.joblib")
print("Modelo salvo como modelo_evasao.joblib")


## ✅ Conclusões
- O dataset sintético permitiu treinar modelos de ML.
- A **Regressão Logística** apresentou bom equilíbrio entre precisão e recall.
- O modelo treinado foi salvo e pode ser utilizado em predições futuras.