# üéì Aula: Prevendo a evas√£o escolar com Deep Learning

## 1. Contextualizando o Problema (O "Porqu√™")

A evas√£o escolar e universit√°ria √© um dos problemas mais cr√≠ticos enfrentados pelas institui√ß√µes de ensino hoje. O impacto n√£o √© apenas financeiro para a institui√ß√£o, que perde receita e investimento, mas √©, acima de tudo, um impacto social e individual.

Um aluno que evade pode enfrentar:
* Menores oportunidades de carreira.
* Dificuldade em quitar d√≠vidas estudantis (se aplic√°vel).
* Um ciclo de desengajamento acad√™mico.

**O Desafio:** A interven√ß√£o √© mais eficaz quando √© precoce. O problema √© que, tradicionalmente, as interven√ß√µes s√£o reativas (ocorrem *depois* que o aluno j√° demonstrou sinais claros de evas√£o, como faltas ou notas muito baixas).

**A Oportunidade (Data Science):** E se pud√©ssemos usar os dados para identificar *proativamente* os alunos em risco de evas√£o, *antes* que eles cheguem a um ponto cr√≠tico?

## 2. O Problema de Data Science (O "O Qu√™")

O problema de neg√≥cio ("reduzir a evas√£o") √© traduzido para um problema de Data Science como:

> **"Dado um conjunto de atributos de um aluno (demogr√°ficos, socioecon√¥micos e acad√™micos), podemos construir um modelo para prever se ele ir√° evadir ou se formar?"**

Este √© um cl√°ssico problema de **Classifica√ß√£o Bin√°ria**. O nosso "alvo" (target) √© uma vari√°vel categ√≥rica com duas sa√≠das:
1.  **Dropout** (Evas√£o)
2.  **Graduate** (Formado / Sucesso)

### 3. Estudo de Caso:

Para explorar como resolver o problema de predi√ß√£o de evas√£o acad√™mica, utilizaremos como refer√™ncia o estudo conduzido por **Martins et al. (2021)**, apresentado no *World Conference on Information Systems and Technologies*, intitulado *Early Prediction of Student‚Äôs Performance in Higher Education: A Case Study* (MARTINS et al., 2021).

Neste trabalho, os autores analisam o desempenho de estudantes do ensino superior e prop√µem um modelo preditivo capaz de antecipar casos de evas√£o e sucesso acad√™mico com base em dados hist√≥ricos e socioecon√¥micos. O estudo se baseia em um conjunto de dados disponibilizado publicamente na **UCI Machine Learning Repository**, intitulado *Predict Students‚Äô Dropout and Academic Success*, originalmente desenvolvido por **Valentim Realinho, Jorge Machado, Lu√≠s Baptista e M√≥nica V. Martins (2021)**.  

üîó **Link do dataset:** [https://archive.ics.uci.edu/dataset/697/predict+students+dropout+and+academic+success](https://archive.ics.uci.edu/dataset/697/predict+students+dropout+and+academic+success)

üîó **Link no nosso Github:** [Link do dataset - Github](https://raw.githubusercontent.com/prof-danny-idp/deep-learning/refs/heads/main/modulo_01_fundamentos/dataset/student_dropout.csv)

O dataset √© robusto e cont√©m dezenas de vari√°veis, incluindo:
- **Dados demogr√°ficos:** idade, g√™nero, nacionalidade.  
- **Dados socioecon√¥micos:** situa√ß√£o de bolsa, ocupa√ß√£o dos pais, renda familiar.  
- **Hist√≥rico acad√™mico:** n√∫mero de unidades de cr√©dito cursadas, taxas de aprova√ß√£o, notas m√©dias, status de matr√≠cula em semestres anteriores.  

Essas informa√ß√µes permitem construir modelos de **classifica√ß√£o bin√°ria**, cujo objetivo √© prever se um aluno est√° mais propenso a **evadir (dropout)** ou **se formar (graduate)**.

Estudos posteriores, como o de **Rani, Pachigolla e Kumar (2025)**, refor√ßam a import√¢ncia de um bom pr√©-processamento dos dados educacionais. Esses autores prop√µem uma etapa de **agrupamento (clustering)** para redu√ß√£o de dimensionalidade e melhoria da robustez dos modelos de classifica√ß√£o aplicados √† previs√£o de evas√£o estudantil ‚Äî uma abordagem complementar que pode potencializar o desempenho de modelos de **Deep Learning**, como redes neurais densas.

Dessa forma, o projeto *Predict Students‚Äô Dropout and Academic Success* e seus estudos correlatos representam uma base s√≥lida para compreender tanto os **desafios reais** do problema de evas√£o quanto as **t√©cnicas modernas** aplicadas √† predi√ß√£o de sucesso acad√™mico em ambientes educacionais.

---

**Refer√™ncias:**

- MARTINS, M√≥nica V. et al. *Early prediction of student‚Äôs performance in higher education: A case study.*  
  In: *World Conference on Information Systems and Technologies.* Cham: Springer International Publishing, 2021. p. 166‚Äì175.  

- RANI, Nisha; PACHIGOLLA, Venkata Suresh; KUMAR, Akshay. *Clustering based pre-processing for feature reduction and robust student dropout classification.*  
  *International Journal of Information Technology*, p. 1‚Äì13, 2025.  

- Valentim Realinho, Jorge Machado, Lu√≠s Baptista, & M√≥nica V. Martins. (2021).  
  *Predict students' dropout and academic success* [Data set]. UCI Machine Learning Repository.  
  Dispon√≠vel em: [https://archive.ics.uci.edu/dataset/697/predict+students+dropout+and+academic+success](https://archive.ics.uci.edu/dataset/697/predict+students+dropout+and+academic+success)



## Construindo a rede neural

In [None]:
# C√©lula de C√≥digo 1: Importa√ß√£o e Explora√ß√£o Inicial

SEED = 1895 # Vai pra cima deles meng√£o

import pandas as pd
import tensorflow as tf
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Input, Dense
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler


In [None]:
#  Pr√©-processamento dos dados


# Normaliza√ß√£o dos dados


# Retirar as vari√°veis categ√≥ricas



# Retirar agora o Target == Enrolled



# Separar em X e Y



## üìè Dica t√©cnica: Como Normalizar e Padronizar seus Dados (X)

A normaliza√ß√£o (ou padroniza√ß√£o) √© um passo crucial de pr√©-processamento. Muitos algoritmos de Machine Learning (como Redes Neurais, SVMs, KNN e regress√µes com regulariza√ß√£o) funcionam melhor ou convergem mais r√°pido quando os dados de entrada (features) est√£o na mesma escala.

Abaixo, explicamos o processo correto para evitar **Data Leakage** e apresentamos as duas t√©cnicas mais comuns do Scikit-learn: **StandardScaler** e **MinMaxScaler**.

---

### ‚ö†Ô∏è A Regra de Ouro: Evitando Data Leakage

O erro mais comum √© normalizar o `X` *antes* de dividi-lo em treino e teste.

**O correto √©:**
1.  **Dividir** os dados primeiro (`train_test_split`).
2.  **Aprender** (usar `.fit()`) os par√¢metros da normaliza√ß√£o (m√©dia, desvio padr√£o, min, max) **APENAS** nos dados de **treino** (`X_train`).
3.  **Aplicar** (usar `.transform()`) essa transforma√ß√£o aprendida nos dados de **treino** (`X_train`) e **teste** (`X_test`).

Isso simula o mundo real, onde seu modelo n√£o pode "ver" os dados de teste antes da hora.

In [None]:
## Separando meus dados - Abordagem diferente



#### 1. Padroniza√ß√£o (StandardScaler)

Esta √© a t√©cnica mais comum. Ela transforma os dados para que tenham:
* **M√©dia = 0**
* **Desvio Padr√£o = 1**

√â muito robusta e funciona bem com a maioria dos algoritmos. √â menos sens√≠vel a *outliers* do que o MinMaxScaler.

**üìñ Documenta√ß√£o:** [sklearn.preprocessing.StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)

**F√≥rmula Matem√°tica (Z-Score):**
$$z = \frac{x - \mu}{\sigma}$$
Onde:
* $x$ √© o valor original.
* $\mu$ (mu) √© a **m√©dia** das features (calculada no `X_train`).
* $\sigma$ (sigma) √© o **desvio padr√£o** das features (calculado no `X_train`).

---

--

#### 2. Normaliza√ß√£o (MinMaxScaler)

Esta t√©cnica redimensiona os dados para que fiquem em um intervalo espec√≠fico, geralmente **[0, 1]**.

√â √∫til quando voc√™ sabe que seus dados t√™m limites definidos ou quando voc√™ precisa que os dados estejam estritamente positivos (ex: em algumas arquiteturas de redes neurais). **Cuidado:** √© muito sens√≠vel a *outliers*.

**üìñ Documenta√ß√£o:** [sklearn.preprocessing.MinMaxScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html)

**F√≥rmula Matem√°tica:**
$$x_{\text{scaled}} = \frac{x - \min(x)}{\max(x) - \min(x)}$$
Onde:
* $x$ √© o valor original.
* $\min(x)$ √© o **valor m√≠nimo** das features (calculado no `X_train`).
* $\max(x)$ √© o **valor m√°ximo** das features (calculado no `X_train`).

---

#### ü§î E quanto ao `Y` (a vari√°vel alvo)?

* **Para Classifica√ß√£o:** **NUNCA** normalize o `Y`. Ele representa as classes (ex: 0, 1, 2) e deve permanecer como est√°.
* **Para Regress√£o:** **√â opcional.** Se a sua vari√°vel `Y` tiver uma distribui√ß√£o muito assim√©trica (skewed) ou valores muito grandes, normaliz√°-la (geralmente com `StandardScaler` ou `log_transform`) pode ajudar o modelo a convergir.
    * **Importante:** Se voc√™ normalizar o `y_train`, lembre-se de aplicar a transforma√ß√£o inversa (`scaler_y.inverse_transform()`) nas suas previs√µes (`y_pred`) para que elas voltem √† escala original e fa√ßam sentido no mundo real.

In [None]:
# Vamos normalizar com o StardScaler




## O Modelo de Deep Learning (O "Como")

Vamos implementar uma Rede Neural Densa (tamb√©m chamada de Multi-Layer Perceptron - MLP) usando **TensorFlow** e **Keras**.

* **TensorFlow:** √â a biblioteca "motor" do Google para computa√ß√£o num√©rica e machine learning.
* **Keras:** √â uma API de alto n√≠vel (que roda "em cima" do TensorFlow) que torna a constru√ß√£o de redes neurais intuitiva.

O desafio de redes neurais profundas, no entanto, √© o **overfitting** (sobreajuste).

In [None]:
# Definindo o Modelo com TensorFlow/Keras


# Definir otimizador e perda


# Compilar o modelo






In [None]:
# Treinando o Modelo




### Finalizamos! implementar uma Rede Neural Densa (tamb√©m chamada de Multi-Layer Perceptron - MLP) usando TensorFlow e Keras.

Parab√©ns por ter chegado at√© aqui.
Nas pr√≥ximas aulas vamos aprender a criar uma Rede Neural ainda mais robusta. E, com isso, fazer estima√ß√µes ainda melhores.

In [None]:
# Verificar com os dados de test



## Dica extra - Estima√ß√£o do pregui√ßoso

In [None]:
# Fazer o Lazepredict import a biblioteca

!pip install lazypredict -q

from lazypredict.Supervised import LazyClassifier



In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2,
                                                    random_state=1895)


# verbose=0 desliga os prints de progresso de cada modelo
# ignore_warnings=True
clf = LazyClassifier(verbose=0,
                     ignore_warnings=True,
                     custom_metric=None,
                     )

# O "fit" aqui treina e testa todos os modelos

models, predictions = clf.fit(X_train, X_test, y_train, y_test)

print(models)

