### As bibliotecas importadas ser√£o utilizadas para:
- Manipula√ß√£o de dados (pandas, numpy)
- Visualiza√ß√µes (matplotlib, seaborn)
- Divis√£o e valida√ß√£o de dados (train_test_split, cross_val_score)
- M√©tricas de avalia√ß√£o (classification_report, roc_auc_score, confusion_matrix)
- Modelo de classifica√ß√£o (GradientBoostingClassifier)
- Persist√™ncia do modelo (joblib)

### Imports utilizados:
- **pandas**: Manipula√ß√£o e an√°lise de dados
- **numpy**: Opera√ß√µes num√©ricas e arrays
- **matplotlib.pyplot**: Cria√ß√£o de visualiza√ß√µes e gr√°ficos
- **seaborn**: Visualiza√ß√µes estat√≠sticas de alto n√≠vel
- **train_test_split**: Divis√£o dos dados em conjuntos de treino e teste
- **cross_val_score**: Valida√ß√£o cruzada para avaliar modelos
- **classification_report, roc_auc_score, confusion_matrix**: M√©tricas de avalia√ß√£o para classifica√ß√£o
- **GradientBoostingClassifier**: Modelo de classifica√ß√£o baseado em gradient boosting
- **joblib**: Serializa√ß√£o e salvamento de modelos

#### Objetivo deste c√≥digo √© realizar a modelagem de dados utilizando um modelo de classifica√ß√£o, avaliar seu desempenho e salvar o modelo treinado para uso futuro.



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import classification_report, roc_auc_score, confusion_matrix
from sklearn.ensemble import GradientBoostingClassifier

### Variavel da base de dados para o modelo

In [None]:
import os
BD_MODELO = os.getenv("BD_MODELO","../parquet/refined/refined.parquet")

### Carregamento e An√°lise Explorat√≥ria

#### Objetivo
Carregar o dataset final tratado e realizar an√°lise explorat√≥ria inicial.

#### Explica√ß√£o
- read_parquet: carrega base otimizada e refinada
- head(): visualiza primeiras linhas
- info(): verifica tipos de dados
- describe(): estat√≠sticas descritivas
- isnull().sum(): checa valores ausentes

Aqui garantimos que os dados est√£o consistentes antes da modelagem.

In [None]:

df = pd.read_parquet(BD_MODELO)
df.head()
df.info()
df.describe()
df.isnull().sum()

### Cria√ß√£o da Vari√°vel Target

#### Objetivo
Transformar o problema em *classifica√ß√£o bin√°ria*

#### Explica√ß√£o
- Se defasagem != 0 ‚Üí 1 (com risco)
- Se defasagem == 0 ‚Üí 0 (sem risco)

#### Variaveis 
X: vari√°veis explicativas
y: vari√°vel alvo

- Removemos a vari√°vel original para evitar vazamento de dados (data leakage).


In [None]:
df['defasagem_binaria'] = (df['defasagem'] != 0).astype(int)
X = df.drop(columns=['defasagem'])
X = X.drop(columns=['defasagem_binaria'])
y = df['defasagem_binaria']


### Distribui√ß√£o da Vari√°vel Target

#### Objetivo
Verificar balanceamento da base.

#### Explica√ß√£o
Analisa propor√ß√£o de alunos com e sem defasagem.

Isso √© importante para:
- Escolher m√©tricas adequadas
- Definir estrat√©gia de valida√ß√£o
- Ajustar threshold



In [None]:
y.value_counts(normalize=True)

### Divis√£o Treino/Teste

#### Objetivo
Separar dados para valida√ß√£o do modelo.

#### Explica√ß√£o
- 80% treino
- 20% teste
- stratify=y: mant√©m propor√ß√£o das classes
- random_state=42: reprodutibilidade
- Garante avalia√ß√£o justa e robusta.


In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

### Cria√ß√£o e Treinamento do Modelo

#### Objetivo
Criar modelo de classifica√ß√£o baseado em Gradient Boosting.

#### Explica√ß√£o dos hiperpar√¢metros:
- n_estimators=500: n√∫mero de √°rvores
- learning_rate=0.05: taxa de aprendizado
- max_depth=4: profundidade das √°rvores
- random_state=42: reprodutibilidade

In [None]:
model = GradientBoostingClassifier(
    n_estimators=500,
    learning_rate=0.05,
    max_depth=4,
    random_state=42
)

### Treinamento:

In [None]:
model.fit(X_train, y_train)

### Predi√ß√£o probabil√≠stica:
üìå Utilizamos probabilidades para permitir ajuste de threshold.

In [None]:
y_proba = model.predict_proba(X_test)[:,1]

### Ajuste de Threshold

#### Objetivo
Controlar sensibilidade do modelo.

#### Explica√ß√£o
Ao inv√©s de usar threshold padr√£o (0.5), foi definido 0.35 para:
- Aumentar recall
- Reduzir falsos negativos
- Priorizar identifica√ß√£o de alunos em risco
- Estrat√©gia adequada para problemas sociais onde perder um aluno em risco √© mais cr√≠tico que gerar falso positivo.

In [None]:
threshold = 0.35
y_pred = (y_proba >= threshold).astype(int)


### Avalia√ß√£o do Modelo

#### M√©tricas Avaliadas:
- Precision
- Recall
- F1-score
- AUC (√Årea sob a curva ROC)
- AUC mede capacidade discriminativa geral do modelo.


In [None]:
print(classification_report(y_test, y_pred))
print("AUC:", roc_auc_score(y_test, y_proba))

### Matriz de Confus√£o
Visualiza√ß√£o com heatmap.

#### Objetivo
Analisar erros do modelo.

Permite identificar:
- Verdadeiros positivos
- Verdadeiros negativos
- Falsos positivos
- Falsos negativos
- Essencial para decis√µes estrat√©gicas.


In [None]:
cm = confusion_matrix(y_test, y_pred)

sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title("Matriz de Confus√£o")
plt.show()


### Valida√ß√£o Cruzada

#### Objetivo
Avaliar estabilidade do modelo.

#### Explica√ß√£o
- 5 folds
- M√©trica: AUC
- Retorna m√©dia e desvio padr√£o
- Garante que o modelo n√£o est√° overfitting.



In [None]:
scores = cross_val_score(
    model,
    X,
    y,
    cv=5,
    scoring='roc_auc'
)

print("AUC m√©dio:", scores.mean())
print("Desvio:", scores.std())


### Correla√ß√£o com Vari√°vel Original

#### Objetivo
Analisar rela√ß√£o entre vari√°veis e defasagem original.

#### Explica√ß√£o
Permite identificar:
- Vari√°veis mais impactantes
- Potenciais insights para pol√≠ticas educacionais


In [None]:
print(df.corr()['defasagem'].sort_values(ascending=False))

### Salvamento do Modelo
#### Objetivo
Persistir modelo treinado para uso em API.

#### Explica√ß√£o
- Serializa modelo
- Permite carregamento em produ√ß√£o
- Fundamental para deploy
- Modelo pronto para integra√ß√£o via Flask/FastAPI.

In [None]:
import joblib

path_model = os.getenv("PATH_MODEL", "../app/model/modelo_defasagem.joblib")

joblib.dump(model, path_model)

print("Modelo salvo com sucesso!")
