  Importa√ß√£o de Bibliotecas e Ferramentas

Nesta se√ß√£o, importamos as bibliotecas essenciais para a manipula√ß√£o de dados (`Pandas`) e as ferramentas de transforma√ß√£o do Scikit-learn que utilizaremos nas etapas de pr√©-processamento, como escalonamento e encoding.

In [2]:
import pandas as pd
import numpy as np
import joblib 


from sklearn.preprocessing import StandardScaler # Para Normaliza√ß√£o (Scaling)
from sklearn.preprocessing import LabelEncoder  # Para Encoding Categ√≥rico Bin√°rio
from sklearn.model_selection import train_test_split # (Opcional, mas boa pr√°tica)

print("Bibliotecas de Pr√©-Processamento importadas com sucesso!")

Bibliotecas de Pr√©-Processamento importadas com sucesso!


## 2. üì• Carregamento dos Dados e Classifica√ß√£o

Carregamos o dataset original e separamos as colunas em listas l√≥gicas (Num√©ricas, Categ√≥ricas e Alvo) para orientar o pr√©-processamento subsequente. A coluna de ID √© removida, pois n√£o √© necess√°ria para o treinamento do modelo.

In [3]:

CSV_FILE = '../students_data.csv' 

try:
    df = pd.read_csv(CSV_FILE)
    print(f"Dataset carregado com sucesso. Dimens√µes: {df.shape}")
except FileNotFoundError:
    print(f"ERRO: Arquivo {CSV_FILE} n√£o encontrado. Verifique o caminho e o nome do arquivo.")



target_reg = 'Pontuacao_Prova_Final' 
target_class = 'Aprovado' 


num_cols = ['Idade', 'Horas_Estudo_Semana'] 

cat_cols = ['Aprovado'] 

id_col = 'ID_Aluno'


df = df.drop(columns=[id_col])

print(f"\nVari√°vel de Regress√£o: {target_reg}")
print(f"Vari√°veis Num√©ricas (a serem escaladas): {num_cols}")
print(f"Vari√°veis Categ√≥ricas (a serem codificadas): {cat_cols}")
print(f"Dimens√µes ap√≥s remover ID: {df.shape}")

Dataset carregado com sucesso. Dimens√µes: (12000, 5)

Vari√°vel de Regress√£o: Pontuacao_Prova_Final
Vari√°veis Num√©ricas (a serem escaladas): ['Idade', 'Horas_Estudo_Semana']
Vari√°veis Categ√≥ricas (a serem codificadas): ['Aprovado']
Dimens√µes ap√≥s remover ID: (12000, 4)


### 3. Tratamento de Valores Faltantes

A an√°lise explorat√≥ria mostrou que o dataset j√° est√° limpo, com 0% de valores ausentes em todas as colunas. Nenhuma imputa√ß√£o √© necess√°ria.

### 4. Tratamento de Outliers

Os Boxplots e o m√©todo IQR (Intervalo Interquartil) n√£o identificaram outliers nas features num√©ricas. Portanto, n√£o √© necess√°rio aplicar t√©cnicas de Capping ou remo√ß√£o.

In [4]:

df['Aprovado'] = df['Aprovado'].astype(int)


print("\nVerifica√ß√£o ap√≥s Encoding:")
print(df.head())


Verifica√ß√£o ap√≥s Encoding:
   Idade  Horas_Estudo_Semana  Pontuacao_Prova_Final  Aprovado
0     23                    7                     16         0
1     22                   23                     63         1
2     18                   10                     33         0
3     21                   17                     33         0
4     21                   27                     76         1


In [14]:
import os
from sklearn.preprocessing import StandardScaler
import joblib


if not os.path.exists('../models'):
    os.makedirs('../models')

scaler = StandardScaler()
df[num_cols] = scaler.fit_transform(df[num_cols])

print("\nFeatures Num√©ricas Normalizadas:")
print(df[num_cols].head())


joblib.dump(scaler, '../models/scaler.pkl')
print("\nScaler salvo com sucesso em ../models/scaler.pkl")


Features Num√©ricas Normalizadas:
      Idade  Horas_Estudo_Semana
0  0.984963            -1.498117
1  0.482281             0.088836
2 -1.528445            -1.200564
3 -0.020400            -0.506271
4 -0.020400             0.485575

Scaler salvo com sucesso em ../models/scaler.pkl


In [15]:

df['Horas_por_Idade'] = df['Horas_Estudo_Semana'] * df['Idade']

print("\nNova feature criada:")
print(df[['Horas_por_Idade']].head())


Nova feature criada:
   Horas_por_Idade
0        -1.475590
1         0.042844
2         1.834996
3         0.010328
4        -0.009906


In [16]:

if not os.path.exists('../data'):
    os.makedirs('../data')

df.to_csv('../data/students_clean.csv', index=False)

print("\nDataset limpo salvo com sucesso em: ../data/students_clean.csv")


Dataset limpo salvo com sucesso em: ../data/students_clean.csv
