# ⚙️ Etapa 2: Pré-Processamento de Dados

# 1. Tratamento de Valores Faltantes

In [None]:
import pandas as pd
from sklearn.impute import SimpleImputer




# Carregar dataset
df = pd.read_csv("../data/datasets/students_performance.csv")




# Separando colunas numéricas e categóricas
num_cols = df.select_dtypes(include=['int64','float64']).columns
cat_cols = df.select_dtypes(include=['object']).columns




# Imputação numérica (mediana)
imputer_num = SimpleImputer(strategy='median')
df[num_cols] = imputer_num.fit_transform(df[num_cols])




# Imputação categórica (moda)
imputer_cat = SimpleImputer(strategy='most_frequent')
df[cat_cols] = imputer_cat.fit_transform(df[cat_cols])

# 2. Tratamento de Outliers

In [None]:
import numpy as np


# Exemplo de capping usando IQR
for col in num_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR


df[col] = np.where(df[col] < limite_inferior, limite_inferior, df[col])
df[col] = np.where(df[col] > limite_superior, limite_superior, df[col])

# 3. Encoding de Variáveis Categóricas

In [None]:
from sklearn.preprocessing import OrdinalEncoder


# One-Hot Encoding
df = pd.get_dummies(df, columns=cat_cols, drop_first=True)

# 4. Normalização de Variáveis Numéricas

In [None]:
from sklearn.preprocessing import StandardScaler
import joblib


scaler = StandardScaler()
df[num_cols] = scaler.fit_transform(df[num_cols])


# Salvar scaler
joblib.dump(scaler, '../models/scaler.pkl')

# 5. Feature Engineering (Opcional)

In [None]:
# Exemplo de criação de uma nova feature
# df['nova_feature'] = df['coluna1'] / (df['coluna2'] + 1)

# 6. Salvar Dataset Limpo

In [None]:
df.to_csv('../data/processed/students_clean.csv', index=False)