# ‚öôÔ∏è Etapa 2: Pr√©-Processamento de Dados

# üìå 1. Tratamento de Valores Faltantes

#### üéØ Objetivo

#### Preencher valores ausentes de forma segura e consistente, evitando erros durante o treinamento do modelo.

## üîé 1.1 Identifica√ß√£o de faltantes

In [12]:
import pandas as pd

df = pd.read_csv("../data/datasets/students_performance.csv")

df.isnull().sum()

student_id              0
age                     0
gender                  0
parental_education      0
study_hours_week      293
attendance_rate       232
extracurricular         0
sleep_hours           266
previous_scores       127
tutoring                0
internet_quality      155
family_income         278
health_status           0
final_grade             0
dtype: int64

#### df.isnull() ‚Üí cria uma matriz booleana onde True indica um valor faltante.

#### .sum() ‚Üí soma os True, mostrando quantos valores est√£o faltando em cada coluna.

## üßÆ 1.2 Separar colunas num√©ricas e categ√≥ricas

In [13]:
num_cols = df.select_dtypes(include=['int64', 'float64']).columns
cat_cols = df.select_dtypes(include=['object']).columns

num_cols, cat_cols

(Index(['age', 'study_hours_week', 'attendance_rate', 'sleep_hours',
        'previous_scores', 'final_grade'],
       dtype='object'),
 Index(['student_id', 'gender', 'parental_education', 'extracurricular',
        'tutoring', 'internet_quality', 'family_income', 'health_status'],
       dtype='object'))

#### üß† Por que isso √© importante?

#### num√©ricas ‚Üí melhor usar mediana (robusta a outliers)

#### categ√≥ricas ‚Üí melhor usar moda (categoria mais frequente)

## üõ†Ô∏è 1.3 Imputa√ß√£o Num√©rica (mediana)

In [14]:
from sklearn.impute import SimpleImputer

imputer_num = SimpleImputer(strategy='median')
df[num_cols] = imputer_num.fit_transform(df[num_cols])

#### üß† O que acontece aqui?

#### SimpleImputer(strategy='median') ‚Üí calcula a mediana de cada coluna num√©rica.

#### .fit_transform() ‚Üí

####   -- fit = aprende a mediana

####   -- transform = substitui NaN por essa mediana

#### Substitui de forma segura valores que poderiam quebrar o modelo.

## üõ†Ô∏è 1.4 Imputa√ß√£o Categ√≥rica (moda)

In [15]:
imputer_cat = SimpleImputer(strategy='most_frequent')
df[cat_cols] = imputer_cat.fit_transform(df[cat_cols])

#### üß† Explica√ß√£o:

#### Para texto, n√£o existe m√©dia nem mediana.
#### A categoria mais comum faz sentido como preenchimento.
#### Evita criar valores inexistentes.

## üìå 2. Tratamento de Outliers

#### üéØ Objetivo

#### Reduzir o impacto de valores extremos que possam distorcer os treinos do modelo.

#### Com base no dataset, colunas num√©ricas s√£o:

#### -- age

#### -- study_hours_week

#### -- attendance_rate

#### -- previous_scores

#### -- sleep_hours

#### -- final_grade (n√£o mexer! √© a vari√°vel alvo)

## üõ†Ô∏è 2.1 Aplicar capping pelo m√©todo do IQR

In [16]:
import numpy as np

for col in num_cols:
    if col == 'final_grade':
        continue  # nunca alterar o target!!!

    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    
    df[col] = np.where(df[col] < lower, lower, df[col])
    df[col] = np.where(df[col] > upper, upper, df[col])

#### üß† O que esse c√≥digo faz?

#### IQR = Q3 - Q1 ‚Üí intervalo onde est√£o 50% dos dados.

#### Valores abaixo de Q1 - 1.5*IQR ou acima de Q3 + 1.5*IQR s√£o considerados outliers.

#### np.where() ‚Üí substitui valores fora dos limites pelos limites seguros.

#### Mant√©m distribui√ß√£o consistente sem remover dados.

## üìå 3. Encoding das Vari√°veis Categ√≥ricas

#### Vamos mapear todas as categorias do dataset:

#### ‚úîÔ∏è Nominais (sem ordem):

#### -- gender

#### -- parental_education

#### -- tutoring

#### -- extracurricular

#### -- internet_quality

#### -- family_income

#### -- health_status

#### Todas elas recebem One-Hot Encoding.

## üõ†Ô∏è 3.1 Aplicar One-Hot Encoding

In [17]:
df = pd.get_dummies(df, columns=cat_cols, drop_first=True)


#### üß† O que acontece aqui?

#### get_dummies() cria uma coluna para cada categoria (ex.: gender_M).

#### drop_first=True evita multicolinearidade retirando uma categoria de refer√™ncia.

#### Converte texto ‚Üí n√∫meros, sem perder significado.

## üìå 4. Normaliza√ß√£o das Vari√°veis Num√©ricas

#### üéØ Objetivo

#### Colocar todas as features na mesma escala, essencial para modelos lineares e redes neurais.

## üõ†Ô∏è 4.1 Aplicar StandardScaler

In [18]:
from sklearn.preprocessing import StandardScaler
import joblib

scaler = StandardScaler()
df[num_cols] = scaler.fit_transform(df[num_cols])

joblib.dump(scaler, "../models/scaler.pkl")


['../models/scaler.pkl']

#### üß† O que esse c√≥digo faz?

#### StandardScaler() transforma cada coluna para ter:

#### -- m√©dia = 0

#### -- desvio padr√£o = 1

#### Isso evita que features com valores altos dominem o modelo.

#### joblib.dump() salva o scaler ‚Üí para aplicar depois em dados de teste e produ√ß√£o.

## üìå 5. Feature Engineering (Opcional, mas recomendado)

## üîß 5.1 Criar ‚Äústudy_efficiency‚Äù

#### Combina tempo de estudo + frequ√™ncia:

In [19]:
df['study_efficiency'] = df['study_hours_week'] * (df['attendance_rate'] / 100)


## üîß 5.2 Criar ‚Äúwellbeing_score‚Äù

#### Combina sono + sa√∫de:

In [20]:
df['wellbeing_score'] = df['sleep_hours'] * df['health_status_Excellent'] \
                      + df['health_status_Good'] * 0.5


## üìå 6. Salvar dataset final

In [21]:
df.to_csv('../data/processed/students_clean.csv', index=False)

#### üß† O que faz?

#### Cria o dataset limpo, escalonado e pronto para modelagem.