# 03 - r√©-Processamento e Constru√ß√£o do Pipeline (scikit-learn)

<a href="../README.md" title="Voltar para a p√°gina principal">
üè† Voltar para Home
</a>

## Vis√£o Geral

Este notebook implementa o *pr√©-processamento completo* do dataset para modelos de Machine Learning, seguindo boas pr√°ticas recomendadas pela biblioteca scikit-learn.

## O pipeline final incluir√°:

1. Separa√ß√£o entre features num√©ricas e categ√≥ricas
2. Imputa√ß√£o de valores ausentes
3. Codifica√ß√£o de vari√°veis categ√≥ricas (One-Hot Encoding)
4. Padroniza√ß√£o de vari√°veis num√©ricas
5. Montagem do ColumnTransformer
6. Gera√ß√£o do conjunto final X_prepared e y

Este notebook prepara os dados para os pr√≥ximos passos:

- 04_modelos_classicos.ipynb
- 05_modelos_avancados.ipynb

# Importa√ß√µes

In [11]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import (
    StandardScaler,
    OneHotEncoder
)
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

import warnings
warnings.filterwarnings("ignore")

# Trabalho com html
from IPython.display import display, HTML

# 1. Carregamento e Visualiza√ß√£o Preliminar

***Descri√ß√£o:*** Utilizando o dataset de acompanhamento operacional dos pedidos tratados.
> **Arquivo e:** database/processed/acompanhamento_operacional_FE.csv

In [12]:
file_path = "../database/processed/acompanhamento_operacional_FE.csv"

df = pd.read_csv(file_path)

print("Dataset carregado com sucesso!")
print("Formato:", df.shape)
df.head()

Dataset carregado com sucesso!
Formato: (488398, 29)


Unnamed: 0,sigla_cliente,tipo_veiculo,qtde_itens,volume,peso,m3,uf,fl_base,representante,flag_entrega_agendada,...,horas_conferencia,horas_emissao,horas_analise_producao,horas_minuta,horas_exped_minuta,hora_analise_transporte,lead_time_total_horas,complexidade_operacional,pedido_grande_flag,processo_longo_flag
0,NTL,TRUCK 70 M3,1,1,144.3,2.1,MS,0,N√ÉO DEFINIDO,N√£o,...,0.0,0.0,22.0,0.0,16.0,161.0,229.0,1,0,0
1,NTL,TRUCK 70 M3,1,1,130.3,2.33,MS,0,N√ÉO DEFINIDO,N√£o,...,0.0,0.0,22.0,0.0,16.0,165.0,234.0,1,0,0
2,NTL,TRUCK 70 M3,1,1,97.0,2.22,SC,0,SC CARGO TRANSPORTES LTDA,N√£o,...,0.0,0.0,0.0,0.0,16.0,40.0,249.0,1,0,0
3,MMM,TRUCK 75 M3,7,43,182.79,1.08,CE,0,VELOMAX BRASIL TRANSPORTES LTD,N√£o,...,1.0,0.0,11.0,99.0,8.0,93.0,266.0,7,1,0
4,MMM,TRUCK 70 M3,4,9,25.5,0.07,CE,0,MFM TRANSPORTES,Sim,...,1.0,0.0,12.0,172.0,16.0,285.0,542.0,4,1,1


# 2. Identificar Vari√°veis Num√©rcias e Categ√≥ricas

In [13]:
TARGET = "fl_atraso_cli"

# Remover target para an√°lise inicial
cols = df.columns.tolist()

num_cols = df.select_dtypes(include=['int64','float64']).columns.tolist()
num_cols = [c for c in num_cols if c != TARGET]

cat_cols = df.select_dtypes(include=['object']).columns.tolist()

# Cria o DataFrame-resumo
df_summary = pd.DataFrame({
    'tipo': ['numerico', 'categorico'],
    'qtde': [len(num_cols), len(cat_cols)],
    'features': [num_cols, cat_cols]
})

html = f"""
<div style="display: flex; gap: 50px; justify-content: left;">

    <div>
        <h3 style="text-align:center;">Summary</h3>
        {df_summary.to_html(index=True)}
    </div>

</div>
"""

display(HTML(html))

Unnamed: 0,tipo,qtde,features
0,numerico,22,"[qtde_itens, volume, peso, m3, fl_base, qtde_ocams, peso_cubado_rodoviario, horas_pre_conferencia, horas_distribuicao_cotas, horas_planejamento, horas_divisao_ocam, horas_coleta, horas_conferencia, horas_emissao, horas_analise_producao, horas_minuta, horas_exped_minuta, hora_analise_transporte, lead_time_total_horas, complexidade_operacional, pedido_grande_flag, processo_longo_flag]"
1,categorico,6,"[sigla_cliente, tipo_veiculo, uf, representante, flag_entrega_agendada, modalidade]"


# 3. Estrat√©gia de Imputa√ß√£o (num√©ricas e categ√≥ricas)

**Descri√ß√£o:** a estrat√©gia de imputa√ß√£o refere-se aos m√©todos usados para preencher valores ausentes (dados faltantes) em um conjunto de dados. A escolha do m√©todo depende do tipo de dados (num√©ricos ou categ√≥ricos), do volume de dados faltantes e do padr√£o de aus√™ncia, visando minimizar o vi√©s e maximizar a precis√£o do modelo final.

**Estrat√©gias recomendadas:**
- **Num√©ricas:** Usar median por ser robusto contra outliers e a mediana n√£o √© afetada por caudas pesadas.
- **Categ√≥ricas:** Usar most_frequent (moda), pois evita criar categoria artificial, mant√©m coer√™ncia sendo o padr√£o mais recomendado para categorias como UF, modalidade, sigla do cliente etc.

In [14]:
# Imputa√ß√£o num√©rica: mediana -> robusta a outliers
numeric_imputer = SimpleImputer(strategy="median")

# Imputa√ß√£o categ√≥rica: moda -> mant√©m consist√™ncia
categorical_imputer = SimpleImputer(strategy="most_frequent")

print("Imputadores definidos com sucesso!")


Imputadores definidos com sucesso!


# 4. Codifica√ß√£o Categ√≥rica (OneHot Encoding)

**Descri√ß√£o:** A etapa de codifica√ß√£o categ√≥rica transforma vari√°veis textuais em representa√ß√µes num√©ricas adequadas para modelos de Machine Learning.  
Modelos matem√°ticos n√£o conseguem interpretar textos como ‚ÄúSP‚Äù, ‚ÄúRodovi√°rio‚Äù, ‚ÄúHR‚Äù ou ‚ÄúCliente X‚Äù. Por isso, utilizamos o OneHotEncoder, que converte cada categoria em uma coluna bin√°ria (0 ou 1).

**Usando OneHotEncoder:** 
√â o m√©todo mais seguro e universal para modelos cl√°ssicos, como Regress√£o Log√≠stica, √Årvores, Random Forest e Gradient Boosting.  
- **O par√¢metro handle_unknown="ignore"** evita falhas durante o deploy caso surja uma categoria nova.  
- **O par√¢metro sparse_output=False** permite visualizar o dataframe transformado em formato denso, facilitando debug, salvamento e inspe√ß√£o.  

**Benef√≠cios:**

- Elimina a escala arbitr√°ria de categorias.
- Evita ordinalidade falsa (ex.: SP > RJ?).
- Permite ao modelo capturar rela√ß√µes espec√≠ficas entre categorias e o atraso.
- Torna o pipeline mais robusto para uso em produ√ß√£o.

In [15]:
# 4. Encoding Categ√≥rico (OneHot)
categorical_encoder = OneHotEncoder(
    handle_unknown="ignore",
    sparse_output=False
)

print("OneHotEncoder configurado!")

OneHotEncoder configurado!


# 5. Scaling (Padroniza√ß√£o das Vari√°veis Num√©ricas)

**Descri√ß√£o:** A padroniza√ß√£o √© uma etapa fundamental na prepara√ß√£o dos dados, especialmente para modelos sens√≠veis √† escala das vari√°veis. Neste projeto, utilizamos o StandardScaler, que transforma todas as vari√°veis num√©ricas para uma escala comum, com m√©dia 0 e desvio padr√£o 1.

**Motiva√ß√µes para o uso do StandardScaler:**
- Vari√°veis como volume, peso e horas operacionais possuem escalas muito diferentes.
- Modelos como Regress√£o Log√≠stica, SVM, KNN e Redes Neurais exigem escalas compar√°veis para funcionar adequadamente.
- A padroniza√ß√£o evita que o modelo interprete erroneamente vari√°veis com escala maior como sendo mais importantes.

**Vantagens:**
- Aumenta a estabilidade num√©rica do modelo.
- Melhora a converg√™ncia de algoritmos baseados em gradiente.
- Reduz o vi√©s provocado por features com magnitude exagerada.

Assim como no imputer e no encoder, aqui configuramos o StandardScaler, mas sua aplica√ß√£o real acontece somente dentro do Pipeline, durante o .fit(), garantindo transforma√ß√£o consistente tanto no treino quanto na infer√™ncia.

In [16]:
# 5. Scaling num√©rico
numeric_scaler = StandardScaler()

print("Scaler definido!")

Scaler definido!


# 6. ColumnTransformer ‚Äî Unindo o Processo

**Descri√ß√£o:** Ap√≥s definir os componentes individuais (imputers, encoder e scaler), esta etapa consolida todos esses elementos dentro de um √∫nico bloco de pr√©-processamento usando o ColumnTransformer.

Cada grupo de vari√°veis (num√©ricas e categ√≥ricas) recebe seu pr√≥prio pipeline especializado:

**Pipeline Num√©rico:**
- Imputa√ß√£o por mediana
- Padroniza√ß√£o com StandardScaler

**Ppeline Categ√≥rico:**
- Iputa√ß√£o por moda
- Codifica√ß√£o com OneHotEncoder

O ColumnTransformer garante que cada transforma√ß√£o seja aplicada apenas ao tipo correto de vari√°vel, preservando integridade, modularidade e reprodutibilidade do pipeline.  
A aplica√ß√£o pr√°tica das transforma√ß√µes ocorrer√° somente no momento do fit() do modelo, onde o pipeline executa imputa√ß√£o, codifica√ß√£o e escala em um s√≥ fluxo, produzindo dados consistentes tanto no treino quanto na infer√™ncia.

In [17]:
# 6. Constru√ß√£o do ColumnTransformer
preprocess = ColumnTransformer(transformers=[
    ("num_pipeline", Pipeline(steps=[
        ("imputer", numeric_imputer),
        ("scaler", numeric_scaler)
    ]), num_cols),

    ("cat_pipeline", Pipeline(steps=[
        ("imputer", categorical_imputer),
        ("encoder", categorical_encoder)
    ]), cat_cols)
])

print("ColumnTransformer criado com sucesso!")

ColumnTransformer criado com sucesso!


# 7. Split Train/Test

**Descri√ß√£o:** Nesta etapa, dividimos o dataset em dois subconjuntos principais:

**Treino (70%):** Usado para ajustar o pipeline de pr√©-processamento e treinar os modelos.

**Teste (20%):** Usado apenas ap√≥s a modelagem, para medir o desempenho real do modelo em dados nunca vistos.

Utilizamos stratify=y para manter a propor√ß√£o original de atrasos/n√£o atrasos, garantindo que o conjunto de treino e teste representem adequadamente o problema.

Essa separa√ß√£o impede vazamento de informa√ß√£o e garante avalia√ß√£o honesta da performance dos modelos.

In [18]:
# 7. Train/Test Split
X = df.drop(columns=[TARGET])
y = df[TARGET]

X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.30,
    random_state=42,
    stratify=y
)

print("Split realizado!")
print("Treino:", X_train.shape)
print("Teste:", X_test.shape)

Split realizado!
Treino: (341878, 28)
Teste: (146520, 28)


# 8. Pipeline Final (Pr√©-processamento completo)

**Descri√ß√£o:** Nesta etapa constru√≠mos o pipeline completo de modelagem, combinando:

- imputa√ß√£o de valores ausentes
- codifica√ß√£o categ√≥rica (OneHotEncoder)
- padroniza√ß√£o de vari√°veis num√©ricas
- integra√ß√£o via ColumnTransformer

O uso de um Pipeline garante reprodutibilidade, preven√ß√£o de vazamento de informa√ß√£o e padroniza√ß√£o do fluxo de transforma√ß√£o.
Agora, quando executarmos .fit(), todo o pr√©-processamento ser√° aplicado automaticamente antes do treinamento do modelo.

In [19]:
# 8. Pipeline Final de Pr√©-processamento
pipeline_preprocess = Pipeline(steps=[
    ("preprocess", preprocess)
])

print("Pipeline de pr√©-processamento pronto!")

Pipeline de pr√©-processamento pronto!
