üìå Objetivo: aplicar transforma√ß√µes reutiliz√°veis com qualidade de produ√ß√£o

‚úÖ C√âLULA 1 ‚Äì Setup e bibliotecas

#### üìö BIBLIOTECAS PARA TRANSFORMA√á√ÉO DE DADOS
#### Projeto: Dataflow Sentinel ‚Äì Transforma√ß√£o Modular

In [None]:
# =============================================================
# üìö BIBLIOTECAS PARA TRANSFORMA√á√ÉO DE DADOS
# Projeto: Dataflow Sentinel ‚Äì Transforma√ß√£o Modular
# =============================================================

import pandas as pd
import numpy as np
import logging
import os

# Logging
logging.basicConfig(level=logging.INFO,
                    format='[%(levelname)s] %(asctime)s - %(message)s',
                    datefmt='%H:%M:%S')
logger = logging.getLogger()


‚úÖ C√âLULA 2 ‚Äì Leitura dos dados validados

#### üìÅ LEITURA DO DATASET VALIDADO (.parquet)

In [None]:
# =============================================================
# üìÅ LEITURA DO DATASET VALIDADO (.parquet)
# =============================================================

parquet_path = "/content/dataflow_validado.parquet"

if not os.path.exists(parquet_path):
    logger.error(f"Arquivo Parquet n√£o encontrado: {parquet_path}")
else:
    logger.info(f"Arquivo localizado: {parquet_path}")

df = pd.read_parquet(parquet_path)
df.head()


Unnamed: 0,shipment_id,route_id,date,delay_minutes,cost_usd,temp_c,status
0,SHP10000,RT02,1998-01-08,12,36.23,7.4,delivered
1,SHP10001,RT03,1998-01-09,8,37.28,4.4,failed
2,SHP10002,RT04,1998-01-10,7,31.8,3.1,in_transit
3,SHP10003,RT04,1998-01-11,12,98.73,5.1,in_transit
4,SHP10004,RT02,1998-01-12,10,69.52,0.8,delivered


‚úÖ C√âLULA 3 ‚Äì Convers√£o de date e cria√ß√£o de partes de data

#### üóìÔ∏è CONVERS√ÉO DE DATAS + EXTRA√á√ÉO TEMPORAL

In [None]:
# =============================================================
# üóìÔ∏è CONVERS√ÉO DE DATAS + EXTRA√á√ÉO TEMPORAL
# =============================================================

df['date'] = pd.to_datetime(df['date'], errors='coerce')

# Criar colunas derivadas de tempo
df['ano'] = df['date'].dt.year
df['mes'] = df['date'].dt.month
df['dia'] = df['date'].dt.day
df['dia_semana'] = df['date'].dt.day_name()
df['fim_de_semana'] = df['date'].dt.weekday >= 5  # True para s√°bado e domingo

logger.info("‚úÖ Colunas temporais adicionadas.")
df[['date', 'ano', 'mes', 'dia', 'dia_semana', 'fim_de_semana']].head()


Unnamed: 0,date,ano,mes,dia,dia_semana,fim_de_semana
0,1998-01-08,1998,1,8,Thursday,False
1,1998-01-09,1998,1,9,Friday,False
2,1998-01-10,1998,1,10,Saturday,True
3,1998-01-11,1998,1,11,Sunday,True
4,1998-01-12,1998,1,12,Monday,False


‚úÖ C√âLULA 4 ‚Äì Feature Engineering adicional

#### üß† FEATURE ENGINEERING: FLAGS DE NEG√ìCIO

In [None]:
# =============================================================
# üß† FEATURE ENGINEERING: FLAGS DE NEG√ìCIO
# =============================================================

# Flag para atraso cr√≠tico (ex: > 15 minutos)
df['atraso_critico'] = df['delay_minutes'] > 15

# Classifica√ß√£o de custo
df['custo_categoria'] = pd.cut(df['cost_usd'],
                               bins=[0, 50, 75, np.inf],
                               labels=['baixo', 'm√©dio', 'alto'])

logger.info("üõ†Ô∏è Flags e categorias de neg√≥cio adicionadas.")
df[['delay_minutes', 'atraso_critico', 'cost_usd', 'custo_categoria']].head()


Unnamed: 0,delay_minutes,atraso_critico,cost_usd,custo_categoria
0,12,False,36.23,baixo
1,8,False,37.28,baixo
2,7,False,31.8,baixo
3,12,False,98.73,alto
4,10,False,69.52,m√©dio


‚úÖ C√âLULA 5 ‚Äì Fun√ß√£o transforma_dados(df)

#### üîÑ FUN√á√ÉO DE TRANSFORMA√á√ÉO REUTILIZ√ÅVEL

In [None]:
# =============================================================
# üîÑ FUN√á√ÉO DE TRANSFORMA√á√ÉO REUTILIZ√ÅVEL
# =============================================================

def transforma_dados(df: pd.DataFrame) -> pd.DataFrame:
    """
    Aplica transforma√ß√µes padronizadas no dataset validado.
    Inclui convers√£o de datas e gera√ß√£o de colunas √∫teis para ML.
    """
    df['date'] = pd.to_datetime(df['date'], errors='coerce')
    df['ano'] = df['date'].dt.year
    df['mes'] = df['date'].dt.month
    df['dia'] = df['date'].dt.day
    df['dia_semana'] = df['date'].dt.day_name()
    df['fim_de_semana'] = df['date'].dt.weekday >= 5
    df['atraso_critico'] = df['delay_minutes'] > 15
    df['custo_categoria'] = pd.cut(df['cost_usd'],
                                   bins=[0, 50, 75, np.inf],
                                   labels=['baixo', 'm√©dio', 'alto'])
    logger.info("‚úÖ Transforma√ß√µes aplicadas com sucesso.")
    return df


‚úÖ C√âLULA FINAL ‚Äì Aplicar e salvar

#### üíæ APLICAR TRANSFORMA√á√ÉO E SALVAR

In [None]:
# =============================================================
# üíæ APLICAR TRANSFORMA√á√ÉO E SALVAR
# =============================================================

df_transformado = transforma_dados(df)

output_path = "/content/dataflow_transformado.parquet"
df_transformado.to_parquet(output_path, index=False)
logger.info(f"üì¶ Dataset transformado salvo em: {output_path}")

# Preview
df_transformado.head()


Unnamed: 0,shipment_id,route_id,date,delay_minutes,cost_usd,temp_c,status,ano,mes,dia,dia_semana,fim_de_semana,atraso_critico,custo_categoria
0,SHP10000,RT02,1998-01-08,12,36.23,7.4,delivered,1998,1,8,Thursday,False,False,baixo
1,SHP10001,RT03,1998-01-09,8,37.28,4.4,failed,1998,1,9,Friday,False,False,baixo
2,SHP10002,RT04,1998-01-10,7,31.8,3.1,in_transit,1998,1,10,Saturday,True,False,baixo
3,SHP10003,RT04,1998-01-11,12,98.73,5.1,in_transit,1998,1,11,Sunday,True,False,alto
4,SHP10004,RT02,1998-01-12,10,69.52,0.8,delivered,1998,1,12,Monday,False,False,m√©dio


‚úÖ Markdown final

### üîÑ Etapa Conclu√≠da ‚Äì Transforma√ß√£o de Dados

Este notebook aplica transforma√ß√µes temporais e flags estrat√©gicas no dataset validado:

- Convers√£o e decomposi√ß√£o de datas
- Flags de neg√≥cio para ML (ex: atraso cr√≠tico, custo alto)
- Dados prontos para consumo por modelos

üì§ Sa√≠da:
- `dataflow_transformado.parquet`
- Fun√ß√£o `transforma_dados(df)` para uso em batch/pipeline

‚û°Ô∏è Pronto para o notebook 04: modelo leve com scikit-learn
