# EDA - Tratamento dos Dados

<a href="../../README.md" title="Voltar para a p√°gina principal">
üè† Voltar para Home
</a>

## Vis√£o Geral

Este notebook √© dedicado √† etapa de **Prepara√ß√£o dos Dados** dentro do processo CRISP-DM.
Aqui s√£o aplicadas todas as t√©cnicas de limpeza, padroniza√ß√£o e estrutura√ß√£o necess√°rias para garantir que o dataset esteja √≠ntegro, consistente e pronto para as etapas seguintes de an√°lise estat√≠stica e modelagem preditiva.

Esta fase √© cr√≠tica, uma vez que a qualidade dos dados influencia diretamente a performance dos modelos e a confiabilidade das conclus√µes anal√≠ticas.

As opera√ß√µes contempladas incluem:

- remo√ß√£o de colunas irrelevantes ou redundantes
- corre√ß√£o de inconsist√™ncias estruturais
- padroniza√ß√£o de tipos (quantitativos vs. categ√≥ricos)
- tratamento de valores nulos
- corre√ß√£o de valores negativos em vari√°veis temporais
- reorganiza√ß√£o final do dataset tratado

O resultado desta etapa ser√° um arquivo `.csv` limpo e devidamente tratado, que servir√° como insumo para o notebook **01_eda_descritiva.ipynb**.

---

## Objetivo

O objetivo deste notebook √© preparar o dataset bruto para an√°lises estat√≠sticas mais robustas, garantindo:

1. **Integridade estrutural**

   - Remo√ß√£o de colunas que n√£o contribuem para o modelo
   - Elimina√ß√£o de duplicatas e inconsist√™ncias

2. **Corre√ß√£o sem√¢ntica dos dados**

   - Ajuste de valores negativos
   - Convers√£o de tipos
   - Padroniza√ß√£o de valores categ√≥ricos

3. **Tratamento de valores ausentes**

   - Imputa√ß√£o com 0 para vari√°veis quantitativas
   - Imputa√ß√£o com ‚ÄúN√ÉO DEFINIDO‚Äù para vari√°veis categ√≥ricas

4. **Disponibiliza√ß√£o de um dataset pronto para uso**, com o nome:

   ```
   acompanhamento_operacional_clean.csv
   ```

   armazenado em:

   ```
   database/processed/
   ```

Este notebook conclui a etapa de **Prepara√ß√£o dos Dados** e libera o conjunto para a pr√≥xima fase:
**An√°lise Estat√≠stica Descritiva (Notebook 01)**

---

# Importa√ß√µes

In [70]:
# Manipula√ß√£o de arquivos e diret√≥rios
import sys
import os

# Dowload Kagglehub
# import kagglehub

# Estatisticas e DataFrames
import pandas as pd

# Trabalho com html
from IPython.display import display, HTML

# Caminho para a raiz do projeto
root = os.path.abspath(os.path.join(os.getcwd(), ".."))
sys.path.append(root)

print(root)

/mnt/d/estudos/mba_impacta/11 - Fundamentals of Machine Learning/_atividades/ds-otif-detection-ml


In [71]:
# Packages internas
from src.data.extract_sqlserver import extract_operacional

# 1. Carregamento e Visualiza√ß√£o Preliminar

***Descri√ß√£o:*** Utilizando o dataset de acompanhamento operacional dos pedidos.

## Baixando a Fonte de Dados

In [72]:
# # Download latest version do kagglehub
# path = kagglehub.dataset_download("mlg-ulb/creditcardfraud")
# destination = "../database/raw"
# print("Path to dataset files:", path)
# 
# # Copiando arquivos da origem para o destino
# for file in os.listdir(path):
#     print("Copy files: ", file)
#     print("From :", path)
#     print("To: ", destination)
#     shutil.copyfile(os.path.join(path,file), os.path.join(destination,file))
# 
# # Listando os arquivos copiados
# for file in os.listdir(destination):
#     print("File: ", file)

In [73]:
# df = pd.read_csv(os.path.join(destination,file))
# df.head(10)

In [74]:
# df = extract_operacional()
df = pd.read_csv("../database/raw/acompanhamento_operacional.csv")
df.head(5)

  df = pd.read_csv("../database/raw/acompanhamento_operacional.csv")


Unnamed: 0,sigla_cliente,nome_cliente,dt_solicitacao,ss,os,nf,nf_cliente,tipo_veiculo,placa,rota,...,minuta.1,dt_prazo_limite_cliente,dt_emissao_nf,modalidade.1,alocado_em,finalizado_em,data_entrega.1,hora_analise_transporte,dias_analise_transporte,analise_transporte
0,NTL,NESTLE BRASIL LTDA,2023-12-18 10:37:00,3560316,027725/23,0,128059,TRUCK 70 M3,,110313,...,410099.0,2023-12-28 17:00:00,2023-12-20 19:44:00,RODOVIARIO,G5,G5,2024-01-04 10:00:00,161.0,7.0,Fora do Prazo
1,NTL,NESTLE BRASIL LTDA,2023-12-18 10:37:00,3561720,027725/23,0,128060,TRUCK 70 M3,,110313,...,410099.0,2023-12-28 17:00:00,2023-12-20 19:43:00,RODOVIARIO,G5,G5,2024-01-04 14:00:00,165.0,7.0,Fora do Prazo
2,NTL,NESTLE BRASIL LTDA,2023-12-18 10:37:00,3562246,027974/23,0,128164,TRUCK 70 M3,,110435,...,410097.0,2024-01-02 17:00:00,2023-12-27 15:23:00,RODOVIARIO,ZT1,ZT1,2024-01-04 09:17:00,40.0,2.0,Fora do Prazo
3,MMM,3M DO BRASIL LTDA,2023-11-22 15:38:00,3565015,028230/23,1895865,0,TRUCK 75 M3,,109404,...,408893.0,2023-12-14 17:00:00,2023-11-28 05:43:00,RODOVIARIO,ZT1,ZT1,2023-12-18 14:15:00,93.0,4.0,Fora do Prazo
4,MMM,3M DO BRASIL LTDA,2023-11-22 15:38:00,3565022,028230/23,1895775,0,TRUCK 70 M3,,109430,...,408952.0,2023-12-14 17:00:00,2023-11-28 04:24:00,RODOVIARIO,ZT1,ZT1,2023-12-26 14:20:00,285.0,12.0,Fora do Prazo


# 2. Estrutura dos Dados

***Descri√ß√£o:*** Diagnostico geral dos dados, como formatos e integridade dos dados
> - Linhas e colunas  
> - Tipo das vari√°veis  
> - dados nulos  
> - dados duplicados  
> - dados imposs√≠veis  

In [75]:
#Criando o DataFrame apresentando a estrutura e volume
df_shape = pd.DataFrame({
            'Estrutura': ['Linhas', 'Colunas'],
            "Volume": [df.shape[0], df.shape[1]]
        }).to_html(index=False)

html = f"""
<div style="display: flex; gap: 50px; justify-content: left;">

    <div>
        <h3 style="text-align:center;">Dimens√µes do Dataset</h3>
        {df_shape}
    </div>
</div>
"""

display(HTML(html))

Estrutura,Volume
Linhas,488398
Colunas,113


In [76]:
# Criando DataFrame apresentando tipo, frequencia e features
df_types_freq = (df.dtypes.value_counts()
                 .rename_axis("Tipo")
                 .reset_index(name="Volume")
                ).merge(
                    pd.DataFrame({
                        dtype: df.select_dtypes(include=dtype).columns.to_list()
                        for dtype in df.dtypes.unique()
                    }.items(), columns=["Tipo", "Features"]), on="Tipo"
                ).to_html(index=False)

# Criando o HTML para apresenta√ß√£o dos dados.
html = f"""
<div style="display: flex; gap: 50px; justify-content: left;">

    <div>
        <h3 style="text-align:center;">Tipos de Dados</h3>
        {df_types_freq}
    </div>

</div>
"""

display(HTML(html))

Tipo,Volume,Features
object,64,"[sigla_cliente, nome_cliente, dt_solicitacao, os, tipo_veiculo, destinatario, id_regiao, uf, cidade, cep, representante, flag_entrega_agendada, data_real_prevista_entrega, prazo_inicial_entrega_cliente, data_entrega, fase, desc_fase, prazo_zt, prazo_cliente, dt_fim_emissao, exped_minuta, hora_minuta, transportador, transp_parceiro, modalidade, campanha_pedido, recebedor, status_pedido, penultima_ocorrencia, ultima_ocorrencia, motivo_atraso, departamento, data_agendamento, dt_carga, sigla_cliente.1, dt_nf, os.1, lacre, solicitante, uf.1, status, dt_solicitacao.1, dt_pre_conferencia, dt_distribuicao_cotas, dt_planeja, data_prazo_zenatur, dt_ocam, dt_inicio_coleta, dt_fim_coleta, dt_inicio_conferencia, dt_fim_conferencia, dt_fim_emissao.1, analise_producao, dt_minuta, dt_criacao_minuta, dt_exped_minuta, analise_expedicao, dt_prazo_limite_cliente, dt_emissao_nf, modalidade.1, alocado_em, finalizado_em, data_entrega.1, analise_transporte]"
float64,28,"[placa, peso, m3, minuta, nf_zt, nf_cli, peso.1, horas_pre_conferencia, dias_pre_conferencia, horas_planejamento, dias_planejamento, horas_divisao_ocam, dias_divisao_ocam, horas_coleta, dias_coleta, horas_conferencia, dias_conferencia, horas_emissao, dias_emissao, horas_analise_producao, dias_analise_producao, horas_minuta, dias_minuta, horas_exped_minuta, dias_minuta_exped_minuta, minuta.1, hora_analise_transporte, dias_analise_transporte]"
int64,21,"[ss, nf, nf_cliente, rota, qtde_itens, volume, fl_base, ordem_fase, fl_atraso_zt, fl_atraso_cli, fl_em_atraso, fl_sem_minuta, fl_coleta_cancelada, fl_canhoto, ss.1, qtde_ocams, qtde_itens.1, volume.1, peso_cubado_rodoviario, horas_distribuicao_cotas, dias_distribuicao_cotas]"


> **Nota T√©cnica:** Durante a etapa de modelagem ser√° necess√°rio avaliar rigorosamente a relev√¢ncia das vari√°veis de data brutas como `dt_solicitacao`, `dt_pre_conferencia`, `dt_distribuicao_cotas`, `dt_ocam`, entre outras em compara√ß√£o com as vari√°veis derivadas que j√° representam o tempo transcorrido em cada etapa (`dias_pre_conferencia`, `dias_planejamento`, `dias_divisao_ocam`, etc.).
>
> Isso porque, em muitos cen√°rios de modelagem supervisionada, **as dura√ß√µes entre eventos** (features derivadas) tendem a ser mais informativas para prever atraso do que **as datas absolutas**, que podem introduzir ru√≠do ou complexidade desnecess√°ria. Entretanto, a utilidade de cada grupo ser√° validada empiricamente por meio de testes estat√≠sticos e import√¢ncia de features.
>
> Independentemente da decis√£o final sobre quais atributos ser√£o utilizados na modelagem, **todas as colunas de data ser√£o devidamente tratadas**, convertidas para o tipo `datetime` e organizadas de forma consistente para permitir:
>
> * valida√ß√µes cronol√≥gicas,
> * extra√ß√£o de novas features temporais (ex.: dia da semana, lead times, time deltas),
> * cria√ß√£o de indicadores de sequ√™ncia operacional,
> * e auditoria da ordem dos eventos no processo.
>
> As vari√°veis de data atualmente identificadas incluem (lista consolidada, sujeita a ajustes conforme novas an√°lises):
>
> * `dt_solicitacao`, `dt_pre_conferencia`, `dt_distribuicao_cotas`, `dt_planeja`, `data_prazo_zenatur`,
> * `dt_ocam`, `dt_inicio_coleta`, `dt_fim_coleta`,
> * `dt_inicio_conferencia`, `dt_fim_conferencia`,
> * `dt_fim_emissao`, `analise_producao`,
> * `dt_minuta`, `dt_criacao_minuta`, `dt_exped_minuta`, `analise_expedicao`,
> * `dt_prazo_limite_cliente`, `dt_emissao_nf`,
> * `data_entrega`, `data_real_prevista_entrega`,
> * `prazo_inicial_entrega_cliente`, `prazo_zt`, `prazo_cliente`,
> * `data_agendamento`.
>
> Para fins de organiza√ß√£o e clareza metodol√≥gica, as vari√°veis ser√£o **separadas em dois grupos principais**:
>
> **(a) Colunas de datas:** todas as vari√°veis temporais em formato datetime, utilizadas para an√°lises sequenciais, gera√ß√£o de deltas e valida√ß√£o da coer√™ncia operacional.
>
> **(b) Colunas categ√≥ricas:** vari√°veis n√£o num√©ricas que representam estados, classifica√ß√µes ou atributos qualitativos do pedido ou da opera√ß√£o.
>
> Essa separa√ß√£o facilita o fluxo do pr√©-processamento, evita erros de tipagem, e permite aplicar m√©todos estat√≠sticos e algoritmos adequados a cada classe de vari√°vel, preservando a integridade e a robustez do modelo final.

In [77]:
cols_data = ['dt_solicitacao', 'dt_pre_conferencia', 'dt_distribuicao_cotas', 'dt_planeja', 'data_prazo_zenatur', 
     'dt_ocam', 'dt_inicio_coleta', 'dt_fim_coleta', 'dt_inicio_conferencia', 'dt_fim_conferencia', 
     'dt_fim_emissao', 'analise_producao', 'dt_minuta', 'dt_criacao_minuta', 'dt_exped_minuta',
     'analise_expedicao', 'dt_prazo_limite_cliente', 'dt_emissao_nf', 'alocado_em', 'data_entrega',
     'data_real_prevista_entrega', 'prazo_inicial_entrega_cliente','prazo_zt','prazo_cliente', 'exped_minuta',
     'data_agendamento', 'dt_carga','dt_nf','finalizado_em']

cols_remover_categoricas = ['hora_minuta','os.1','modalidade.1','sigla_cliente.1','uf.1','dt_solicitacao.1','dt_fim_emissao.1',
               'modalidade.1','data_entrega.1','nome_cliente','os','id_regiao','cidade','cep','desc_fase',
               'transportador','transp_parceiro','campanha_pedido','recebedor','status_pedido','penultima_ocorrencia',
               'ultima_ocorrencia','solicitante','lacre','destinatario','departamento']

cols_categoricas = (
    df.select_dtypes(include=['object'])
      .drop(columns=cols_data, errors='ignore')
      ).drop(columns=cols_remover_categoricas).columns.to_list()

df_col_data = pd.DataFrame({
    'colunas': cols_data
})

df_col_categoricas = pd.DataFrame({
    'colunas': cols_categoricas
})


html = f"""
<div style="display: flex; gap: 50px; justify-content: left;">

    <div>
        <h3 style="text-align:center;">Colunas de Datas</h3>
        {df_col_data.to_html(index=False)}
    </div>

    <div>
        <h3 style="text-align:center;">Colunas Categ√≥ricas</h3>
        {df_col_categoricas.to_html(index=False)}
    </div>

</div>
"""

display(HTML(html))

colunas
dt_solicitacao
dt_pre_conferencia
dt_distribuicao_cotas
dt_planeja
data_prazo_zenatur
dt_ocam
dt_inicio_coleta
dt_fim_coleta
dt_inicio_conferencia
dt_fim_conferencia

colunas
sigla_cliente
tipo_veiculo
uf
representante
flag_entrega_agendada
fase
modalidade
motivo_atraso
status
analise_transporte


In [78]:
# Verificando Valores nulos
df_nulos = df.isna().sum().sort_values(ascending=False)
df_nulos = pd.DataFrame(df_nulos[df_nulos > 0].items(), columns=["features", "freq"])

html = f"""
<div style="display: flex; gap: 50px; justify-content: left;">

    <div>
        <h3 style="text-align:center;">Featres Nulas</h3>
        {df_nulos.to_html(index=False)}
    </div>

</div>
"""

display(HTML(html))

features,freq
placa,488398
data_agendamento,486686
departamento,481298
penultima_ocorrencia,451731
nf_cli,437825
ultima_ocorrencia,435827
lacre,434894
motivo_atraso,331391
dt_distribuicao_cotas,276194
dias_divisao_ocam,74983


> **Nota T√©cnica:** A presen√ßa de valores nulos em diversas vari√°veis requer aten√ß√£o especial durante o tratamento dos dados, pois, no contexto log√≠stico, a aus√™ncia de informa√ß√£o n√£o representa necessariamente um erro ou falha de coleta. Em muitos casos, os nulos refletem o comportamento real do processo operacional e podem influenciar diretamente o TARGET de atraso utilizado no modelo preditivo de OTIF.
>
> Um exemplo relevante √© o conjunto de vari√°veis relacionadas ao processo de **OCAM** (Organiza√ß√£o, Confer√™ncia e Arruma√ß√£o de Materiais), como `dt_ocam` e `dias_divisao_ocam`.
> Quando essas vari√°veis aparecem como nulas, isso indica que **o pedido n√£o passou pela etapa de divis√£o de OCAM**, o que por si s√≥ √© uma informa√ß√£o operacional importante e pode impactar o desempenho da entrega.
>
> **Contexto da Regra de Neg√≥cio ‚Äì OCAM:**
> A etapa de OCAM ocorre quando uma mesma SKU est√° distribu√≠da em locais distintos dentro da opera√ß√£o da Zenatur, seja entre setores da matriz ou entre diferentes galp√µes.
> Esse processo tamb√©m √© acionado quando um pedido possui grande volume ou demanda log√≠stica complexa, exigindo a divis√£o do item em m√∫ltiplas unidades operacionais.
>
> A divis√£o de OCAM, portanto, pode introduzir atrasos significativos, principalmente quando:
>
> * os materiais est√£o dispersos em galp√µes distintos;
> * h√° necessidade de consolida√ß√£o f√≠sica dos itens antes da expedi√ß√£o;
> * ou quando o processo de separa√ß√£o √© mais demorado devido ao volume.
>
> Dessa forma, **os valores nulos relacionados ao OCAM n√£o podem ser simplesmente imputados ou descartados**, pois carregam significado sem√¢ntico dentro do processo log√≠stico.
> Eles devem ser tratados como potenciais **indicadores de aus√™ncia da etapa**, podendo inclusive serem convertidos em vari√°veis bin√°rias (‚Äúpassou por OCAM / n√£o passou por OCAM‚Äù) para enriquecer o modelo.
>
> Em resumo, o tratamento dos nulos nesse caso deve ser orientado pelo entendimento operacional, garantindo que a transforma√ß√£o preserve o significado real da cadeia log√≠stica e evite comprometer a previs√£o final do OTIF.

In [79]:
# Registros duplicados
df_duplicados = df.duplicated().sum()
print("Registros duplicados: ", df_duplicados)

Registros duplicados:  0


> **Nota T√©cnica:** N√£o foi detectado linhas duplicadas.

In [80]:
df_valores_negativos = pd.DataFrame(
    df.select_dtypes(include=['int64','float64'])
    .apply(lambda col: (col < 0).sum())
    .sort_values(ascending=False)
    .reset_index()
    .rename(columns={'index': 'features', 0: 'qtde_nevativos'})
)

df_valores_negativos = df_valores_negativos[df_valores_negativos['qtde_nevativos'] > 0]

html = f"""
<div style="display: flex; gap: 50px; justify-content: left;">

    <div>
        <h3 style="text-align:center;">Vari√°veis Quantitativas Negativas</h3>
        {df_valores_negativos.to_html(index=False)}
    </div>

</div>
"""

display(HTML(html))


features,qtde_nevativos
horas_conferencia,5558
horas_minuta,4008
dias_minuta,3999
horas_emissao,2123
dias_emissao,2019
dias_conferencia,1803
horas_distribuicao_cotas,362
dias_distribuicao_cotas,107
horas_pre_conferencia,1


> **Nota T√©cnica:** As features quantitativas devem ser positivas.
> - Inicialmente remover as colunas de **dias** emantar **horas**

In [81]:
tabelas_freq = {}

for col in df_col_categoricas['colunas']:
    tabela = (
        df[col]
        .value_counts(dropna=False)
        .reset_index()
        .rename(columns={'index': col, col: 'frequencia'})
    )

    #tabela['percentual'] = (tabela['frequencia'] / tabela['frequencia'].sum()) * 100
    tabelas_freq[col] = tabela

html = "<div>"

for col, tabela in tabelas_freq.items():
    html += f"<h3>{col}</h3>"
    html += tabela.to_html(index=False)
    html += "<br><hr><br>"

html += "</div>"

display(HTML(html))

frequencia,count
COL,127930
SAM,73904
NTL,58255
VRA,40913
GDM,33668
JNJ,22855
PEG,21413
KAI,17614
MMM,15551
MSD,7674

frequencia,count
VUC,177984
PAC CORREIOS,59956
TRUCK 60 M3,41949
FIORINO/DOBLO,40680
RETIRA,30853
TRUCK 45 M3,25158
TRUCK 70 M3,22548
TRUCK 80 M3,22022
TRUCK 65 M3,21608
VAN,19385

frequencia,count
SP,170026
MG,44927
RJ,41031
PR,29918
RS,28023
BA,23060
SC,21311
CE,16579
PE,16039
GO,12879

frequencia,count
N√ÉO DEFINIDO,283307
TEX COURIER S.A,39742
NICOLOG,12775
VELOMAX BRASIL TRANSPORTES LTD,7636
RIBEIRO CRUZ TRANSP. - SSA,7582
FLX LOGISTICA,7553
CANO CARGO,6987
TRADE EXP,6448
COEXLOG,6258
GRG,6022

frequencia,count
N√£o,475314
Sim,13084

frequencia,count
I,485316
S,1647
A,1296
E,139

frequencia,count
RODOVIARIO,187908
PAC CORREIOS,112666
AEREO,56757
EXCLUSIVO,49578
ENTREGA,48772
RETIRA,30940
SEDEX CORREIOS,1774
DEVOLU√á√ÉO ZT,2
DESCARTE ZENATUR,1

frequencia,count
,331391
Atraso Operacional,64015
Grades Diversas Alinhamento Capacidade Producao,26351
Ocorr√™ncia Inicial Resolvida,15236
Falta de Motorista para Atender a Rota,12513
Rota N√£o Fechou Volume Baixo,11125
Mudanca de Modalidades entre Areas,7598
Margem da Rota Inicial N√£o Aprovada,7535
Aguardando Orienta√ß√£o Coord,4316
Aguardando Nota Fiscal Cliente,2902

frequencia,count
I,485318
S,1632
A,1295
E,153

frequencia,count
No Prazo,310635
Fora do Prazo,177763


> **Nota T√©cnica:** Para fins de an√°lise explorat√≥ria e prepara√ß√£o dos dados, realizamos a classifica√ß√£o das vari√°veis do dataset em duas categorias principais: **Vari√°veis Categ√≥ricas (Qualitativas)** e **Vari√°veis Quantitativas (Num√©ricas)**. Essa distin√ß√£o √© essencial para o correto tratamento estat√≠stico, para a defini√ß√£o de t√©cnicas adequadas de pr√©-processamento e para o desenvolvimento de modelos preditivos consistentes.
>
> ### **1. Vari√°veis Categ√≥ricas (Qualitativas)**
>
> Compreendem atributos que representam *classes*, *etapas*, *nomes*, *status* ou *categorias operacionais*. S√£o vari√°veis que n√£o expressam magnitude num√©rica, mas sim caracter√≠sticas qualitativas do processo log√≠stico.
>
> Durante a avalia√ß√£o estrutural, **n√£o foram identificados valores inv√°lidos ou anomalias l√≥gicas** nesse grupo de vari√°veis. A integridade categ√≥rica se mostrou adequada, embora etapas posteriores poder√£o demandar:
>
> - padroniza√ß√£o de capitaliza√ß√£o,
> - redu√ß√£o de categorias raras,
> - agrupamento sem√¢ntico,
> - e codifica√ß√£o adequada para modelos supervisionados (ex.: One-Hot Encoding ou Target Encoding).
>
> ### **2. Vari√°veis Quantitativas (Num√©ricas)**
>
> Incluem atributos inteiros e de ponto flutuante que representam quantidades, medidas operacionais e tempos de processo como pesos, volumes, horas e dias entre etapas.
>
> De acordo com as regras de neg√≥cio aplic√°veis √† opera√ß√£o log√≠stica da Zenatur, **nenhuma dessas vari√°veis deve assumir valores negativos**, uma vez que tempos, pesos e quantidades s√£o, por natureza, n√£o negativos.
>
> A inspe√ß√£o revelou **oito vari√°veis num√©ricas contendo valores negativos**, destacando-se a coluna `horas_confer√™ncia`, que apresentou **5.558 ocorr√™ncias** desse tipo.
>
> A presen√ßa desses valores exige investiga√ß√£o adicional, pois podem indicar:
>
> - inconsist√™ncias geradas durante a extra√ß√£o,
> - erros de c√°lculo na gera√ß√£o de vari√°veis derivadas,
> - falhas de registro operacional,
> - ou situa√ß√µes em que a ordem temporal dos eventos foi registrada incorretamente.
>
> Essas vari√°veis dever√£o ser tratadas de forma criteriosa antes da modelagem, garantindo que sua representa√ß√£o reflita corretamente o fluxo operacional e n√£o introduza distor√ß√µes nos algoritmos preditivos.

## Conclus√£o Geral

**Descri√ß√£o:**
A an√°lise estrutural do dataset permitiu identificar um conjunto consistente de vari√°veis relevantes para o estudo preditivo de OTIF, bem como diversos aspectos que exigem tratamento criterioso antes do in√≠cio da Estat√≠stica Descritiva e da etapa de modelagem.
A seguir, s√£o destacados os principais pontos observados e as recomenda√ß√µes para o pr√©-processamento.

### **1. Colunas candidatas √† remo√ß√£o**

Com base na avalia√ß√£o de redund√¢ncia, coer√™ncia sem√¢ntica, utilidade preditiva e qualidade dos dados, foram identificados tr√™s grupos de vari√°veis potencialmente eleg√≠veis para remo√ß√£o: **categ√≥ricas**, **temporais** e **quantitativas derivadas**.

#### **1.1 Vari√°veis Categ√≥ricas**

Foram identificadas diversas colunas categ√≥ricas redundantes, duplicadas, pouco informativas ou sem rela√ß√£o direta com o fen√¥meno de atraso operacional. A remo√ß√£o dessas vari√°veis contribui para:

- reduzir ru√≠do no modelo,
- evitar multicolinearidade categ√≥rica,
- facilitar a engenharia de atributos,
- diminuir dimensionalidade desnecess√°ria.

Entre as vari√°veis categ√≥ricas candidatas √† remo√ß√£o incluem-se:

```
'os.1', 'modalidade.1', 'sigla_cliente.1', 'uf.1', 'dt_solicitacao.1', 'dt_fim_emissao.1', 'data_entrega.1', 'nome_cliente', 'os', 'id_regiao', 'cidade', 'cep', 'desc_fase', 'transportador', 'transp_parceiro', 'campanha_pedido', 'recebedor', 'status_pedido', 'penultima_ocorrencia', 'ultima_ocorrencia', 'solicitante', 'lacre', 'destinatario', 'departamento'
```

A remo√ß√£o ser√° executada ap√≥s verifica√ß√£o final de impacto na modelagem.

#### **1.2 Vari√°veis de Data**

As datas originais foram inclu√≠das no dataset com a finalidade de permitir o c√°lculo das diferen√ßas temporais entre as etapas operacionais (dias/horas de cada fase). Uma vez que essas vari√°veis derivadas j√° est√£o presentes e capturam a ess√™ncia temporal necess√°ria para o modelo, as datas brutas tornam-se, em grande parte, redundantes.

Al√©m disso:

- **o processo de solicita√ß√£o de pedidos n√£o apresenta sazonalidade forte** ao longo do ano,
- eventuais efeitos sazonais (ex.: f√©rias escolares, picos de fim de ano, feriados prolongados) podem existir, mas tendem a ter **baixo impacto direto** na previs√£o de atraso operacional,
- ainda assim, caso haja necessidade, tais efeitos podem ser avaliados futuramente via testes de hip√≥tese ou decomposi√ß√£o temporal.

Por esses motivos, as colunas de datas s√£o fortes candidatas √† remo√ß√£o, mantendo-se apenas aquelas essenciais para o c√°lculo de deltas ou verifica√ß√µes cronol√≥gicas.

#### **1.3 Vari√°veis Quantitativas Derivadas (Horas)**

O dataset cont√©m diversas vari√°veis cont√≠nuas expressas em ‚Äúdias‚Äù como: `dias_pre_conferencia`, `dias_coleta`,`dias_distribuicao_cotas` etc.
Essas vari√°veis apresentam tr√™s desafios:

1. **Alta volatilidade Intrahora** e baixa interpretabilidade operacional devido a media de entregas serem no mesmo dia;
2. **Altern√¢ncia brusca** de escala entre pedidos, dificultando normaliza√ß√£o;
3. Exist√™ncia de valores negativos e inconsistentes, que exigem corre√ß√£o ou exclus√£o.

Al√©m disso, o dataset j√° cont√©m uma vers√£o **agregada e mais est√°vel** dessas vari√°veis: as colunas em horas (`horas_pre_conferencia`, `horas_planejamento`, etc.), que s√£o mais adequadas para modelagem preditiva.

Com isso, as seguintes vari√°veis s√£o candidatas √† remo√ß√£o:

```
'dias_pre_conferencia', 'dias_planejamento', 'dias_divisao_ocam', 'dias_coleta', 'dias_conferencia', 'dias_emissao', 'dias_analise_producao', 'dias_minuta', 'dias_minuta_exped_minuta', 'dias_analise_transporte', 'dias_distribuicao_cotas'
```

O uso exclusivo das vers√µes em *dias* simplifica o modelo e reduz ru√≠do.

---

### **2. S√≠ntese Estrat√©gica**

Com base na an√°lise estrutural, conclui-se que:

- O dataset √© **adequado para an√°lise estat√≠stica e modelagem**, desde que passe por transforma√ß√µes essenciais.
- A remo√ß√£o de colunas redundantes ou ruidosas **aumentar√° a qualidade do modelo**, reduzindo dimensionalidade e evitando inconsist√™ncias.
- O tratamento de nulos deve ser **orientado por regras de neg√≥cio**, especialmente no caso de etapas como OCAM, confer√™ncia, expedi√ß√£o e emiss√£o.
- Vari√°veis temporais devem ser convertidas, auditadas e avaliadas para manter apenas aquelas com valor preditivo real.
- O conjunto de vari√°veis derivadas em dias fornece uma base mais est√°vel e representativa do ciclo operacional.
- Ap√≥s o pr√©-processamento adequado, o dataset estar√° plenamente preparado para avan√ßar para a fase de Estat√≠stica Descritiva, Feature Engineering e, posteriormente, para a modelagem supervisionada do atraso (OTIF).

---

In [82]:
col_remover_geral = ['nf','nf_cliente','placa','rota','ordem_fase','minuta','minuta.1','fl_em_atraso','fl_coleta_cancelada',
                     'fl_canhoto','ss.1','nf_zt','nf_cli','qtde_itens.1','peso.1','volume.1','dias_pre_conferencia',
                     'dias_planejamento', 'dias_divisao_ocam', 'dias_coleta', 'dias_conferencia', 'dias_emissao', 
                     'dias_analise_producao', 'dias_minuta', 'dias_minuta_exped_minuta', 'dias_analise_transporte',
                     'dias_distribuicao_cotas']

# 3. Tratamento dos Dados

***Descri√ß√£o:***
Esta etapa tem como objetivo realizar a limpeza, padroniza√ß√£o e prepara√ß√£o inicial do dataset, assegurando que as informa√ß√µes estejam adequadas para a aplica√ß√£o das t√©cnicas de Estat√≠stica Descritiva e para as fases subsequentes de modelagem preditiva.
O tratamento adequado dos dados √© essencial para reduzir ru√≠do, corrigir inconsist√™ncias e fortalecer a qualidade anal√≠tica do modelo final.

## Procedimentos inclu√≠dos nesta etapa:

> **Remo√ß√£o de colunas irrelevantes ou redundantes**
> Elimina-se do dataset principal as vari√°veis categ√≥ricas, temporais ou quantitativas que n√£o agregam valor anal√≠tico, sejam duplicadas, inconsistentes, sem relev√¢ncia para a modelagem ou j√° representadas por atributos derivados mais informativos.
>
> **Tratamento dos valores nulos**
> Conforme a natureza da vari√°vel:
> ‚Äì Vari√°veis quantitativas ter√£o valores nulos substitu√≠dos por `0`, representando aus√™ncia da etapa ou inexist√™ncia do evento.
> ‚Äì Vari√°veis categ√≥ricas receber√£o o marcador `"N√ÉO DEFINIDO"`, preservando o significado sem√¢ntico sem introduzir distor√ß√µes estat√≠sticas.
> Esse procedimento garante completude para an√°lises descritivas e facilita a vetoriza√ß√£o nas pr√≥ximas fases.
>
> **Tratamento dos valores negativos**
> Valores negativos s√£o invalidados em vari√°veis que, por regra de neg√≥cio, devem ser n√£o negativas (como tempos, quantidades e medidas operacionais).
> Esses registros ser√£o corrigidos, substitu√≠dos ou analisados pontualmente, garantindo consist√™ncia l√≥gica do dataset e evitando impactos indevidos nas estat√≠sticas e na modelagem.

## Remo√ß√£o das Colunas

In [83]:
# Efetuando c√≥pia do dataset original.
df_main = df.copy()

df_main = df_main.drop(columns=cols_data)
df_main = df_main.drop(columns=cols_remover_categoricas)
df_main = df_main.drop(columns=col_remover_geral)

# Criando DataFrame apresentando tipo, frequencia e features
df_types_freq = (df_main.dtypes.value_counts()
                 .rename_axis("Tipo")
                 .reset_index(name="Volume")
                ).merge(
                    pd.DataFrame({
                        dtype: df_main.select_dtypes(include=dtype).columns.to_list()
                        for dtype in df.dtypes.unique()
                    }.items(), columns=["Tipo", "Features"]), on="Tipo"
                ).to_html(index=False)

# Criando o HTML para apresenta√ß√£o dos dados.
html = f"""
<div style="display: flex; gap: 50px; justify-content: left;">

    <div>
        <h3 style="text-align:center;">Tipos de Dados</h3>
        {df_types_freq}
    </div>

</div>
"""

display(HTML(html))

Tipo,Volume,Features
float64,12,"[peso, m3, horas_pre_conferencia, horas_planejamento, horas_divisao_ocam, horas_coleta, horas_conferencia, horas_emissao, horas_analise_producao, horas_minuta, horas_exped_minuta, hora_analise_transporte]"
object,10,"[sigla_cliente, tipo_veiculo, uf, representante, flag_entrega_agendada, fase, modalidade, motivo_atraso, status, analise_transporte]"
int64,10,"[ss, qtde_itens, volume, fl_base, fl_atraso_zt, fl_atraso_cli, fl_sem_minuta, qtde_ocams, peso_cubado_rodoviario, horas_distribuicao_cotas]"


In [84]:
# Verificando Valores nulos
df_nulos = df_main.isna().sum().sort_values(ascending=False)
df_nulos = pd.DataFrame(df_nulos[df_nulos > 0].items(), columns=["features", "freq"])

html = f"""
<div style="display: flex; gap: 50px; justify-content: left;">

    <div>
        <h3 style="text-align:center;">Featres Nulas</h3>
        {df_nulos.to_html(index=False)}
    </div>

</div>
"""

display(HTML(html))

features,freq
motivo_atraso,331391
horas_divisao_ocam,74983
horas_planejamento,73644
horas_coleta,52918
hora_analise_transporte,12921
horas_minuta,8246
horas_emissao,7615
horas_exped_minuta,5101
horas_conferencia,3945
horas_analise_producao,2773


In [85]:
# Tratamento de nulos

# 1. Vari√°veis quantitativas ‚Üí preenchimento com 0
quant_cols = df_main.select_dtypes(include=['int64', 'float64']).columns
df_main[quant_cols] = df_main[quant_cols].fillna(0)

# 2. Vari√°veis categ√≥ricas ‚Üí preenchimento com "N√ÉO DEFINIDO"
cat_cols = df_main.select_dtypes(include=['object']).columns
df_main[cat_cols] = df_main[cat_cols].fillna("N√ÉO DEFINIDO")

# Verificando Valores nulos
df_nulos = df_main.isna().sum().sort_values(ascending=False)
df_nulos = pd.DataFrame(df_nulos[df_nulos > 0].items(), columns=["features", "freq"])

df_nulos

Unnamed: 0,features,freq


In [86]:
df_valores_negativos = pd.DataFrame(
    df_main.select_dtypes(include=['int64','float64'])
    .apply(lambda col: (col < 0).sum())
    .sort_values(ascending=False)
    .reset_index()
    .rename(columns={'index': 'features', 0: 'qtde_nevativos'})
)

df_valores_negativos = df_valores_negativos[df_valores_negativos['qtde_nevativos'] > 0]

html = f"""
<div style="display: flex; gap: 50px; justify-content: left;">

    <div>
        <h3 style="text-align:center;">Vari√°veis Quantitativas Negativas</h3>
        {df_valores_negativos.to_html(index=False)}
    </div>

</div>
"""

display(HTML(html))

features,qtde_nevativos
horas_conferencia,5558
horas_minuta,4008
horas_emissao,2123
horas_distribuicao_cotas,362
horas_pre_conferencia,1


In [87]:
neg_cols = (df_main.select_dtypes(include=['int64', 'float64']) < 0).any()
neg_cols = neg_cols[neg_cols].index  # pega apenas as colunas com algum negativo

df_main[neg_cols] = df_main[neg_cols].abs()

In [88]:
df_valores_negativos = pd.DataFrame(
    df_main.select_dtypes(include=['int64','float64'])
    .apply(lambda col: (col < 0).sum())
    .sort_values(ascending=False)
    .reset_index()
    .rename(columns={'index': 'features', 0: 'qtde_nevativos'})
)

df_valores_negativos = df_valores_negativos[df_valores_negativos['qtde_nevativos'] > 0]

html = f"""
<div style="display: flex; gap: 50px; justify-content: left;">

    <div>
        <h3 style="text-align:center;">Vari√°veis Quantitativas Negativas</h3>
        {df_valores_negativos.to_html(index=False)}
    </div>

</div>
"""

display(HTML(html))

features,qtde_nevativos


# Criando um novo dataset

In [89]:
processed_path = "../database/processed"
os.makedirs(processed_path, exist_ok=True)

# Caminho final do arquivo
output_file = os.path.join(processed_path, "acompanhamento_operacional_clean.csv")

# Salvando df_main tratado
df_main.to_csv(output_file, index=False, encoding="utf-8-sig")

print(f"Arquivo salvo com sucesso em: {output_file}")


Arquivo salvo com sucesso em: ../database/processed/acompanhamento_operacional_clean.csv


# Conclus√£o Geral ‚Äì Tratamento dos Dados

Ap√≥s a etapa de higieniza√ß√£o e organiza√ß√£o dos dados, o dataset `df_main` encontra-se devidamente preparado para avan√ßar para as an√°lises de Estat√≠stica Descritiva. As transforma√ß√µes aplicadas garantiram consist√™ncia interna, elimina√ß√£o de ru√≠do, padroniza√ß√£o sem√¢ntica e conformidade com as regras operacionais da cadeia log√≠stica da Zenatur.

A seguir, apresentam-se os principais resultados e conclus√µes do processo de tratamento:

---

## **1. Remo√ß√£o de Colunas Irrelevantes ou Redundantes**

Foram exclu√≠das vari√°veis categ√≥ricas, temporais e quantitativas que apresentavam:

* redund√¢ncia estrutural (ex.: colunas duplicadas),
* baixa relev√¢ncia preditiva,
* inconsist√™ncias sem√¢nticas,
* ou aus√™ncia de utilidade operacional dentro do escopo do modelo de OTIF.

A remo√ß√£o dessas colunas aprimorou a clareza do dataset e reduziu sua dimensionalidade, mantendo apenas atributos com potencial informativo real para a an√°lise explorat√≥ria e futura modelagem preditiva.

---

## **2. Estrutura Final do Dataset**

Ap√≥s o tratamento, o dataset consolidado (`df_main`) passou a conter:

### **‚Ä¢ 12 vari√°veis quantitativas cont√≠nuas (float64):**

Principalmente m√©tricas de tempo operacional expressas em dias, al√©m de medidas de peso e volume.

### **‚Ä¢ 10 vari√°veis categ√≥ricas (object):**

Atributos qualitativos que representam caracter√≠sticas log√≠sticas, status operacional, modalidades, representa√ß√µes e indicadores relevantes para o fluxo de pedido.

### **‚Ä¢ 10 vari√°veis quantitativas inteiras (int64):**

Contagens, flags bin√°rias e medidas discretas associadas √† opera√ß√£o, como quantidade de itens, indicadores de atraso, base log√≠stica e n√∫mero de OCAMs.

Essa composi√ß√£o garante um balan√ßo saud√°vel entre vari√°veis descritivas e operacionais, preservando o significado log√≠stico do processo.

---

## **3. Tratamento de Valores Nulos**

A imputa√ß√£o foi realizada de acordo com as regras de neg√≥cio:

* **Vari√°veis quantitativas:** substitui√ß√£o por 0, representando aus√™ncia de tempo, quantidade ou dura√ß√£o na etapa correspondente.
* **Vari√°veis categ√≥ricas:** substitui√ß√£o por `"N√ÉO DEFINIDO"`, distinguindo casos sem registro operacional de categorias efetivas.

Esse procedimento minimiza perdas de informa√ß√£o e mant√©m a integridade da interpreta√ß√£o operacional, especialmente em etapas opcionais ou n√£o ocorridas do processo log√≠stico.

---

## **4. Corre√ß√£o de Valores Negativos**

Valores negativos foram identificados exclusivamente em colunas quantitativas derivadas, referentes a tempos operacionais. Por serem inconsistentes com o fluxo log√≠stico ‚Äî onde dura√ß√µes n√£o podem assumir valores negativos ‚Äî todas as ocorr√™ncias foram corrigidas utilizando **valor absoluto (`abs()`)**, solu√ß√£o segura e vetorizada, mantendo a magnitude temporal correta sem comprometer o significado das vari√°veis.

---

## **5. Resultado Final**

O dataset `df_main` encontra-se agora:

* **limpo**,
* **consistente**,
* **estruturalmente s√≥lido**,
* **sem valores nulos**,
* **sem valores negativos**,
* **sem colunas redundantes**,
* **com tipagem adequada**,
* **e pronto para a pr√≥xima etapa do CRISP-DM**:
  ‚úî **Estat√≠stica Descritiva**.

Essas transforma√ß√µes garantem que a an√°lise explorat√≥ria, a engenharia de atributos e, posteriormente, a modelagem preditiva para estimativa de atraso (OTIF) ocorram sobre uma base robusta, coerente e aderente ao contexto operacional da Zenatur.

---

<div align="left">
  <a href="#topo" title="Voltar ao in√≠cio do README">‚¨ÜÔ∏è Topo</a>
</div>

---