# EDA ‚Äì Estat√≠stica Inferencial & Feature Engineering Inicial

<a href="../README.md" title="Voltar para a p√°gina principal">
üè† Voltar para Home
</a>

## Vis√£o Geral

A **Estat√≠stica Inferencial** tem como objetivo **investigar rela√ß√µes, padr√µes e diferen√ßas estatisticamente significativas** dentro do dataset.
Enquanto a Estat√≠stica Descritiva respondeu *‚Äúo que aconteceu?‚Äù*, agora buscamos responder *‚Äúpor que aconteceu?‚Äù* ‚Äî isto √©, compreender **associa√ß√µes, depend√™ncias e fatores que influenciam diretamente o comportamento do TARGET (OTIF / atraso)**.

Nesta etapa, aprofundamos a an√°lise utilizando ferramentas que permitem:

- avaliar correla√ß√µes lineares e n√£o lineares entre vari√°veis num√©ricas (*Pearson* e *Spearman*);
- comparar grupos e testar diferen√ßas significativas (*ANOVA*);
- verificar depend√™ncia entre vari√°veis categ√≥ricas (*qui-quadrado*);
- explorar a **separabilidade** entre pedidos no prazo e pedidos atrasados;
- identificar vari√°veis-chave que servem como **candidatas fortes para Feature Engineering**.

A Infer√™ncia Estat√≠stica opera como um elo entre a EDA descritiva e a fase de modelagem, fornecendo evid√™ncias quantitativas sobre **quais vari√°veis realmente importam**, quais s√£o redundantes e onde existe potencial para cria√ß√£o de novas features.

### T√≥picos abordados nesta etapa

- correla√ß√£o entre vari√°veis num√©ricas
- an√°lise de depend√™ncia entre categorias
- testes estat√≠sticos para diferen√ßas entre grupos
- investiga√ß√£o da for√ßa e dire√ß√£o das rela√ß√µes
- primeiros insights para cria√ß√£o de novas features (FE inicial)

Essas an√°lises comp√µem a funda√ß√£o que guiar√° a etapa seguinte ‚Äî **Prepara√ß√£o Avan√ßada dos Dados & Feature Engineering Completo** ‚Äî al√©m de orientar quais modelos tendem a performar melhor na predi√ß√£o de atraso (OTIF).

# Importa√ß√µes

In [1]:
# Manipula√ß√£o de arquivos e diret√≥rios
import sys
import os

# Dowload Kagglehub
# import kagglehub

# Estatisticas e DataFrames
import pandas as pd
import numpy as np

# Gr√°ficos
import matplotlib.pyplot as plt
import seaborn as sns

# Trabalho com html
from IPython.display import display, HTML

# Skewness e Kurtosis
from scipy.stats import skew, kurtosis, zscore

# 1. Carregamento e Visualiza√ß√£o Preliminar

***Descri√ß√£o:*** Utilizando o dataset de acompanhamento operacional dos pedidos tratados.
> **Arquivo e:** database/processed/acompanhamento_operacional_clean.csv

In [2]:
file_path = "../database/processed/acompanhamento_operacional_clean.csv"

df_main = pd.read_csv(file_path)

df_main.head(5)

Unnamed: 0,sigla_cliente,ss,tipo_veiculo,qtde_itens,volume,peso,m3,uf,fl_base,representante,...,horas_planejamento,horas_divisao_ocam,horas_coleta,horas_conferencia,horas_emissao,horas_analise_producao,horas_minuta,horas_exped_minuta,hora_analise_transporte,analise_transporte
0,NTL,3560316,TRUCK 70 M3,1,1,144.3,2.1,MS,0,N√ÉO DEFINIDO,...,3.0,20.0,6.0,0.0,0.0,22.0,0.0,16.0,161.0,Fora do Prazo
1,NTL,3561720,TRUCK 70 M3,1,1,130.3,2.33,MS,0,N√ÉO DEFINIDO,...,3.0,20.0,7.0,0.0,0.0,22.0,0.0,16.0,165.0,Fora do Prazo
2,NTL,3562246,TRUCK 70 M3,1,1,97.0,2.22,SC,0,SC CARGO TRANSPORTES LTDA,...,3.0,187.0,2.0,0.0,0.0,0.0,0.0,16.0,40.0,Fora do Prazo
3,MMM,3565015,TRUCK 75 M3,7,43,182.79,1.08,CE,0,VELOMAX BRASIL TRANSPORTES LTD,...,2.0,46.0,4.0,1.0,0.0,11.0,99.0,8.0,93.0,Fora do Prazo
4,MMM,3565022,TRUCK 70 M3,4,9,25.5,0.07,CE,0,MFM TRANSPORTES,...,2.0,46.0,6.0,1.0,0.0,12.0,172.0,16.0,285.0,Fora do Prazo
