# EDA - Estatistica Descritiva

<a href="../../README.md" title="Voltar para a p√°gina principal">
üè† Voltar para Home
</a>

## Vis√£o Geral

A Estat√≠stica Descritiva compreende o conjunto de t√©cnicas voltadas √† explora√ß√£o inicial de um conjunto de dados, com foco na compreens√£o da distribui√ß√£o, comportamento, padr√µes centrais, variabilidade e poss√≠veis anomalias.  
Nesta etapa, o objetivo principal √© obter uma leitura clara da estrutura do dataset, identificar problemas de integridade e avaliar caracter√≠sticas fundamentais que influenciar√£o diretamente na modelagem preditiva.

As an√°lises contemplam os seguintes pilares:
- identifica√ß√£o de medidas centrais (m√©dia, mediana, moda)
- avalia√ß√£o de dispers√£o (vari√¢ncia, desvio padr√£o e coeficiente de varia√ß√£o)
- estudo da forma da distribui√ß√£o (assimetria e curtose)
- investiga√ß√£o de outliers estat√≠sticos e l√≥gicos
- an√°lise da frequ√™ncia de vari√°veis categ√≥ricas
- avalia√ß√£o de correla√ß√µes entre vari√°veis num√©ricas
- an√°lise da integridade e consist√™ncia estrutural do dataset

Estas informa√ß√µes formam o alicerce para as pr√≥ximas etapas do CRISP-DM, especialmente Prepara√ß√£o dos Dados e Modelagem.

## Objetivo

O objetivo desta etapa √© aplicar t√©cnicas de **An√°lise Estat√≠stica Descritiva** utilizando Python e as bibliotecas **NumPy** e **Pandas**, com apoio de tabelas e visualiza√ß√µes gr√°ficas.
A an√°lise descritiva tem como finalidade compreender a estrutura, qualidade e comportamento das vari√°veis do dataset, servindo como base para decis√µes de pr√©-processamento, feature engineering e modelagem preditiva.

A partir desta etapa, buscamos responder √†s seguintes quest√µes fundamentais sobre o conjunto de dados:

1. **Existem valores ausentes (missing values)?**
   Quantos s√£o? Em quais colunas se concentram? Representam aus√™ncia leg√≠tima ou falha de coleta?

2. **Existem registros duplicados?**
   Devem ser removidos? Qual a regra de unicidade aplic√°vel ao dataset?

3. **Cada vari√°vel est√° corretamente tipada?**
   Datas est√£o reconhecidas como `datetime`?
   Vari√°veis num√©ricas foram importadas como texto?
   Campos categ√≥ricos est√£o mapeados como `object`?

4. **Existem valores inv√°lidos ou logicamente imposs√≠veis?**
   Exemplos: valores negativos em atributos que n√£o deveriam assumir tais valores, datas inconsistentes ou fora de ordem, quantidades incompat√≠veis com o processo operacional.

5. **Qual √© a tend√™ncia central das vari√°veis num√©ricas?**
   Avalia√ß√£o de m√©dia, mediana e moda, identificando o comportamento central e poss√≠veis distor√ß√µes.

6. **Qual √© o grau de dispers√£o dos dados?**
   An√°lise de vari√¢ncia, desvio padr√£o e coeficiente de varia√ß√£o para verificar estabilidade ou heterogeneidade das medidas.

7. **As vari√°veis apresentam simetria ou assimetria?**
   C√°lculo de *skewness* e *kurtosis* para identificar distribui√ß√µes alongadas, achatadas ou com caudas extremas.

8. **Como se comportam as distribui√ß√µes de cada vari√°vel?**
   Por meio de histogramas, densidades, boxplots e outras representa√ß√µes visuais.

9. **Existem outliers extremos ou anomalias estat√≠sticas?**
   Identifica√ß√£o via IQR, Z-score ou inspe√ß√£o gr√°fica, avaliando o impacto no processo e na futura modelagem.

# Importa√ß√µes

In [387]:
# Manipula√ß√£o de arquivos e diret√≥rios
import sys
import os

# Dowload Kagglehub
# import kagglehub

# Estatisticas e DataFrames
import pandas as pd
import numpy as np

# Gr√°ficos
import matplotlib.pyplot as plt
import seaborn as sns

# Trabalho com html
from IPython.display import display, HTML

# 1. Carregamento e Visualiza√ß√£o Preliminar

***Descri√ß√£o:*** Utilizando o dataset de acompanhamento operacional dos pedidos tratados.
> **Arquivo e:** database/processed/acompanhamento_operacional_clean.csv

In [388]:
file_path = "../database/processed/acompanhamento_operacional_clean.csv"

df_main = pd.read_csv(file_path)

df_main.head(5)

Unnamed: 0,sigla_cliente,ss,tipo_veiculo,qtde_itens,volume,peso,m3,uf,fl_base,representante,...,horas_planejamento,horas_divisao_ocam,horas_coleta,horas_conferencia,horas_emissao,horas_analise_producao,horas_minuta,horas_exped_minuta,hora_analise_transporte,analise_transporte
0,NTL,3560316,TRUCK 70 M3,1,1,144.3,2.1,MS,0,N√ÉO DEFINIDO,...,3.0,20.0,6.0,0.0,0.0,22.0,0.0,16.0,161.0,Fora do Prazo
1,NTL,3561720,TRUCK 70 M3,1,1,130.3,2.33,MS,0,N√ÉO DEFINIDO,...,3.0,20.0,7.0,0.0,0.0,22.0,0.0,16.0,165.0,Fora do Prazo
2,NTL,3562246,TRUCK 70 M3,1,1,97.0,2.22,SC,0,SC CARGO TRANSPORTES LTDA,...,3.0,187.0,2.0,0.0,0.0,0.0,0.0,16.0,40.0,Fora do Prazo
3,MMM,3565015,TRUCK 75 M3,7,43,182.79,1.08,CE,0,VELOMAX BRASIL TRANSPORTES LTD,...,2.0,46.0,4.0,1.0,0.0,11.0,99.0,8.0,93.0,Fora do Prazo
4,MMM,3565022,TRUCK 70 M3,4,9,25.5,0.07,CE,0,MFM TRANSPORTES,...,2.0,46.0,6.0,1.0,0.0,12.0,172.0,16.0,285.0,Fora do Prazo


# 2. Tendencias Centrais - Medidas de Centralidade (M√©dia, Mediana, Moda)

***Descri√ß√£o:*** Entender a natureza e a distribui√ß√£o das vari√°veis.  
As tend√™ncias centrais, ou medidas de centralidade, s√£o valores √∫nicos que representam o centro de um conjunto de dados, sendo a m√©dia, a mediana e a moda as mais comuns. Elas servem para resumir dados de forma mais simples, como a idade de um grupo de 100 pessoas, salario de um grupo de funcionarios, etc. A escolha de qual medida usar depende da natureza dos dados, como a presen√ßa de valores extremos que podem influenciar a m√©dia. 

**Medidas e Visualiza√ß√µes**
- M√©dia
- mediana
- moda

> - **Se mean e 50% (mediana)** est√£o pr√≥ximos ‚Üí boa simetria.
> - **Se min e max** est√£o muito distantes ‚Üí alto desvio padr√£o (talvez outliers).
> - **Se std √© da mesma ordem** de grandeza da m√©dia ‚Üí alta variabilidade.

## Vis√£o Geral das Medidas de Centralidade

- Avaliar e classificar as medidas de centralidade das 17 features quantitativas
- Avaliar e classificar o tamanho da cauda e classificar cada featere como: Sim√©trica, assim√©trica esquerda, assim√©tria a direita
- Avaliar o desvio padr√£o vs medias, verificar as proximidades de cada feature
- Verificar skewness e kurtosis de cada feature

In [389]:
df_num = df_main.select_dtypes(include=['int64','float64'])
cols_remover = ['ss','fl_base','fl_atraso_zt','fl_atraso_cli','fl_sem_minuta',]
df_num = df_num.drop(columns=cols_remover)
df_num.describe().T.sort_values(by='std', ascending=False)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
peso_cubado_rodoviario,488398.0,342.633352,3768.429286,0.0,2.0,10.0,75.0,1511070.0
hora_analise_transporte,488398.0,152.443169,766.479116,0.0,22.0,95.0,217.0,262968.0
horas_minuta,488398.0,91.374789,309.359113,0.0,16.0,45.0,96.0,13135.0
horas_emissao,488398.0,27.527525,308.377685,0.0,0.0,1.0,2.0,13223.0
peso,488398.0,44.923519,283.198508,0.0,1.5,2.2,17.73,90390.0
volume,488398.0,10.194352,228.325868,1.0,1.0,1.0,3.0,86363.0
horas_analise_producao,488398.0,43.872112,71.470168,0.0,6.0,22.0,55.0,8790.0
horas_divisao_ocam,488398.0,42.608809,64.533771,0.0,2.0,17.0,62.0,1488.0
horas_pre_conferencia,488398.0,16.057553,61.856582,0.0,0.0,1.0,4.0,4078.0
horas_exped_minuta,488398.0,19.3358,36.355978,0.0,8.0,10.0,16.0,4954.0


> üí° **Nota T√©cnica:** 
> As estimativas das medidas de centralidade foram aplicadas na base de dados consolidada, ou seja, com a granularidade mais alta, para observar o comportamento geral dos dados.

In [None]:
# Calcula m√©dia e mediana de todas as colunas
df_stats = df_num.agg(['mean', 'median']).T

# Calcula assimetria relativa (%)
df_stats['assimetria_relativa_%'] = (
    (df_stats['mean'] - df_stats['median']).abs() /
    df_stats['median'].replace(0, 1e-6)
) * 100

# Classifica
def classificar_assimetria(x):
    if pd.isna(x): return 'indefinido'
    elif x < 10: return 'Normal'
    elif x < 30: return 'Leve Assimetria'
    elif x < 50: return 'Assimetria Significativa'
    else: return 'Forte Assimetria'

df_stats['classe_assimetria'] = df_stats['assimetria_relativa_%'].apply(classificar_assimetria)

# Ordena pelas mais distorcidas
df_stats.sort_values('assimetria_relativa_%', ascending=False)

Unnamed: 0,mean,median,assimetria_relativa_%,classe_assimetria
horas_conferencia,7.715695,0.0,771569500.0,Forte Assimetria
qtde_ocams,0.973114,0.0,97311410.0,Forte Assimetria
horas_distribuicao_cotas,0.553514,0.0,55351370.0,Forte Assimetria
peso_cubado_rodoviario,342.633352,10.0,3326.334,Forte Assimetria
horas_emissao,27.527525,1.0,2652.752,Forte Assimetria
m3,0.457469,0.02,2187.343,Forte Assimetria
peso,44.923519,2.2,1941.978,Forte Assimetria
horas_pre_conferencia,16.057553,1.0,1505.755,Forte Assimetria
volume,10.194352,1.0,919.4352,Forte Assimetria
horas_coleta,9.247427,1.0,824.7427,Forte Assimetria


In [None]:
df_frec_stats = (
    df_stats['classe_assimetria']
    .value_counts()
    .rename_axis('classe_assimetria')
    .reset_index(name='volume')
)

df_frec_stats

Unnamed: 0,classe_assimetria,volume
0,Forte Assimetria,17


**Nota T√©nica:** A an√°lise estrutural das vari√°veis quantitativas evidencia um padr√£o estat√≠stico marcante: **todas apresentam forte assimetria √† direita**, caracterizada pela presen√ßa de **caudas longas** que se estendem para valores muito superiores ao comportamento central da distribui√ß√£o.

Esse diagn√≥stico emerge prontamente quando comparamos as medidas de centralidade, especialmente **m√©dia** e **mediana**. Observou-se que, para praticamente todas as features operacionais, a **mediana** encontra-se concentrada entre **0 e 10 horas**, enquanto as **m√©dias** assumem valores muito mais elevados. Essa disparidade sistem√°tica, **m√©dia muito maior que a mediana** sugere a exist√™ncia de **observa√ß√µes extremas** que distorcem a m√©dia aritm√©tica, fen√¥meno t√≠pico de distribui√ß√µes com **outliers estruturais**.

Em outras palavras, o comportamento observado indica que:

- a maioria dos pedidos √© processada de forma r√°pida (medianas baixas);
- por√©m, um pequeno conjunto de pedidos apresenta tempos **profundamente discrepantes**, produzindo **caudas longas** e elevando consideravelmente as m√©dias;
- essa discrep√¢ncia √© consistente com a din√¢mica real de processos log√≠sticos, nos quais atrasos pontuais ‚Äî embora raros ‚Äî t√™m grande impacto no desempenho operacional e, consequentemente, nos indicadores de OTIF.

Assim, a assimetria √† direita encontrada n√£o √© apenas estatisticamente esperada, mas tamb√©m operacionalmente significativa, refor√ßando o entendimento de que **os atrasos log√≠sticos s√£o eventos esparsos, por√©m severos**, e constituem justamente o fen√¥meno que o modelo preditivo dever√° capturar.

> ***Observa√ß√µes:*** foi destacado o tempo de processo apenas para facilitar a esposi√ß√£o, mas observa-se que existem a disparidade em todos as variaveis: no `peso` notodamos que at√© 75% dos dados pesam at√© 17.73 kg, ou seja 2/3 dos dados, contudo os 25% restantes se tramtam dos valores da ponta da cauda longa, que distorcem as m√©dias com o valor m√°ximo de 90.390 Kg.

# 3. Medidas de Dispers√£o (Vari√¢ncia, Desvio-Padr√£o e Coeficiente de Varia√ß√£o)

***Descri√ß√£o:***
As medidas de dispers√£o avaliadas nesta etapa t√™m como objetivo quantificar **o grau de variabilidade** das vari√°veis num√©ricas. Enquanto as medidas de tend√™ncia central mostram *onde* os dados tendem a se concentrar, as medidas de dispers√£o mostram *o quanto* os dados se afastam desse centro.

Essas medidas s√£o fundamentais para compreender:

- a estabilidade do processo operacional,
- a exist√™ncia de variabilidade excessiva (ru√≠do ou eventos cr√≠ticos),
- o impacto de valores extremos nas m√©dias,
- e o grau de risco estat√≠stico associado a cada etapa do fluxo log√≠stico.

As an√°lises desta etapa complementam diretamente o estudo de assimetria e preparam o terreno para as pr√≥ximas fases de correla√ß√£o e infer√™ncia.

---

## **Medidas e Visualiza√ß√µes**

- **Vari√¢ncia (`var`)** ‚Äî indica o quanto os valores se dispersam em rela√ß√£o √† m√©dia.
- **Desvio-Padr√£o (`std`)** ‚Äî raiz da vari√¢ncia; mostra a dispers√£o na mesma escala da vari√°vel.
- **Coeficiente de Varia√ß√£o (`CV = std / mean`)** ‚Äî mede a variabilidade relativa, permitindo compara√ß√£o entre vari√°veis de escalas diferentes.

---

### **Interpreta√ß√µes Importantes**

> - **Se std √© alto** ‚Üí grande instabilidade operacional; pode indicar gargalos, atrasos pontuais ou processos imprevis√≠veis.
> - **Se CV > 1.0** (100%) ‚Üí dispers√£o maior que a m√©dia ‚Üí forte volatilidade; comportamento ca√≥tico.
> - **Se CV entre 0.30 e 1.0** ‚Üí variabilidade moderada; processos alternam entre normal e cr√≠tico.
> - **Se CV < 0.30** ‚Üí variabilidade baixa; processo est√°vel.

---

### **Sinaliza√ß√µes pr√°ticas para OTIF**

- Vari√°veis com **alto std** ou **alto CV** tendem a ser **ofensores operacionais**, contribuindo para atrasos.
- Vari√°veis com **baixo desvio** indicam processos mais previs√≠veis e est√°veis.
- Comparar CV entre colunas poder√° evidenciar quais etapas ‚Äúpuxam a cauda‚Äù da distribui√ß√£o.