# EDA - Estatistica Descritiva

## Visão Geral

A estatistica descritiva é um conjunto de tecncias utilizadas para Análise Exploratório de Dados (EDA) com o objetivo de ornganizar e apresentar as princiapis caracteristicas do conjunto de dados de forma clara para verificar a estrutura, consistência e qualidade dos dados bem como extrair insigths inicias, identificando padrões e detectando anomalias (outliers) e criar as visões gerais necessárias antes das inferências e da modelagem.

A solução abrange:

- **Medidas Estruturais:** Missing %, Duplicado, tipos de dados, cardinalidade.
- **Medidas de Tendência Central:** Média, Moda e Mediana  
- **Medidas de Dispersão:** Variância, Desvio Padrão, Coeficiente de Variação (CV), Amplitude
- **Medidas de Forma:** Assimetria (Skewness), Curtose (Kurtosis)
- **Outliers:** IQR, Q1, Q3, Amplitude, Limite Inferior, Limite Superior, z-score
- **Visualização:** Histograma, Boxplot, Distribuições KDE e Heatmap de Correlação

## Objetivo

Aplicar as técnicas descritiva utilizando as linguagem de programação python utilizando as bibliotecas numpy e pandas, utilizando tabelas e gráficos.

- 1. Existem missing values? Quantos? Onde?
- 2. Existem duplicatas? Devem ser removidas?
- 3. Cada coluna está no tipo certo?
- 4. Existem valores impossíveis (idade negativa, renda negativa, data absurda)?
- 4. Qual é a tendência central da variável?
- 5. Qual é a dispersão (variação)?
- 6. A variável é simétrica ou assimétrica?
- 7. Como estão as distribuições das variáveis?
- 8. Existem outliers extremos?

# Importações

In [1]:
# Manipulação de arquivos e diretórios
import sys
import os
import shutil

# Dowload Kagglehub
# import kagglehub

# Estatisticas e DataFrames
import pandas as pd
import numpy as np

# Gráficos
import matplotlib.pyplot as plt
import seaborn as sns

# Trabalho com html
from IPython.display import display, HTML

# Caminho para a raiz do projeto
root = os.path.abspath(os.path.join(os.getcwd(), ".."))
sys.path.append(root)

print(root)

/mnt/d/estudos/mba_impacta/11 - Fundamentals of Machine Learning/_atividades/ds-otfi-detection-ml


In [2]:
# Packages internas
from src.data.extract_sqlserver import extract_operacional

# 1. Carregamento e Visualização Preliminar

***Descrição:*** Utilizando o dataset Kaggle https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud

## Baixando a Fonte de Dados

In [12]:
# Download latest version do kagglehub
# path = kagglehub.dataset_download("mlg-ulb/creditcardfraud")
# destination = "../database/raw"
# print("Path to dataset files:", path)
# 
# # Copiando arquivos da origem para o destino
# for file in os.listdir(path):
#     print("Copy files: ", file)
#     print("From :", path)
#     print("To: ", destination)
#     shutil.copyfile(os.path.join(path,file), os.path.join(destination,file))
# 
# # Listando os arquivos copiados
# for file in os.listdir(destination):
#     print("File: ", file)

In [13]:
 # df = pd.read_csv(os.path.join(destination,file))
 # df.head(10)

In [10]:
# df = extract_operacional()
df = pd.read_csv("../database/raw/acompanhamento_operacional.csv")
df.head(10)

Unnamed: 0,sigla_cliente,ss,qtde_ocams,nf_zt,nf_cli,dt_nf,os,lacre,solicitante,uf,...,minuta,dt_prazo_limite_cliente,dt_emissao_nf,modalidade,alocado_em,finalizado_em,data_entrega,hora_analise_transporte,dias_analise_transporte,analise_transporte
0,NTL,3524883,0,1905363.0,,2023-12-26 18:37:00,024404/23,23A0023833,VINICIUS.CRUZ,RJ,...,410198.0,2024-01-02 17:00:00,2023-12-26 18:37:00,RODOVIARIO,G5,G5,2024-01-04 10:08:00,41.0,2.0,Fora do Prazo
1,NTL,3552585,0,1905238.0,,2023-12-26 15:55:00,026936/23,,DANIELA.SIVINSK,RS,...,410028.0,2024-01-02 17:00:00,2023-12-26 15:55:00,RODOVIARIO,ZT1,ZT1,2024-01-04 14:36:00,45.0,2.0,Fora do Prazo
2,MMM,3557441,2,1896470.0,,2023-11-29 09:43:00,027772/23,,SPROCHA,SP,...,408677.0,2023-11-29 17:00:00,2023-11-29 09:43:00,RODOVIARIO,ZT1,ZT1,2023-11-30 10:00:00,17.0,1.0,Fora do Prazo
3,NTL,3560316,0,,128059.0,2023-12-20 19:44:00,027725/23,23A0023831,LENO.BIAZON1,MS,...,410099.0,2023-12-28 17:00:00,2023-12-20 19:44:00,RODOVIARIO,G5,G5,2024-01-04 10:00:00,161.0,7.0,Fora do Prazo
4,MMM,3561315,0,1894505.0,,2023-11-26 09:24:00,027893/23,225.711,RENATO.VASCONCELOS,SP,...,408870.0,2023-12-01 17:00:00,2023-11-26 09:24:00,RODOVIARIO,ZT1,ZT1,2023-12-04 09:29:00,64.0,3.0,Fora do Prazo
5,NTL,3561720,0,,128060.0,2023-12-20 19:43:00,027725/23,23A0023830,LENO.BIAZON1,MS,...,410099.0,2023-12-28 17:00:00,2023-12-20 19:43:00,RODOVIARIO,G5,G5,2024-01-04 14:00:00,165.0,7.0,Fora do Prazo
6,MMM,3561724,0,1892732.0,,2023-11-24 09:34:00,027912/23,,LASALDANHA,SP,...,408380.0,2023-11-27 17:00:00,2023-11-24 09:34:00,ENTREGA,ZT1,ZT1,2023-11-27 12:30:00,5.0,0.0,No Prazo
7,NTL,3562246,0,,128164.0,2023-12-27 15:23:00,027974/23,,KARINE.LIMA,SC,...,410097.0,2024-01-02 17:00:00,2023-12-27 15:23:00,RODOVIARIO,ZT1,ZT1,2024-01-04 09:17:00,40.0,2.0,Fora do Prazo
8,MMM,3564800,0,1892170.0,,2023-11-23 10:23:00,027772/23,225.797,BTOGOROFERREIRADASILVA,SP,...,408309.0,2023-11-24 17:00:00,2023-11-23 10:23:00,ENTREGA,ZT1,ZT1,2023-11-27 15:41:00,70.0,3.0,Fora do Prazo
9,MMM,3565013,2,1894841.0,,2023-11-27 09:24:00,027772/23,,JDDELGADO,RJ,...,408581.0,2023-11-29 17:00:00,2023-11-27 09:24:00,RODOVIARIO,ZT1/ZT2,ZT2,2023-11-29 12:00:00,5.0,0.0,No Prazo


# 2. Estrutura dos Dados

***Descrição:*** Diagnostico geral dos dados, como formatos e integridade dos dados
> - Linhas e colunas  
> - Tipo das variáveis  
> - dados nulos  
> - dados duplicados  
> - dados impossíveis  

In [11]:
# Data Frame para verifica linhas e colunas
df_shape = pd.DataFrame({
    'Estrutura': ['Linhas', 'Colunas'],
    "Volume": [df.shape[0], df.shape[1]]
})

# Data Frame para verifiar frequencia por tipo
df_types_freq = (df.dtypes.value_counts()
                 .rename_axis("Tipo")
                 .reset_index(name="Volume")
                )

tbl_shape = df_shape.to_html(index=False)
tbl_types_freq = df_types_freq.to_html(index=False)

html = f"""
<div style="display: flex; gap: 50px; justify-content: left;">

    <div>
        <h3 style="text-align:center;">Dimensões do Dataset</h3>
        {tbl_shape}
    </div>

    <div>
        <h3 style="text-align:center;">Tipos de Dados</h3>
        {tbl_types_freq}
    </div>

</div>
"""

display(HTML(html))

Estrutura,Volume
Linhas,580704
Colunas,61

Tipo,Volume
object,30
float64,24
int64,7


In [5]:
df.select_dtypes(include='object').columns.tolist()

['sigla_cliente',
 'dt_nf',
 'os',
 'lacre',
 'solicitante',
 'uf',
 'status',
 'dt_solicitacao',
 'dt_pre_conferencia',
 'dt_distribuicao_cotas',
 'dt_planeja',
 'data_prazo_zenatur',
 'dt_ocam',
 'dt_inicio_coleta',
 'dt_fim_coleta',
 'dt_inicio_conferencia',
 'dt_fim_conferencia',
 'dt_fim_emissao',
 'analise_producao',
 'dt_minuta',
 'dt_criacao_minuta',
 'dt_exped_minuta',
 'analise_expedicao',
 'dt_prazo_limite_cliente',
 'dt_emissao_nf',
 'modalidade',
 'alocado_em',
 'finalizado_em',
 'data_entrega',
 'analise_transporte']