# EDA (Exploratory Data Analysis)

A Análise Exploratória de Dados (EDA, do inglês "Exploratory Data Analysis") é um passo fundamental no processo de análise de dados. Seu objetivo é compreender melhor as características dos dados, identificar padrões, anomalias, relacionamentos entre variáveis e gerar hipóteses. Aqui estão as principais etapas e técnicas que você pode usar em um EDA:

1. **Compreensão Inicial dos Dados**:
    
    * **Visualizar o conjunto de dados**: Olhar as primeiras e últimas linhas para ter uma ideia geral.
    * **Verificar dimensões do conjunto de dados**: Quantas linhas e colunas existem.
    * **Tipos de dados**: Entender o tipo de cada variável (numérica, categórica, data/hora, etc.).
2. **Limpeza de Dados**:
    
    * **Tratar valores ausentes**: Identificar e tratar os valores nulos.
    * **Remover duplicatas**: Identificar e remover registros duplicados, se necessário.
    * **Tratar dados inconsistentes**: Corrigir ou remover dados que não fazem sentido.
3. **Análise Univarida**:
    
    * **Distribuição de variáveis numéricas**: Histogramas, boxplots para entender a distribuição.
    * **Resumo estatístico**: Média, mediana, desvio padrão, quartis, etc.
    * **Frequência de categorias**: Para variáveis categóricas, verificar a contagem ou proporção de cada categoria.
4. **Análise Bivarida/Multivarida**:
    
    * **Correlação entre variáveis numéricas**: Mapas de calor e scatter plots para identificar relações.
    * **Comparação entre grupos**: Por exemplo, usar gráficos de barras para comparar médias.
    * **Análise de tendência/temporal**: Se houver dados de séries temporais, analisar padrões ao longo do tempo.
5. **Visualizações Gráficas**:
    
    * **Usar gráficos apropriados**: Dependendo do tipo de dado e da questão que está sendo investigada.
    * **Gráficos interativos**: Podem ser úteis para explorar os dados de maneiras mais dinâmicas.
6. **Identificar Anomalias e Outliers**:
    
    * **Detectar outliers**: Que podem distorcer a análise e que podem ser interessantes por si só.
7. **Testar Hipóteses Iniciais e Formular Novas**:
    
    * **Validar ou refutar suposições iniciais**: Com base nas análises.
    * **Gerar novas perguntas e hipóteses**: Para investigações mais profundas ou futuras análises.
8. **Documentação e Compartilhamento dos Insights**:
    
    * **Registrar observações**: Manter um registro de suas descobertas e pensamentos.
    * **Compartilhar resultados**: Com stakeholders ou colegas, usando visualizações claras e insights concisos.
9. **Iteração**:
    
    * **Repetir e aprofundar**: EDA é frequentemente um processo iterativo, onde cada rodada de análise pode levar a novas perguntas.

Lembre-se, a EDA não é um processo linear, mas sim iterativo e adaptativo, dependendo do que os dados revelam. É importante manter a mente aberta e estar pronto para ajustar suas hipóteses e métodos conforme você aprende mais sobre os dados.

![eda]("../../../../assets/eda.png)

**Análise Exploratória de Dados: Descobertas Impulsionadas por Dados**

Imagine-se navegando em um vasto oceano sem um mapa – uma tarefa intimidadora, certo? É aqui que entra a Análise Exploratória de Dados (EDA), como nossa bússola de navegação no mundo orientado por dados.

A Análise Exploratória de Dados é uma metodologia para resumir as principais características dos dados, permitindo entender o que eles podem nos revelar antes de iniciar a modelagem formal. Ela representa um passo crucial, ajudando a descobrir padrões, identificar anomalias, testar hipóteses ou verificar suposições.

1️⃣ **Conquistas Rápidas:** Antes de mergulhar em algoritmos complexos e modelos, a EDA oferece insights imediatos que podem levar a vitórias rápidas nos negócios.

2️⃣ **Estratégia Orientada:** As percepções obtidas através da EDA ajudam a moldar sua estratégia analítica, indicando quais variáveis merecem uma exploração mais aprofundada.

3️⃣ **Verificação da Qualidade dos Dados:** Uma análise detalhada do seu conjunto de dados através da EDA revela valores ausentes e outliers - resolver essas questões garante uma análise mais robusta posteriormente.

4️⃣ **Narrativa com Dados:** As visualizações criadas durante a fase exploratória facilitam a comunicação das histórias por trás dos números, tanto internamente quanto para o público externo.

Na essência, quando você utiliza a Análise Exploratória de Dados efetivamente:

✔ Você reduz riscos através de decisões informadas.

✔ Aumenta a eficiência ao focar em áreas que trarão resultados.

✔ Comunica descobertas de forma mais persuasiva.

In [None]:
# Para esta demonstração, mas utilizar o pandas, numpy e skimpy
!pip install --upgrade pip
!pip install pandas numpy skimpy

In [3]:
# Vamos gerar dados

import pandas as pd
import numpy as np
import random
from datetime import timedelta, date

def daterange(start_date, end_date):
    """Helper function to generate a date range."""
    for n in range(int((end_date - start_date).days)):
        yield start_date + timedelta(n)

def generate_factory_data(start_date, end_date, num_records):
    """Generates random factory data between two dates."""
    dates = list(daterange(start_date, end_date))
    data = {
        'Date': random.choices(dates, k=num_records),
        'ConcreteVolume': np.random.uniform(50, 500, num_records).round(2),  # volume of concrete in cubic meters
        'PiecesProduced': np.random.randint(100, 1000, num_records),  # number of pieces produced
        'EmployeesOnLine': np.random.randint(5, 50, num_records),  # number of employees working
        'MachineDowntimeHours': np.random.uniform(0, 3, num_records).round(2),  # machine downtime in hours
        'QualityChecksFailed': np.random.randint(0, 10, num_records)  # number of failed quality checks
    }
    return pd.DataFrame(data)

# Generate sample data
start_date = date(2023, 1, 1)
end_date = date(2023, 12, 31)
num_records = 1000  # number of records to generate

df = generate_factory_data(start_date, end_date, num_records)
df.to_csv('factory_production_data.csv', index=False)

In [5]:
from skimpy import skim

skim(df)