In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# Exploratory Data Analysis

***

O objetivo da análise exploratória de dados (*Exploratory Data Analysis* - EDA) é conhecer os dados. Isto nos ajuda a:

- *conhecer a natureza dos dados*:
    - Importante para construir teses de extração de valor a partir destes: o que será que podemos obter destes dados para trazer mais valor ao nosso negócio?
    - Descobrir anomalias nos dados originais:
        - dados faltantes;
        - *outliers*: dados raros porém legítimos;
        - *erros e inconsistências de formatação*: dados registrados de forma errônea ou com formatos inconsistentes (e.g. datas em formatos diferentes ao longo do conjunto de dados)
- *formular teses*:
    - construir e validar mecanismos explicativos para a criação dos dados;
- *construir modelos*:
    - Modelos explicativos: 
        - baseados em formulação de teses explicativas, e geralmente são chamados de *interpretáveis*, pois seus parâmetros correspondem a idéias da tese explicativa. 
        - Por exemplo: criar um modelo linear baseado na tese de que a variável dependente se relaciona linearmente com as variáveis independentes, a menos de um ruído independente e de média zero. 
        - Os parâmetros deste modelo são comumente associados a fenômenos físicos/econômicos/biológicos/sociológicos, etc..
        - Um dos objetivos centrais da *Estatística*
    - Modelos preditivos não-interpretáveis: 
        - Também chamados de modelos *caixa-preta*, não permitem uma análise que associe seus parâmetros internos a alguma tese simples de funcionamento dos dados. 
        - Geralmente são modelos com maior capacidade preditiva (mas nem sempre). 
        - Este é um dos pontos centrais do *Machine Learning*. 

# Um projeto de *machine learning*

Vamos realizar a análise exploratória de dados do projeto "Car Prices".

In [None]:
from dotenv import dotenv_values

config = dotenv_values()
DATA_DIR = config['DATA_DIR']

In [None]:
from car_prices.dataset import load_car_dataset

data = load_car_dataset(DATA_DIR)

Vamos ver se a leitura de dados funcionou:

In [None]:
data.info()

In [None]:
data.head(5)

### Entendimento do negócio

Esses dados representam informações acerca de veículos usados à venda.

***

***Atividade***

Escreva uma tabela com:

- o nome de cada coluna;
- seu significado;
- tipo: inteira, real ou categórica;
- unidade de medida.

Note que uma variável como `Mileage`, apesar de ser inteira, realmente representa um valor real.

***

***Resposta***

***

***Atividade***

Escreva o objetivo de negócios deste projeto.

***

***Resposta***

***

### Análise exploratória

O objetivo da análise exploratória é "conhecer" os dados:

- Qual a distribuição de cada *feature*?

- Qual a natureza de cada *feature*?

    - Unidade de medida

    - Se é estritamente positiva ou se pode ser positiva ou negativa

    - Para que serve?

- Quais e como são as distribuições conjuntas de *features*? Em particular, como as *features* se relacionam com o *target*?

- Existem anomalias e erros?

    - Dados faltantes

    - "Saturação" de dados

    - Outliers

    - Desbalanceamento de classes

    - Dados duplicados

#### Análise exploratória: antes ou depois da separação treino-teste?

Durante o processo de modelagem vamos dividir os dados em dois conjuntos: "dados de treino" e "dados de teste". Devemos treinar nossos modelos com o conjunto de dados de treino, e avaliar seu desempenho no conjunto de teste, para que não nos enganemos com desempenhos preditivos excelentes no conjunto de treino e que não se reproduzem no conjunto de teste!

***

***Atividade***

Como se chama o fenômeno no qual temos um excelente desempenho no conjunto de treino e um desempenho bem menor no conjunto de teste?

***

***Resposta***

***

Quando devemos fazer a análise exploratória?

- Antes da separação treino-teste, ou seja, no conjunto de dados completo?

- Depois da separação treino-teste, ou seja, usando apenas o conjunto de dados de treino?

Esta é uma pergunta difícil de responder.

- Analisar antes da separação:

    - Vantagens: todo o conjunto de dados de exemplo que foi coletado está á nossa disposição para estudo, o que torna mais fácil a detecção de anomalias raras, como outliers ou a ocorrência de categorias raras em *features* categóricas.

    - Desvantagens: corremos o risco de "data snooping" ("bisbilhotar" os dados), onde acabamos por aprender algo sobre os dados que pode impactar de modo "injusto" nossa modelagem - é como se estivéssemos "overfittando" sem querer!

- Analisar depois da separação:

    - Vantagens: reduz o risco de "data snooping"

    - Desvantagens: podemos não perceber anomalias e erros raros nos dados, que podem impactar nossa modelagem de uma forma que é difícil de identificar.

O que fazer então? Em geral, queremos balancear o risco de "data snooping" com o risco de não entender os detalhes mais finos e raros dos dados. Portando a recomendação é fazer análises exploratórias antes e depois da separação, com objetivos diferentes:

- Análise exploratória antes da separação: faça apenas análises globais e simples, para checar a sanidade dos dados e realizar filtragens simples. Evite análises que conectem as *features* com o *target*.

- Análise exploratória depois da separação: você está livre para explorar o que quiser.

#### Análise exploratória preliminar


Nesta fase vamos conhecer a natureza dos dados sem explorar suas interrelações, em especial não vamos explorar a conexão entre as *features* e o *target*.

Vamos proceder da seguinte forma:

<table>

<tr>
<th> Etapa </th>
<th> Objetivos </th>
<th> Ferramentas </th>
</tr>

<tr>

<td>
    Uma análise global do volume de dados
</td>

<td>
    <ul>
    <li> Quais são as <em>features</em>?</li>
    <li> Quem é o <em>target</em>?</li>
    <li> Quais variáveis são contínuas e quais são categóricas?</li>
    <li> Existem dados faltantes? </li>
    <li> Existem dados duplicados? </li>
    </ul>
</td>

<td>
    <div>
    <ul>
    <li> Número de linhas e colunas </li>
    <li> Tipo de dados de cada coluna </li>
    <li> Remoção de linhas duplicadas <em>se isso realmente for um erro</em> </li>
    </ul>
    </div>
</td>
</tr>

<tr>

<td>
    Uma primeira análise da natureza das features
</td>

<td>
    <ul>
    <li> Qual a unidade de medida de cada variável? </li>
    <li> Existem anomalias? 
        <ul>
            <li> <em>outliers</em> </li>
            <li> erros grosseiros </li>
            <li> <em>spikes</em> </li>
        </ul>
    </li>
    <li> Para cada variável contínua
        <ul>
            <li> Simétrica? </li>
            <li> Estritamente positiva/negativa? </li>
            <li> Unimodal / multimodal? </li>
            <li> Cauda longa à direita/esquerda? </li>
        </ul>
    </li>
    <li> Para cada variável categórica
        <ul>
            <li>Categorias raras?</li>
            <li>Categorias dominantes?</li>
        </ul>
    </li>
    </ul>
</td>

<td>
    <ul>
    <li>Medidas descritivas de posição e espalhamento</li>
    <li>Histogramas</li>
    <li>Tabelas de frequência</li>
    <li>Gráficos de barra</li>
    </ul>
</td>

</tr>

</table>

##### Análise global

Novamente, vamos conferir os tipos de dados espiando as primeiras linhas do *dataset*:

In [None]:
data.head(n=5)

E vamos verificar quantos exemplos temos, e qual o tipo de dados identificado pelo Pandas para cada coluna:

In [None]:
data.info()

***

***Atividade***

Crie três listas de nomes de colunas:

- `real_columns` contendo as colunas numéricas de valores reais;
- `int_columns` contendo as colunas numéricas de valores inteiros;
- `cat_columns` contendo as colunas categóricas.

***

***Resposta***

***

***Atividade***

Construa estatísticas descritivas de cada coluna usando o método `.describe()` do DataFrame `data`.

Dica: aborde separadamente as `real_columns`, `int_columns` e `cat_columns`.

***

***Resposta***

***

***Atividade***

Para as variáveis reais, construa seus histogramas e faça uma análise.

***

***Resposta***

***

***Atividade***

Para as variáveis inteiras, faça gráficos de barra de suas contagens e analise.

***

***Resposta***

***

***Atividade***

Construa gráficos de barras para as contagens das variáveis categóricas e analise.

***

***Resposta***

***