# EDA (Exploratory Data Analysis)
**Fonte:** <a href="https://github.com/VinicusGB/cursos_data_science/blob/main/2021_07_12-UNIVESP-Introducao_Ciencia_de_Dados/semana4-descoberta_preparacao_dados.ipynb" target=blank>UNIVESP</a> | <a href="https://www.ibm.com/br-pt/cloud/learn/exploratory-data-analysis" target=_blank>IBM</a><br>

## Análise Exploratória de Dados
- **O que é?** _Técnica de análise, investigação e resumo de um conjunto de dados antes de fazer qualquer suposição._
- **Por quê?** _Proporciona uma melhor compreensão das variáveis e a relação entre elas. Afim de verificar as principais características de um conjunto de dados. É possível descobrir de padrões, detectar anomalias, testar uma hipótese ou verificar suposições._
- **Quando?** _Verificar se as técnicas estatísticas empregadas são adequadas._
- **Como?** _Muitas vezes usando métodos de visualização de dados._

- **Quantidade de variáveis:** unidimensional ou multidimensional;
- **Tipos de variáveis:**
  - **Quantitativas (Numéricas):** apresentam características que podem ser medidas em uma escala quantitativa, ou seja, apresentam valores numéricos.
    - Discretas:
      - _valores (0/1), idade, número de peças com defeito_
    - Contínuas: 
      - _peso, tamanho, distância_
    - Intervalares: sem zero absoluto
      - _temperatura, datas de um calendário_
    - Racionais: com zero absoluto
      - _quantidade de vezes que uma pessoa foi ao hospital (o zero é parâmetro)_
  - **Qualitativas (Simbólicas ou Categóricas):** apresentam características que não possuem valores quantitativos, mas apresentam várias categorias, ou seja, representam uma classificação do indivíduo.
    - Nominais:
      - _CPF, RG, cor dos olhos, sexo_
    - Ordinais:
      - _escolaridade, patente militar, classificação no campeonato_

In [26]:
# Carregando os dados com Pandas
import pandas as pd

df1 = pd.read_csv('data/remocao_2021.csv',encoding='utf-8',sep=';')

In [27]:
# Carregando os dados com PyArrow
#!pip install pyarrow
import pyarrow.parquet as pq

table = pq.read_table('data/consolidado5.parquet')
df2 = table.to_pandas()

## Pandas Profiling
**Fonte:** <a href="https://github.com/ydataai/pandas-profiling" target=_blank>Documentação</a>
- **Pontos fortes:** relatório gerado com avisos que aparecem no início. Ele nos informa as variáveis ​​que contêm valores NaN, variáveis ​​com muitos zeros, variáveis ​​categóricas com alta cardinalidade, etc.
- **Pontos negativos:** uso com grandes conjuntos de dados. Com o aumento do tamanho dos dados o tempo para gerar o relatório também aumenta muito.

### Demonstração

In [28]:
# Instalação
# conda update -n base -c defaults conda
# conda install -c conda-forge pandas-profiling
# !pip install pandas-profiling

In [29]:
# Importando a biblioteca
from pandas_profiling import ProfileReport

In [30]:
# Gerando um relatório completo
prof = ProfileReport(df2)
prof.to_file(output_file='outputs/output_pandas_profiling_completo.html')

[Step 2/3] Processing Pairwise Features      |          | [  0%]   1:57:14 -> (? left)PF, df_index] 
[Step 2/3] Processing Pairwise Features      |█▍        | [ 14%]   13:15 -> (1:19:30 left)
[Step 2/3] Processing Pairwise Features      |█▍        | [ 14%]   12:40 -> (1:16:03 left)
Summarize dataset: 100%|██████████| 46/46 [1:15:09<00:00, 98.04s/it, Completed]                            
Generate report structure: 100%|██████████| 1/1 [00:01<00:00,  1.92s/it]
Render HTML: 100%|██████████| 1/1 [03:08<00:00, 188.54s/it]
Export report to file: 100%|██████████| 1/1 [00:02<00:00,  2.81s/it]


In [33]:
# Gerando um relatório resumo
profile = ProfileReport(df2, minimal=True)
profile.to_file(output_file='outputs/output_pandas_profiling_resumo.html')

Summarize dataset: 100%|██████████| 14/14 [00:00<00:00, 29.18it/s, Completed]                       
Generate report structure: 100%|██████████| 1/1 [00:00<00:00,  1.03it/s]
Render HTML: 100%|██████████| 1/1 [00:00<00:00,  5.98it/s]
Export report to file: 100%|██████████| 1/1 [00:00<00:00, 251.46it/s]


## Sweetviz
**Fonte:** <a href="https://github.com/fbdesignpro/sweetviz" target=_blank>Documentação</a>

In [34]:
# Instalação
# conda update -n base -c defaults conda
# conda install -c conda-forge sweetviz
# !pip install sweetviz

In [35]:
# Importação da biblioteca
import sweetviz as sv

In [36]:
relatorio = sv.analyze(df2)
relatorio.show_html('outputs/output_sweetviz.html')

[Step 2/3] Processing Pairwise Features      |          | [  0%]   00:00 -> (? left)    

AttributeError: 'float' object has no attribute 'shape'

## Autoviz

## D-Tale

## DataPrep

## Seaborn

## Referências:
