<a id='1'></a>
# <p style="background-color:#2F5597; text-font:white; font-family:newtimeroman; font-size:120%; text-align:center"><span style="color:white">📚 AULA 1 - ANÁLISE EXPLORATÓRIA DE DADOS </span></p>


Neste notebook vamos comparar duas principais bibliotecas automáticas de EDA que realmente facilitam a análise e visualização do conjunto de dados!

A ideia principal é que você possa comparar o tempo de execução e os resultados de cada biblioteca para selecionar a melhor para o seu trabalho.

Vamos trabalhar com as seguintes bibliotecas de EDA:
- **Dataprep**: https://dataprep.ai/
- **Pandas Profiling**: https://github.com/ydataai/pandas-profiling

-------------------

Vamos seguir o modelo CRISP-DM para a construção do nosso projeto. Nessa aula, daremos foco nas etapas 2 (Data Understaning) e 3 (Data Preparation), realizando uma primeira análise exploratória, tentando entender com mais detalhes o comportamento do nosso conjunto de dados, verificar sua qualidade e pensar em algumas ações a serem tomadas.

Um ponto interessante sobre esse modelo é que algumas empresas incluem uma Etapa 0, de avaliação da necessidade. Ou seja, a equipe de cientistas de dados, juntamente com a equipe da área de negócios, discute sobre a necessidade e viabilidade do projeto. Dessa forma, os projetos são priorizados de acordo com os objetivos estratégicos da companhia.



<a id='1'></a>
# <p style="background-color:#2F5597; text-font:white; font-family:newtimeroman; font-size:120%; text-align:center"><span style="color:white">📚 1 - DATAPREP</span></p>


A Análise Exploratória de Dados (EDA) é o processo de explorar um conjunto de dados e obter uma compreensão de suas principais características. O pacote dataprep.eda simplifica esse processo, permitindo que o usuário explore características importantes com APIs simples. Cada API permite que o usuário analise o conjunto de dados de um nível alto a um nível baixo e de diferentes perspectivas.

Antes de executarmos o Dataprep, vamos dar uma olhada em suas principais funções:
    
- **plot()**: analyze distributions
- **plot_correlation()**: analyze correlations
- **plot_missing()**: analyze missing values
- **plot_diff()**: analyze difference betweenDataFrames
- **create_report()**: create a profile report

Você pode encontrar mais informações das funções em https://docs.dataprep.ai/user_guide/eda/introduction.html#userguide-eda

In [None]:
# Importando as bibliotecas básicas de manipulação de dados
import datetime as dt
import pandas as pd
import os

In [None]:
# Importando o dataprep e suas funções principais
from dataprep.eda import plot, plot_correlation, create_report, plot_missing

In [None]:
# Leitura de um arquivo exemplo, que se encontra disponível aqui no Github.

df = pd.read_csv('marketing_campaign.csv', sep="\t")

In [None]:
# Visualizando as colunas e alguns registros do dataframe
df.head()

In [None]:
# Visualizando a estrutura do dataframe
df.shape

In [None]:
# Utilizando o método plot para construção do relatório EDA de forma automática
plot(df)

In [None]:
create_report(df)

In [None]:
plot(df, "Income")

<a id='2'></a>
# <p style="background-color:skyblue; font-family:newtimeroman; font-size:150%; text-align:center">2. 📊 Pandas Profiling 📚</p>

**Pandas Profiling** gera relatórios de perfil de um DataFrame pandas. A função pandas df.describe() é útil, mas um pouco básica para análise exploratória de dados. A biblioteca pandas-profiling estende o DataFrame do pandas com df.profile_report(), que gera automaticamente um relatório univariado e multivariado padronizado para compreensão dos dados.

O relatório contém três seções principais:

**Visão geral**: detalhes globais sobre o conjunto de dados (número de registros, número de variáveis, dados duplicados e dados ausentes, espaço de memória)

**Alertas**: uma lista abrangente e automática de possíveis problemas de qualidade de dados (alta correlação, assimetria, uniformidade, zeros, valores ausentes, valores constantes, entre outros)

**Reprodução**: detalhes técnicos sobre a análise (tempo, versão e configuração)

In [None]:
# Importando o Pandas Profiling
from pandas_profiling import ProfileReport

In [None]:
# Lendo a base de dados
df = pd.read_csv('BankChurners.csv')

In [None]:
# Construindo o relatório automático de análise exploratória
report = ProfileReport(df)
report

In [None]:
# Caso deseje salvar o relatório em um arquivo HTML
report.to_file('output.html')

# Referências


* DataPrep - https://sfu-db.github.io/dataprep/user_guide/eda/plot.html
* Pandas Profiling GitHub - https://github.com/pandas-profiling/pandas-profiling
* George Vyshnya, PROs and CONs of Rapid EDA Tools - https://medium.com/sbc-group-blog/pros-and-cons-of-rapid-eda-tools-e1ccd159ab07
