<a href="https://colab.research.google.com/github/rmendesl/Notebooks/blob/master/Analisando_os_dados_com_Pandas_Profiling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise Exploratória com Pandas Profiling

O [Pandas Profiling](https://https://github.com/pandas-profiling/pandas-profiling) é um módulo **open source** do Ptyhon com o qual podemos fazer rapidamente uma análise exploratória de dados com apenas algumas linhas de código. 

Além disso, se isso não for suficiente para nos convencer a usar essa ferramenta, ela também gera relatórios interativos em formato web que podem ser apresentados a qualquer pessoa.

Em resumo, o que o **Pandas Profiling** faz é economizar todo o trabalho de visualizar e entender a distribuição de cada variável. Ele gera um relatório com todas as informações facilmente disponíveis.

A principal desvantagem do Pandas Profiling é seu uso com grandes conjuntos de dados. Com o aumento do tamanho dos dados, o tempo para gerar o relatório também aumenta muito. Porém, temos formas de minimizar esse problema.


## Obtenção dos Dados

Para essa análise, irei usar um DataSet com os dados dos casos de Coronavírus no mundo. Esses dados estão disponíveis no [Kaggle ](https://www.kaggle.com/) mais tenho uma cópia disponível em meu [GitHub](https://github.com/rmendesl/Notebooks). Fique a vontade para baixar e usar.

Para esta análise exploratória, usaremos apenas o seguinte arquivo:
* `2019_nCoV_data.csv` 

**OBS:** O DataSet do Kaggle está sendo atualizado constantemente.

In [0]:
# importar o pacote necessário
import pandas as pd

In [0]:
# importar o arquivo 2019_nCoV_data.csv para um DataFrame
corona_virus = pd.read_csv('https://raw.githubusercontent.com/rmendesl/Notebooks/master/2019_nCoV_data.csv')

## Análise dos Dados

**Dicionário das variáveis**

* `Sno` - Número sequêncial para identificar o registro da ocorrência
* `Date` - Data e hora do registro da ocorrência
* `Province/State` - Nome da província ou estado da ocorrência
* `Country` - Nome do país da ocorrência
* `Last Update` - Data e hora da última atualização
* `Confirmed` - Número de casos confirmados
* `Deaths` - Número de mortes confirmadas
* `Recovered`- Número de casos recuperados confirmados

In [5]:
# listar as 10 primeiras observações
corona_virus.head(10)

Unnamed: 0,Sno,Date,Province/State,Country,Last Update,Confirmed,Deaths,Recovered
0,1,01/22/2020 12:00:00,Anhui,China,01/22/2020 12:00:00,1.0,0.0,0.0
1,2,01/22/2020 12:00:00,Beijing,China,01/22/2020 12:00:00,14.0,0.0,0.0
2,3,01/22/2020 12:00:00,Chongqing,China,01/22/2020 12:00:00,6.0,0.0,0.0
3,4,01/22/2020 12:00:00,Fujian,China,01/22/2020 12:00:00,1.0,0.0,0.0
4,5,01/22/2020 12:00:00,Gansu,China,01/22/2020 12:00:00,0.0,0.0,0.0
5,6,01/22/2020 12:00:00,Guangdong,China,01/22/2020 12:00:00,26.0,0.0,0.0
6,7,01/22/2020 12:00:00,Guangxi,China,01/22/2020 12:00:00,2.0,0.0,0.0
7,8,01/22/2020 12:00:00,Guizhou,China,01/22/2020 12:00:00,1.0,0.0,0.0
8,9,01/22/2020 12:00:00,Hainan,China,01/22/2020 12:00:00,4.0,0.0,0.0
9,10,01/22/2020 12:00:00,Hebei,China,01/22/2020 12:00:00,1.0,0.0,0.0


## Instalando o Pandas Profiling

O Pandas Profiling pode já vir instalado no Colab, porém iremos realizar a instalação com o parâmetro **-U**. Dessa forma, caso tenha alguma atualização, ela já será aplicada.

`!pip install -U pandas-profiling`


In [0]:
# instalar o pandas-profiling
!pip install -U pandas-profiling

In [0]:
# importar pacote necessário
from pandas_profiling import ProfileReport

## Gerando o Report para nossa análise

In [0]:
# gerar o report de nosso DataFrame
report = ProfileReport(corona_virus, title="Coronavirus Profiling Report", sort='None', html={'style':{'full_width': True}}, progress_bar=False)

In [8]:
# visualizando no relatório
report.to_notebook_iframe()

## Salvando nosso Report externamente

Podemos exportar nosso relatório para análise detalhada, pois o Pandas Profiling gera um arquivo HTML.

**OBS:** Substitua o local de destino pelo seu local de preferência

In [0]:
# montando meu/seu google drive
from google.colab import drive
drive.mount('/content/drive')

In [0]:
# exportar o relatório, substitua o caminho pelo seu caminho de preferência
file_path = '/content/drive/My Drive/Datasets/CoronaVirus/profiling_report_coronavirus.html'

report.to_file(output_file = file_path)

## Acessando o Report completo

Caso queira ver o relatório completo clique nesse link [Profiling Report Coronavirus](https://htmlpreview.github.io/?https://github.com/rmendesl/Notebooks/blob/master/profiling_report_coronavirus.html)

Ele também está disponível em meu [GitHub](https://github.com/rmendesl/Notebooks)

## Diminuindo os dados para análise

Como disse anteriormente, uma desvantagem do uso do Pandas Profiling seria o uso de um DataFrame muito grande, porém iremos ver algumas opções alternativas que podem ajudar.

* Reduzir o número de observações da amostra. Exemplo:
> sample(500)
* Reduzir o número de análises realizadas pelo Pandas Profiling (como por exemplo o cálculo das correlações)
> `minimal=True`


**Reduzindo o número de observações da amostra**

In [10]:
# diminuir o número de amostras/observações de seu DataFrame
sample = ProfileReport(corona_virus.sample(500), title="Coronavirus Profiling Report", sort='None', html={'style':{'full_width': True}}, progress_bar=False)

# visualizando no relatório
sample.to_notebook_iframe()



**Reduzindo o número de análises realizadas pelo Pandas Profiling**

In [11]:
# diminuir o número de análises realizadas em seu DataFrama
minimal = ProfileReport(corona_virus, minimal=True, title="Coronavirus Profiling Report", sort='None', html={'style':{'full_width': True}}, progress_bar=False)

# visualizando no relatório
minimal.to_notebook_iframe()

## Conclusões

Acredito que possamos fazer uso do **Pandas Profiling** como ferramenta complementar para termos uma alta produtividade em nossos trabalhos de Cientista de Dados.

Para maiores informações sobre o Coronavírus, recomendo a site do Ministério da Saúde do Brasil.

https://www.saude.gov.br/saude-de-a-z/coronavirus
