<a href="https://colab.research.google.com/github/LotharN223/gitstart/blob/main/Relat%C3%B3rios_Automatizados_com_SweetViz.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Python do Zero**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

# SweetViz

<center><img width="45%" src="https://miro.medium.com/max/700/1*jx_ShECen95-F_M5PH9HCA.png"></center>


A análise exploratória é fase essencial em qualquer projeto com dados. Entender bem nossos dados vai nos dar insights valiosos e direcionar nosso trabalho com eles.

Apesar de demandar muito tempo e atenção, existem ferramentas que podem nos auxiliar e agilizar nosso trabalho. Uma delas é o [Sweet Viz](https://pypi.org/project/sweetviz/).

Essa biblioteca é capaz de analisar e criar relatórios sobre nossos dados de forma automatizada, exigindo pouquíssimo código, reduzindo a curva de aprendizado para análises completas, economizando tempo, e nos dando belas visualizações, fáceis de navegar e entender.

## Instalando o Sweet Viz

Por padrão, o Colab não possui essa biblioteca instalada. Portanto, precisamos fazer a instalação manualmente.

In [2]:
# instalando a biblioteca
!pip install sweetviz -q

Uma vez instalado, é só importar e começar a usar!

## Carregando os Dados

Agora que estamos com tudo pronto, é hora de importar os pacotes e iniciar nossa análise de dados.

Para esse notebook, vamos utilizar um conjunto de dados proveniente de um e-commerce brasileiro. Os dados estão disponíveis no [Kaggle](https://www.kaggle.com/olistbr/brazilian-ecommerce). 

Originalmente, os dados estão em formato csv, mas organizamos eles em formato de planilha, para emular a realidade da maioria que utiliza planilhas de excel. Os dados organizados podem ser utilizados diretamente pelo link abaixo, e os originais, e mais informações sobre os dados podem ser encontrados [aqui](https://www.kaggle.com/olistbr/brazilian-ecommerce?select=olist_products_dataset.csv).

Vamos utilizar o `pandas` para carregar os dados da mesma forma que vínhamos fazendo anteriormente.

In [3]:
# importando os pacotes necessários
import sweetviz
import pandas as pd

In [4]:
# carregando os dados
dados = pd.read_excel("https://www.dropbox.com/s/6zogl04a1h1sb3d/dados_ecommerce.xlsx?dl=1", sheet_name=None,)

Uma vez carregados, da mesma forma que fizemos anteriormente, precisamos selecionar a aba que iremos trabalhar.

O formato em que eles são recebidos não é "amigável", e não facilita nosso trabalho. Veja abaixo:

In [5]:
# verificando os dados
dados

{'Clientes':                             customer_id                customer_unique_id  \
 0      06b8999e2fba1a1fbc88172c00ba8bc7  861eff4711a542e4b93843c6dd7febb0   
 1      18955e83d337fd6b2def6b18a428ac77  290c77bc529b7ac935b93aa66c333dc3   
 2      4e7b3e00288586ebd08712fdd0374a03  060e732b5b29e8181a18229c7b0b2b5e   
 3      b2b6027bc5c5109e529d4dc6358b12c3  259dac757896d24d7702b9acbbff3f3c   
 4      4f2d8ab171c80ec8364f7c12e35b23ad  345ecd01c38d18a9036ed96c73b8d066   
 ...                                 ...                               ...   
 99436  17ddf5dd5d51696bb3d7c6291687be6f  1a29b476fee25c95fbafc67c5ac95cf8   
 99437  e7b71a9017aa05c9a7fd292d714858e8  d52a67c98be1cf6a5c84435bd38d095d   
 99438  5e28dfe12db7fb50a4b2f691faecea5e  e9f50caf99f032f0bf3c55141f019d99   
 99439  56b18e2166679b8a959d72dd06da27f9  73c2643a0a458b49f58cea58833b192e   
 99440  274fa6071e5e17fe303b9748641082c8  84732c5050c01db9b23e19ba39899398   
 
        customer_zip_code_prefix          customer

Aqui estamos lidando com um dicionário, onde cada aba representa uma chave, com seu conteúdo como valores. Para visualizarmos as abas disponíveis, basta usar o comando `.keys()`.

In [6]:
# verificando as abas existentes
dados.keys()

dict_keys(['Clientes', 'Pagamentos', 'Itens'])

Vamos trabalhar com a aba clientes. Para selecionar uma aba, basta utilizar o código abaixo, com o nome da aba desejada entre aspas (simples ou duplas), dentro de colchetes.

In [7]:
# selecionando a aba
dados['Clientes'].head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


### Criando um Relatório com SweetViz

Com os dados a serem analisados carregados e prontos para uso, é hora de utilizarmos todo o poder do **SweetViz** a nossa favor.

Para criar um relatório, vamos criar uma variável, e associar a ela o resultado da função `analyze()`, que leva como parâmetro o conjunto de dados a ser analisados.

In [8]:
# criando o relatório
relatorio_clientes = sweetviz.analyze(dados['Clientes'])

                                             |          | [  0%]   00:00 -> (? left)

Uma vez criado, é hora de visualizar o nosso relatório, utilizando o comando `show.html()`, passando como parâmetro o nome do arquivo html a ser criado para o relatório.

Esse arquivo será salvo na nossa pasta de arquivos do Colab, no menu à esquerda, onde pode ser feito o download do mesmo para uso posterior, fora do Colab, sem a necessidade de rodar todo esse notebook novamente.

**Para visualizar o relatório, baixe o arquivo hmtl gerado através da aba à esquerda. Após o download, abra o arquivo. Ele irá abrir uma janela em seu browser, com o relatório.**

In [9]:
# criando o arquivo html e mostrando o relatório
relatorio_clientes.show_html("clientes.html")

Report clientes.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


Pronto! Agora que já sabemos o caminho, podemos criar análises como essas para cada uma das abas do nosso projeto.

Vamos ver como ficaria o relatório para a aba Pagamentos.

In [10]:
# criando relatório para a aba pagamentos
relatorio_pagamentos = sweetviz.analyze(dados['Pagamentos'])

                                             |          | [  0%]   00:00 -> (? left)

In [11]:
# criando html e visualizando o relatório da aba pagamentos
relatorio_pagamentos.show_html("pagamentos.html")

Report pagamentos.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.
