<a href="https://colab.research.google.com/github/andremarinho17/data_projects/blob/master/Automatiza%C3%A7%C3%A3o_da_An%C3%A1lise_de_Dados_do_E_commerce_do_Brasil_com_SweetViz.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Automatização da Análise de Dados do E-commerce do Brasil com SweetViz

A análise exploratória dos dados é uma das partes mais importantes de um projeto de Data Science, isso porque ela é fundamental para que o cientista conheça seus dados, sua qualidade, distribuição e assim, tomar as melhores decisões e criar as melhores hipóteses para implementar seus algoritmos de machine learning ou deep learning. Neste projeto, irei mostrar uma ferramenta poderosa para este tipo de análise e como ela pode ser usada para automatizar essa parte dos processos de Data Science, onde será usado um dataset com informações do E-commerce no Brasil disponível nesse [link](https://www.kaggle.com/olistbr/brazilian-ecommerce).

<p align="center"><img width="70%" src="https://raw.githubusercontent.com/andremarinho17/imagens/main/cropped-image-of-woman-inputting-card-information-and-key-on-phone-or-laptop-while-shopping-online.jpg"></p>

Obs: Com o objetivo de simular a realidade de muitos que usam o Excel, a equipe do [Sigmoidal](https://sigmoidal.ai/) organizou os dados em planilhas.


### **O E-commerce no Brasil**

<p align="center"><img width="50%" src="https://raw.githubusercontent.com/andremarinho17/imagens/main/1_E0vogOA1mu1VAHgWj3dV_Q.jpeg"></p>

Mesmo diante do complicado cenário da pandemia da COVID-19, o E-commerce cresceu no Brasil. Segundo um relatório recente [divulgado pela Compre&Confie](https://www.ecommercebrasil.com.br/noticias/faturamento-do-e-commerce-brasileiro-2020/), e-commerces e marketplaces tiveram um crescimento de 56,8% até agosto de 2020. Com isso, pode-se afirmar que os consumidores estão cada vez mais interessados e confiantes em compras online, o que melhora o cenário para este tipo de comécio.

Segundo Gabriel Lima, em seu artigo “Panorama de 2020, destino do e-commerce no Brasil e o que vem em 2021”, existe uma avaliação muito positiva e o e-commerce tem movimentado muito a economia do país ao longo da pandemia, e que para esse crescimento, os líderes digitais investiram e transformaram seus canais, que antes era apenas estratégico, em essencial para os consumidores. Você pode ler o artigo completo [aqui](https://www.ecommercebrasil.com.br/artigos/panorama-de-2020-destino-do-e-commerce-no-brasil-e-o-que-vem-em-2021/).

###**Análise Exploratória com SweetViz**

O Python tem uma biblioteca excelente que se chama SweetViz e que pode nos ajudar muito! A seguir, vou mostrar um pequeno tutorial sobre como automatizar a etapa de análise exploratória do projeto. 

Por padrão, o Colab não possui essa biblioteca instalada. Portanto, precisamos fazer a instalação manualmente.

In [1]:
# instalando o SweetViz
!pip install sweetviz -q

[K     |████████████████████████████████| 15.1MB 287kB/s 
[K     |████████████████████████████████| 81kB 8.6MB/s 
[?25h

Com a biblioteca pronta para ser usada, é necessário carregar os dados. Vamos utilizar o pandas para isso.


In [2]:
# importando as bibliotecas necessárias
import sweetviz
import pandas as pd

dados = pd.read_excel("https://www.dropbox.com/s/6zogl04a1h1sb3d/dados_ecommerce.xlsx?dl=1", sheet_name=None)

In [3]:
# visualizando como os dados estão estruturados
dados

{'Clientes':                             customer_id  ... customer_state
 0      06b8999e2fba1a1fbc88172c00ba8bc7  ...             SP
 1      18955e83d337fd6b2def6b18a428ac77  ...             SP
 2      4e7b3e00288586ebd08712fdd0374a03  ...             SP
 3      b2b6027bc5c5109e529d4dc6358b12c3  ...             SP
 4      4f2d8ab171c80ec8364f7c12e35b23ad  ...             SP
 ...                                 ...  ...            ...
 99436  17ddf5dd5d51696bb3d7c6291687be6f  ...             SP
 99437  e7b71a9017aa05c9a7fd292d714858e8  ...             SP
 99438  5e28dfe12db7fb50a4b2f691faecea5e  ...             CE
 99439  56b18e2166679b8a959d72dd06da27f9  ...             RS
 99440  274fa6071e5e17fe303b9748641082c8  ...             SP
 
 [99441 rows x 5 columns],
 'Itens':                                 order_id  order_item_id  ...   price freight_value
 0       00010242fe8c5a6d1ba2dd792cb16214              1  ...   58.90         13.29
 1       00018f77f2f0320c557190d7a144bdd3         

Uma vez carregados, é necessário verificar como estão organizadas as abas. Para isso, basta executar a seguir.


In [4]:
dados.keys()

dict_keys(['Clientes', 'Pagamentos', 'Itens'])

Os dados contém 3 abas, são elas:
* Clientes: aba contendo os dados dos clientes como identificação, código postal, cidade e estado do cliente.
* Pagamentos: aba que contém a identificação do pagamento, se é um pagamento sequencial ou não, tipo de pagamento, em quantas vezes ele foi parcelado e o valor do pagamento.
* Itens: Aba com os itens comprados, contendo a identificação do produto, identificação da venda, data limite de envio, preço e valor do frete.


In [5]:
dados['Clientes'].head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


#### **Relatórios no SweetViz**

Com os dados a serem analisados carregados e prontos para uso, chegou a hora de utilizar o SweetViz.

Para criar um relatório, vamos criar uma variável e associar a ela o resultado da função `analyze()`, que leva como parâmetro o conjunto de dados a ser analisados.

In [6]:
# criando o relatório de clientes
relatorio_clients = sweetviz.analyze(dados['Clientes'])

                                             |          | [  0%]   00:00 -> (? left)

In [7]:
# criando o relatório de pagamentos
relatorio_pagamentos = sweetviz.analyze(dados['Pagamentos'])

                                             |          | [  0%]   00:00 -> (? left)

In [8]:
# criando o relatório de itens
relatorio_itens = sweetviz.analyze(dados['Itens'])

                                             |          | [  0%]   00:00 -> (? left)

Uma vez criados, é hora de visualizar os nossos relatórios, utilizando o comando `show.html()`, passando como parâmetro o nome do arquivo html a ser criado para o relatório(s) a ser exportado.

In [9]:
# criando o arquivo html e mostrando o relatório de clientes
relatorio_clients.show_html("clientes.html")

Report clientes.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


In [10]:
# criando o arquivo html e mostrando o relatório de pagamentos
relatorio_pagamentos.show_html("pagamentos.html")

Report pagamentos.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


In [12]:
# criando o arquivo html e mostrando o relatório de itens
relatorio_itens.show_html("itens.html")

Report itens.html was generated! NOTEBOOK/COLAB USERS: the web browser MAY not pop up, regardless, the report IS saved in your notebook/colab files.


Finalmente, chegou a hora de visualizá-los. Seguem imagens prévias dos relatórios que são gerados em html.

**Itens**

<p align="center"><img width="70%" src="https://raw.githubusercontent.com/andremarinho17/imagens/main/itens.png"></p>

**Clientes**

<p align="center"><img width="70%" src="https://raw.githubusercontent.com/andremarinho17/imagens/main/clientes.png"></p>

**Pagamentos**

<p align="center"><img width="70%" src="https://raw.githubusercontent.com/andremarinho17/imagens/main/pagamentos.png"></p>



É gerado um artigo bastante interativo, onde é possível obter diversas informações a respeito do dataset, ter uma noção da qualidade dele (valores ausentes, diferentes, etc), ter informações estatísticas e já fazer algumas análises. Seguem algumas.

###**Em qual estado há mais clientes de e-commerce?**

<p align="center"><img width="70%" src="https://raw.githubusercontent.com/andremarinho17/imagens/main/estados%20com%20mais%20clientes.png"></p>

<p align="center"><img width="50%" src="https://raw.githubusercontent.com/andremarinho17/imagens/main/categorias%20estado.png"></p>

O estado brasileiro em que há mais clientes de e-commerce é o Estado de São Paulo, totalizando 42%.


###**Em qual cidade há mais clientes de e-commerce?**

O Sweetviz nos retorna uma tabela de frequência que responde a esta pergunta.

<p align="center"><img width="70%" src="https://raw.githubusercontent.com/andremarinho17/imagens/main/cidades.png"></p>

16% das pessoas no e-commerce do Brasil compram na cidade São Paulo, seguido da cidade do Rio de Janeiro e Belo Horizonte, que correspondem a 7% e 3% respectivamente.


###**Quais são os tipos de pagamentos mais frequentes?**

<p align="center"><img width="70%" src="https://raw.githubusercontent.com/andremarinho17/imagens/main/tipos%20de%20pagamentos.png"></p>

Aproximadamente 74% das compras feitas na internet são por cartão de crédito e aproximadamente 20% são por boleto.

É interessante observar o percentual dos pagamentos em boletos. No Brasil, segundo a Pesquisa de Endividamento e Inadimplência do Consumidor (Peic), em 2020 o índice de famílias endividadas chegou a 67,1% no mês de Julho. Além disso, entre as famílias com renda mensal de até 10 salários mínimos, 69% delas estão endividadas. O nível de inadimplência é de 26% das famílias que não conseguem pagar suas contas.

Dessa forma, pode-se fazer uma análise mais avançada para verificar o quanto a emissão de boletos como forma de pagamento do e-commerce acompanha e o grau de endividamento do brasileiro, haja vista que durante a pandemia, muitos bancos cortaram créditos de muita gente da noite para o dia.

##**Conclusões**

Portanto, o Sweetviz é uma excelente ferramente para a análise exploratória, pois ele é capaz de analisar e criar relatórios sobre nossos dados de forma automatizada, exigindo pouquíssimo código, reduzindo a curva de aprendizado para análises completas, economizando tempo, e nos fornecendo belas visualizações, fáceis de navegar e entender.