# **MÓDULO 26 - Projeto Final do Aprofundamento de Analytics**

Bem-vindos ao Projeto de Dashboard de E-commerce! Este projeto é uma oportunidade para vocês aplicarem habilidades essenciais de análise de dados em um cenário prático e realista. Vocês irão trabalhar com um conjunto de dados de transações de clientes de uma loja virtual, distribuídos em duas tabelas distintas. O objetivo final é construir um dashboard interativo que facilite a visualização e análise das informações relevantes do e-commerce, utilizando ferramentas como Looker Studio ou Power BI.

**Objetivo do Projeto:**

Tratamento de Dados: Realizar a junção (JOIN) de duas tabelas utilizando SQL para consolidar as informações.
Análise de Dados: Exportar os dados resultantes para um arquivo CSV.
Visualização de Dados: Desenvolver um dashboard interativo e informativo para visualização das principais métricas e insights do e-commerce.

**Tabelas Disponibilizadas:**

**Tabela de Transações:** Contém os registros de transações realizadas pelos clientes, incluindo detalhes como ID da transação, valor e outros.


**Tabela de Dados Pessoais:** Contém as informações pessoais dos clientes, como ID do cliente, nome, genero, cidade, etc.

**Chave de Ligação:** As tabelas se relacionam através da coluna ID_CLIENT, que é a chave identificadora dos clientes.

# Etapas do Projeto:

1. Realizar um JOIN SQL nas duas tabelas, unificando as informações através da coluna ID_CLIENT. Você deve justificar a escolha do JOIN (Inner/ Left/ Right ou Full).

2. Exportar os dados consolidados resultantes do JOIN para um arquivo CSV.

3. Utilizar Looker Studio ou Power BI para importar o arquivo CSV.

4. Criar visualizações interativas que apresentem métricas importantes, como total de vendas, número de transações, distribuição geográfica dos clientes, perfil demográfico dos clientes, entre outros.

Abaixo temos a configuração do ambiente SQL:

In [4]:
import sqlite3
import pandas as pd
from google.colab import files

In [5]:
uploaded = files.upload()
df_transacoes = pd.read_csv("TB_TRANSACOES_PROJETO_ECOMM.csv", delimiter=';')
df_clientes = pd.read_csv("TB_CLIENTES_PROJETO_ECOMM.csv", delimiter=';')

Saving TB_TRANSACOES_PROJETO_ECOMM.csv to TB_TRANSACOES_PROJETO_ECOMM (1).csv
Saving TB_CLIENTES_PROJETO_ECOMM.csv to TB_CLIENTES_PROJETO_ECOMM (1).csv


In [6]:
conn = sqlite3.connect('projeto.db')
# Carregar o DataFrame no banco de dados SQLite - criando tb_transacoes e tb_clientes
df_transacoes.to_sql('tb_transacoes', conn, index=False, if_exists='replace')
df_clientes.to_sql('tb_clientes', conn, index=False, if_exists='replace')

175

In [7]:
# Função para executar consultas SQL e retornar o resultado como um DataFrame
def run_query(query):
    return pd.read_sql_query(query, conn)

In [10]:
query = """
SELECT *
FROM tb_transacoes
LIMIT 10
"""
transacoes_df = run_query(query)
print(transacoes_df)

   id_client     Category   Price   Card Type
0         37  Electronics   72,93  mastercard
1         38      Jewelry  121,89  mastercard
2         39         Baby    64,3  mastercard
3         40     Outdoors    9,48  mastercard
4          5     Outdoors   61,95  mastercard
5          6     Outdoors   15,96  mastercard
6          7       Beauty  149,02  mastercard
7          8        Games   97,38  mastercard
8          9     Outdoors  139,96  mastercard
9         10        Shoes   55,45  mastercard


In [11]:
query = """
SELECT *
FROM tb_clientes
LIMIT 10
"""
clientes_df = run_query(query)
print(clientes_df)

  state_name First_name  Gender                     Job_Title  Id_client
0         TX    Domingo    Male  Structural Analysis Engineer          1
1         MI    Russell    Male            Speech Pathologist          2
2         AL     Kimble    Male           Account Coordinator          3
3         IL   Barnabas    Male               General Manager          4
4         MN     Tanney  Female                  VP Marketing          5
5         VA     Launce    Male       Automation Specialist I          6
6         CO      Adham    Male               Project Manager          7
7         TX      Dante    Male           Geological Engineer          8
8         PA         Hi  Female        Senior Cost Accountant          9
9         CA    Carmine  Female               Statistician II         10


In [18]:
query = """
SELECT
  CR.id_client AS 'ID',
  CR.Category AS 'CATEGORIA',
  CR.Price AS 'VALOR',
  CR.'Card Type' AS 'BANDEIRA',
  CL.First_name AS 'NOME',
  CL.Gender AS 'SEXO',
  CL.Job_Title AS 'PROFISSAO',
  CL.state_name AS 'ESTADO'
FROM tb_transacoes AS CR
LEFT JOIN tb_clientes AS CL
ON CAST(CR.id_client AS INT) = CAST(CL.id_client AS INT)

"""
result_df = run_query(query)
print(result_df)

      ID    CATEGORIA   VALOR    BANDEIRA    NOME         SEXO  \
0     37  Electronics   72,93  mastercard  Cornie  Genderqueer   
1     38      Jewelry  121,89  mastercard     Rab         Male   
2     39         Baby    64,3  mastercard   Codie       Female   
3     40     Outdoors    9,48  mastercard   Scott       Female   
4      5     Outdoors   61,95  mastercard  Tanney       Female   
..   ...          ...     ...         ...     ...          ...   
362  363      Jewelry   44,32  mastercard    None         None   
363  364         Kids  120,42  mastercard    None         None   
364  365      Grocery   24,31  mastercard    None         None   
365  366        Tools  111,53  mastercard    None         None   
366  367    Computers   84,57  mastercard    None         None   

             PROFISSAO ESTADO  
0               Editor     ND  
1    Assistant Manager     PA  
2    Financial Analyst     MA  
3       Civil Engineer     OR  
4         VP Marketing     MN  
..             

In [22]:
quantidade_invalidos = result_df['NOME'].isna().sum()
print(f"A quantidade de valores inválidos é: {quantidade_invalidos}")

A quantidade de valores inválidos é: 71


Justifique a escolha do JOIN:

TEMOS OS DADOS DE TRANSAÇÃO E OS DADOS DOS CLIENTES, USEI LEFT JOIN PARA JUNTAR A TABELA DE CLIENTES APENAS NAS LINHAS ONDE TENHAM COMPRAS COM IDS CONHECIDOS, DESSA FORMA NO PBI PODEMOS AGRUPAR VENDAS POR GÊNERO, ESTADO, BANDEIRA, ETC...

SERIA INTERESSANTE TAMBÉM OBTER AS INFORMAÇÕES DE QUANTO CADA CLIENTE GASTOU DESSA FORMA UTILIZANDO UM RIGHT JOIN COM SUM VALOR, MAS ACREDITO QUE FICA MAIS FACIL FAZER ISSO NO DASHBOARD AGRUPANDO POR NOME DE CLIENTE AS COMPRAS.

Exportando o arquivo como CSV:

In [23]:
result_df.to_csv('dados_ecommerce_final.csv', index=False)

**Dicas para o projeto:**
- Se atente que, como o mesmo cliente realiza mais de 1 transação quando você for trazer alguma métrica relacionada a dados do cliente terá que utilizar o distinct para criar essas métricas no dashboard, se não acabará tendo os dados repetidos.

- Análise sua tabela, entenda a dimensão dos dados, no excel, antes de enviar para o Powerbi ou Looker Studio.

- Tente montar preveamente um roteiro de quais métricas e visualizações irá colocar no dashboard, isso tornará seu processo mais rápido.

- Qualquer dificuldade para subir sua base para as ferramentas de visualização envie a base e o erro encontrado para que os tutores possam te ajudar.