# **MÓDULO 26 - Projeto Final do Aprofundamento de Analytics**

Bem-vindos ao Projeto de Dashboard de E-commerce! Este projeto é uma oportunidade para vocês aplicarem habilidades essenciais de análise de dados em um cenário prático e realista. Vocês irão trabalhar com um conjunto de dados de transações de clientes de uma loja virtual, distribuídos em duas tabelas distintas. O objetivo final é construir um dashboard interativo que facilite a visualização e análise das informações relevantes do e-commerce, utilizando ferramentas como Looker Studio ou Power BI.

**Objetivo do Projeto:**

Tratamento de Dados: Realizar a junção (JOIN) de duas tabelas utilizando SQL para consolidar as informações.
Análise de Dados: Exportar os dados resultantes para um arquivo CSV.
Visualização de Dados: Desenvolver um dashboard interativo e informativo para visualização das principais métricas e insights do e-commerce.

**Tabelas Disponibilizadas:**

**Tabela de Transações:** Contém os registros de transações realizadas pelos clientes, incluindo detalhes como ID da transação, valor e outros.


**Tabela de Dados Pessoais:** Contém as informações pessoais dos clientes, como ID do cliente, nome, genero, cidade, etc.

**Chave de Ligação:** As tabelas se relacionam através da coluna ID_CLIENT, que é a chave identificadora dos clientes.

# Etapas do Projeto:

1. Realizar um JOIN SQL nas duas tabelas, unificando as informações através da coluna ID_CLIENT. Você deve justificar a escolha do JOIN (Inner/ Left/ Right ou Full).

2. Exportar os dados consolidados resultantes do JOIN para um arquivo CSV.

3. Utilizar Looker Studio ou Power BI para importar o arquivo CSV.

4. Criar visualizações interativas que apresentem métricas importantes, como total de vendas, número de transações, distribuição geográfica dos clientes, perfil demográfico dos clientes, entre outros.

Abaixo temos a configuração do ambiente SQL:

In [1]:
import sqlite3
import pandas as pd

In [2]:
df_transacoes = pd.read_csv("TB_TRANSACOES_PROJETO_ECOMM.csv", delimiter=';')
df_clientes = pd.read_csv("TB_CLIENTES_PROJETO_ECOMM.csv", delimiter=';')

In [3]:
conn = sqlite3.connect('projeto.db')
# Carregar o DataFrame no banco de dados SQLite - criando tb_transacoes e tb_clientes
df_transacoes.to_sql('tb_transacoes', conn, index=False, if_exists='replace')
df_clientes.to_sql('tb_clientes', conn, index=False, if_exists='replace')

175

In [4]:
# Função para executar consultas SQL e retornar o resultado como um DataFrame
def run_query(query):
    return pd.read_sql_query(query, conn)

In [5]:
query = """
SELECT 
    tb_transacoes.*, 
    tb_clientes.Gender, 
    tb_clientes.Job_Title, 
    tb_clientes.state_name
FROM 
    tb_transacoes
INNER JOIN 
    tb_clientes
ON 
    tb_transacoes.ID_CLIENT = tb_clientes.ID_CLIENT
"""
result_df = run_query(query)
print(result_df)

     id_client     Category   Price   Card Type       Gender  \
0           37  Electronics   72,93  mastercard  Genderqueer   
1           38      Jewelry  121,89  mastercard         Male   
2           39         Baby    64,3  mastercard       Female   
3           40     Outdoors    9,48  mastercard       Female   
4            5     Outdoors   61,95  mastercard       Female   
..         ...          ...     ...         ...          ...   
291        120         Baby   24,97  mastercard         Male   
292        121     Clothing  145,64  mastercard       Female   
293        122     Clothing   46,16  mastercard       Female   
294        123        Books   39,03  mastercard         Male   
295        124       Health  142,63  mastercard       Female   

                         Job_Title state_name  
0                           Editor         ND  
1                Assistant Manager         PA  
2                Financial Analyst         MA  
3                   Civil Engineer     

Justifique a escolha do JOIN:

O INNER JOIN foi escolhido pois o objetivo do projeto é identificar as transações que tenham um cliente correspondente na tabela de clientes, portanto, com esta operação, conseguimos garantir que o resultado final apresente somente as linhas com correspondência nas duas tabelas. Além disso, a operação evita que dados que representem transações com IDs de clientes não registrados sejam admitidos na consolidação das duas tabelas.

A coluna de nome foi excluída por não apresentar informações relevantes para o projeto.

Exportando o arquivo como CSV:

In [6]:
result_df.to_csv('dados_ecommerce_final.csv', index=False)

**Dicas para o projeto:**
- Se atente que, como o mesmo cliente realiza mais de 1 transação quando você for trazer alguma métrica relacionada a dados do cliente terá que utilizar o distinct para criar essas métricas no dashboard, se não acabará tendo os dados repetidos.

- Análise sua tabela, entenda a dimensão dos dados, no excel, antes de enviar para o Powerbi ou Looker Studio.

- Tente montar preveamente um roteiro de quais métricas e visualizações irá colocar no dashboard, isso tornará seu processo mais rápido.

- Qualquer dificuldade para subir sua base para as ferramentas de visualização envie a base e o erro encontrado para que os tutores possam te ajudar.