# **MÓDULO 26 - Projeto Final do Aprofundamento de Analytics**

Bem-vindos ao Projeto de Dashboard de E-commerce! Este projeto é uma oportunidade para vocês aplicarem habilidades essenciais de análise de dados em um cenário prático e realista. Vocês irão trabalhar com um conjunto de dados de transações de clientes de uma loja virtual, distribuídos em duas tabelas distintas. O objetivo final é construir um dashboard interativo que facilite a visualização e análise das informações relevantes do e-commerce, utilizando ferramentas como Looker Studio ou Power BI.

**Objetivo do Projeto:**

Tratamento de Dados: Realizar a junção (JOIN) de duas tabelas utilizando SQL para consolidar as informações.
Análise de Dados: Exportar os dados resultantes para um arquivo CSV.
Visualização de Dados: Desenvolver um dashboard interativo e informativo para visualização das principais métricas e insights do e-commerce.

**Tabelas Disponibilizadas:**

**Tabela de Transações:** Contém os registros de transações realizadas pelos clientes, incluindo detalhes como ID da transação, valor e outros.


**Tabela de Dados Pessoais:** Contém as informações pessoais dos clientes, como ID do cliente, nome, genero, cidade, etc.

**Chave de Ligação:** As tabelas se relacionam através da coluna ID_CLIENT, que é a chave identificadora dos clientes.

# Etapas do Projeto:

1. Realizar um JOIN SQL nas duas tabelas, unificando as informações através da coluna ID_CLIENT. Você deve justificar a escolha do JOIN (Inner/ Left/ Right ou Full).

2. Exportar os dados consolidados resultantes do JOIN para um arquivo CSV.

3. Utilizar Looker Studio ou Power BI para importar o arquivo CSV.

4. Criar visualizações interativas que apresentem métricas importantes, como total de vendas, número de transações, distribuição geográfica dos clientes, perfil demográfico dos clientes, entre outros.

Abaixo temos a configuração do ambiente SQL:

In [1]:
import sqlite3
import pandas as pd

In [2]:
df_transacoes = pd.read_csv("TB_TRANSACOES_PROJETO_ECOMM.csv", delimiter=';')
df_clientes = pd.read_csv("TB_CLIENTES_PROJETO_ECOMM.csv", delimiter=';')

In [3]:
conn = sqlite3.connect('projeto.db')
# Carregar o DataFrame no banco de dados SQLite - criando tb_transacoes e tb_clientes
df_transacoes.to_sql('tb_transacoes', conn, index=False, if_exists='replace')
df_clientes.to_sql('tb_clientes', conn, index=False, if_exists='replace')

175

In [4]:
# Função para executar consultas SQL e retornar o resultado como um DataFrame
def run_query(query):
    return pd.read_sql_query(query, conn)

In [5]:
query = """
SELECT * FROM tb_transacoes
"""
result_df = run_query(query)
print(result_df)

     id_client     Category   Price   Card Type
0           37  Electronics   72,93  mastercard
1           38      Jewelry  121,89  mastercard
2           39         Baby    64,3  mastercard
3           40     Outdoors    9,48  mastercard
4            5     Outdoors   61,95  mastercard
..         ...          ...     ...         ...
362        363      Jewelry   44,32  mastercard
363        364         Kids  120,42  mastercard
364        365      Grocery   24,31  mastercard
365        366        Tools  111,53  mastercard
366        367    Computers   84,57  mastercard

[367 rows x 4 columns]


In [6]:
query = """
SELECT * FROM tb_clientes
"""
result_df = run_query(query)
print(result_df)

    state_name First_name   Gender                     Job_Title  Id_client
0           TX    Domingo     Male  Structural Analysis Engineer          1
1           MI    Russell     Male            Speech Pathologist          2
2           AL     Kimble     Male           Account Coordinator          3
3           IL   Barnabas     Male               General Manager          4
4           MN     Tanney   Female                  VP Marketing          5
..         ...        ...      ...                           ...        ...
170         UT  Fairleigh     Male    Desktop Support Technician        171
171         DC    Lambert  Agender             Chemical Engineer        172
172         NY      Jacob     Male      Senior Financial Analyst        173
173         OK        Pip     Male         Chief Design Engineer        174
174         OR     Murvyn   Female          Safety Technician IV        175

[175 rows x 5 columns]


In [17]:
query = """
SELECT tb_clientes.Id_client,tb_clientes.Gender,tb_clientes.state_name,
tb_transacoes.Category,tb_transacoes.Price
FROM tb_clientes
LEFT JOIN tb_transacoes
ON tb_clientes.Id_client = tb_transacoes.id_client
"""
result_df = run_query(query)
print(result_df)

     Id_client   Gender state_name    Category   Price
0            1     Male         TX    Outdoors   16,97
1            2     Male         MI     Grocery  143,39
2            3     Male         AL       Music   37,64
3            4     Male         IL     Jewelry    8,51
4            5   Female         MN     Grocery   28,42
..         ...      ...        ...         ...     ...
296        171     Male         UT       Books   35,85
297        172  Agender         DC  Automotive  130,08
298        173     Male         NY        Kids   28,38
299        174     Male         OK      Sports   36,35
300        175   Female         OR        Kids  141,71

[301 rows x 5 columns]


Justifique a escolha do JOIN:
Escolhi utilizar o LEFT JOIN porque ele mantém todos os dados que realmente nos interessam e evita trazer registros incompletos que poderiam atrapalhar a análise. Notei isso ao testar um FULL JOIN, que resultou em muitos dados faltantes.

Exportando o arquivo como CSV:

In [20]:
result_df['Price'] = result_df['Price'].str.replace(',', '.').astype(float)

In [21]:
result_df.to_csv('dados_ecommerce_final.csv', index=False)

**Dicas para o projeto:**
- Se atente que, como o mesmo cliente realiza mais de 1 transação quando você for trazer alguma métrica relacionada a dados do cliente terá que utilizar o distinct para criar essas métricas no dashboard, se não acabará tendo os dados repetidos.

- Análise sua tabela, entenda a dimensão dos dados, no excel, antes de enviar para o Powerbi ou Looker Studio.

- Tente montar preveamente um roteiro de quais métricas e visualizações irá colocar no dashboard, isso tornará seu processo mais rápido.

- Qualquer dificuldade para subir sua base para as ferramentas de visualização envie a base e o erro encontrado para que os tutores possam te ajudar.