# **MÓDULO 26 - Projeto Final do Aprofundamento de Analytics**

Bem-vindos ao Projeto de Dashboard de E-commerce! Este projeto é uma oportunidade para vocês aplicarem habilidades essenciais de análise de dados em um cenário prático e realista. Vocês irão trabalhar com um conjunto de dados de transações de clientes de uma loja virtual, distribuídos em duas tabelas distintas. O objetivo final é construir um dashboard interativo que facilite a visualização e análise das informações relevantes do e-commerce, utilizando ferramentas como Looker Studio ou Power BI.

**Objetivo do Projeto:**

Tratamento de Dados: Realizar a junção (JOIN) de duas tabelas utilizando SQL para consolidar as informações.
Análise de Dados: Exportar os dados resultantes para um arquivo CSV.
Visualização de Dados: Desenvolver um dashboard interativo e informativo para visualização das principais métricas e insights do e-commerce.

**Tabelas Disponibilizadas:**

**Tabela de Transações:** Contém os registros de transações realizadas pelos clientes, incluindo detalhes como ID da transação, valor e outros.


**Tabela de Dados Pessoais:** Contém as informações pessoais dos clientes, como ID do cliente, nome, genero, cidade, etc.

**Chave de Ligação:** As tabelas se relacionam através da coluna ID_CLIENT, que é a chave identificadora dos clientes.

# Etapas do Projeto:

1. Realizar um JOIN SQL nas duas tabelas, unificando as informações através da coluna ID_CLIENT. Você deve justificar a escolha do JOIN (Inner/ Left/ Right ou Full).

2. Exportar os dados consolidados resultantes do JOIN para um arquivo CSV.

3. Utilizar Looker Studio ou Power BI para importar o arquivo CSV.

4. Criar visualizações interativas que apresentem métricas importantes, como total de vendas, número de transações, distribuição geográfica dos clientes, perfil demográfico dos clientes, entre outros.

Abaixo temos a configuração do ambiente SQL:

In [2]:
import sqlite3
import pandas as pd

In [5]:
df_transacoes = pd.read_csv("TB_TRANSACOES_PROJETO_ECOMM.csv", delimiter=';')
df_clientes = pd.read_csv("TB_CLIENTES_PROJETO_ECOMM.csv", delimiter=';')

In [6]:
# Ver as primeiras linhas e colunas disponíveis
print("Transações:")
print(df_transacoes.head())
print("\nColunas de transações:", df_transacoes.columns.tolist())

print("\nClientes:")
print(df_clientes.head())
print("\nColunas de clientes:", df_clientes.columns.tolist())


Transações:
   id_client     Category   Price   Card Type
0         37  Electronics   72,93  mastercard
1         38      Jewelry  121,89  mastercard
2         39         Baby    64,3  mastercard
3         40     Outdoors    9,48  mastercard
4          5     Outdoors   61,95  mastercard

Colunas de transações: ['id_client', 'Category', 'Price', 'Card Type']

Clientes:
  state_name First_name  Gender                     Job_Title  Id_client
0         TX    Domingo    Male  Structural Analysis Engineer          1
1         MI    Russell    Male            Speech Pathologist          2
2         AL     Kimble    Male           Account Coordinator          3
3         IL   Barnabas    Male               General Manager          4
4         MN     Tanney  Female                  VP Marketing          5

Colunas de clientes: ['state_name', 'First_name', 'Gender', 'Job_Title', 'Id_client']


In [7]:
conn = sqlite3.connect('projeto.db')
# Carregar o DataFrame no banco de dados SQLite - criando tb_transacoes e tb_clientes
df_transacoes.to_sql('tb_transacoes', conn, index=False, if_exists='replace')
df_clientes.to_sql('tb_clientes', conn, index=False, if_exists='replace')

175

In [8]:
# Função para executar consultas SQL e retornar o resultado como um DataFrame
def run_query(query):
    return pd.read_sql_query(query, conn)

In [9]:
query = """
SELECT * FROM tb_transacoes LIMIT 5
"""
result_df = run_query(query)
print(result_df)


   id_client     Category   Price   Card Type
0         37  Electronics   72,93  mastercard
1         38      Jewelry  121,89  mastercard
2         39         Baby    64,3  mastercard
3         40     Outdoors    9,48  mastercard
4          5     Outdoors   61,95  mastercard


In [12]:
# 1. Realizar o JOIN entre as tabelas de transações e clientes
query = """
SELECT 
    t.*,
    c.*
FROM tb_transacoes t
INNER JOIN tb_clientes c
ON t.ID_CLIENT = c.ID_CLIENT
"""
result_df = run_query(query)
print(result_df.head())
# 2. Exportar os dados consolidados para CSV
result_df.to_csv('dados_ecommerce_final.csv', index=False)

print("Arquivo 'dados_ecommerce_final.csv' exportado com sucesso!")


   id_client     Category   Price   Card Type state_name First_name  \
0         37  Electronics   72,93  mastercard         ND     Cornie   
1         38      Jewelry  121,89  mastercard         PA        Rab   
2         39         Baby    64,3  mastercard         MA      Codie   
3         40     Outdoors    9,48  mastercard         OR      Scott   
4          5     Outdoors   61,95  mastercard         MN     Tanney   

        Gender          Job_Title  Id_client  
0  Genderqueer             Editor         37  
1         Male  Assistant Manager         38  
2       Female  Financial Analyst         39  
3       Female     Civil Engineer         40  
4       Female       VP Marketing          5  
Arquivo 'dados_ecommerce_final.csv' exportado com sucesso!


Justifique a escolha do JOIN:

    O INNER JOIN retorna apenas os registros que possuem correspondência nas duas tabelas.
    Isso significa que ele mostrará somente as transações feitas por clientes válidos (presentes em tb_clientes).
    É ideal para análises de desempenho, pois não queremos transações “órfãs” sem cliente associado nem clientes sem transações.

Exportando o arquivo como CSV:

In [15]:
result_df.to_csv('dados_ecommerce_final.csv', index=False)
