# **MÓDULO 26 - Projeto Final do Aprofundamento de Analytics**

Bem-vindos ao Projeto de Dashboard de E-commerce! Este projeto é uma oportunidade para vocês aplicarem habilidades essenciais de análise de dados em um cenário prático e realista. Vocês irão trabalhar com um conjunto de dados de transações de clientes de uma loja virtual, distribuídos em duas tabelas distintas. O objetivo final é construir um dashboard interativo que facilite a visualização e análise das informações relevantes do e-commerce, utilizando ferramentas como Looker Studio ou Power BI.

**Objetivo do Projeto:**

Tratamento de Dados: Realizar a junção (JOIN) de duas tabelas utilizando SQL para consolidar as informações.
Análise de Dados: Exportar os dados resultantes para um arquivo CSV.
Visualização de Dados: Desenvolver um dashboard interativo e informativo para visualização das principais métricas e insights do e-commerce.

**Tabelas Disponibilizadas:**

**Tabela de Transações:** Contém os registros de transações realizadas pelos clientes, incluindo detalhes como ID da transação, valor e outros.


**Tabela de Dados Pessoais:** Contém as informações pessoais dos clientes, como ID do cliente, nome, genero, cidade, etc.

**Chave de Ligação:** As tabelas se relacionam através da coluna ID_CLIENT, que é a chave identificadora dos clientes.

# Etapas do Projeto:

1. Realizar um JOIN SQL nas duas tabelas, unificando as informações através da coluna ID_CLIENT. Você deve justificar a escolha do JOIN (Inner/ Left/ Right ou Full).

2. Exportar os dados consolidados resultantes do JOIN para um arquivo CSV.

3. Utilizar Looker Studio ou Power BI para importar o arquivo CSV.

4. Criar visualizações interativas que apresentem métricas importantes, como total de vendas, número de transações, distribuição geográfica dos clientes, perfil demográfico dos clientes, entre outros.

Abaixo temos a configuração do ambiente SQL:

In [None]:
import sqlite3
import pandas as pd

In [None]:
df_transacoes = pd.read_csv("TB_TRANSACOES_PROJETO_ECOMM.csv", delimiter=';')
df_clientes = pd.read_csv("TB_CLIENTES_PROJETO_ECOMM.csv", delimiter=';')

# Ajustando valores, tipagem e nome de colunas
df_transacoes["Price"] = df_transacoes["Price"].astype(str).str.replace(",", ".")
df_transacoes["Price"] = df_transacoes["Price"].astype(float)
df_clientes = df_clientes.rename(columns={'Id_client': 'id_client'})
df_transacoes = df_transacoes.rename(columns={'Card Type': 'Card_Type'})
print(df_clientes)
print(df_transacoes)


    state_name First_name   Gender                     Job_Title  id_client
0           TX    Domingo     Male  Structural Analysis Engineer          1
1           MI    Russell     Male            Speech Pathologist          2
2           AL     Kimble     Male           Account Coordinator          3
3           IL   Barnabas     Male               General Manager          4
4           MN     Tanney   Female                  VP Marketing          5
..         ...        ...      ...                           ...        ...
170         UT  Fairleigh     Male    Desktop Support Technician        171
171         DC    Lambert  Agender             Chemical Engineer        172
172         NY      Jacob     Male      Senior Financial Analyst        173
173         OK        Pip     Male         Chief Design Engineer        174
174         OR     Murvyn   Female          Safety Technician IV        175

[175 rows x 5 columns]
     id_client     Category   Price   Card_Type
0           37  

In [None]:
conn = sqlite3.connect('projeto.db')
# Carregar o DataFrame no banco de dados SQLite - criando tb_transacoes e tb_clientes
df_transacoes.to_sql('tb_transacoes', conn, index=False, if_exists='replace')
df_clientes.to_sql('tb_clientes', conn, index=False, if_exists='replace')

175

In [None]:
# Função para executar consultas SQL e retornar o resultado como um DataFrame
def run_query(query):
    return pd.read_sql_query(query, conn)

In [None]:
query = """
SELECT
B.id_client,
A.First_Name,
A.Gender,
A.state_name,
A.Job_Title,
B.Category,
B.Price,
B.Card_Type
FROM tb_transacoes AS B
INNER JOIN tb_clientes AS A ON B.id_client = A.id_client
ORDER BY B.id_client ASC
"""
result_df = run_query(query)
print(result_df.to_string())

     id_client  First_name       Gender state_name                             Job_Title     Category   Price   Card_Type
0            1     Domingo         Male         TX          Structural Analysis Engineer     Outdoors   16.97  mastercard
1            2     Russell         Male         MI                    Speech Pathologist      Grocery  143.39  mastercard
2            3      Kimble         Male         AL                   Account Coordinator        Music   37.64  mastercard
3            4    Barnabas         Male         IL                       General Manager      Jewelry    8.51  mastercard
4            5      Tanney       Female         MN                          VP Marketing     Outdoors   61.95  mastercard
5            5      Tanney       Female         MN                          VP Marketing      Grocery   28.42  mastercard
6            6      Launce         Male         VA               Automation Specialist I     Outdoors   15.96  mastercard
7            7       Adh

- O Inner Join será utilizado para a construção do dashboard, pois o foco principal do mesmo é observar as transações válidas, ou seja, os registros completos das transações dos clientes baseados nas demais métricas, como gênero e estado. Caso Left, Right ou Full Join fossem utilizados, as colunas com valores vazios teriam certo impacto nos resultados do dashboard como o valor médio gasto pelos clientes por estado.

Exportando o arquivo como CSV:

In [None]:
result_df.to_csv('dados_ecommerce_final.csv', index=False)

Link para visualização de Dashboard no Looker Studio:
https://lookerstudio.google.com/reporting/57037706-0678-4636-9033-2f2ecc8713ee


**Dicas para o projeto:**
- Se atente que, como o mesmo cliente realiza mais de 1 transação quando você for trazer alguma métrica relacionada a dados do cliente terá que utilizar o distinct para criar essas métricas no dashboard, se não acabará tendo os dados repetidos.

- Análise sua tabela, entenda a dimensão dos dados, no excel, antes de enviar para o Powerbi ou Looker Studio.

- Tente montar preveamente um roteiro de quais métricas e visualizações irá colocar no dashboard, isso tornará seu processo mais rápido.

- Qualquer dificuldade para subir sua base para as ferramentas de visualização envie a base e o erro encontrado para que os tutores possam te ajudar.