# **MÓDULO 26 - Projeto Final do Aprofundamento de Analytics**

Bem-vindos ao Projeto de Dashboard de E-commerce! Este projeto é uma oportunidade para vocês aplicarem habilidades essenciais de análise de dados em um cenário prático e realista. Vocês irão trabalhar com um conjunto de dados de transações de clientes de uma loja virtual, distribuídos em duas tabelas distintas. O objetivo final é construir um dashboard interativo que facilite a visualização e análise das informações relevantes do e-commerce, utilizando ferramentas como Looker Studio ou Power BI.

**Objetivo do Projeto:**

Tratamento de Dados: Realizar a junção (JOIN) de duas tabelas utilizando SQL para consolidar as informações.
Análise de Dados: Exportar os dados resultantes para um arquivo CSV.
Visualização de Dados: Desenvolver um dashboard interativo e informativo para visualização das principais métricas e insights do e-commerce.

**Tabelas Disponibilizadas:**

**Tabela de Transações:** Contém os registros de transações realizadas pelos clientes, incluindo detalhes como ID da transação, valor e outros.


**Tabela de Dados Pessoais:** Contém as informações pessoais dos clientes, como ID do cliente, nome, genero, cidade, etc.

**Chave de Ligação:** As tabelas se relacionam através da coluna ID_CLIENT, que é a chave identificadora dos clientes.

# Etapas do Projeto:

1. Realizar um JOIN SQL nas duas tabelas, unificando as informações através da coluna ID_CLIENT. Você deve justificar a escolha do JOIN (Inner/ Left/ Right ou Full).

2. Exportar os dados consolidados resultantes do JOIN para um arquivo CSV.

3. Utilizar Looker Studio ou Power BI para importar o arquivo CSV.

4. Criar visualizações interativas que apresentem métricas importantes, como total de vendas, número de transações, distribuição geográfica dos clientes, perfil demográfico dos clientes, entre outros.

Abaixo temos a configuração do ambiente SQL:

In [2]:
import sqlite3
import pandas as pd

In [3]:
df_transacoes = pd.read_csv("TB_TRANSACOES_PROJETO_ECOMM.csv", delimiter=';')
df_clientes = pd.read_csv("TB_CLIENTES_PROJETO_ECOMM.csv", delimiter=';')

In [4]:
conn = sqlite3.connect('projeto.db')
# Carregar o DataFrame no banco de dados SQLite - criando tb_transacoes e tb_clientes
df_transacoes.to_sql('tb_transacoes', conn, index=False, if_exists='replace')
df_clientes.to_sql('tb_clientes', conn, index=False, if_exists='replace')

175

In [5]:
# Função para executar consultas SQL e retornar o resultado como um DataFrame
def run_query(query):
    return pd.read_sql_query(query, conn)

In [6]:
query = """
SELECT
*
FROM tb_clientes
RIGHT JOIN  tb_transacoes
ON tb_clientes.Id_client = tb_transacoes.id_client

"""
result_df = run_query(query)
print(result_df)

    state_name First_name  Gender                     Job_Title  Id_client  \
0           TX    Domingo    Male  Structural Analysis Engineer        1.0   
1           MI    Russell    Male            Speech Pathologist        2.0   
2           AL     Kimble    Male           Account Coordinator        3.0   
3           IL   Barnabas    Male               General Manager        4.0   
4           MN     Tanney  Female                  VP Marketing        5.0   
..         ...        ...     ...                           ...        ...   
362       None       None    None                          None        NaN   
363       None       None    None                          None        NaN   
364       None       None    None                          None        NaN   
365       None       None    None                          None        NaN   
366       None       None    None                          None        NaN   

     id_client   Category   Price   Card Type  
0            1 

Justifique a escolha do JOIN:

**R)** - Escolhi o RIGHT, pois ele vai trazer todos os resultados mesmo que a outra tabela (esquerda) tenha dados faltantes, por acreditar que possa existir transações sem identificão de cliente.

Exportando o arquivo como CSV:

In [7]:
result_df.to_csv('dados_ecommerce_final.csv', index=False)

**Dicas para o projeto:**
- Se atente que, como o mesmo cliente realiza mais de 1 transação quando você for trazer alguma métrica relacionada a dados do cliente terá que utilizar o distinct para criar essas métricas no dashboard, se não acabará tendo os dados repetidos.

- Análise sua tabela, entenda a dimensão dos dados, no excel, antes de enviar para o Powerbi ou Looker Studio.

- Tente montar preveamente um roteiro de quais métricas e visualizações irá colocar no dashboard, isso tornará seu processo mais rápido.

- Qualquer dificuldade para subir sua base para as ferramentas de visualização envie a base e o erro encontrado para que os tutores possam te ajudar.

In [9]:
df = pd.read_csv('dados_ecommerce_final.csv', delimiter=',')
df.head(15)

Unnamed: 0,state_name,First_name,Gender,Job_Title,Id_client,id_client,Category,Price,Card Type
0,TX,Domingo,Male,Structural Analysis Engineer,1.0,1,Outdoors,1697,mastercard
1,MI,Russell,Male,Speech Pathologist,2.0,2,Grocery,14339,mastercard
2,AL,Kimble,Male,Account Coordinator,3.0,3,Music,3764,mastercard
3,IL,Barnabas,Male,General Manager,4.0,4,Jewelry,851,mastercard
4,MN,Tanney,Female,VP Marketing,5.0,5,Outdoors,6195,mastercard
5,MN,Tanney,Female,VP Marketing,5.0,5,Grocery,2842,mastercard
6,VA,Launce,Male,Automation Specialist I,6.0,6,Outdoors,1596,mastercard
7,CO,Adham,Male,Project Manager,7.0,7,Beauty,14902,mastercard
8,TX,Dante,Male,Geological Engineer,8.0,8,Games,9738,mastercard
9,PA,Hi,Female,Senior Cost Accountant,9.0,9,Outdoors,13996,mastercard


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 367 entries, 0 to 366
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   state_name  296 non-null    object 
 1   First_name  296 non-null    object 
 2   Gender      296 non-null    object 
 3   Job_Title   296 non-null    object 
 4   Id_client   296 non-null    float64
 5   id_client   367 non-null    int64  
 6   Category    367 non-null    object 
 7   Price       367 non-null    object 
 8   Card Type   367 non-null    object 
dtypes: float64(1), int64(1), object(7)
memory usage: 25.9+ KB


Aqui eu confirmei que realmente existe vendas sem identificação de clientes