# **MÓDULO 26 - Projeto Final do Aprofundamento de Analytics**

Bem-vindos ao Projeto de Dashboard de E-commerce! Este projeto é uma oportunidade para vocês aplicarem habilidades essenciais de análise de dados em um cenário prático e realista. Vocês irão trabalhar com um conjunto de dados de transações de clientes de uma loja virtual, distribuídos em duas tabelas distintas. O objetivo final é construir um dashboard interativo que facilite a visualização e análise das informações relevantes do e-commerce, utilizando ferramentas como Looker Studio ou Power BI.

## Objetivo do Projeto

- **Tratamento de Dados:** Realizar a junção (JOIN) de duas tabelas utilizando SQL para consolidar as informações.  
- **Análise de Dados:** Exportar os dados resultantes para um arquivo CSV.  
- **Visualização de Dados:** Desenvolver um dashboard interativo e informativo para visualização das principais métricas e insights do e-commerce.  

## Tabelas Disponibilizadas

**Tabela de Transações:** Contém os registros de transações realizadas pelos clientes, incluindo detalhes como ID da transação, valor e outros.


**Tabela de Dados Pessoais:** Contém as informações pessoais dos clientes, como ID do cliente, nome, genero, cidade, etc.

**Chave de Ligação:** As tabelas se relacionam através da coluna ID_CLIENT, que é a chave identificadora dos clientes.


## Etapas do Projeto:

1. Realizar um JOIN SQL nas duas tabelas, unificando as informações através da coluna ID_CLIENT. Você deve justificar a escolha do JOIN (Inner/ Left/ Right ou Full).

2. Exportar os dados consolidados resultantes do JOIN para um arquivo CSV.

3. Utilizar Looker Studio ou Power BI para importar o arquivo CSV.

4. Criar visualizações interativas que apresentem métricas importantes, como total de vendas, número de transações, distribuição geográfica dos clientes, perfil demográfico dos clientes, entre outros.

In [16]:
# BIBLIOTECAS UTILIZADAS 

import sqlite3
import pandas as pd

In [17]:
# CONFIGURAÇÃO DO AMBIENTE SQL

# Carregar os dados dos arquivos CSV em DataFrames do Pandas
df_transacoes = pd.read_csv("TB_TRANSACOES_PROJETO_ECOMM.csv", delimiter=';')
df_clientes = pd.read_csv("TB_CLIENTES_PROJETO_ECOMM.csv", delimiter=';')
conn = sqlite3.connect('projeto.db')

# Carregar o DataFrame no banco de dados SQLite - criando tb_transacoes e tb_clientes
df_transacoes.to_sql('tb_transacoes', conn, index=False, if_exists='replace')
df_clientes.to_sql('tb_clientes', conn, index=False, if_exists='replace')

# Função para executar consultas SQL e retornar o resultado como um DataFrame
def run_query(query):
    return pd.read_sql_query(query, conn)

In [18]:
# VERIFICAÇÃO DOS DADOS CARREGADOS

df_clientes: pd.DataFrame
df_transacoes: pd.DataFrame

print("Informações do DataFrame de Clientes:")
df_clientes.info()

print("\n\nInformações do DataFrame de Transações:")
df_transacoes.info()

Informações do DataFrame de Clientes:
<class 'pandas.DataFrame'>
RangeIndex: 175 entries, 0 to 174
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   state_name  175 non-null    str  
 1   First_name  175 non-null    str  
 2   Gender      175 non-null    str  
 3   Job_Title   175 non-null    str  
 4   Id_client   175 non-null    int64
dtypes: int64(1), str(4)
memory usage: 7.0 KB


Informações do DataFrame de Transações:
<class 'pandas.DataFrame'>
RangeIndex: 367 entries, 0 to 366
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   id_client  367 non-null    int64
 1   Category   367 non-null    str  
 2   Price      367 non-null    str  
 3   Card Type  367 non-null    str  
dtypes: int64(1), str(3)
memory usage: 11.6 KB


In [19]:
query = """
SELECT
*
FROM tb_clientes
INNER JOIN tb_transacoes
ON tb_clientes.Id_client = tb_transacoes.Id_client
"""
primeira_opcao = run_query(query)
primeira_opcao.head(3)

Unnamed: 0,state_name,First_name,Gender,Job_Title,Id_client,id_client,Category,Price,Card Type
0,TX,Domingo,Male,Structural Analysis Engineer,1,1,Outdoors,1697,mastercard
1,MI,Russell,Male,Speech Pathologist,2,2,Grocery,14339,mastercard
2,AL,Kimble,Male,Account Coordinator,3,3,Music,3764,mastercard


In [20]:
primeira_opcao.info()
primeira_opcao.isnull().sum()

<class 'pandas.DataFrame'>
RangeIndex: 296 entries, 0 to 295
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   state_name  296 non-null    str  
 1   First_name  296 non-null    str  
 2   Gender      296 non-null    str  
 3   Job_Title   296 non-null    str  
 4   Id_client   296 non-null    int64
 5   id_client   296 non-null    int64
 6   Category    296 non-null    str  
 7   Price       296 non-null    str  
 8   Card Type   296 non-null    str  
dtypes: int64(2), str(7)
memory usage: 20.9 KB


state_name    0
First_name    0
Gender        0
Job_Title     0
Id_client     0
id_client     0
Category      0
Price         0
Card Type     0
dtype: int64

In [21]:
query = """
SELECT
*
FROM tb_clientes
FULL JOIN tb_transacoes
ON tb_clientes.Id_client = tb_transacoes.Id_client
"""
segunda_opcao = run_query(query)
segunda_opcao.head(3)

Unnamed: 0,state_name,First_name,Gender,Job_Title,Id_client,id_client,Category,Price,Card Type
0,TX,Domingo,Male,Structural Analysis Engineer,1.0,1.0,Outdoors,1697,mastercard
1,MI,Russell,Male,Speech Pathologist,2.0,2.0,Grocery,14339,mastercard
2,AL,Kimble,Male,Account Coordinator,3.0,3.0,Music,3764,mastercard


In [22]:
segunda_opcao.info()
segunda_opcao.isnull().sum()

<class 'pandas.DataFrame'>
RangeIndex: 372 entries, 0 to 371
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   state_name  301 non-null    str    
 1   First_name  301 non-null    str    
 2   Gender      301 non-null    str    
 3   Job_Title   301 non-null    str    
 4   Id_client   301 non-null    float64
 5   id_client   367 non-null    float64
 6   Category    367 non-null    str    
 7   Price       367 non-null    str    
 8   Card Type   367 non-null    str    
dtypes: float64(2), str(7)
memory usage: 26.3 KB


state_name    71
First_name    71
Gender        71
Job_Title     71
Id_client     71
id_client      5
Category       5
Price          5
Card Type      5
dtype: int64

In [23]:
segunda_opcao.isnull().mean().round(2) * 100

state_name    19.0
First_name    19.0
Gender        19.0
Job_Title     19.0
Id_client     19.0
id_client      1.0
Category       1.0
Price          1.0
Card Type      1.0
dtype: float64

**Justifique a escolha do JOIN**

Para escolher o JOIN, segui o seguinte raciocínio: primeiro, observei que meu objetivo era traçar o perfil do cliente do e-commerce. Para tal, deveria escolher o JOIN com menos perda de informação, ou seja, fiquei com a opção de INNER JOIN ou FULL JOIN. 

Após esse primeiro processo, analisei entre as duas opções qual haveria mais dados e menos nulos após a junção das duas bases de dados. A partir das fórmulas acima, notei que o uso do INNER JOIN retorna 296 entradas sem valores nulos, enquanto o suo do FULL JOIN retornaria 372 entradas. Porém, apesar de trazer 72 entradas a mais, a segunda opção traria 19% de clientes com dados nulos o que é uma quantidade expressiva. 

Mesmo se eu utiliza-se opções de preenchimento, por ser uma quantidade de dados expressiva, creio que o o objetivo de traçar o perfil do cliente seria comprometido, pois o preenchimento de dados pesaria muito em nossa análise. Assim, a fim de preservar uma análise mais precisa, optei pelo uso de INNER JOIN.




**Observação:** Optei por fazer o tratamento via Python, pois acredito ser mais prático para o tratamento de dados

In [24]:
# DEFINIÇÃO DO DATASET FINAL PARA ANÁLISE

df_result = primeira_opcao.copy() 
df_result.info()
df_result.head(3)

<class 'pandas.DataFrame'>
RangeIndex: 296 entries, 0 to 295
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   state_name  296 non-null    str  
 1   First_name  296 non-null    str  
 2   Gender      296 non-null    str  
 3   Job_Title   296 non-null    str  
 4   Id_client   296 non-null    int64
 5   id_client   296 non-null    int64
 6   Category    296 non-null    str  
 7   Price       296 non-null    str  
 8   Card Type   296 non-null    str  
dtypes: int64(2), str(7)
memory usage: 20.9 KB


Unnamed: 0,state_name,First_name,Gender,Job_Title,Id_client,id_client,Category,Price,Card Type
0,TX,Domingo,Male,Structural Analysis Engineer,1,1,Outdoors,1697,mastercard
1,MI,Russell,Male,Speech Pathologist,2,2,Grocery,14339,mastercard
2,AL,Kimble,Male,Account Coordinator,3,3,Music,3764,mastercard


In [25]:
# ANÁLISE DE TIPO DE DADOS

df_result.info()

<class 'pandas.DataFrame'>
RangeIndex: 296 entries, 0 to 295
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   state_name  296 non-null    str  
 1   First_name  296 non-null    str  
 2   Gender      296 non-null    str  
 3   Job_Title   296 non-null    str  
 4   Id_client   296 non-null    int64
 5   id_client   296 non-null    int64
 6   Category    296 non-null    str  
 7   Price       296 non-null    str  
 8   Card Type   296 non-null    str  
dtypes: int64(2), str(7)
memory usage: 20.9 KB


In [26]:
# LIMPEZA E TRANSFORMAÇÃO DOS DADOS

df_result.drop(columns=['Job_Title', 'First_name', 'id_client'], inplace=True)
df_result.columns = (
    df_result.columns
    .str.strip()
    .str.upper()
    .str.replace(' ', '_')
)

df_result['STATE_NAME'] = df_result['STATE_NAME'].str.upper()
df_result['GENDER'] = df_result['GENDER'].str.upper()
df_result['CATEGORY'] = df_result['CATEGORY'].str.upper()
df_result['CARD_TYPE'] = df_result['CARD_TYPE'].str.upper()

df_result['PRICE'] = df_result['PRICE'].str.replace(',', '.', regex=False)
df_result['PRICE'] = df_result['PRICE'].astype(float)

df_result = df_result[['ID_CLIENT', 'GENDER', 'STATE_NAME', 'CATEGORY', 'PRICE', 'CARD_TYPE']]


In [27]:
df_result.head(3)

Unnamed: 0,ID_CLIENT,GENDER,STATE_NAME,CATEGORY,PRICE,CARD_TYPE
0,1,MALE,TX,OUTDOORS,16.97,MASTERCARD
1,2,MALE,MI,GROCERY,143.39,MASTERCARD
2,3,MALE,AL,MUSIC,37.64,MASTERCARD


In [28]:
# VERIFICANDO ERROS DE DIGITAÇÃO

print("GENDER:", df_result['GENDER'].unique(), "\n")
print("STATE_NAME:", df_result['STATE_NAME'].unique(), "\n")
print("CATEGORY:", df_result['CATEGORY'].unique(), "\n")
print("CARD_TYPE:", df_result['CARD_TYPE'].unique(), "\n")

GENDER: <StringArray>
[       'MALE',      'FEMALE', 'GENDERFLUID', 'GENDERQUEER',  'NON-BINARY',
  'POLYGENDER',     'AGENDER',    'BIGENDER']
Length: 8, dtype: str 

STATE_NAME: <StringArray>
['TX', 'MI', 'AL', 'IL', 'MN', 'VA', 'CO', 'PA', 'CA', 'NC', 'DC', 'OH', 'MD',
 'LA', 'FL', 'GA', 'NE', 'WA', 'ND', 'MA', 'OR', 'MS', 'AZ', 'NY', 'NV', 'WV',
 'MO', 'AR', 'SD', 'KY', 'CT', 'ID', 'IN', 'KS', 'NJ', 'UT', 'HI', 'TN', 'OK']
Length: 39, dtype: str 

CATEGORY: <StringArray>
[   'OUTDOORS',     'GROCERY',       'MUSIC',     'JEWELRY',      'BEAUTY',
       'GAMES',       'SHOES',   'COMPUTERS',        'BABY',  'INDUSTRIAL',
      'SPORTS',  'AUTOMOTIVE',        'TOYS',        'KIDS',        'HOME',
       'TOOLS',    'CLOTHING', 'ELECTRONICS',      'HEALTH',       'BOOKS',
      'MOVIES',      'GARDEN']
Length: 22, dtype: str 

CARD_TYPE: <StringArray>
['MASTERCARD']
Length: 1, dtype: str 



In [29]:
# EXPORTAÇÃO DO DATASET FINAL PARA ANÁLISE

df_result.to_csv("dados_ecommerce_tratado.csv", index=False)

**Dicas para o projeto:**
- Se atente que, como o mesmo cliente realiza mais de 1 transação quando você for trazer alguma métrica relacionada a dados do cliente terá que utilizar o distinct para criar essas métricas no dashboard, se não acabará tendo os dados repetidos.

- Análise sua tabela, entenda a dimensão dos dados, no excel, antes de enviar para o Powerbi ou Looker Studio.

- Tente montar preveamente um roteiro de quais métricas e visualizações irá colocar no dashboard, isso tornará seu processo mais rápido.

- Qualquer dificuldade para subir sua base para as ferramentas de visualização envie a base e o erro encontrado para que os tutores possam te ajudar.

Link para o dashboard: https://lookerstudio.google.com/reporting/502fcb0f-83e9-46a3-ad6b-ec6aa0fba27c