**Objetivo do Projeto:**

Tratamento de Dados: Realizar a junção (JOIN) de duas tabelas utilizando SQL para consolidar as informações.
Análise de Dados: Exportar os dados resultantes para um arquivo CSV

**Tabelas Disponibilizadas:**

**Tabela de Transações:** Contém os registros de transações realizadas pelos clientes, incluindo detalhes como ID da transação, valor e outros.


**Tabela de Dados Pessoais:** Contém as informações pessoais dos clientes, como ID do cliente, nome, genero, cidade, etc.

**Chave de Ligação:** As tabelas se relacionam através da coluna ID_CLIENT, que é a chave identificadora dos clientes.

# Etapas do Projeto:

1. Realizar um JOIN SQL nas duas tabelas, unificando as informações através da coluna ID_CLIENT. Você deve justificar a escolha do JOIN (Inner/ Left/ Right ou Full).

2. Exportar os dados consolidados resultantes do JOIN para um arquivo CSV.

3. Utilizar Looker Studio ou Power BI para importar o arquivo CSV.

4. Criar visualizações interativas que apresentem métricas importantes, como total de vendas, número de transações, distribuição geográfica dos clientes, perfil demográfico dos clientes, entre outros.

Abaixo temos a configuração do ambiente SQL:

In [4]:
import sqlite3
import pandas as pd

In [5]:
df_transacoes = pd.read_csv("/content/TB_TRANSACOES_PROJETO_ECOMM .csv", delimiter=';')
df_clientes = pd.read_csv("/content/TB_CLIENTES_PROJETO_ECOMM .csv", delimiter=';')

In [6]:
conn = sqlite3.connect('projeto.db')

# Carregar o DataFrame no banco de dados SQLite
# criando tb_transacoes e tb_clientes
df_transacoes.to_sql('tb_transacoes', conn, index=False, if_exists='replace')
df_clientes.to_sql('tb_clientes', conn, index=False, if_exists='replace')

175

In [7]:
# Função para executar consultas SQL e retornar o resultado como um DataFrame
def run_query(query):
    return pd.read_sql_query(query, conn)

In [8]:
query = """
select * from tb_transacoes

"""
result_df = run_query(query)
print(result_df)

query = """
select * from tb_clientes

"""
result_df = run_query(query)
print(result_df)


     id_client     Category   Price   Card Type
0           37  Electronics   72,93  mastercard
1           38      Jewelry  121,89  mastercard
2           39         Baby    64,3  mastercard
3           40     Outdoors    9,48  mastercard
4            5     Outdoors   61,95  mastercard
..         ...          ...     ...         ...
362        363      Jewelry   44,32  mastercard
363        364         Kids  120,42  mastercard
364        365      Grocery   24,31  mastercard
365        366        Tools  111,53  mastercard
366        367    Computers   84,57  mastercard

[367 rows x 4 columns]
    state_name First_name   Gender                     Job_Title  Id_client
0           TX    Domingo     Male  Structural Analysis Engineer          1
1           MI    Russell     Male            Speech Pathologist          2
2           AL     Kimble     Male           Account Coordinator          3
3           IL   Barnabas     Male               General Manager          4
4           MN     T

In [9]:

query = """
select * from tb_transacoes as t
left join tb_clientes as c
on t.ID_CLIENT = c.ID_CLIENT
"""
result_df = run_query(query)
print(result_df)

     id_client     Category   Price   Card Type state_name First_name  \
0           37  Electronics   72,93  mastercard         ND     Cornie   
1           38      Jewelry  121,89  mastercard         PA        Rab   
2           39         Baby    64,3  mastercard         MA      Codie   
3           40     Outdoors    9,48  mastercard         OR      Scott   
4            5     Outdoors   61,95  mastercard         MN     Tanney   
..         ...          ...     ...         ...        ...        ...   
362        363      Jewelry   44,32  mastercard       None       None   
363        364         Kids  120,42  mastercard       None       None   
364        365      Grocery   24,31  mastercard       None       None   
365        366        Tools  111,53  mastercard       None       None   
366        367    Computers   84,57  mastercard       None       None   

          Gender          Job_Title  Id_client  
0    Genderqueer             Editor       37.0  
1           Male  Assista

Justifique a escolha do JOIN: left join anula linhas com dados nulos vindos da segunda tabela.

In [10]:
print(result_df.isnull().sum()) # Verificando a presença de dados nulos

id_client      0
Category       0
Price          0
Card Type      0
state_name    71
First_name    71
Gender        71
Job_Title     71
Id_client     71
dtype: int64


In [11]:
#Deletando dados nulos do dataframe

#Removendo linhas com  valores nulos
result_df_cleaned = result_df.dropna()

# Verificando se os valores nulos foram removidos
print(result_df_cleaned.isnull().sum())

# Salvando dados
result_df = result_df_cleaned
print(result_df)

id_client     0
Category      0
Price         0
Card Type     0
state_name    0
First_name    0
Gender        0
Job_Title     0
Id_client     0
dtype: int64
     id_client     Category   Price   Card Type state_name First_name  \
0           37  Electronics   72,93  mastercard         ND     Cornie   
1           38      Jewelry  121,89  mastercard         PA        Rab   
2           39         Baby    64,3  mastercard         MA      Codie   
3           40     Outdoors    9,48  mastercard         OR      Scott   
4            5     Outdoors   61,95  mastercard         MN     Tanney   
..         ...          ...     ...         ...        ...        ...   
354        120         Baby   24,97  mastercard         NY      Dougy   
355        121     Clothing  145,64  mastercard         OH     Bartel   
356        122     Clothing   46,16  mastercard         KS      Inigo   
357        123        Books   39,03  mastercard         VA       Ross   
358        124       Health  142,63  mas

Exportando o arquivo como CSV:

In [12]:
# confirmando saida do projeto
print(result_df)
result_df.to_csv('dados_ecommerce_final.csv', index=False)

     id_client     Category   Price   Card Type state_name First_name  \
0           37  Electronics   72,93  mastercard         ND     Cornie   
1           38      Jewelry  121,89  mastercard         PA        Rab   
2           39         Baby    64,3  mastercard         MA      Codie   
3           40     Outdoors    9,48  mastercard         OR      Scott   
4            5     Outdoors   61,95  mastercard         MN     Tanney   
..         ...          ...     ...         ...        ...        ...   
354        120         Baby   24,97  mastercard         NY      Dougy   
355        121     Clothing  145,64  mastercard         OH     Bartel   
356        122     Clothing   46,16  mastercard         KS      Inigo   
357        123        Books   39,03  mastercard         VA       Ross   
358        124       Health  142,63  mastercard         DC       Saul   

          Gender                      Job_Title  Id_client  
0    Genderqueer                         Editor       37.0  
1