## Projeto: Analisando Vendas de Produtos Eletr√¥nicos

<p style="text-align: justify;">
Este projeto tem como foco a an√°lise de dados da empresa fict√≠cia Nova Varejo que atua nos segmentos de eletr√¥nicos e vestu√°rio. Com um portf√≥lio diversificado que inclui desde dispositivos m√≥veis, computadores e acess√≥rios tecnol√≥gicos de ponta at√© camisas, casacos e rel√≥gios, a empresa possui uma presen√ßa global, operando em m√∫ltiplos continentes por meio de canais online e lojas f√≠sicas. Seu p√∫blico-alvo abrange desde consumidores individuais at√© pequenas e grandes empresas, o que demanda uma abordagem anal√≠tica abrangente e detalhada.

Este projeto de an√°lise de vendas √© dividido em seis etapas principais.‚Äã
</p>

<p style="text-align: justify;">
    
A [**Etapa 00 ‚Äì Entendimento do Neg√≥cio**] consiste em compreender os objetivos da empresa, o problema a ser resolvido e quais decis√µes ser√£o orientadas pelos dados.

Em seguida, a [**Etapa 01 ‚Äì Importa√ß√£o e Tratamento dos Dados**] envolve a coleta de dados brutos, a verifica√ß√£o de sua qualidade e a aplica√ß√£o de t√©cnicas para corrigir inconsist√™ncias, remover duplicatas e padronizar os formatos.

Na [**Etapa 02 ‚Äì Modelagem dos Dados**], os dados s√£o organizados de forma estruturada, criando tabelas e relacionamentos que facilitam a an√°lise, como tabelas fato e dimens√£o.

A [**Etapa 03 ‚Äì Perguntas de Neg√≥cio**] traduz os objetivos em perguntas estrat√©gicas que guiar√£o a an√°lise, como identificar os produtos mais vendidos ou as lojas com melhor desempenho.

J√° a [**Etapa 04 ‚Äì An√°lise Descritiva**] utiliza ferramentas estat√≠sticas e visuais para explorar os dados, identificar padr√µes, tend√™ncias e anomalias relevantes.

Por fim, a [**Etapa 05 ‚Äì Relat√≥rio**] apresenta os resultados em formatos claros e objetivos, como dashboards, apresenta√ß√µes ou documentos, permitindo que os tomadores de decis√£o utilizem os insights obtidos de forma pr√°tica.
</p>

### üìùEtapa 00 - Entendimento do Neg√≥cio

<p style="text-align: justify;">
‚ÄãRec√©m-contratado como Analista de Dados J√∫nior na empresa Nova Varejo, fui designado para realizar uma an√°lise descritiva com base nas vendas das lojas f√≠sicas e da plataforma de e-commerce da empresa, no per√≠odo de janeiro/20 a junho/22. A lideran√ßa quer entender melhor o comportamento dos clientes, desempenho dos produtos e lojas em diferentes regi√µes, otimizar estrat√©gias de vendas e reduzir custos.

Objetivo: ¬†Apresentar um relat√≥rio com insights que possam apoiar a tomada de decis√µes.
</p>


### üì•Etapa 01 - Importa√ß√£o e Tratamento dos Dados

#### Conjunto dos Dados‚Äã

Os dados foram disponibilizados em formato de arquivos csv extra√≠dos do sistema da empresa. As tabelas s√£o compostas pelas seguintes informa√ß√µes:

<img align="center" width='550' height = '500' src="attachment:2338d161-c4ce-4ee9-b055-888524982cdb.png"/>

Dicion√°rio de dados: <br>

<img align="center" width='580' height = '500' src="attachment:efda6095-7c0b-457c-93be-dbfae7a97382.png"/>

<img align="center" width='580' height = '500' src="attachment:16016410-e4dd-44b3-b156-bc629808f5f3.png"/>

<img align="center" width='580' height = '500' src="attachment:883cd18c-b669-4ba6-84b2-3caf8a0e7d35.png"/>



### Importando as Tabelas

In [1]:
import os
import pandas as pd
from sqlalchemy import create_engine
import sqlite3

# Configura√ß√µes do banco de dados
database_path = "projeto_vendas_nova_varejo.db"
engine = create_engine(f"sqlite:///{database_path}")

# Pasta dos arquivos (caminho completo)
pasta_arquivos = r"C:\Users\Edutr\OneDrive\√Årea de Trabalho\Projeto Vendas Site Wix\dados"

# Lista dos arquivos (sem extens√£o)
arquivos = [
    "clientes", "devolucoes", "localidades", 
    "itens", "lojas", "vendas", "produtos"
]

for arquivo in arquivos:
    caminho_arquivo = os.path.join(pasta_arquivos, f"{arquivo}.csv")
    
    try:
        # L√™ o CSV com delimitador ';' e encoding apropriado (utf-8 ou latin1)
        df = pd.read_csv(
            caminho_arquivo,
            sep=';',          # Delimitador ;
            encoding='utf-8',  # Ou 'latin1' se houver caracteres especiais
            decimal=',',       # Usar ',' como decimal (opcional, comum em PT-BR)
            thousands='.'     # Usar '.' como separador de milhares (opcional)
        )
        
        # Salva no banco de dados
        df.to_sql(
            arquivo,
            engine,
            if_exists='replace',
            index=False
        )
        print(f"‚úÖ Tabela '{arquivo}' importada com sucesso!")
    except Exception as e:
        print(f"‚ùå Erro em '{arquivo}': {e}")

print("\nüéâ Todos os dados foram importados para o banco de dados!")

‚úÖ Tabela 'clientes' importada com sucesso!
‚úÖ Tabela 'devolucoes' importada com sucesso!
‚úÖ Tabela 'localidades' importada com sucesso!
‚úÖ Tabela 'itens' importada com sucesso!
‚úÖ Tabela 'lojas' importada com sucesso!
‚úÖ Tabela 'vendas' importada com sucesso!
‚úÖ Tabela 'produtos' importada com sucesso!

üéâ Todos os dados foram importados para o banco de dados!


In [2]:
# carrega a extens√£o sql para Jupyter Notebook/IPython que permite executar SQL diretamente nas c√©lulas.
%load_ext sql

In [3]:
# conectando ao banco de dados
%sql sqlite:///projeto_vendas_nova_varejo.db

### Tratamento dos dados
Agora iremos verificar como os dados est√£o dispostos em cada tabela do banco de dados. Trataremos poss√≠veis valores duplicados, valores nulos, remo√ß√£o de espa√ßos vazios, verifica√ß√£o dos tipos de dados e totais de registros.

#### Verifica√ß√£o dos Tipos dos Dados

In [60]:
# tabela clientes
%sql PRAGMA table_info(Clientes);

 * sqlite:///projeto_vendas_nova_varejo.db
Done.


cid,name,type,notnull,dflt_value,pk
0,ID_Cliente,BIGINT,0,,0
1,Primeiro_Nome,TEXT,0,,0
2,Sobrenome,TEXT,0,,0
3,Email,TEXT,0,,0
4,Genero,TEXT,0,,0
5,Data_Nascimento,TEXT,0,,0
6,Estado_Civil,TEXT,0,,0
7,Num_Filhos,BIGINT,0,,0
8,Nivel_Escolar,TEXT,0,,0
9,Documento,BIGINT,0,,0


In [7]:
# tabela Devolu√ß√µes
%sql PRAGMA table_info(Devolucoes);

 * sqlite:///projeto_vendas_nova_varejo.db
Done.


cid,name,type,notnull,dflt_value,pk
0,Data_Devolucao,TEXT,0,,0
1,ID_Loja,BIGINT,0,,0
2,SKU,TEXT,0,,0
3,Qtd_Devolvida,BIGINT,0,,0
4,Motivo_Devolucao,TEXT,0,,0


In [9]:
# tabela localidades
%sql PRAGMA table_info(localidades);

 * sqlite:///projeto_vendas_nova_varejo.db
Done.


cid,name,type,notnull,dflt_value,pk
0,ID_Localidade,BIGINT,0,,0
1,Pais,TEXT,0,,0
2,Continente,TEXT,0,,0


In [8]:
# tabela itens
%sql PRAGMA table_info(itens);

 * sqlite:///projeto_vendas_nova_varejo.db
Done.


cid,name,type,notnull,dflt_value,pk
0,Id_Venda,TEXT,0,,0
1,Ordem_Compra,BIGINT,0,,0
2,Data_Venda,TEXT,0,,0
3,SKU,TEXT,0,,0
4,ID_Cliente,BIGINT,0,,0
5,Qtd_Vendida,BIGINT,0,,0


In [11]:
# tabela lojas
%sql PRAGMA table_info(lojas);

 * sqlite:///projeto_vendas_nova_varejo.db
Done.


cid,name,type,notnull,dflt_value,pk
0,ID_Loja,BIGINT,0,,0
1,Nome_Loja,TEXT,0,,0
2,Quantidade_Colaboradores,BIGINT,0,,0
3,Tipo,TEXT,0,,0
4,id_Localidade,BIGINT,0,,0
5,Gerente_Loja,TEXT,0,,0
6,Documento_Gerente,BIGINT,0,,0


In [12]:
# tabela vendas
%sql PRAGMA table_info(vendas);

 * sqlite:///projeto_vendas_nova_varejo.db
Done.


cid,name,type,notnull,dflt_value,pk
0,Id_Venda,TEXT,0,,0
1,Data_Venda,TEXT,0,,0
2,ID_Cliente,BIGINT,0,,0
3,ID_Loja,BIGINT,0,,0


In [56]:
# tabela produtos
%sql PRAGMA table_info(produtos);

 * sqlite:///projeto_vendas_nova_varejo.db
Done.


cid,name,type,notnull,dflt_value,pk
0,SKU,TEXT,0,,0
1,Produto,TEXT,0,,0
2,Marca,TEXT,0,,0
3,Tipo_Produto,TEXT,0,,0
4,Preco_Unitario,BIGINT,0,,0
5,Custo_Unitario,BIGINT,0,,0
6,Observacao,TEXT,0,,0


#### Valores Duplicados

**Tabela Clientes**

In [68]:
%%sql 
WITH CTE_Duplicatas AS (
    SELECT 
        *,
        ROW_NUMBER() OVER (
            PARTITION BY ID_Cliente, Primeiro_Nome, Sobrenome, Email, Data_Nascimento
            ORDER BY ID_Cliente
        ) AS Rn
    FROM Clientes
)
SELECT *
FROM CTE_Duplicatas
WHERE Rn > 1;

 * sqlite:///projeto_vendas_nova_varejo.db
Done.


ID_Cliente,Primeiro_Nome,Sobrenome,Email,Genero,Data_Nascimento,Estado_Civil,Num_Filhos,Nivel_Escolar,Documento,Id_Localidade,Rn


‚úÖA tabela clientes n√£o possui dados duplicados 

**Tabela Devolu√ß√µes**

In [4]:
%%sql
WITH CTE_Duplicatas AS(
	SELECT 
		*
		,ROW_NUMBER() OVER(PARTITION BY Data_Devolucao, Id_Loja, Sku, Qtd_Devolvida, Motivo_Devolucao
						   ORDER BY Data_Devolucao) AS Rn
	FROM Devolucoes
)
SELECT
	*
FROM CTE_Duplicatas
WHERE Rn > 1;

 * sqlite:///projeto_vendas_nova_varejo.db
Done.


Data_Devolucao,ID_Loja,SKU,Qtd_Devolvida,Motivo_Devolucao,Rn
05/05/2022,200,HL170,1,Produto com defeito,2


‚ùå A tabela devolu√ß√µes possui 1 registro duplicado

In [5]:
%%sql
WITH CTE_Duplicatas AS (
    SELECT 
        rowid,
        ROW_NUMBER() OVER (
            PARTITION BY Data_Devolucao, Id_Loja, Sku, Qtd_Devolvida, Motivo_Devolucao
            ORDER BY Data_Devolucao
        ) AS Rn
    FROM Devolucoes
)
DELETE FROM Devolucoes
WHERE rowid IN (
    SELECT rowid FROM CTE_Duplicatas WHERE Rn > 1
);

 * sqlite:///projeto_vendas_nova_varejo.db
Done.


[]

In [None]:
‚úÖ Registro duplicado exclu√≠do

**Tabela Itens**

In [9]:
%%sql
WITH CTE_Duplicatas AS(
	SELECT 
		*
		,ROW_NUMBER() OVER(PARTITION BY Id_Venda, Ordem_Compra, Data_Venda, SKU, ID_Cliente, Qtd_Vendida
						   ORDER BY Id_Venda) AS Rn
	FROM Itens
)

SELECT
	*
FROM CTE_Duplicatas
WHERE Rn > 1;


 * sqlite:///projeto_vendas_nova_varejo.db
Done.


Id_Venda,Ordem_Compra,Data_Venda,SKU,ID_Cliente,Qtd_Vendida,Rn


‚úÖA tabela itens n√£o possui dados duplicados

**Tabela Localidades**

##### Valores Nulos

##### Remo√ß√£o de Espa√ßos Vazios

##### Totais de Registros