
## Projeto: Analisando Vendas de Produtos Eletrônicos
Este projeto tem como foco a análise de dados da empresa fictícia Nova Varejo que atua nos segmentos de eletrônicos e vestuário. Com um portfólio diversificado que inclui desde dispositivos móveis, computadores e acessórios tecnológicos de ponta até camisas, casacos e relógios, a empresa possui uma presença global, operando em múltiplos continentes por meio de canais online e lojas físicas. Seu público-alvo abrange desde consumidores individuais até pequenas e grandes empresas, o que demanda uma abordagem analítica abrangente e detalhada.

Este projeto de análise de vendas é dividido em seis etapas principais.​

A [**Etapa 00 – Entendimento do Negócio**] consiste em compreender os objetivos da empresa, o problema a ser resolvido e quais decisões serão orientadas pelos dados.

Em seguida, a [**Etapa 01 – Carregamento dos Dados**] envolve a coleta de dados brutos, a verificação de sua qualidade e a aplicação de técnicas para corrigir inconsistências, remover duplicatas e padronizar os formatos. Na [**Etapa 02 – Modelagem dos Dados**], os dados são organizados de forma estruturada, criando tabelas e relacionamentos que facilitam a análise, como tabelas fato e dimensão.

A [**Etapa 03 – Perguntas de Negócio**] traduz os objetivos em perguntas estratégicas que guiarão a análise, como identificar os produtos mais vendidos ou as lojas com melhor desempenho.

Já a [**Etapa 04 – Análise Descritiva**] utiliza ferramentas estatísticas e visuais para explorar os dados, identificar padrões, tendências e anomalias relevantes.

Por fim, a [**Etapa 05 – Relatório**] apresenta os resultados em formatos claros e objetivos, como dashboards, apresentações ou documentos, permitindo que os tomadores de decisão utilizem os insights obtidos de forma prática.


### 📝Etapa 00 - Entendimento do Negócio

​Recém-contratado como Analista de Dados na empresa Nova Varejo, fui designado para realizar uma análise descritiva com base nas vendas das lojas físicas e da plataforma de e-commerce da empresa, no período de janeiro/20 a junho/22. A liderança quer entender melhor o comportamento dos clientes, desempenho dos produtos e lojas em diferentes regiões, otimizar estratégias de vendas e reduzir custos.

**Objetivo**:  *Apresentar um relatório com insights que possam apoiar a tomada de decisões.*


### 📥Etapa 01 - Carregamento dos Dados

Os dados foram disponibilizados em formato de arquivos csv extraídos do sistema da empresa. Os dados estão dispostos em 7 tabelas:


![](/Workspace/Users/edutrindade97@gmail.com/tabelas.png)

Explicação de cada campo da tabela:

**Clientes**




O script abaixo realiza a importação de múltiplos arquivos CSV de um diretório específico no Databricks, transformando cada arquivo em uma tabela com o mesmo nome do arquivo original (sem a extensão .csv).


In [0]:
%python
# Script de Importação dos arquivos csv

# Lista todos arquivos CSV no diretório
csv_files = dbutils.fs.ls("dbfs:/Volumes/workspace/default/estudo/")  
csv_files = [file.path for file in csv_files if file.name.endswith('.csv')]

for file_path in csv_files:
    try:
        # Extrai o nome da tabela do nome do arquivo
        table_name = file_path.split('/')[-1].replace('.csv', '')
        
        # Lê o arquivo CSV com tratamento de erros
        df = (spark.read
              .option("header", "true")
              .option("delimiter", ";")  # Ajuste para o delimitador correto
              .option("inferSchema", "true")
              .option("encoding", "UTF-8")  # Adicionado para tratar encoding
              .csv(file_path))
        
        # Salva como tabela permanente no schema default
        df.write.mode("overwrite").saveAsTable(table_name)
        
        print(f"✅ Arquivo {file_path} importado com sucesso como tabela {table_name}")
        
    except Exception as e:
        print(f"❌ Erro ao processar {file_path}: {str(e)}")

✅ Arquivo dbfs:/Volumes/workspace/default/estudo/Clientes.csv importado com sucesso como tabela Clientes
✅ Arquivo dbfs:/Volumes/workspace/default/estudo/Devolucoes.csv importado com sucesso como tabela Devolucoes
✅ Arquivo dbfs:/Volumes/workspace/default/estudo/Itens.csv importado com sucesso como tabela Itens
✅ Arquivo dbfs:/Volumes/workspace/default/estudo/Localidades.csv importado com sucesso como tabela Localidades
✅ Arquivo dbfs:/Volumes/workspace/default/estudo/Lojas.csv importado com sucesso como tabela Lojas
✅ Arquivo dbfs:/Volumes/workspace/default/estudo/Produtos.csv importado com sucesso como tabela Produtos
✅ Arquivo dbfs:/Volumes/workspace/default/estudo/Vendas.csv importado com sucesso como tabela Vendas


### 🔍Inspecionando as Tabelas
Agora iremos verificar como os dados estão dispostos em cada tabela do banco de dados. Analisaremos possíveis valores duplicados e valores nulos, verificação dos tipos de dados e total de registros.

#### 📶Tabela Clientes

In [0]:
-- Verificando os dados tabela
SELECT * FROM Clientes LIMIT 20;

ID_Cliente,Primeiro_Nome,Sobrenome,Email,Genero,Data_Nascimento,Estado_Civil,Num_Filhos,Nivel_Escolar,Documento,Id_Localidade
11000,STHEFESON,PEREIRA,sthefeson8@icloud.com,M,1966-08-04,C,2,Superior Completo,80912350,32
11001,ANTONIO,MANHÃES,antonio19@hotmail.com.br,M,1965-05-14,S,3,Superior Completo,18106981686,30
11002,BIANCA,PAZ,bianca53@live.com.br,F,1965-12-08,C,3,Superior Completo,77468986692,24
11003,SILVIO,FAHRNHOLZ,silvio21@hotmail.com.br,M,1968-02-15,S,0,Superior Completo,28009530521,1
11004,LUIZA,CABRAL,luiza70@msn.com,F,1968-08-08,S,5,Superior Completo,16316472002,4
11005,ANA,SILVA,ana59@outlook.com.br,F,1965-05-08,S,0,Superior Completo,4013622223,21
11007,NATALIA,MARINHO,natalia44@icloud.com,F,1964-09-05,C,3,Superior Completo,37087830006,34
11008,LEONARDO,FERREIRA,leonardo63@yahoo.com.br,M,1964-07-07,S,4,Superior Completo,81547961498,12
11009,CHAN,SANTOS,chan17@uol.com,F,1964-01-04,S,0,Superior Completo,9307863580,16
11010,FERNANDA,FERREIRA,fernanda31@yahoo.com,F,1964-06-02,S,0,Superior Completo,65608656996,17


In [0]:
-- Verificando o total de registros
SELECT COUNT(*) AS Total_Registros_Clientes FROM Clientes;

Total_Registros_Clientes
18148


In [0]:
-- Verificando os tipos de dados
DESCRIBE Clientes;

col_name,data_type,comment
ID_Cliente,int,
Primeiro_Nome,string,
Sobrenome,string,
Email,string,
Genero,string,
Data_Nascimento,date,
Estado_Civil,string,
Num_Filhos,int,
Nivel_Escolar,string,
Documento,bigint,


In [0]:
-- Verificando dados duplicados
SELECT 
    COUNT(*) AS quantidade_duplicados
FROM 
    Clientes
GROUP BY 
    id_cliente, primeiro_nome, sobrenome, email, genero, 
    data_nascimento, estado_civil, num_filhos, nivel_escolar, 
    documento, id_localidade
HAVING 
    COUNT(*) > 1;

quantidade_duplicados


In [0]:
-- Verificando valores nulos
SELECT 
  * 
FROM Clientes 
WHERE id_cliente IS NULL OR
  primeiro_nome IS NULL OR
  sobrenome IS NULL OR
  email IS NULL OR
  genero IS NULL OR
  data_nascimento IS NULL OR
  estado_civil IS NULL OR
  num_filhos IS NULL OR
  nivel_escolar IS NULL OR
  documento IS NULL OR
  id_localidade IS NULL;


ID_Cliente,Primeiro_Nome,Sobrenome,Email,Genero,Data_Nascimento,Estado_Civil,Num_Filhos,Nivel_Escolar,Documento,Id_Localidade


**Verificação Tabela Clientes**
- ✅ Total de Registros: 18148
- ✅ Tipos de dados: Formato Correto
- ✅ Dados Duplicados: 0
- ✅ Valores Nulos: 0

#### 📶Tabela Devoluções

In [0]:
-- Verificando os dados tabela
SELECT * FROM devolucoes LIMIT 20;

Data_Devolucao,ID_Loja,SKU,Qtd_Devolvida,Motivo_Devolucao,rn
2020-01-18,306,HL43,1,Produto com defeito,1
2020-01-18,309,HL45,1,Produto com defeito,1
2020-01-21,41,HL67,1,Produto com defeito,1
2020-01-22,306,HL44,1,Nao informado,1
2020-02-02,309,HL45,1,Produto com defeito,1
2020-02-15,2,HL45,1,Produto com defeito,1
2020-02-19,308,HL44,1,Produto com defeito,1
2020-02-24,199,HL47,1,Arrependimento,1
2020-03-08,177,HL71,1,Produto com defeito,1
2020-03-13,307,HL71,1,Produto com defeito,1


In [0]:
-- Verificando o total de registros
SELECT COUNT(*) AS Total_Registros_Devolucoes FROM devolucoes;

Total_Registros_Devolucoes
1809


In [0]:
-- Verificando os tipos de dados
DESCRIBE devolucoes;

col_name,data_type,comment
Data_Devolucao,date,
ID_Loja,int,
SKU,string,
Qtd_Devolvida,int,
Motivo_Devolucao,string,
rn,int,


In [0]:
-- Verificando dados duplicados
SELECT 
    COUNT(*) AS quantidade_duplicados
FROM 
    devolucoes
GROUP BY 
    Data_Devolucao, ID_Loja, SKU, Qtd_Devolvida, Motivo_Devolucao
HAVING 
    COUNT(*) > 1;

quantidade_duplicados
2


In [0]:
-- Verificando quais Registros estão Duplicados
SELECT 
   * 
FROM 
    devolucoes
GROUP BY 
    Data_Devolucao, ID_Loja, SKU, Qtd_Devolvida, Motivo_Devolucao
HAVING 
    COUNT(*) > 1;

Data_Devolucao,ID_Loja,SKU,Qtd_Devolvida,Motivo_Devolucao
2022-05-05,200,HL170,1,Produto com defeito


In [0]:
-- Passo 1: Criando uma tabela temporária apenas com os registros únicos
CREATE OR REPLACE TABLE devolucoes_temp AS
SELECT 
  Data_Devolucao,
  ID_Loja,
  SKU,
  Qtd_Devolvida,
  Motivo_Devolucao
FROM (
  SELECT 
    *,
    ROW_NUMBER() OVER(PARTITION BY Data_Devolucao, ID_Loja, SKU, Qtd_Devolvida, Motivo_Devolucao ORDER BY Data_Devolucao) AS rn
  FROM devolucoes
)
WHERE rn = 1;

-- Passo 2: Substituindo a tabela original pelos dados limpos
DROP TABLE devolucoes;

ALTER TABLE devolucoes_temp RENAME TO devolucoes;




num_affected_rows,num_inserted_rows


In [0]:
-- Verificando os dados duplicados novamente
SELECT 
   * 
FROM 
    devolucoes
GROUP BY 
    Data_Devolucao, ID_Loja, SKU, Qtd_Devolvida, Motivo_Devolucao
HAVING 
    COUNT(*) > 1;

Data_Devolucao,ID_Loja,SKU,Qtd_Devolvida,Motivo_Devolucao


#### 📶Tabela Itens

In [0]:
SHOW TABLES;

database,tableName,isTemporary
default,itens,False
default,localidades,False
default,lojas,False
default,produtos,False
default,vendas,False
,_sqldf,True


In [0]:
drop table clientes;

drop table lojas;
drop table produtos;
drop table vendas;
-- Verificando os dados duplicados


[0;31m---------------------------------------------------------------------------[0m
[0;31mAnalysisException[0m                         Traceback (most recent call last)
File [0;32m<command-4799191455609930>, line 1[0m
[0;32m----> 1[0m get_ipython()[38;5;241m.[39mrun_cell_magic([38;5;124m'[39m[38;5;124msql[39m[38;5;124m'[39m, [38;5;124m'[39m[38;5;124m'[39m, [38;5;124m'[39m[38;5;124mdrop table clientes;[39m[38;5;130;01m\n[39;00m[38;5;130;01m\n[39;00m[38;5;124mdrop table lojas;[39m[38;5;130;01m\n[39;00m[38;5;124mdrop table produtos;[39m[38;5;130;01m\n[39;00m[38;5;124mdrop table vendas;[39m[38;5;130;01m\n[39;00m[38;5;124m-- Verificando os dados duplicados[39m[38;5;130;01m\n[39;00m[38;5;124m'[39m)

File [0;32m/databricks/python/lib/python3.11/site-packages/IPython/core/interactiveshell.py:2541[0m, in [0;36mInteractiveShell.run_cell_magic[0;34m(self, magic_name, line, cell)[0m
[1;32m   2539[0m [38;5;28;01mwith[39;00m [38;5;28mself[39m

#### 📶Tabela Localidades

#### 📶Tabela Lojas

#### 📶Tabela Produtos

#### 📶Tabela Vendas