## 📊 Etapa 01 - Importação e Tratamento de Dados

### 1. Introdução e Contexto

Nesta primeira etapa, focamos na **importação, validação e limpeza** dos dados que serão utilizados nas próximas análises.

**Objetivos principais:**
- Importar dados de múltiplas fontes CSV
- Realizar análise exploratória (EDA) completa
- Garantir a qualidade dos dados através de tratamentos adequados

**Tecnologias utilizadas:**
- 🛢️ `Linguagem SQL` 
- 📋 `Databricks`

**Escopo do projeto:**
- 7 tabelas relacionadas ao processo de vendas
- Dados históricos de 3 anos
- Processo completo de ETL (Extract, Transform, Load)

### 2. Fontes de Dados

Os dados utilizados neste projeto foram extraídos do sistema ERP da empresa e fornecidos em formato CSV.

**Estrutura de arquivos:**


| Tabela     | Descrição                     										   | 
|------------|--------------------------------------------------------------------------|
|*Clientes*    |Contém informações cadastrais e demográficas detalhadas de cada clientes. |
|*Devoluções*  |Registra as devoluções dos produtos.
|*Itens*		 | Detalha os itens vendidos em cada venda.
|*Localidades* | Armazena informações geográficas das lojas.			
|*Lojas*		 | Contém informações sobre as lojas.
|*Produtos*	 | Armazena informações sobre os produtos vendidos.
|*Vendas*      | Registra as vendas realizadas.

### 3.Importação dos dados

#### 3.1 Upload dos arquivos para o Ambiente Databricks

<p align="justify">
	

Neste projeto, os dados foram carregados diretamente como **tabelas** no ambiente Databricks, utilizando arquivos no formato CSV. O carregamento dos arquivos CSV (clientes, devoluções, itens, localidades, lojas, produtos e vendas) foi realizado para o DBFS (Databricks File System), o sistema de arquivos distribuído nativo da plataforma.
![](/Workspace/Users/edutrindade97@gmail.com/Imagens/importando_csv.png)



### 4. Exploração Inicial dos dados
A **Análise Exploratória de Dados (EDA** - *Exploratory Data Analysis*) é uma etapa fundamental no tratamento de dados, onde investigamos o conjunto de dados para entender suas características, identificar problemas e preparação para modelagem dos dados.

Técnicas aplicadas:

✅ Verificação de estrutura e tipos de dados da tabela

🔍 Identificação de valores ausentes (NULL)

🧹 Detecção e tratamento de duplicatas

📐 Padronização de formatos (datas, textos)

🚨 Identificação de outliers e inconsistências


#### 4.1 Tabela Clientes
<hr>

In [0]:
-- Tabela Clientes
SELECT * FROM clientes LIMIT 20;

ID_Cliente,Primeiro_Nome,Sobrenome,Email,Genero,Data_Nascimento,Estado_Civil,Num_Filhos,Nivel_Escolar,Documento,Id_Localidade
11000,STHEFESON,PEREIRA,sthefeson8@icloud.com,M,1966-08-04,C,2,Superior Completo,80912350,32
11001,ANTONIO,MANHÃES,antonio19@hotmail.com.br,M,1965-05-14,S,3,Superior Completo,18106981686,30
11002,BIANCA,PAZ,bianca53@live.com.br,F,1965-12-08,C,3,Superior Completo,77468986692,24
11003,SILVIO,FAHRNHOLZ,silvio21@hotmail.com.br,M,1968-02-15,S,0,Superior Completo,28009530521,1
11004,LUIZA,CABRAL,luiza70@msn.com,F,1968-08-08,S,5,Superior Completo,16316472002,4
11005,ANA,SILVA,ana59@outlook.com.br,F,1965-05-08,S,0,Superior Completo,4013622223,21
11007,NATALIA,MARINHO,natalia44@icloud.com,F,1964-09-05,C,3,Superior Completo,37087830006,34
11008,LEONARDO,FERREIRA,leonardo63@yahoo.com.br,M,1964-07-07,S,4,Superior Completo,81547961498,12
11009,CHAN,SANTOS,chan17@uol.com,F,1964-01-04,S,0,Superior Completo,9307863580,16
11010,FERNANDA,FERREIRA,fernanda31@yahoo.com,F,1964-06-02,S,0,Superior Completo,65608656996,17


#### 4.1.1 Verificação da estrutura e tipos de dados da tabela


**Informações dos campos da tabela:**
- `Cliente_ID`: Identificador único do cliente
- `Primeiro_nome`: Nome do cliente
- `Sobrenome`: Sobrenome do cliente
- `Email`: Endereço de e-mail do cliente
- `Genero`: M(Masculino) ou F(Feminino).
- `Data_Nascimento`: Data de nascimento no formato AAAA/MM/AA
- `Estado_Civil`: C(Casado), S(Solteiro)
- `Num_Filhos`: Número de filhos.
- `Nivel_Escolar`: (Ensino Médio Incompleto, Superior Incompleto, Ensino Médio Completo, Pós Graduação e Superior Completo).
- `Documento`: CPF ou RG
- `Id_Localidade`: Código numérico que pode representar cidade, estado ou região

In [0]:
-- Tipos de dados
DESCRIBE clientes;

col_name,data_type,comment
ID_Cliente,bigint,
Primeiro_Nome,string,
Sobrenome,string,
Email,string,
Genero,string,
Data_Nascimento,date,
Estado_Civil,string,
Num_Filhos,bigint,
Nivel_Escolar,string,
Documento,bigint,


In [0]:
-- Total de Registros
SELECT COUNT(*) AS total_registros FROM Clientes;

total_registros
18148


#### 4.1.2 Identificação de valores ausentes (NULL)

A tabela não possui registros com `valores nulos`

In [0]:
SELECT
    *
FROM Clientes
WHERE 
    ID_Cliente      IS NULL OR
    Primeiro_Nome   IS NULL OR
    Sobrenome       IS NULL OR
    Email           IS NULL OR
    Genero          IS NULL OR
    Data_Nascimento IS NULL OR
    Estado_Civil    IS NULL OR
    Num_Filhos      IS NULL OR
    Nivel_Escolar   IS NULL OR
    Documento       IS NULL OR
    Id_Localidade   IS NULL;

ID_Cliente,Primeiro_Nome,Sobrenome,Email,Genero,Data_Nascimento,Estado_Civil,Num_Filhos,Nivel_Escolar,Documento,Id_Localidade


#### 4.1.3 Detecção e tratamento de duplicatas

A tabela de clientes não possui `valores duplicados`

In [0]:
-- Verificando dados duplicados
SELECT 
    COUNT(*) AS quantidade_duplicados
FROM 
    Clientes
GROUP BY 
    id_cliente, primeiro_nome, sobrenome, email, genero, 
    data_nascimento, estado_civil, num_filhos, nivel_escolar, 
    documento, id_localidade
HAVING 
    COUNT(*) > 1;

ID_Cliente,Primeiro_Nome,Sobrenome,Email,Genero,Data_Nascimento,Estado_Civil,Num_Filhos,Nivel_Escolar,Documento,Id_Localidade,Rn


#### 4.1.4 Padronização de formatos (textos)

***Problemas Encontrados:***
- ❌Nomes e sobrenomes em CAIXA ALTA

In [0]:
SELECT * FROM clientes LIMIT 20;

ID_Cliente,Primeiro_Nome,Sobrenome,Email,Genero,Data_Nascimento,Estado_Civil,Num_Filhos,Nivel_Escolar,Documento,Id_Localidade
11000,STHEFESON,PEREIRA,sthefeson8@icloud.com,M,1966-08-04,C,2,Superior Completo,80912350,32
11001,ANTONIO,MANHÃES,antonio19@hotmail.com.br,M,1965-05-14,S,3,Superior Completo,18106981686,30
11002,BIANCA,PAZ,bianca53@live.com.br,F,1965-12-08,C,3,Superior Completo,77468986692,24
11003,SILVIO,FAHRNHOLZ,silvio21@hotmail.com.br,M,1968-02-15,S,0,Superior Completo,28009530521,1
11004,LUIZA,CABRAL,luiza70@msn.com,F,1968-08-08,S,5,Superior Completo,16316472002,4
11005,ANA,SILVA,ana59@outlook.com.br,F,1965-05-08,S,0,Superior Completo,4013622223,21
11007,NATALIA,MARINHO,natalia44@icloud.com,F,1964-09-05,C,3,Superior Completo,37087830006,34
11008,LEONARDO,FERREIRA,leonardo63@yahoo.com.br,M,1964-07-07,S,4,Superior Completo,81547961498,12
11009,CHAN,SANTOS,chan17@uol.com,F,1964-01-04,S,0,Superior Completo,9307863580,16
11010,FERNANDA,FERREIRA,fernanda31@yahoo.com,F,1964-06-02,S,0,Superior Completo,65608656996,17


***Ações Tomadas:***

**Normalização de nomes**

Ao analisar a tabela, identifiquei que as colunas Primeiro_nome e Sobrenome estão com todos os caracteres em letras maiúsculas, o que não corresponde ao formato padrão desejado. Para corrigir esse problema, utilizarei o comando `UPDATE` na tabela clientes, ajustando os registros para que apenas a primeira letra de cada nome e sobrenome fique em maiúscula, seguindo a convenção adequada.

In [0]:
UPDATE Clientes
   SET Primeiro_Nome = CONCAT(UPPER(LEFT(Primeiro_Nome, 1)) , LOWER(SUBSTRING(Primeiro_Nome, 2, LEN(Primeiro_Nome))));

UPDATE Clientes
   SET Sobrenome = CONCAT(UPPER(LEFT(Sobrenome, 1)) , LOWER(SUBSTRING(Sobrenome, 2, LEN(Sobrenome))))

num_affected_rows
18148


In [0]:
SELECT * FROM Clientes LIMIT 20;

ID_Cliente,Primeiro_Nome,Sobrenome,Email,Genero,Data_Nascimento,Estado_Civil,Num_Filhos,Nivel_Escolar,Documento,Id_Localidade
11000,Sthefeson,Pereira,sthefeson8@icloud.com,M,1966-08-04,C,2,Superior Completo,80912350,32
11001,Antonio,Manhães,antonio19@hotmail.com.br,M,1965-05-14,S,3,Superior Completo,18106981686,30
11002,Bianca,Paz,bianca53@live.com.br,F,1965-12-08,C,3,Superior Completo,77468986692,24
11003,Silvio,Fahrnholz,silvio21@hotmail.com.br,M,1968-02-15,S,0,Superior Completo,28009530521,1
11004,Luiza,Cabral,luiza70@msn.com,F,1968-08-08,S,5,Superior Completo,16316472002,4
11005,Ana,Silva,ana59@outlook.com.br,F,1965-05-08,S,0,Superior Completo,4013622223,21
11007,Natalia,Marinho,natalia44@icloud.com,F,1964-09-05,C,3,Superior Completo,37087830006,34
11008,Leonardo,Ferreira,leonardo63@yahoo.com.br,M,1964-07-07,S,4,Superior Completo,81547961498,12
11009,Chan,Santos,chan17@uol.com,F,1964-01-04,S,0,Superior Completo,9307863580,16
11010,Fernanda,Ferreira,fernanda31@yahoo.com,F,1964-06-02,S,0,Superior Completo,65608656996,17
