# Arquitetura Medallion
A Arquitetura Medallion é uma abordagem para construir um Data Warehouse ou Data Lake focada em qualidade, confiabilidade e acessibilidade dos dados. Ela organiza os dados em camadas com níveis crescentes de refinamento, estrutura e valor de negócio, similar a um processo de lapidação de um diamante bruto até uma joia polida e valiosa.

As camadas da Arquitetura Medallion são:

1. Bronze (Bruta):

* Objetivo: armazenar os dados brutos, exatamente como foram capturados das fontes originais, sem qualquer transformação ou limpeza.
* Formato: arquivos no formato original (CSV, JSON, XML, etc.), geralmente armazenados em um Data Lake (e.g., HDFS, S3).
* Características:
  * Dados brutos e não processados.
  * Schema-on-read (o esquema é inferido quando os dados são lidos).
  * Alta variedade e volume de dados.
  * Baixa latência de ingestão (dados são disponibilizados rapidamente).
  * Exemplo: logs de aplicação, feeds de dados de sensores, dados de redes sociais.

2. Silver (Aprimorada):

* Objetivo: limpar, transformar e enriquecer os dados brutos da camada Bronze.
* Formato: dados estruturados em formatos como Parquet ou ORC, armazenados em um Data Lake ou Data Warehouse.
* Características:
  * Dados limpos, consistentes e com maior qualidade.
  * Schema-on-write (o esquema é definido antes da escrita dos dados).
  * Dados desduplicados e com valores nulos tratados.
  * Adição de informações contextuais e enriquecimento dos dados.
  * Exemplo: dados de clientes com informações demográficas unificadas e padronizadas, dados de vendas com informações de produtos e promoções.
3. Gold (Refinada):

* Objetivo: criar datasets agregados e otimizados para análises de negócios e tomada de decisão.
* Formato: tabelas dimensionais e fatos, armazenadas em um Data Warehouse, Data Marts ou agregados pré-calculados para dashboards.
* Características:
  * Dados altamente estruturados e organizados para atender às necessidades específicas de negócio.
  * Dados históricos e dados atuais consolidados.
  * Dados otimizados para performance em consultas analíticas.
  * Alta qualidade e confiabilidade dos dados.
  * Exemplo: tabelas de dimensão de tempo, cliente e produto, tabelas de fatos de vendas, indicadores chave de performance (KPIs) pré-calculados.

Benefícios da Arquitetura Medallion:

* Escalabilidade e flexibilidade: permite lidar com grandes volumes e variedade de dados.
* Qualidade e confiabilidade dos dados: assegura a qualidade dos dados através de um processo incremental de refinamento.
* Agilidade: facilita a ingestão e processamento de novos dados.
* Reutilização de dados: permite que os mesmos dados brutos sejam utilizados para diferentes propósitos.
* Governança de dados: facilita a gestão e controle dos dados em cada camada.

![medallion-architecture](https://miro.medium.com/v2/resize:fit:1400/1*O4ey_K0ZbsESf8na7OirJg.jpeg)


# Download dos arquivos

Iremos baixar os arquivos de entrada:
- clients.csv
- vendas.csv

Os dados em `vendas.csv` são relativos a vendas realizadas por atacadistas e distribuidores.

## Dados de clientes

Iremos realizar o download de dados de clientes do link abaixo:

In [None]:
!wget -O clients.csv https://www.dropbox.com/scl/fi/vd5hmlr7ghj2j5rx3w681/clients.csv?rlkey=rmcalhytfjm6nfklw7hhtykid&dl=1

--2024-10-18 22:10:06--  https://www.dropbox.com/scl/fi/vd5hmlr7ghj2j5rx3w681/clients.csv?rlkey=rmcalhytfjm6nfklw7hhtykid
Resolving www.dropbox.com (www.dropbox.com)... 162.125.5.18, 2620:100:601d:18::a27d:512
Connecting to www.dropbox.com (www.dropbox.com)|162.125.5.18|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://uc09f3cf9165c35a70b4fdc9c098.dl.dropboxusercontent.com/cd/0/inline/CctoTeyj_TqSOkcEk6mUwnk11eXK04ldV3NlFa_s7H-ajBNn-0Iaz9eimi4G01HJL5qIu8mrzoEJK8MmSOlP5hBSV_3C_bAlh4S0NW2toPZyw-KFVws7TS1uIxG4eA1GZ0DiNx-Zbu1cRP5JSOjC2haR/file# [following]
--2024-10-18 22:10:07--  https://uc09f3cf9165c35a70b4fdc9c098.dl.dropboxusercontent.com/cd/0/inline/CctoTeyj_TqSOkcEk6mUwnk11eXK04ldV3NlFa_s7H-ajBNn-0Iaz9eimi4G01HJL5qIu8mrzoEJK8MmSOlP5hBSV_3C_bAlh4S0NW2toPZyw-KFVws7TS1uIxG4eA1GZ0DiNx-Zbu1cRP5JSOjC2haR/file
Resolving uc09f3cf9165c35a70b4fdc9c098.dl.dropboxusercontent.com (uc09f3cf9165c35a70b4fdc9c098.dl.dropboxusercontent.com)... 162.125.5.15, 2620:10

**Se não funcionar o download acima, tente o link abaixo:**

---



In [None]:
#!gdown https://drive.google.com/uc?id=1SQn8nCPhdFXFOe2wZ9wn1exTAIdgo2QU

## Dados de vendas

Iremos realizar o download dos dados de vendas presentes no arquivo `vendas.csv`:

In [None]:
!wget -O vendas.csv https://www.dropbox.com/scl/fi/y6h3do8rp9fhovunvj36c/vendas.csv?rlkey=m4yl4h8vzfyg5fq8vyb2sbd2x&st=nz4dme6m&dl=1

--2024-10-18 22:10:09--  https://www.dropbox.com/scl/fi/y6h3do8rp9fhovunvj36c/vendas.csv?rlkey=m4yl4h8vzfyg5fq8vyb2sbd2x
Resolving www.dropbox.com (www.dropbox.com)... 162.125.5.18, 2620:100:601d:18::a27d:512
Connecting to www.dropbox.com (www.dropbox.com)|162.125.5.18|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://uc07ac74abb0f50910e29f6fd1ed.dl.dropboxusercontent.com/cd/0/inline/CcuUpVyE2pjRPHElajdiORqIXIdAPpUEgM95-sZ548BZhZnRab00609h-62iVTESWAec1HCbfzX3DDfm7n_4Hzh4CfH9ZoC5YEiH7Scfefi_u8OMGkhNPISlFgnAvVTjDIpSaSjzO5fW1r_AXJvtWlJM/file# [following]
--2024-10-18 22:10:09--  https://uc07ac74abb0f50910e29f6fd1ed.dl.dropboxusercontent.com/cd/0/inline/CcuUpVyE2pjRPHElajdiORqIXIdAPpUEgM95-sZ548BZhZnRab00609h-62iVTESWAec1HCbfzX3DDfm7n_4Hzh4CfH9ZoC5YEiH7Scfefi_u8OMGkhNPISlFgnAvVTjDIpSaSjzO5fW1r_AXJvtWlJM/file
Resolving uc07ac74abb0f50910e29f6fd1ed.dl.dropboxusercontent.com (uc07ac74abb0f50910e29f6fd1ed.dl.dropboxusercontent.com)... 162.125.5.15, 2620:100

**Se não funcionar o download acima, tente o link abaixo:**

In [None]:
#!gdown https://drive.google.com/uc?id=1ubiLTdjEdy8C86MdkW1HRyPOFZl4irT1

# Analisando dados de vendas
Você está recebendo um conjunto de dados histórico de vendas de ERPs de várias empresas. Temos o histórico de vendas de várias empresas dentro do arquivo e, por isso, podemos ter períodos históricos diferentes de dados de vendas disponíveis.

## Arquivos
- **vendas.csv** - contém dados históricos de vendas até junho de 2022.
- **clients.csv** - dados dos clientes que compraram o produto.

## Campos do arquivo de vendas

- *client_id*: id do cliente.
- *items_count*: número de itens vendidos
- *list_price*: preço do produto no catálogo da empresa.
- *order_date*: data da venda.
- *order_id*: id do pedido. Cada pedido pode conter vários produtos vendidos dentro dele.
- *product_id*: id do produto vendido.
- *sale_price*: preço vendido ao cliente.
- *salesman_id*: id do vendedor.
- *supplier_id*: id do fornecedor do produto. Por exemplo, a indústria fabricando do produto.
- *company_id*: id da empresa. Temos dentro da base o histórico de vendas de várias empresas para clientes finais.
- *product*: nome do produto.
- *salesman*: nome do vendedor.
- *supplier*: nome do fornecedor.
- *client*: nome do cliente.


## Campos do arquivo clients.csv
- *client_id*: id do cliente.
- *cnae_id*: CNAE do cliente que está realizando a compra.
- *cod_city*: código da cidade no IBGE em que o cliente está localizado.
- *cod_tract*: código do setor censitário no IBGE em que o cliente está localizado.
- *cod_uf*: código da UF no IBGE em que o cliente está localizado.
- *city*: cidade do cliente.
- *state*: UF do cliente.
- *client*: nome do cliente.
- *company_id*: id da empresa. Temos dentro da base o histórico de vendas de várias empresas para clientes finais.


## Iniciando o PySpark

Esta célula de código instala o Spark no ambiente de execução Colab. Aqui está uma explicação passo a passo:

1. **`!apt-get install openjdk-11-jdk-headless -qq > /dev/null`**: este comando instala o OpenJDK 11 (versão headless, sem interface gráfica), que é um requisito para o Spark. O `-qq` suprime a saída e o `> /dev/null` redireciona a saída para o nada, tornando o processo mais silencioso.

2. **`!wget -q https://dlcdn.apache.org/spark/spark-3.5.2/spark-3.5.2-bin-hadoop3.tgz`**: Este comando baixa o arquivo compactado do Spark 3.5.2 (construído para o Hadoop 3) do site oficial do Apache Spark. O `-q` suprime a saída de download.

3. **`!tar xf spark-3.5.2-bin-hadoop3.tgz`**: Este comando extrai o arquivo compactado baixado do Spark, criando um diretório chamado `spark-3.5.2-bin-hadoop3`.

4. **`!pip -q install findspark`**: Este comando instala a biblioteca `findspark` usando `pip`. Findspark é uma biblioteca Python que torna mais fácil configurar o Spark em um ambiente Python, principalmente no Colab. Ela define as variáveis de ambiente necessárias para que o Spark funcione corretamente.

Após executar essas linhas, você terá o Spark instalado e pronto para ser usado em seu notebook Colab.

In [None]:
!apt-get install openjdk-11-jdk-headless -qq > /dev/null
!wget -q https://archive.apache.org/dist/spark/spark-3.5.2/spark-3.5.2-bin-hadoop3.tgz
!tar xf spark-3.5.2-bin-hadoop3.tgz
!pip -q install findspark

Defina as variáveis de ambiente do Spark:

In [None]:
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.5.2-bin-hadoop3"

O código a seguir garante que o Spark seja configurado corretamente e esteja pronto para uso em seu ambiente Python.

* **`findspark.init()`**: executa a função `init()` do módulo `findspark`. Esta função:
    * Localiza a instalação do Spark em seu sistema.
    * Configura as variáveis de ambiente necessárias para que o Python possa interagir com o Spark. Isso permite que o driver Python (seu código Python) se comunique com o executor Spark (o código que realmente processa os dados).


In [None]:
import findspark
findspark.init()

Depois de executar a célula anterior, você poderá importar e usar as bibliotecas Spark como `pyspark.sql.SparkSession` para criar uma sessão Spark e começar a trabalhar com dados.

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
spark = SparkSession.builder.appName('Aula 1').master("local[*]").getOrCreate()

# Primeira etapa: carregar os arquivos

Nessa etapa você deve carregar os quatro arquivos abaixos, utilizando o **Spark**

**Dicas:**

- Separador dos arquivos é , (vírgula)
- Os arquivos possuem cabeçalho

In [None]:
clients_df = spark.read.csv("clients.csv", header=True, inferSchema=True)

In [None]:
clients_df.show()

+--------------------+---------+-------+--------+---------------+------+-----+--------------+----------+
|                city|client_id|cnae_id|cod_city|      cod_tract|cod_uf|state|        client|company_id|
+--------------------+---------+-------+--------+---------------+------+-----+--------------+----------+
|                NULL|  c855767|   NULL| 5211503|521150305000094|    52|   GO|Client c855767|       567|
|               POSSE|  c836888|   NULL| 5218300|521830005000006|    52|   GO|Client c836888|       567|
|                 POA|  c836597|   NULL| 3539806|353980605000005|    35|   SP|Client c836597|       567|
|           SAO PAULO|  c836596|   NULL| 3550308|355030837000019|    35|   SP|Client c836596|       567|
|              CUIABA|  c855005|   NULL| 5103403|510340310400031|    51|   MT|Client c855005|       567|
|         BREU BRANCO|  c855045|   NULL| 1501782|150178205000045|    15|   PA|Client c855045|       567|
|APARECIDA DE GOIANIA|  c836630|   NULL| 5201405|520140

In [None]:
clients_df.printSchema()

root
 |-- city: string (nullable = true)
 |-- client_id: string (nullable = true)
 |-- cnae_id: string (nullable = true)
 |-- cod_city: integer (nullable = true)
 |-- cod_tract: long (nullable = true)
 |-- cod_uf: integer (nullable = true)
 |-- state: string (nullable = true)
 |-- client: string (nullable = true)
 |-- company_id: integer (nullable = true)



In [None]:
clients_schema = "city string, client_id string, cnae_id string, \
cod_city integer, cod_tract long, cod_uf integer, state string, client string, \
 company_id integer"
clients_df = spark.read.csv("clients.csv", header=True, schema=clients_schema, mode="DROPMALFORMED")

In [None]:
vendas_df = spark.read.csv("vendas.csv",header=True)

In [None]:
vendas_schema = "client_id string, items_count integer, list_price float, \
order_date date, order_id integer, product_id string, sale_price float, \
salesman_id string, supplier_id string, company_id integer, product string, \
salesman string, supplier string, client string"
vendas_df = spark.read.csv("vendas.csv",header=True, schema=vendas_schema)

In [None]:
vendas_df.printSchema()

root
 |-- client_id: string (nullable = true)
 |-- items_count: integer (nullable = true)
 |-- list_price: float (nullable = true)
 |-- order_date: date (nullable = true)
 |-- order_id: integer (nullable = true)
 |-- product_id: string (nullable = true)
 |-- sale_price: float (nullable = true)
 |-- salesman_id: string (nullable = true)
 |-- supplier_id: string (nullable = true)
 |-- company_id: integer (nullable = true)
 |-- product: string (nullable = true)
 |-- salesman: string (nullable = true)
 |-- supplier: string (nullable = true)
 |-- client: string (nullable = true)



In [None]:
clients_df.show()

+--------------------+---------+-------+--------+---------------+------+-----+--------------+----------+
|                city|client_id|cnae_id|cod_city|      cod_tract|cod_uf|state|        client|company_id|
+--------------------+---------+-------+--------+---------------+------+-----+--------------+----------+
|                NULL|  c855767|   NULL| 5211503|521150305000094|    52|   GO|Client c855767|       567|
|               POSSE|  c836888|   NULL| 5218300|521830005000006|    52|   GO|Client c836888|       567|
|                 POA|  c836597|   NULL| 3539806|353980605000005|    35|   SP|Client c836597|       567|
|           SAO PAULO|  c836596|   NULL| 3550308|355030837000019|    35|   SP|Client c836596|       567|
|              CUIABA|  c855005|   NULL| 5103403|510340310400031|    51|   MT|Client c855005|       567|
|         BREU BRANCO|  c855045|   NULL| 1501782|150178205000045|    15|   PA|Client c855045|       567|
|APARECIDA DE GOIANIA|  c836630|   NULL| 5201405|520140

In [None]:
vendas_df.show()

+---------+-----------+----------+----------+--------+----------+----------+-----------+-----------+----------+-------------+------------+-------------+------------+
|client_id|items_count|list_price|order_date|order_id|product_id|sale_price|salesman_id|supplier_id|company_id|      product|    salesman|     supplier|      client|
+---------+-----------+----------+----------+--------+----------+----------+-----------+-----------+----------+-------------+------------+-------------+------------+
|    c2943|          3|       0.0|2020-05-21|    NULL|     p1477| 25.166666|        s69|       su28|       603|Product p1477|Salesman s69|Supplier su28|Client c2943|
|    c2943|         12|       0.0|2020-05-21|    NULL|      p156|   19.4653|        s69|       su16|       603| Product p156|Salesman s69|Supplier su16|Client c2943|
|    c2092|          2|       0.0|2020-05-21|    NULL|     p1314|    39.985|        s19|       su16|       603|Product p1314|Salesman s19|Supplier su16|Client c2092|
|   

## Spark Pandas

### O que é Spark Pandas?

Spark Pandas é uma biblioteca que fornece uma interface similar ao Pandas para trabalhar com dados em clusters Apache Spark. Isso significa que você pode usar as mesmas funções e métodos do Pandas, mas com a capacidade de processar datasets imensos distribuídos em vários nós.

### Por que usar Spark Pandas?

Para cientistas de dados, o Spark Pandas oferece diversas vantagens:

- Escalabilidade: processa conjuntos de dados enormes com rapidez e eficiência, utilizando a computação distribuída do Spark.
- Familiaridade: permite utilizar a linguagem e as funções do Pandas, que você já conhece, para análise de dados em grande escala.
- Performance: aproveita as otimizações do Spark para acelerar tarefas como leitura, transformação e agregação de dados.
- Integração: funciona perfeitamente com outros componentes do ecossistema Spark, como Spark SQL e MLlib.

Agora vamos fazer a mesma operação de leitura de dados de clientes e vendas com **Spark Pandas** (vide [documentação](https://spark.apache.org/docs/latest/api/python/user_guide/pandas_on_spark/index.html)).

Os clientes vamos armazenar no Dataframe `clients_pdf` e os dados de vendas em `vendas_pdf`. A leitura do csv é semelhante ao Pandas com o método `read_csv`.

In [None]:
import pyspark.pandas as ps



# Camadas da Arquitetura Medallion





## Gold (Dados Agregados):

* Ler os dados da camada Silver.
* Criar agregações para diferentes níveis de análise:
  * Total de vendas por dia.
  * Total de vendas por mês.
  * Total de vendas por cliente.
  * Total de vendas por produto.
  * Total de vendas por vendedor.

Armazenar os dados agregados em tabelas na camada Gold, otimizadas para consultas analíticas.

## Bronze (Dados Brutos):

* Carregar os arquivos CSV vendas.csv e clientes.csv como DataFrames Spark.
* Criar tabelas brutas na camada Bronze, armazenando os dados brutos sem alterações.

In [None]:
# sessão Spark
spark = SparkSession.builder \
    .appName("Arquitetura Medallion") \
    .getOrCreate()

In [None]:
# clients.csv bruto
clientes_df = ps.read_csv("clients.csv", header=0)
# vendas.csv bruto
vendas_df = ps.read_csv("vendas.csv", header=0)



In [None]:
print(clientes_df.shape)
print(vendas_df.shape)

(600750, 9)
(349828, 14)


`muitas duplicadas` na chave primaria o que resultou em varias combinacoes aumentando de mais esse shape dos join

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# salvar as tabelas brutas na camada/pasta Bronze
clientes_df.to_spark().write.option("header", True).mode("overwrite").csv("/content/drive/MyDrive/bronze/clients_bronze.csv")
vendas_df.to_spark().write.option("header", True).mode("overwrite").csv("/content/drive/MyDrive/bronze/vendas_bronze.csv")



## Silver (Dados Limpos e Enriquecidos):

* Ler os dados das tabelas da camada Bronze.
* Limpeza de dados:
  * Remover duplicatas.
  * Tratar valores ausentes, utilizando estratégias adequadas para cada coluna (ex: preenchimento com valores padrão, médias, etc.).
  * Converter tipos de dados para os formatos corretos (ex: datas, números).
* Enriquecimento de dados:
  * Juntar as tabelas vendas e clientes utilizando a chave client_id.
  * Criar novas colunas com informações relevantes, como:
  `valor_total`: multiplicar `items_count` por `sale_price`.
  * Ano da venda (extraído da coluna `order_date`).
  * Mês da venda (extraído da coluna `order_date`).
  * Salvar os dados enriquecidos e limpos como tabelas na camada Silver.

### Ler os dados das tabelas da camada Bronze.

In [None]:
# Ler os dados das tabelas da camada Bronze.
clientes_path = "/content/drive/MyDrive/bronze/clients_bronze.csv"
vendas_path = "/content/drive/MyDrive/bronze/vendas_bronze.csv"

# Ler os arquivos CSV no Spark
clientes_df = spark.read.option("header", True).csv(clientes_path)
vendas_df = spark.read.option("header", True).csv(vendas_path)

In [None]:
clientes_df = clientes_df.toPandas()
vendas_df = vendas_df.toPandas()

In [None]:
clientes_df.head(5)

Unnamed: 0,city,client_id,cnae_id,cod_city,cod_tract,cod_uf,state,client,company_id
0,,c855767,,5211503,521150305000094,52,GO,Client c855767,567
1,POSSE,c836888,,5218300,521830005000006,52,GO,Client c836888,567
2,POA,c836597,,3539806,353980605000005,35,SP,Client c836597,567
3,SAO PAULO,c836596,,3550308,355030837000019,35,SP,Client c836596,567
4,CUIABA,c855005,,5103403,510340310400031,51,MT,Client c855005,567


In [None]:
vendas_df.head(5)

Unnamed: 0,client_id,items_count,list_price,order_date,order_id,product_id,sale_price,salesman_id,supplier_id,company_id,product,salesman,supplier,client
0,c2943,3,0.0,2020-05-21,,p1477,25.166666,s69,su28,603,Product p1477,Salesman s69,Supplier su28,Client c2943
1,c2943,12,0.0,2020-05-21,,p156,19.4653,s69,su16,603,Product p156,Salesman s69,Supplier su16,Client c2943
2,c2092,2,0.0,2020-05-21,,p1314,39.985,s19,su16,603,Product p1314,Salesman s19,Supplier su16,Client c2092
3,c3412,5,0.0,2020-05-18,,p272,26.25,s79,su19,603,Product p272,Salesman s79,Supplier su19,Client c3412
4,c3412,10,0.0,2020-05-18,,p339,13.68,s79,su19,603,Product p339,Salesman s79,Supplier su19,Client c3412


### Limpeza de dados

#### Remover duplicatas

In [None]:
# valores únicos de 'client_id' em ambas as tabelas
clientes_unicos = clientes_df['client_id'].to_numpy()
vendas_unicos = vendas_df['client_id'].to_numpy()

print("--------------------------------------------")
print(f"Quantidade de clientes que estão em vendas_df: {len(set(clientes_unicos).intersection(set(vendas_unicos)))}")
print(f"quantidade client_id em clientes_df: {len(clientes_unicos)}")
print(f"quantidade client_id em vendas_df: {len(vendas_unicos)}")
print("--------------------------------------------")

--------------------------------------------
Quantidade de clientes que estão em vendas_df: 4661
quantidade client_id em clientes_df: 600750
quantidade client_id em vendas_df: 349828
--------------------------------------------


In [None]:
#Limpeza de dados:
#--Remover duplicatas
print(f"antes:{clientes_df.shape[0]}")
clientes_df = clientes_df.drop_duplicates(subset='client_id')
print(f"depois:{clientes_df.shape[0]}")

antes:600750
depois:328582


In [None]:
print(f"antes:{vendas_df.shape[0]}")
vendas_df = vendas_df.drop_duplicates(subset=['client_id','order_id','product_id','salesman_id'])
print(f"depois:{vendas_df.shape[0]}")

antes:349828
depois:182685


##### Tratar valores ausentes

In [None]:
#Limpeza de dados:
#Tratar valores ausentes, utilizando estratégias adequadas para cada coluna (ex: preenchimento com valores padrão, médias, etc.).
# exibir valores nulos em cada coluna
def exibir_valores_nulos(df, df_name):
    print(f"\nValores nulos no DataFrame: {df_name}")
    for coluna in df.columns:
        num_nulos = df[coluna].isna().sum()
        print(f"Coluna {coluna}: {num_nulos} valores nulos")


exibir_valores_nulos(clientes_df, "clientes_df")
exibir_valores_nulos(vendas_df, "vendas_df")


Valores nulos no DataFrame: clientes_df
Coluna city: 2557 valores nulos
Coluna client_id: 1 valores nulos
Coluna cnae_id: 318335 valores nulos
Coluna cod_city: 1449 valores nulos
Coluna cod_tract: 1449 valores nulos
Coluna cod_uf: 1449 valores nulos
Coluna state: 1305 valores nulos
Coluna client: 1 valores nulos
Coluna company_id: 0 valores nulos

Valores nulos no DataFrame: vendas_df
Coluna client_id: 0 valores nulos
Coluna items_count: 0 valores nulos
Coluna list_price: 0 valores nulos
Coluna order_date: 0 valores nulos
Coluna order_id: 182685 valores nulos
Coluna product_id: 1126 valores nulos
Coluna sale_price: 0 valores nulos
Coluna salesman_id: 0 valores nulos
Coluna supplier_id: 0 valores nulos
Coluna company_id: 0 valores nulos
Coluna product: 1126 valores nulos
Coluna salesman: 0 valores nulos
Coluna supplier: 0 valores nulos
Coluna client: 0 valores nulos


In [None]:
#Limpeza de dados:
#Tratar valores ausentes, utilizando estratégias adequadas para cada coluna (ex: preenchimento com valores padrão, médias, etc.).

#Valores nulos no DataFrame: clientes_df
#Coluna city: 2557 valores nulos
clientes_df['city'].fillna('cidade_fantasma', inplace=True)

#Coluna cnae_id: 318335 valores nulos
clientes_df['cnae_id'].fillna(0, inplace=True)

#Coluna cod_city: 1449 valores nulos
clientes_df['cod_city'].fillna(0, inplace=True)

#Coluna cod_tract: 1449 valores nulos
clientes_df['cod_tract'].fillna(0, inplace=True)

#Coluna cod_uf: 1449 valores nulos
clientes_df['cod_uf'].fillna(0, inplace=True)

#Coluna state: 1305 valores nulos
clientes_df['state'].fillna('estado_fantasma', inplace=True)

#Valores nulos no DataFrame: vendas_df
#Coluna order_id: 4661 valores nulos
vendas_df['order_id'].fillna('ordem_fantasma', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  clientes_df['city'].fillna('cidade_fantasma', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  clientes_df['cnae_id'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are s

In [None]:
linha_nula = clientes_df[clientes_df['client'].isna()]
linha_nula

Unnamed: 0,city,client_id,cnae_id,cod_city,cod_tract,cod_uf,state,client,company_id
597559,Goiânia,,0,5208707,520870705450017,52,GO,,43


Nesse caso `tanto "client_id" quanto "clinet" estao vazias`, logo vou dropar a linha inteira

In [None]:
#Valores nulos no DataFrame: clientes_df
#Coluna client_id: 1 valores nulos
clientes_df = clientes_df.dropna(subset=['client_id'])

#Coluna client: 1 valores nulos
clientes_df = clientes_df.dropna(subset=['client'])

In [None]:
linha_nula = vendas_df[vendas_df['product_id'].isna()]
print(linha_nula.shape[0])
linha_nula

1126


Unnamed: 0,client_id,items_count,list_price,order_date,order_id,product_id,sale_price,salesman_id,supplier_id,company_id,product,salesman,supplier,client
40,c45,1,0.0,2020-05-18,ordem_fantasma,,32.78,s12,su48,603,,Salesman s12,Supplier su48,Client c45
115,c3815,4,0.0,2020-05-19,ordem_fantasma,,21.07,s25,su57,603,,Salesman s25,Supplier su57,Client c3815
536,c2416,6,0.0,2020-06-17,ordem_fantasma,,43.0,s20,su16,603,,Salesman s20,Supplier su16,Client c2416
545,c5691,6,0.0,2020-06-17,ordem_fantasma,,42.14,s76,su16,603,,Salesman s76,Supplier su16,Client c5691
649,c1028,2,0.0,2020-06-22,ordem_fantasma,,22.3,s80,su48,603,,Salesman s80,Supplier su48,Client c1028
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
345391,c3141,2,0.0,2022-04-11,ordem_fantasma,,47.28,s81,su16,603,,Salesman s81,Supplier su16,Client c3141
346963,c26198,3,0.0,2022-05-05,ordem_fantasma,,46.333332,s76,su16,603,,Salesman s76,Supplier su16,Client c26198
347231,c28434,1,0.0,2022-05-11,ordem_fantasma,,37.82,s99,su16,603,,Salesman s99,Supplier su16,Client c28434
348691,c27136,2,0.0,2022-06-09,ordem_fantasma,,47.28,s98,su16,603,,Salesman s98,Supplier su16,Client c27136


>> As colunas produtct_id e product correspondem a ambas estao vazias em 35 linhas

>> Qual a minha hipotese:
`Existem valores unicos em sale_price? `

>>Se sim, devmos olhar para os valores de sale_price que contem product e product_id vazios e preenche-los os valores para esse mesmo sale_price

In [None]:
#encontrar onde o mesmo sale_price está associado a diferentes product_id
duplicates_check_df = vendas_df.groupby('sale_price')['product_id'].nunique()

# apenas os sale_prices com mais de um product_id
duplicates_check_df = duplicates_check_df[duplicates_check_df > 1]

#duplicates_check_df

In [None]:
# valores de sale_price em linha_nula
linha_nula_sale_prices = linha_nula['sale_price'].tolist()

#valores de sale_price que estão em duplicates_check_df
duplicated_sale_prices = duplicates_check_df.index.tolist()

# sale_prices que estão em linha_nula mas NÃO estão em duplicates_check_df
non_duplicated_sale_prices = [price for price in linha_nula_sale_prices if price not in duplicated_sale_prices]

print(non_duplicated_sale_prices)

['22.3', '32.912', '40.51', '40.51', '16.896667', '16.896667', '119.09', '41.275', '42.38', '32.8', '19.269167', '41.28', '24.09', '41.28', '20.07', '50.06', '41.28', '29.135', '43.01', '23.129', '19.629', '2.601', '19.032', '23.408333', '138.195', '138.2', '138.2', '17.721', '55.4', '33.45', '36.57', '29.66', '24.09', '29.66', '55.4', '35.325', '22.3', '28.55', '39.74', '41.708332', '3.7', '3.7', '45.84', '37.823334', '37.82', '3.7', '45.84', '37.82', '40.51', '40.51', '40.51', '119.09', '31.488', '24.09', '24.09', '119.09', '119.09', '22.3', '28.55', '21.405', '22.3', '81.6', '33.45', '29.736', '17.448334', '29.736666', '24.093334', '138.2', '138.2', '55.4', '128.04', '29.66', '55.4', '28.55', '22.3', '138.2', '55.4', '33.45', '33.45', '55.4', '39.735', '55.4', '29.66', '33.45', '22.3', '42.011665', '23.55', '41.708332', '41.708332', '3.7', '45.84', '3.7', '30.976667', '24.67', '24.67', '24.67', '24.67', '42.552', '42.552', '46.335', '42.552', '46.334286', '46.335', '42.552', '46.335

In [None]:
# cada sale_price da lista
for price in non_duplicated_sale_prices:
    # buscar o product_id e product onde sale_price é igual
    referencia_produto = vendas_df[(vendas_df['sale_price'] == price) & (vendas_df['product_id'].notnull()) & (vendas_df['product'].notnull())]

    if not referencia_produto.empty:
        # valores de product_id e product para preencher
        product_id_ref = referencia_produto['product_id'].iloc[0]
        product_ref = referencia_produto['product'].iloc[0]

        # att as colunas product_id e product onde sale_price é igual e as colunas estão vazias
        vendas_df.loc[(vendas_df['sale_price'] == price) & (vendas_df['product_id'].isnull()), 'product_id'] = product_id_ref
        vendas_df.loc[(vendas_df['sale_price'] == price) & (vendas_df['product'].isnull()), 'product'] = product_ref

In [None]:
linha_nula = vendas_df[vendas_df['product_id'].isna()]
print(linha_nula.shape[0])

1027


>> `Resultado`: Ganhei 99 linhas perdidas kkkkkkkkkkkk

In [None]:
#Coluna product_id: 1126  valores nulos
vendas_df['product_id'].fillna('produto_id_fantasma', inplace=True)

#Coluna product: 1126 valores nulos
vendas_df['product'].fillna('produto_fantasma', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  vendas_df['product_id'].fillna('produto_id_fantasma', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  vendas_df['product'].fillna('produto_fantasma', inplace=True)


In [None]:
list_price_counts = vendas_df['list_price'].value_counts()
print(list_price_counts)

list_price
0.0    182685
Name: count, dtype: int64


#### Converter tipos de dados

In [None]:
print(vendas_df.dtypes)

client_id      object
items_count    object
list_price     object
order_date     object
order_id       object
product_id     object
sale_price     object
salesman_id    object
supplier_id    object
company_id     object
product        object
salesman       object
supplier       object
client         object
dtype: object


In [None]:
print(clientes_df.dtypes)

city          object
client_id     object
cnae_id       object
cod_city      object
cod_tract     object
cod_uf        object
state         object
client        object
company_id    object
dtype: object


In [None]:
from pyspark.sql.functions import col
#Limpeza de dados:
#Converter tipos de dados para os formatos corretos (ex: datas, números).

# Ajustar os tipos de dados no Spark DataFrame
vendas_df['client_id'] = vendas_df['client_id'].astype(str)
vendas_df['items_count'] = vendas_df['items_count'].astype(int)  #para inteiro
vendas_df['list_price'] = vendas_df['list_price'].astype(float)  # para float
vendas_df['order_date'] = vendas_df['order_date'].astype('datetime64[ns]')  # para datetime
vendas_df['order_id'] = vendas_df['order_id'].astype(str)
vendas_df['product_id'] = vendas_df['product_id'].astype(str)
vendas_df['sale_price'] = vendas_df['sale_price'].astype(float)  # para float
vendas_df['salesman_id'] = vendas_df['salesman_id'].astype(str)
vendas_df['supplier_id'] = vendas_df['supplier_id'].astype(str)
vendas_df['company_id'] = vendas_df['company_id'].astype(int)
vendas_df['product'] = vendas_df['product'].astype(str)
vendas_df['salesman'] = vendas_df['salesman'].astype(str)
vendas_df['supplier'] = vendas_df['supplier'].astype(str)
vendas_df['client'] = vendas_df['client'].astype(str)

In [None]:
print(vendas_df.dtypes)

client_id              object
items_count             int64
list_price            float64
order_date     datetime64[ns]
order_id               object
product_id             object
sale_price            float64
salesman_id            object
supplier_id            object
company_id              int64
product                object
salesman               object
supplier               object
client                 object
dtype: object


In [None]:
clientes_df['city'] = clientes_df['city'].astype(str)
clientes_df['client_id'] = clientes_df['client_id'].astype(str)
clientes_df['cnae_id'] = clientes_df['cnae_id'].astype(str)
clientes_df['cod_city'] = clientes_df['cod_city'].astype(int)
clientes_df['cod_tract'] = clientes_df['cod_tract'].astype(str)
clientes_df['cod_uf'] = clientes_df['cod_uf'].astype(int)
clientes_df['state'] = clientes_df['state'].astype(str)
clientes_df['client'] = clientes_df['client'].astype(str)
clientes_df['company_id'] = clientes_df['company_id'].astype(int)

In [None]:
print(clientes_df.dtypes)

city          object
client_id     object
cnae_id       object
cod_city       int64
cod_tract     object
cod_uf         int64
state         object
client        object
company_id     int64
dtype: object


### Enriquecimento de dados

#### Juntar as tabelas vendas e clientes utilizando a chave client_id

In [None]:
# diferentes join, vai que precisa
inner_join_df = vendas_df.merge(clientes_df, how="inner", on="client_id")
left_join_df = vendas_df.merge(clientes_df, how="left", on="client_id")
right_join_df = vendas_df.merge(clientes_df, how="right", on="client_id")
outer_join_df = vendas_df.merge(clientes_df, how="outer", on="client_id")

#### Criar novas colunas com informações relevantes

In [None]:
inner_join_df['valor_total'] = inner_join_df['items_count'] * inner_join_df['sale_price']
left_join_df['valor_total'] = left_join_df['items_count'] * left_join_df['sale_price']
right_join_df['valor_total'] = right_join_df['items_count'] * right_join_df['sale_price']
outer_join_df['valor_total'] = outer_join_df['items_count'] * outer_join_df['sale_price']

In [None]:
inner_join_df['ano_venda'] = inner_join_df['order_date'].dt.year
inner_join_df['mes_venda'] = inner_join_df['order_date'].dt.month


left_join_df['ano_venda'] = left_join_df['order_date'].dt.year
left_join_df['mes_venda'] = left_join_df['order_date'].dt.month


right_join_df['ano_venda'] = right_join_df['order_date'].dt.year
right_join_df['mes_venda'] = right_join_df['order_date'].dt.month


outer_join_df['ano_venda'] = outer_join_df['order_date'].dt.year
outer_join_df['mes_venda'] = outer_join_df['order_date'].dt.month

In [None]:
# 'dia_semana' eh 0 = segunda e 6 = domingo
inner_join_df['dia_semana'] = inner_join_df['order_date'].dt.dayofweek
left_join_df['dia_semana'] = left_join_df['order_date'].dt.dayofweek
right_join_df['dia_semana'] = right_join_df['order_date'].dt.dayofweek
outer_join_df['dia_semana'] = outer_join_df['order_date'].dt.dayofweek

# nomes dos dias da semana eh 'Monday', 'Tuesday'
inner_join_df['nome_dia_semana'] = inner_join_df['order_date'].dt.day_name()
left_join_df['nome_dia_semana'] = left_join_df['order_date'].dt.day_name()
right_join_df['nome_dia_semana'] = right_join_df['order_date'].dt.day_name()
outer_join_df['nome_dia_semana'] = outer_join_df['order_date'].dt.day_name()

In [None]:
inner_join_df['order_date'] = inner_join_df['order_date'].astype('datetime64[ns]')

In [None]:
#salvar na pasta Silver
silver_folder_path = '/content/drive/MyDrive/Silver'
os.makedirs(silver_folder_path, exist_ok=True)

inner_join_df.to_csv(f'{silver_folder_path}/inner_join_df.csv', index=False)
left_join_df.to_csv(f'{silver_folder_path}/left_join_df.csv', index=False)
right_join_df.to_csv(f'{silver_folder_path}/right_join_df.csv', index=False)
outer_join_df.to_csv(f'{silver_folder_path}/outer_join_df.csv', index=False)
vendas_df.to_csv(f'{silver_folder_path}/vendas_df.csv', index=False)
clientes_df.to_csv(f'{silver_folder_path}/clientes_df.csv', index=False)