# Processamento de dados usando o Databricks - PySpark
* Este notebok visa fazer o procesamento de dados usando o PySpark.    
* Será ultilizando para este labioratoria 4 arquivos do tipo parquet.
* No final do processamento será gerado um unico arquivo parquert contendo as transformações.

In [0]:
# Importando as bibliotecas que serão usadas no laboratorio.

from pyspark.sql import *
from pyspark.sql.types import *

# Importando os arquivos para processamento.

In [0]:
# Tipo do arquivos
file_type = "parquet"

# Path dos arquivos
file_location1 = "/FileStore/tables/Clientes.parquet"
#file_location2 = "/FileStore/tables/ItensVendas.parquet"
file_location3 = "/FileStore/tables/Produtos.parquet"
file_location4 = "/FileStore/tables/Vendas.parquet"
file_location5 = "/FileStore/tables/Vendedores.parquet"

arq_Clientes =  spark \
                .read.format(file_type)\
                .option("inferSchema","True")\
                .option("header", "True")\
                .parquet(file_location1)

#arq_ItensVendas =   spark \
              #  .read.format(file_type)\
              #  .option("inferSchema","True")\
              #  .option("header", "True")\
               # .parquet(file_location2)

arq_Produtos =   spark \
                .read.format(file_type)\
                .option("inferSchema","True")\
                .option("header", "True")\
                .parquet(file_location3)

arq_Vendas =   spark \
                .read.format(file_type)\
                .option("inferSchema","True")\
                .option("header", "True")\
                .parquet(file_location4)

arq_Vendedores =  spark \
                .read.format(file_type)\
                .option("inferSchema","True")\
                .option("header", "True")\
                .parquet(file_location5)


# Conhecendo os arquivos.  
* Inspescionando o schema de cada arquivo.

In [0]:
%fs ls /FileStore/tables/Clientes.parquet 

path,name,size,modificationTime
dbfs:/FileStore/tables/Clientes.parquet,Clientes.parquet,9311,1654426456000


In [0]:
print("Clientes - ",arq_Clientes.take)
print("ItensVendas - ",arq_ItensVendas.take)
print("Produtos - ",arq_Produtos.take)
print("Vendas - ",arq_Vendas.take)
print("Vendedores - ",arq_Vendedores.take)

Clientes -  <bound method DataFrame.take of DataFrame[ClienteID: bigint, Cliente: string, Estado: string, Genero: string, Status: string]>
ItensVendas -  <bound method DataFrame.take of DataFrame[ProdutoID: bigint, VendasID: bigint, Quantidade: bigint, ValorUnitario: double, ValorTotal: double, Desconto: string, TotalComDesconto: double]>
Produtos -  <bound method DataFrame.take of DataFrame[ProdutoID: bigint, Produto: string, Preco: string]>
Vendas -  <bound method DataFrame.take of DataFrame[VendasID: bigint, VendedorID: bigint, ClienteID: bigint, Data: string, Total: double]>
Vendedores -  <bound method DataFrame.take of DataFrame[VendedorID: bigint, Vendedor: string]>


#Gerando cache dos DataFrames.
O objetivo é facilitar o processamento uma vez que estaremos realizando algumas operações neles.

In [0]:
arq_Clientes.cache()
arq_Produtos.cache()
arq_Vendas.cache()
arq_Vendedores.cache()

Out[24]: DataFrame[VendedorID: bigint, Vendedor: string]

#Verificando a quantidade de registros de cada arquivo;

In [0]:
print("Qte. de Linhas - Clientes #", arq_Clientes.count())
print("Qte. de Linhas - Prosdutos #",arq_Produtos.count())
print("Qte. de Linhas - Vendas #",arq_Vendas.count())
print("Qte. de Linhas - Vendedores #",arq_Vendedores.count())

Qte. de Linhas - Clientes # 250
Qte. de Linhas - Prosdutos # 10
Qte. de Linhas - Vendas # 400
Qte. de Linhas - Vendedores # 10


#Display dos dados.

In [0]:
display(arq_Clientes.limit(5))
display(arq_Produtos.limit(5))
display(arq_Vendas.limit(5))
display(arq_Vendedores.limit(5))


ClienteID,Cliente,Estado,Genero,Status
1,Adelina Buenaventura,RJ,M,Silver
2,Adelino Gago,RJ,M,Silver
3,Adolfo Patrício,PE,M,Silver
4,Adriana Guedelha,RO,F,Platinum
5,Adélio Lisboa,SE,M,Silver


ProdutoID,Produto,Preco
1,Bicicleta Aro 29 Mountain Bike Endorphine 6.3 - 24 Marchas - Shimano - Alumínio,"8.852,00"
2,Bicicleta Altools Stroll Aro 26 Freio À Disco 21 Marchas,"9.201,00"
3,Bicicleta Gts Advanced 1.0 Aro 29 Freio Disco Câmbio Traseiro Shimano 24 Marchas,"4.255,00"
4,Bicicleta Trinc Câmbios Shimano Aro 29 Freio A Disco 24v,"7.658,00"
5,Bicicleta Gometws Endorphine 7.3 - Shimano Alumínio Aro 29 - 24 Marchas,"2.966,00"


VendasID,VendedorID,ClienteID,Data,Total
1,1,91,1/1/2019,8053.6
2,6,185,1/1/2020,150.4
3,7,31,2/1/2020,6087.0
4,5,31,2/1/2019,13828.6
5,5,31,3/1/2018,26096.66


VendedorID,Vendedor
1,Armando Lago
2,Capitolino Bahía
3,Daniel Pirajá
4,Godo Capiperibe
5,Hélio Liberato
