# Desafio Luiza Labs | Analytics Engineer

 Para conduzir o Desafio, separarei em uma introdução(com modelagem multidimensional) e três índices:

>Modelagem Multidimensional

>**1º - ETL e Modelagem - Python(Pandas) e SQL(BigQuery)**

>2º - Proposta Técnica - Propor Métricas e soluções para área de negócio

>3º - Visualização dos Dados

# Índice 1 - ETL e Modelagem

## Python Pandas

Iniciamos importando as Bibliotecas a serem utilizadas:

In [10]:
import pandas as pd

Definimos o caminho de leitura dos datasets e setamos os nomes dos arquivos a serem lidos:

In [11]:
path_dataset = "C:/Users/Magalu/Downloads/Processo AE/Matheus/arquivos/"
file_name = ['pedido','categoria','cidade','cliente','estado','filial','parceiro','produto','subcategoria','item_pedido']

Criamos função para leitura dos datasets \
**OBS: Globals()[i] criará um variavel para cada item passado na lista durante o for.**

In [12]:
def read_dataset(caminho,nome):
    for i in nome:
        globals()[i] = pd.read_csv(caminho + i + '.csv',sep = '|')
        print(f"O Arquivo '{i+'.csv'}' foi lido e salvo na varíavel/DataFrame: {i}")
    print('Fim da Leitura de datasets')

Utiliza a função para leitura dos arquivos .csv

In [13]:
read_dataset(path_dataset,file_name)

FileNotFoundError: [Errno 2] No such file or directory: 'C:/Users/Magalu/Downloads/Processo AE/Matheus/arquivos/pedido.csv'

Realizando o Join entre Datasets com base no Relacionamento disponibilizado no desafio

![image-2.png](attachment:image-2.png)

In [14]:
dataset_final = pd.merge(pedido, parceiro, on='id_parceiro')
dataset_final = pd.merge(dataset_final, filial, on='id_filial')
dataset_final = pd.merge(dataset_final, cidade, on='id_cidade')
dataset_final = pd.merge(dataset_final, estado, on='id_estado')
dataset_final = pd.merge(dataset_final, item_pedido, on='id_pedido')
dataset_final = pd.merge(dataset_final, produto, on='id_produto')
dataset_final = pd.merge(dataset_final, subcategoria, on='id_subcategoria')
dataset_final = pd.merge(dataset_final, categoria, on='id_categoria')
dataset_final = pd.merge(dataset_final, cliente, on='id_cliente')

Dropando Colunas utilizadas para identificação(chaves) durante o join/merge \
*id_parceiro,id_cliente,id_filial,id_cidade,id_estado,id_categoria,id_subcategoria*

In [15]:
columns_drop = ['id_parceiro','id_cliente','id_filial','id_cidade','id_estado','id_subcategoria','id_categoria']
dataset_final.drop(columns_drop,axis =1,inplace = True)

Convertendo campo de Data do Pedido para Date, visto que **Hora,Minuto e Segundo** retornam como 0 no dataset.

In [16]:
dataset_final['dt_pedido'] = pd.to_datetime(dataset_final['dt_pedido'],format = '%Y-%m-%d').dt.date
dataset_final['dt_pedido'] = pd.to_datetime(dataset_final['dt_pedido'],format = '%Y-%m-%d')

Criando campos a serem utilizados durante a segunda parte do desafio: \
*valor_comissao,percentual_parceiro,valor_total_produto e mes_venda*

In [17]:
dataset_final['vlr_total_produto'] = dataset_final['vr_unitario'] * dataset_final['quantidade'] 
dataset_final['perc_parceiro'] = dataset_final['perc_parceiro'] / 100
dataset_final['vlr_comissao'] = round(dataset_final['perc_parceiro'] * dataset_final['vlr_total_produto'],2)
dataset_final['mes_venda'] = dataset_final['dt_pedido'].dt.month


Resultado final do Dataset

In [18]:
dataset_final.head()

Unnamed: 0,id_pedido,dt_pedido,vr_total_pago,nm_parceiro,ds_filial,ds_cidade,ds_estado,id_produto,quantidade,vr_unitario,ds_produto,ds_subcategoria,ds_categoria,perc_parceiro,nm_cliente,flag_ouro,vlr_total_produto,vlr_comissao,mes_venda
0,47585891513,2021-06-23,318.48,Parceiro Magalu - 13,Filial - 000166,BAGE,RS,2970241,1,97.49,Produto - 0002970241,Sub-categoria - 01641,Categoria - 027,0.02,Cliente Magalu - 0033752975,1,97.49,1.95,6
1,47585891513,2021-06-23,318.48,Parceiro Magalu - 13,Filial - 000166,BAGE,RS,2419220,1,220.99,Produto - 0002419220,Sub-categoria - 01322,Categoria - 018,0.01,Cliente Magalu - 0033752975,1,220.99,2.21,6
2,48107814713,2021-07-05,97.49,Parceiro Magalu - 13,Filial - 001691,ABATIA,PR,2970241,1,97.49,Produto - 0002970241,Sub-categoria - 01641,Categoria - 027,0.02,Cliente Magalu - 0126935405,1,97.49,1.95,7
3,48518207713,2021-07-13,98.79,Parceiro Magalu - 13,Filial - 001691,ABATIA,PR,2970241,1,98.79,Produto - 0002970241,Sub-categoria - 01641,Categoria - 027,0.02,Cliente Magalu - 0016430295,1,98.79,1.98,7
4,48435570713,2021-07-12,438.04,Parceiro Magalu - 13,Filial - 001647,ALFENAS,MG,2970241,1,97.49,Produto - 0002970241,Sub-categoria - 01641,Categoria - 027,0.02,Cliente Magalu - 0124308860,0,97.49,1.95,7


Salvando Dataset para uso durante o Índice 2:

In [19]:
dataset_final.to_csv('dataset_final.csv',index=False)

## SQL/Bigquery

Realizamos os mesmos procedimentos feitos em Pandas. Deixei comentado no próprio SQL para caso tenha alguma dúvida.

In [None]:
SELECT 
a.id_pedido,
cast(a.dt_pedido as date) AS dt_pedido,#convertendo campo de data do pedido em date
a.vr_total_pago,
b.nm_parceiro,
c.nm_cliente ,c.flag_ouro,
d.ds_filial,
UPPER(d1.ds_cidade) AS ds_cidade,#padronizar letras maiusculas(Dados do BQ possuem minusculos)
UPPER(d2.ds_estado) AS ds_estado,#padronizar letras maiusculas(Dados do BQ possuem minusculos)
f.id_produto,f.quantidade,f.vr_unitario,
#criando campo de Valor total do produto
(f.quantidade * f.vr_unitario) as vlr_total_produto,
f1.ds_produto,
f2.ds_subcategoria,
f3.ds_categoria,
(f3.perc_parceiro/100) as perc_parceiro,#Transforma em Percentual a variavel do parceiro
ROUND((f3.perc_parceiro/100) * (f.quantidade * f.vr_unitario),2) as vlr_comissao, #cria o valor de comissão com base no percentual do parceiro * valor total do produto e arredonda para até 2 casas decimais.

#Informações de Identificação do Pedido - Tabela Fato
FROM       `maga-bigdata.labs_school.ae_pedido`       AS a
#Informações de Parceiro/Seller - Tabelas Dimensão
LEFT JOIN  `maga-bigdata.labs_school.ae_parceiro`     AS b  ON b.id_parceiro      = a.id_parceiro 
#Informações de Clientes - Tabelas Dimensão
LEFT JOIN  `maga-bigdata.labs_school.ae_cliente`      AS c  ON c.id_cliente       = a.id_cliente 
#Informações Nível Filial/Cidade/Estado - Tabelas Dimensão
LEFT JOIN  `maga-bigdata.labs_school.ae_filial`       AS d  ON d.id_filial        = a.id_filial 
LEFT JOIN  `maga-bigdata.labs_school.ae_cidade`       AS d1 ON d1.id_cidade       = d.id_cidade 
LEFT JOIN  `maga-bigdata.labs_school.ae_estado`       AS d2 ON d2.id_estado       = d1.id_estado 
#Informações Nível Produto/Categoria/Produto - Tabelas Dimensão
LEFT JOIN  `maga-bigdata.labs_school.ae_item_pedido`  AS f  ON f.id_pedido        = a.id_pedido
LEFT JOIN  `maga-bigdata.labs_school.ae_produto`      AS f1 ON f1.id_produto      = f.id_produto
LEFT JOIN  `maga-bigdata.labs_school.ae_subcategoria` AS f2 ON f2.id_subcategoria = f1.id_subcategoria 
LEFT JOIN  `maga-bigdata.labs_school.ae_categoria`    AS f3 ON f3.id_categoria    = f2.id_categoria  