# Tabela Pedidos Loja Work

## Imports

In [0]:
from pyspark.sql.functions import *
from pyspark.sql.types import *

## Análise Inicial

In [0]:
pedidos_loja = spark.sql("SELECT * FROM raw.pedidos_loja_main_raw LIMIT 100")
pedidos_loja.display()

Material,UndDoItem,QtdePedida,QtdePedUnd,QtdeAtendida,QtdeAtendUnd,DtCriacao,DtEntrada,Custo,data_extracao,codigo_loja
3122490,16000,144000,9000,144000,9000,20220910,20111027,226,20220920,60
3136675,16000,48000,3000,48000,3000,20220906,20220912,302,20221001,111
3140750,24000,24000,1000,24000,1000,20220914,20220919,61,20220927,74
3129489,17000,17000,1000,17000,1000,20220911,20220916,478,20220927,32
3128875,12000,24000,2000,24000,2000,20220911,20220921,683,20221001,81
3122490,16000,32000,2000,32000,2000,20220818,20220823,345,20220918,66
3109948,17000,357000,21000,357000,21000,20220928,0,387,20221001,44
3124509,30000,30000,1000,30000,1000,20220926,20220929,101,20221001,16
2851568,12000,12000,1000,12000,1000,20220902,20220906,1067,20220918,49
3104119,4000,4000,1000,4000,1000,20220907,20220918,8406,20220924,112


## Casting

In [0]:
pedidos_loja = pedidos_loja.withColumn('data_extracao', to_date('data_extracao', 'yyyyMMdd')) \
    .withColumn('codigo_loja', regexp_replace('codigo_loja', ',', '.').cast(IntegerType())) \
    .withColumn('Material', regexp_replace('Material', ',', '.').cast(IntegerType())) \
    .withColumn('QtdePedida', regexp_replace('QtdePedida', ',', '.').cast(IntegerType())) \
    .withColumn('QtdeAtendida', regexp_replace('QtdeAtendida', ',', '.').cast(IntegerType())) \
    .withColumn('QtdeAtendida', regexp_replace('QtdeAtendida', ',', '.').cast(IntegerType())) \
    .withColumn('DtCriacao', to_date('DtCriacao', 'yyyyMMdd')) \
    .withColumn('DtEntrada', to_date('DtEntrada', 'yyyyMMdd')) \
    .withColumn('Custo', regexp_replace('Custo', ',', '.').cast(DoubleType()))

## Renomeando e Organizando as Colunas

In [0]:
pedidos_loja = pedidos_loja.withColumnRenamed('codigo_loja', 'cod_loja') \
    .withColumnRenamed('Material', 'cod_produto') \
    .withColumnRenamed('QtdePedida', 'quantidade_pedida') \
    .withColumnRenamed('QtdeAtendida', 'quantidade_atendida') \
    .withColumnRenamed('DtCriacao', 'data_criacao_pedido') \
    .withColumnRenamed('DtEntrada', 'data_entrega_pedido') \
    .withColumnRenamed('Custo', 'custo_atendimentodata_entrega_pedido')

In [0]:
pedidos_loja = pedidos_loja[['data_extracao',
 'cod_loja',
 'cod_produto',
 'quantidade_pedida',
 'quantidade_atendida',
 'data_criacao_pedido',
 'data_entrega_pedido',
 'custo_atendimentodata_entrega_pedido']]

## Removendo linhas duplicadas

In [0]:
pedidos_loja = pedidos_loja.coalesce(1).dropDuplicates()

## Salvando Dados

In [0]:
pedidos_loja.write \
    .option('path', '/mnt/work/pedidos_loja_main_work') \
    .partitionBy(['data_extracao', 'cod_loja', 'cod_produto', 'data_criacao_pedido', 'data_entrega_pedido']) \
    .mode('overwrite') \
    .saveAsTable('work.pedidos_loja_main_work')

## Otimizando

In [0]:
%sql
OPTIMIZE work.pedidos_loja_main_work

path,metrics
dbfs:/mnt/work/pedidos_loja_main_work,"List(0, 0, List(null, null, 0.0, 0, 0), List(null, null, 0.0, 0, 0), 100, null, 0, 100, 100, true, 0, 0, 1680132557720, 1680132560655, 48, 0, null)"
