
# Extração da 'EXP_COMPLETA' para a camada Silver


## Faz um select para verificar os dados da tabela que está na camada bronze

In [0]:
%sql

select * from bronze.exp_completa

CO_ANO,CO_MES,CO_NCM,CO_UNID,CO_PAIS,SG_UF_NCM,CO_VIA,CO_URF,QT_ESTAT,KG_LIQUIDO,VL_FOB
1997,11,74122000,10,249,SP,4,817600,0,0,3
1997,11,73082000,10,97,MG,7,130151,0,4292,6442
1997,11,84248119,11,196,SP,1,817800,32,3468,31510
1997,11,48239090,10,586,MN,9,910600,0,0,1
1997,11,72112910,10,850,SP,1,817800,118,117505,103866
1997,11,84483919,10,63,SP,4,817600,0,196,12654
1997,11,40095090,10,63,SP,7,1010953,0,11038,103451
1997,11,48181000,10,845,SP,7,1010252,0,681,550
1997,11,56029000,10,845,PR,7,1011000,0,0,4
1997,11,82119320,11,355,RS,1,1010500,0,128,1476


### Cria o schema Silver (se ele não existir)


In [0]:
%sql
CREATE SCHEMA if not exists silver;

### Faz o mapeamento das colunas que terão seus nomes alterados.

In [0]:
mapping_columns = {
    'CO_ANO':'cod_ano',
    'CO_MES':'cod_mes',
    'CO_NCM':'cod_ncm',
    'CO_UNID':'cod_unid',
    'CO_PAIS':'cod_pais',
    'SG_UF_NCM':'cod_uf',
    'CO_VIA':'cod_via',
    'CO_URF':'cod_urf',
    'QT_ESTAT':'cod_quantidade_estatistica',
    'KG_LIQUIDO':'qt_peso_liquido',
    'VL_FOB':'vl_fob'
}

### Cria o dataframe a partir da consulta sql
Nesse caso filtra os dados de 2012 a 2022, renomeia as colunas que foram mapeadas e cria a coluna etl_date.

In [0]:
from pyspark.sql.functions import col

df = spark.sql("""
SELECT *,
cast(current_timestamp() as timestamp) as etl_date
FROM bronze.exp_completa
WHERE CO_ANO BETWEEN 2012 AND 2022
""")


for old_col, new_col in mapping_columns.items():
    df = df.withColumnRenamed(old_col, new_col)

### Usa a função cast para converter as colunas 'cod_ano' e 'cod_mes' para int

In [0]:

df = df.withColumn("cod_ano", col("cod_ano").cast("int")) \
     .withColumn("cod_mes", col("cod_mes").cast("int"))


### Usa as funções concat e to_date para criar um campo data

In [0]:
from pyspark.sql.functions import concat, to_date, lit

df = df.withColumn("dt_operacao", to_date(concat(lit("01/"), col("cod_mes"), lit("/"), col("cod_ano")), "dd/MM/yyyy"))

### Usa a função cast para converter a coluna 'vl_fob' para decimal

In [0]:
df = df.withColumn("vl_fob", col("vl_fob").cast("decimal(20,2)"))  \
       .withColumn("qt_peso_liquido", col("qt_peso_liquido").cast("decimal(20,2)"))

### Cria uma visão temporária com o dataframe

In [0]:
df.createOrReplaceTempView('vw_exp_completa_silver')

### Salva no formato parquet

In [0]:
permanent_table = "exp_completa_silver"

df.write.format("parquet").saveAsTable(permanent_table)

### Coloca a tabela tratada na camada Silver

In [0]:
%sql

CREATE TABLE IF NOT EXISTS silver.exportacao_completa AS SELECT * FROM default.exp_completa_silver;

num_affected_rows,num_inserted_rows
