# Bronze Layer — Raw Data Ingestion

This notebook ingests the raw PIX CSV files into Databricks, preserving their original structure and saving them as Bronze Delta tables without any transformation or business rules.

In [0]:
path_2023 = "/Volumes/mvp_pix/dados/bronze/pix_2023.csv"
path_2024 = "/Volumes/mvp_pix/dados/bronze/pix_2024.csv"

In [0]:
df_2023 = (
    spark.read
        .option("header", "true")
        .option("inferSchema", "true")
        .csv(path_2023)
)

df_2024 = (
    spark.read
        .option("header", "true")
        .option("inferSchema", "true")
        .csv(path_2024)
)

In [0]:
display(df_2023.limit(10))
display(df_2024.limit(10))

print("Rows 2023:", df_2023.count())
print("Rows 2024:", df_2024.count())

print(df_2023.columns)

AnoMes,PAG_PFPJ,REC_PFPJ,PAG_REGIAO,REC_REGIAO,PAG_IDADE,REC_IDADE,FORMAINICIACAO,NATUREZA,FINALIDADE,VALOR,QUANTIDADE
202211,PF,PF,NORTE,NORDESTE,entre 20 e 29 anos,entre 20 e 29 anos,MANU,P2P,Pix,762692967,66474
202303,PF,PJ,NORTE,NORTE,mais de 60 anos,Nao se aplica,QRDN,P2B,Pix Troco,752559,16
202301,PJ,PF,SUDESTE,Nao informado,Nao se aplica,entre 30 e 39 anos,Nao disponivel,B2P,Nao disponivel,25542433,1194
202401,PJ,PJ,SUL,NORDESTE,Nao se aplica,Nao se aplica,MANU,B2G,Pix,66831598,77
202408,PF,PF,NORDESTE,SUL,entre 50 e 59 anos,entre 20 e 29 anos,MANU,P2P,Pix,122611251,8636
202307,PF,PF,NORTE,Nao informado,entre 50 e 59 anos,entre 40 e 49 anos,QRES,P2P,Pix,2384856,136
202210,PF,PF,SUL,SUDESTE,entre 50 e 59 anos,entre 30 e 39 anos,QRDN,P2P,Pix,5893401,910
202211,PF,PF,CENTRO-OESTE,NORTE,entre 50 e 59 anos,entre 30 e 39 anos,DICT,P2P,Pix,2437151536,64311
202211,PJ,PJ,CENTRO-OESTE,SUDESTE,Nao se aplica,Nao se aplica,MANU,B2G,Pix,7086933,14
202210,PF,PJ,NORTE,NORTE,mais de 60 anos,Nao se aplica,MANU,P2B,Pix,3760685896,53690


AnoMes,PAG_PFPJ,REC_PFPJ,PAG_REGIAO,REC_REGIAO,PAG_IDADE,REC_IDADE,FORMAINICIACAO,NATUREZA,FINALIDADE,VALOR,QUANTIDADE
202211,PF,PF,NORTE,NORDESTE,entre 20 e 29 anos,entre 20 e 29 anos,MANU,P2P,Pix,762692967,66474
202303,PF,PJ,NORTE,NORTE,mais de 60 anos,Nao se aplica,QRDN,P2B,Pix Troco,752559,16
202301,PJ,PF,SUDESTE,Nao informado,Nao se aplica,entre 30 e 39 anos,Nao disponivel,B2P,Nao disponivel,25542433,1194
202401,PJ,PJ,SUL,NORDESTE,Nao se aplica,Nao se aplica,MANU,B2G,Pix,66831598,77
202408,PF,PF,NORDESTE,SUL,entre 50 e 59 anos,entre 20 e 29 anos,MANU,P2P,Pix,122611251,8636
202307,PF,PF,NORTE,Nao informado,entre 50 e 59 anos,entre 40 e 49 anos,QRES,P2P,Pix,2384856,136
202210,PF,PF,SUL,SUDESTE,entre 50 e 59 anos,entre 30 e 39 anos,QRDN,P2P,Pix,5893401,910
202211,PF,PF,CENTRO-OESTE,NORTE,entre 50 e 59 anos,entre 30 e 39 anos,DICT,P2P,Pix,2437151536,64311
202211,PJ,PJ,CENTRO-OESTE,SUDESTE,Nao se aplica,Nao se aplica,MANU,B2G,Pix,7086933,14
202210,PF,PJ,NORTE,NORTE,mais de 60 anos,Nao se aplica,MANU,P2B,Pix,3760685896,53690


Rows 2023: 598924
Rows 2024: 598924
['AnoMes', 'PAG_PFPJ', 'REC_PFPJ', 'PAG_REGIAO', 'REC_REGIAO', 'PAG_IDADE', 'REC_IDADE', 'FORMAINICIACAO', 'NATUREZA', 'FINALIDADE', 'VALOR', 'QUANTIDADE']


In [0]:
# Inspect distinct age values for payer and receiver to identify inconsistencies or non-standard representations (e.g., ranges, missing values)
df_2023.select("PAG_IDADE", "REC_IDADE").distinct().limit(20).display()

PAG_IDADE,REC_IDADE
até 19 anos,mais de 60 anos
Nao se aplica,entre 40 e 49 anos
até 19 anos,entre 40 e 49 anos
Nao se aplica,até 19 anos
até 19 anos,Nao informado
entre 50 e 59 anos,até 19 anos
entre 40 e 49 anos,Nao informado
entre 30 e 39 anos,entre 30 e 39 anos
entre 30 e 39 anos,até 19 anos
até 19 anos,entre 20 e 29 anos


In [0]:
%sql
CREATE SCHEMA IF NOT EXISTS mvp_pix.bronze;

In [0]:
(
    df_2023.write
        .mode("overwrite")
        .format("delta")
        .saveAsTable("mvp_pix.bronze.pix_2023_raw")
)

(
    df_2024.write
        .mode("overwrite")
        .format("delta")
        .saveAsTable("mvp_pix.bronze.pix_2024_raw")
)


In [0]:
spark.table("mvp_pix.bronze.pix_2023_raw").limit(5).display()
spark.table("mvp_pix.bronze.pix_2024_raw").limit(5).display()

AnoMes,PAG_PFPJ,REC_PFPJ,PAG_REGIAO,REC_REGIAO,PAG_IDADE,REC_IDADE,FORMAINICIACAO,NATUREZA,FINALIDADE,VALOR,QUANTIDADE
202211,PF,PF,NORTE,NORDESTE,entre 20 e 29 anos,entre 20 e 29 anos,MANU,P2P,Pix,762692967,66474
202303,PF,PJ,NORTE,NORTE,mais de 60 anos,Nao se aplica,QRDN,P2B,Pix Troco,752559,16
202301,PJ,PF,SUDESTE,Nao informado,Nao se aplica,entre 30 e 39 anos,Nao disponivel,B2P,Nao disponivel,25542433,1194
202401,PJ,PJ,SUL,NORDESTE,Nao se aplica,Nao se aplica,MANU,B2G,Pix,66831598,77
202408,PF,PF,NORDESTE,SUL,entre 50 e 59 anos,entre 20 e 29 anos,MANU,P2P,Pix,122611251,8636


AnoMes,PAG_PFPJ,REC_PFPJ,PAG_REGIAO,REC_REGIAO,PAG_IDADE,REC_IDADE,FORMAINICIACAO,NATUREZA,FINALIDADE,VALOR,QUANTIDADE
202211,PF,PF,NORTE,NORDESTE,entre 20 e 29 anos,entre 20 e 29 anos,MANU,P2P,Pix,762692967,66474
202303,PF,PJ,NORTE,NORTE,mais de 60 anos,Nao se aplica,QRDN,P2B,Pix Troco,752559,16
202301,PJ,PF,SUDESTE,Nao informado,Nao se aplica,entre 30 e 39 anos,Nao disponivel,B2P,Nao disponivel,25542433,1194
202401,PJ,PJ,SUL,NORDESTE,Nao se aplica,Nao se aplica,MANU,B2G,Pix,66831598,77
202408,PF,PF,NORDESTE,SUL,entre 50 e 59 anos,entre 20 e 29 anos,MANU,P2P,Pix,122611251,8636


> In the Bronze layer, the original PIX datasets for 2023 and 2024 were ingested and persisted as Delta tables without any transformation. All original attributes and values were preserved, including categorical age ranges and administrative values such as “Not applicable” and “Not informed”. This layer serves as a faithful representation of the source data and as the foundation for subsequent cleaning and standardization steps.