# PUC - Rio | Ciência de Dados e Analytics
## MVP Engenharia de dados
### David William Rosa de Souza

## Objetivo / Contexto
O objetivo deste projeto é desenvolver um pipeline de dados completo utilizando a plataforma Databricks, contemplando ingestão, transformação, modelagem, carga e análise. O dataset escolhido é proveniente do Banco Central e permite a construção de um Data Warehouse em modelo dimensional (esquema estrela), adequado para consultas analíticas sobre movimentações financeiras da população brasileira.

---------

## Problema
Com o crescimento do Pix em todo território nacional ainda temos poucos estudos e análises mostrando o crescimento/adesão, regiões que mais utilizam o serviço e distribuição de valor médio. Por isso, com esse trabalho irei aprofundar um pouco mais os dados para tirar insights que podem ajudar agentes públicos a entender melhor a distribuição do uso desse serviço que revolucionou o mercado financeiro no Brasil.

---------

## Fonte dos Dados
Os dados foram obtidos no canal oficial do Banco Central através do link:
https://dadosabertos.bcb.gov.br/dataset/pix

Opção → Estatísticas de transações PixJSON

Opção → Explorar

Opção → Ir para recurso

No item “data-base” foi informado “2025” 

No item “máximo” foi informado “500000”

No item “saída” foi selecionado CSV

No item “campos” foram selecionadas todas opções

Depois cliquei em baixar CSV

o arquivo foi atualizado no meu github no link

github.com/davidwrs/posdadosmvp3/blob/main/202512-estatisticas-transacoes-pix.csv 

e será a partir dele que serão feitas as análises deste trabalho.

---------

## Perguntas a serem respondidas
As principais perguntas de negócio definidas para este MVP são:

1 - Em qual ano/mês as transferências PIX entre pessoas físicas (PF → PF) atingiram superior a R$ 100 bilhões?

2 - Em qual ano/mês as transferências PIX de pessoas físicas para pessoas jurídicas (PF → PJ) atingiram um superior a R$ 100 bilhões?

3 - Qual é a distribuição do valor médio das transferências PIX por região geográfica no Brasil?

4 - Quais regiões geográficas concentram os maiores volumes de envio de transferências PIX?

5 - Quais regiões geográficas concentram os maiores volumes de recebimento de transferências PIX?

---------

## Metodologia

A metodologia adotada neste trabalho baseia-se na arquitetura Medallion, estruturada nas camadas **Bronze**, **Silver** e **Gold**, amplamente utilizada em pipelines de dados analíticos.

A camada **Bronze** foi utilizada para a ingestão e armazenamento dos dados brutos, preservando integralmente a estrutura original fornecida pela fonte de dados. Essa camada representa a cópia fiel dos dados de origem e serve como base para as etapas subsequentes do pipeline.

Na camada **Silver**, os dados passaram por processos de tratamento e padronização, tornando-os adequados para análise e modelagem. Essa etapa foi responsável por garantir a consistência dos tipos de dados, a organização temporal e a padronização dos atributos categóricos.

Por fim, a camada **Gold** concentrou a modelagem analítica dos dados, por meio da construção de um modelo dimensional em esquema estrela, composto por uma tabela fato central e tabelas de dimensão. Essa camada foi projetada para facilitar consultas analíticas e responder às perguntas de negócio definidas no escopo do trabalho.


## Ferramentas

- Databricks: Plataforma unificada para desenvolvimento, execução e gerenciamento do pipeline de dados.

- Apache Spark (SQL e PySpark): Engine de processamento distribuído utilizado para manipulação eficiente de grandes volumes de dados e execução das transformações e análises.


## Modelagem dos Dados

A modelagem dos dados na camada Gold foi realizada a partir do modelo dimensional em esquema estrela, amplamente utilizado em ambientes analíticos e de Business Intelligence. Esse modelo foi escolhido por sua simplicidade, eficiência em consultas analíticas e facilidade de interpretação dos dados, especialmente em cenários que envolvem grandes volumes de informações, como é o caso das transações PIX.

---

### Diagrama simplificado

![diagrama-simplificado.png](https://raw.githubusercontent.com/davidwrs/posdadosmvp3/602ff54aa63c53a38cc6b1426cea976cabcdde5b/diagrama-simplificado.png)

---

## Tabela Fato

A tabela fato foi criada com o objetivo de centralizar as métricas quantitativas relacionadas às transações financeiras, representando o núcleo analítico do modelo. Nela são armazenados os principais indicadores do negócio, como o valor total das transações em reais e a quantidade de transações realizadas, além das referências às dimensões que contextualizam cada ocorrência.

No contexto deste trabalho, a tabela fato fato_transacoes_pix permite analisar o comportamento das transações ao longo do tempo, por região, tipo de pessoa (pagador e recebedor) e faixa etária, viabilizando a realização de agregações, comparações e análises temporais de forma eficiente. Essa centralização das métricas facilita a execução de consultas analíticas complexas com melhor desempenho e menor complexidade de SQL.

----

Tabela e colunas:


_fato_transacoes_pix_


- ano
- mes
- ano_mes
- pag_regiao
- rec_regiao
- pag_tipo_pessoa
- rec_tipo_pessoa
- pag_faixa_etaria
- rec_faixa_etaria
- valor_reais
- quantidade_total

-----

## Tabelas de dimensões

As tabelas de dimensão foram criadas para armazenar os atributos descritivos que fornecem contexto às métricas da tabela fato. Cada dimensão representa um eixo de análise específico, permitindo a segmentação e o detalhamento dos dados de acordo com diferentes perspectivas.

A dimensão Tempo (dim_tempo) possibilita análises temporais, como comparações mensais e anuais, sendo fundamental para identificar tendências e padrões ao longo do período analisado.

Tabela e colunas:

_dim_tempo_

- ano
- mes
- ano_mes


A dimensão Região (dim_regiao) permite avaliar a distribuição geográfica das transações, identificando quais regiões concentram maior volume de envio ou recebimento de valores.

Tabela e colunas:

_dim_regiao_

- regiao


A dimensão Tipo de Pessoa (dim_tipo_pessoa) viabiliza a distinção entre transações realizadas por pessoas físicas e jurídicas, elemento essencial para responder às perguntas de negócio definidas neste trabalho.


Tabela e colunas:


_dim_tipo_pessoa_


tipo_pessoa

A dimensão Faixa Etária (dim_faixa_etaria) fornece uma visão demográfica das transações, permitindo analisar o comportamento dos usuários conforme diferentes grupos etários.


Tabela e colunas:


_dim_faixa_etaria_


- faixa etaria


A separação entre fato e dimensões contribui para a redução de redundância, maior organização dos dados e melhor legibilidade das consultas, além de facilitar a manutenção e a evolução do modelo analítico.


# Carga de dados

A etapa de carga dos dados foi realizada por meio de notebooks na plataforma Databricks, utilizando PySpark, o que permitiu a execução de processos distribuídos e escaláveis para ingestão, transformação e organização dos dados. Essa etapa foi estruturada seguindo a arquitetura estrela, composta pelas camadas Bronze, Silver e Gold, garantindo separação de responsabilidades, rastreabilidade dos dados e facilidade de manutenção do pipeline.

## Extração e Carga da Camada Bronze

Na camada Bronze foi realizada a extração dos dados brutos do conjunto de transações PIX disponibilizado pelo Banco Central do Brasil. Os dados foram carregados em seu formato original, sem alterações semânticas, preservando integralmente as informações fornecidas pela fonte oficial.

Essa camada tem como principal objetivo atuar como um repositório histórico dos dados brutos, assegurando a possibilidade de reprocessamento futuro e auditoria das informações. Durante essa etapa, os dados foram armazenados no ambiente Databricks utilizando mecanismos nativos de leitura e persistência, garantindo confiabilidade e integridade no processo de ingestão.

A utilização do PySpark nesta fase permitiu lidar de forma eficiente com o volume de dados, além de preparar o ambiente para as transformações subsequentes.

## Camada Silver

A camada Silver concentrou os processos de tratamento, padronização e enriquecimento dos dados. Nessa etapa, os dados provenientes da Bronze foram transformados para corrigir tipos, padronizar valores categóricos e tornar os atributos adequados para análise.

Entre as principais transformações realizadas destacam-se:

- conversão de campos originalmente representados como texto para tipos numéricos apropriados;

- categorização e padronização das faixas etárias do pagador e do recebedor;

- organização de atributos temporais (ano, mês e ano/mês);

- validação e padronização de atributos relacionados à região e ao tipo de pessoa.

O uso de PySpark possibilitou a aplicação dessas transformações de forma eficiente e reprodutível, garantindo que os dados tratados na Silver estivessem prontos para consumo analítico, sem comprometer a rastreabilidade em relação à camada Bronze.

## Camada Gold

Na camada Gold foi realizada a modelagem analítica dos dados, com foco na criação de estruturas otimizadas para consulta e análise. A partir dos dados tratados na Silver, foram construídas as tabelas do modelo dimensional em esquema estrela, incluindo a tabela fato e as tabelas de dimensão.

Essa etapa teve como objetivo disponibilizar uma base analítica organizada, capaz de responder diretamente às perguntas de negócio definidas no MVP do projeto. As métricas e atributos foram organizados de modo a facilitar agregações, comparações temporais e segmentações por região, tipo de pessoa e faixa etária.

A carga da camada Gold consolidou o pipeline de dados, transformando informações brutas em um modelo analítico confiável, escalável e de fácil interpretação, pronto para consultas SQL, visualizações e geração de insights.

-----


# Notebook Bronze

Abaixo começo pelo importação do notebook 01_bronze_exploracao_pix

In [0]:
%run /Workspace/Users/2david.wrs@gmail.com/pos_dados/pipeline_pix/01_bronze_exploracao_pix


# Camada Bronze

Ingestão dos dados brutos baixados do Banco Central e armazenamento em formato Delta Lake (bronze_pix), mantendo a estrutura original. Esta camada serve como nossa fonte primária e é uma cópia fiel dos dados de origem.

Comecei criando uma base chamada bronze dentro do workspace e fiz upload nela do arquivo csv.

# Notebook Silver

Depois faço a importação do notebook 02_silver_tramento_pix

In [0]:
%run /Workspace/Users/2david.wrs@gmail.com/pos_dados/pipeline_pix/02_silver_tratamento_pix


A camada Silver contém dados tratados e padronizados, prontos para modelagem.
Principais transformações realizadas:

- Remover _rescued_data
- Padronizar tipos numéricos
- Criar colunas de ano e mês
- Criar faixa etária (pagador e recebedor)
- Padronizar textos (UPPER)
- Garantir consistência para análises

# Notebook Gold

Depois faço a importação do notebook 03_gold_pix

In [0]:
%run /Workspace/Users/2david.wrs@gmail.com/pos_dados/pipeline_pix/03_gold_pix


Criar o Schema Bronze (se ainda não existir)

# Notebook Analytics

Depois faço a importação do notebook 04_analytics

In [0]:
%run /Workspace/Users/2david.wrs@gmail.com/pos_dados/pipeline_pix/04_analytics

------
-----
-----


# Conclusão
Na camada gold já podemos ver as respostas de negócio serem respondidas
vou passar por cada uma

1 - Em qual ano/mês as transferências PIX entre pessoas físicas (PF → PF) atingiram superior a R$ 100 bilhões?

R: Em Março de 2021 as transações entre pessoas físicas atigiram um valor superior a R$ 100 bilhões.
Como o Pix começou a rodar em novembro de 2020 mostra o sucesso desse serviço e alta taxa de adesão na população brasileira.

2 - Em qual ano/mês as transferências PIX de pessoas físicas para pessoas jurídicas (PF → PJ) atingiram um superior a R$ 100 bilhões?

R: Somente em novembro de 2022 as transferências de pessoas físicas para pessoas jurídicas atingiram um superior a R$ 100 bilhões.
O que mostra que em pagamentos para empresas a população brasileira teve uma adesão mais devagar do que transferências entre pessoas físicas.

3 - Qual é a distribuição do valor médio das transferências PIX por região geográfica no Brasil?

R: Podemos observar que a região sudeste ainda é a que mais movimenta valores financeiros e sendo a região norte a que menos movimenta.
Isso reflete bem a concentração econômica da região sudeste e as desigualdades financeiras do Brasil. 

4 - Quais regiões geográficas concentram os maiores volumes de envio de transferências PIX?
5 - Quais regiões geográficas concentram os maiores volumes de recebimento de transferências PIX?

R: E para responder as últimas duas perguntas segue a mesma distribuição de valores médios, sudeste lidera e a região norte é a última.

## Autoavaliação

O objetivo deste trabalho foi construir um pipeline completo de dados na nuvem, utilizando o Databricks, desde a coleta até a análise, utilizando dados públicos, eu escolhi a base do Pix vinda do Banco Central, pois já tinha utilizado essa base no primeiro MVP o que me ajudou muito por já conhecer a base.

De modo geral, os objetivos propostos foram atingidos e fiquei feliz em construir o pipeline. Trabalho como gerente de produtos digitais e a construção e analise de um pipeline já era algo que queria fazer a algum tempo.

Passei pelas etapas de coleta, modelagem, carga e analisar os dados. Também respondi as perguntas de negócio definidas no início do trabalho.

Já sou formado em analise e desenvolvimento de sistemas, por isso a etapa de entendimento de base, tabelas, colunas, foi muito transparente pra mim. Minha maior dúvida justamente era como coletar dados de um CSV e construir o pipeline e me senti muito satisfeito com o trabalho.

A etapa que me gerou mais trabalho foi a silver por causa da limpeza dos dados, foi nela que tive alguns erros e demorei um pouco mais.

Tive bastante dificuldade no inicio do enunciado do MVP pois não estava tão claro pra mim o que deveria ser entregue, foi só nas aulas de dúvidas do MVP que o entregavel ficou mais claro.

E tive uma dificuldade pra finalizar o trabalho pois na minha conta o databricks passou a informar que já tinha atingido o limite do trial, com isso exportei todos notebooks e subi em outra conta pra finalizar. Deu certo, mas perdi um dia nisso.

Atualmente sigo como gerente de produtos digitais em uma instituição financeira e pretendo levar esse conhecimento para meu dia a dia. Fortalezar minha visão analitica em discussões de negócio e quando necessário eu mesmo conseguir fazer o pipeline.