In [0]:
%sql 
DROP DATABASE IF EXISTS bronze CASCADE;
DROP DATABASE IF EXISTS silver CASCADE;
DROP DATABASE IF EXISTS gold CASCADE;

## **Banco Inter**

### Leitura de Arquivo CSV

In [0]:
import pandas as pd

In [0]:
file_id = '15yanx_Nr2Kmrk1xvvcjyBtt3CQbKPT9V'  
url = f'https://drive.google.com/uc?id={file_id}'

# Leitura do arquivo CSV do Banco Inter 
inter_df = pd.read_csv(url,sep=',',header=5) 

# Mostrar as primeiras linhas para entender a estrutura
inter_df.head(10)

Unnamed: 0,Data,Histórico,Descrição,Valor,Saldo
0,20/12/2024,Pix recebido,Gabriel Silva Dantas,80,8275
1,09/09/2024,Pagamento efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38,275
2,06/08/2024,Pagamento efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38,4075
3,15/07/2024,Transferência enviada,,-250,7875
4,14/07/2024,Pix recebido,Leandra Mara Da Silva,250,32875
5,10/07/2024,Pix recebido,Leandra Mara Da Silva,"4.000,00",7875
6,10/07/2024,Pagamento efetuado,PREDLINK REDE T LTDA EPP,-999,"-3.921,25"
7,10/07/2024,Pagamento efetuado,LUMARJ CONDOMINIOS,-78681,"-3.821,35"
8,10/07/2024,Pagamento efetuado,NU PAGAMENTOS SA,"-2.926,61","-3.034,54"
9,10/07/2024,Pagamento efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38,-10793


### Camada Bronze - Dados Brutos

In [0]:

%sql 
DROP DATABASE IF EXISTS bronze CASCADE;
CREATE DATABASE bronze;


In [0]:
# Armazenando os dados na camada Bronze (Banco Inter)

inter_raw_df = spark.createDataFrame(inter_df) 
inter_raw_df.write.mode("overwrite").saveAsTable("bronze.inter_raw_table")


In [0]:
%sql 
SELECT *
FROM bronze.inter_raw_table;

Data,Histórico,Descrição,Valor,Saldo
20/12/2024,Pix recebido,Gabriel Silva Dantas,80,8275
09/09/2024,Pagamento efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38,275
06/08/2024,Pagamento efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38,4075
15/07/2024,Transferência enviada,,-250,7875
14/07/2024,Pix recebido,Leandra Mara Da Silva,250,32875
10/07/2024,Pix recebido,Leandra Mara Da Silva,"4.000,00",7875
10/07/2024,Pagamento efetuado,PREDLINK REDE T LTDA EPP,-999,"-3.921,25"
10/07/2024,Pagamento efetuado,LUMARJ CONDOMINIOS,-78681,"-3.821,35"
10/07/2024,Pagamento efetuado,NU PAGAMENTOS SA,"-2.926,61","-3.034,54"
10/07/2024,Pagamento efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38,-10793


In [0]:
%sql
Describe bronze.inter_raw_table;

col_name,data_type,comment
Data,string,
Histórico,string,
Descrição,string,
Valor,string,
Saldo,string,


In [0]:
%sql

-- A coluna Histórico representa o tipo de transação no arquivo do banco Inter

-- Consultando os tipos de transação no dado raw do Inter
-- Elas compreendem entradas e saídas, totalizando 14 tipos de transações distintas
SELECT DISTINCT  `Histórico`
FROM bronze.inter_raw_table;


Histórico
Transferência recebida
Pix recebido devolvido
Pix recebido
Débito Renda Fixa
Pagamento efetuado
Compra no débito
Saque
Pagamento de Convênio
Pagamento Tim
Pagamento ENEL RJ


In [0]:
%sql
SELECT 
    COUNT(CASE WHEN Data IS NULL THEN 1 END) AS Data_nulas,
    COUNT(CASE WHEN `Histórico` IS NULL THEN 1 END) AS Historico_nulo,
    COUNT(CASE WHEN `Descrição` IS NULL THEN 1 END) AS Descricao_nulo,
    COUNT(CASE WHEN Valor IS NULL THEN 1 END) AS Valor_nulo
FROM bronze.inter_raw_table;

Data_nulas,Historico_nulo,Descricao_nulo,Valor_nulo
0,0,4,0


### Camada Silver - Limpeza e Transformação

In [0]:
%sql 
DROP DATABASE IF EXISTS silver CASCADE;
CREATE DATABASE silver;

In [0]:
%sql
-- Como estamos interessados nos gastos, filtraremos tranasações negativas
SELECT 
     Data, 
     `Histórico`, 
     `Descrição`, 
          -- Coluna Valor: no mesmo formato da outra fonte de dados do Nubank para padronizar os dados
     ((CAST(REPLACE(REPLACE(Valor, '.', ''), ',', '.') AS DECIMAL(10,2)))) AS Valor
FROM bronze.inter_raw_table
WHERE 
     -- filtro para considerar apenas os valores negativos
     (CAST(REPLACE(REPLACE(Valor, '.', ''), ',', '.') -- coloco o separador decimal como em países de língua inglesa
          AS DECIMAL(10,2))) < 0; -- aplica-se o CAST para transformar o dado para numérico permitindo verificar se é < 0 (negativo)

Data,Histórico,Descrição,Valor
09/09/2024,Pagamento efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38.0
06/08/2024,Pagamento efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38.0
15/07/2024,Transferência enviada,,-250.0
10/07/2024,Pagamento efetuado,PREDLINK REDE T LTDA EPP,-99.9
10/07/2024,Pagamento efetuado,LUMARJ CONDOMINIOS,-786.81
10/07/2024,Pagamento efetuado,NU PAGAMENTOS SA,-2926.61
10/07/2024,Pagamento efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38.0
10/07/2024,Pagamento efetuado,Fatura cartão Inter,-69.93
05/07/2024,Pix enviado,55643372 Marcos Franquini Andrade,-14300.0
05/07/2024,Pagamento efetuado,MERCADO PAGO INST PAG LTDA,-7619.0


In [0]:
%sql
-- Como estamos interessados em gastos, dentre as transações negativas, não contabilizaremos
   -- transferencias realizadas para outras contas do mesmo titular

SELECT 
     Data, 
     `Histórico`, 
     `Descrição`, 
        -- Coluna Valor: no mesmo formato da outra fonte de dados do Nubank para padronizar os dados
     ((CAST(REPLACE(REPLACE(Valor, '.', ''), ',', '.') AS DECIMAL(10,2)))) AS Valor
FROM bronze.inter_raw_table
WHERE 
-- precisamos que Descrição seja qualquer coisa que não contenha Leandra
-- recuperando linhas que não contenham Leandra Mara da Silva (escrito em maisc, minusc ou outras formas)
 (REPLACE(LOWER(
 `Descrição`
 ), ' ', '') NOT LIKE REPLACE(LOWER('%Leandra Mara Da Silva%'), ' ', '')) 
 
 -- recuperando linhas de descrição nula
 OR
 `Descrição` IS NULL;


--LOWER: converte todas as letras para minúsculas
--REPLACE: remove os espaços

Data,Histórico,Descrição,Valor
20/12/2024,Pix recebido,Gabriel Silva Dantas,80.0
09/09/2024,Pagamento efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38.0
06/08/2024,Pagamento efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38.0
15/07/2024,Transferência enviada,,-250.0
10/07/2024,Pagamento efetuado,PREDLINK REDE T LTDA EPP,-99.9
10/07/2024,Pagamento efetuado,LUMARJ CONDOMINIOS,-786.81
10/07/2024,Pagamento efetuado,NU PAGAMENTOS SA,-2926.61
10/07/2024,Pagamento efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38.0
10/07/2024,Pagamento efetuado,Fatura cartão Inter,-69.93
05/07/2024,Pix enviado,55643372 Marcos Franquini Andrade,-14300.0


In [0]:
%sql
-- Esse SELECT será usado depois como NOT LIKE para não considerar como gasto as saídas (valores negativos) destinados a investimentos

-- investimentos deste perfil de cliente: CDB, LCI, LCA

SELECT 
     Data, 
     `Histórico`, 
     `Descrição`, 
        -- Coluna Valor: no mesmo formato da outra fonte de dados do Nubank para padronizar os dados
     ((CAST(REPLACE(REPLACE(Valor, '.', ''), ',', '.') AS DECIMAL(10,2)))) AS Valor
FROM bronze.inter_raw_table
WHERE 
    REPLACE(LOWER(
    `Descrição`
    ), ' ', '') LIKE REPLACE(LOWER('CDB%'), ' ', '')
    OR
    REPLACE(LOWER(
    `Descrição`
    ), ' ', '') LIKE REPLACE(LOWER('LCI%'), ' ', '')
    OR
    REPLACE(LOWER(
    `Descrição`
    ), ' ', '') LIKE REPLACE(LOWER('LCA%'), ' ', '');

--LOWER: converte todas as letras para minúsculas
--REPLACE: remove os espaços

Data,Histórico,Descrição,Valor
20/05/2024,Eventos Renda Fixa,Lci Di Flut Tb,221687.41
21/11/2023,Débito Renda Fixa,Lci Brb,-211000.0
17/10/2023,Eventos Renda Fixa,Lca Pre 252 Tbe,105433.72
20/04/2023,Débito Renda Fixa,Lca Abc,-100000.0


In [0]:
%sql
SELECT 
  TO_DATE(Data, 'dd/MM/yyyy') AS Data,
  MONTH(TO_DATE(Data, 'dd/MM/yyyy')) AS Mes,   -- Extrai o mês
  YEAR(TO_DATE(Data, 'dd/MM/yyyy')) AS Ano    -- Extrai o ano
FROM bronze.inter_raw_table;

Data,Mes,Ano
2024-12-20,12,2024
2024-09-09,9,2024
2024-08-06,8,2024
2024-07-15,7,2024
2024-07-14,7,2024
2024-07-10,7,2024
2024-07-10,7,2024
2024-07-10,7,2024
2024-07-10,7,2024
2024-07-10,7,2024


In [0]:
%sql
SELECT Data,

    -- coluna histórico com nomes originais
    `Histórico`,

    -- coluna histórico padronizando nomes das transações conforme outras fontes de dados
    CASE 
        WHEN `Histórico` = 'Pagamento efetuado' THEN 'Pagamento de boleto efetuado'
        WHEN `Histórico` = 'Pagamento de Convênio' THEN 'Pagamento de boleto efetuado'
        WHEN `Histórico` = 'Pagamento Tim' THEN 'Pagamento de boleto efetuado'
        WHEN `Histórico` = 'Pagamento ENEL RJ' THEN 'Pagamento de boleto efetuado'
        ELSE `Histórico`
    END AS `Histórico_renomeado`

FROM bronze.inter_raw_table;


Data,Histórico,Histórico_renomeado
20/12/2024,Pix recebido,Pix recebido
09/09/2024,Pagamento efetuado,Pagamento de boleto efetuado
06/08/2024,Pagamento efetuado,Pagamento de boleto efetuado
15/07/2024,Transferência enviada,Transferência enviada
14/07/2024,Pix recebido,Pix recebido
10/07/2024,Pix recebido,Pix recebido
10/07/2024,Pagamento efetuado,Pagamento de boleto efetuado
10/07/2024,Pagamento efetuado,Pagamento de boleto efetuado
10/07/2024,Pagamento efetuado,Pagamento de boleto efetuado
10/07/2024,Pagamento efetuado,Pagamento de boleto efetuado


In [0]:
%sql
SELECT 

  --colunas que participarão
  TO_DATE(Data, 'dd/MM/yyyy') AS Data,

    CASE 
        WHEN `Histórico` = 'Pagamento efetuado' THEN 'Pagamento de boleto efetuado'
        WHEN `Histórico` = 'Pagamento de Convênio' THEN 'Pagamento de boleto efetuado'
        WHEN `Histórico` = 'Pagamento Tim' THEN 'Pagamento de boleto efetuado'
        WHEN `Histórico` = 'Pagamento ENEL RJ' THEN 'Pagamento de boleto efetuado'
        ELSE `Histórico`
    END AS Transacao, 
  
  `Descrição` AS Beneficiario, 
      -- Coluna Valor: no mesmo formato da outra fonte de dados do Nubank para padronizar os dados
  ((CAST(REPLACE(REPLACE(Valor, '.', ''), ',', '.') AS DECIMAL(10,2)))) AS Valor,
  MONTH(TO_DATE(Data, 'dd/MM/yyyy')) AS Mes,   -- Extrai o mês
  YEAR(TO_DATE(Data, 'dd/MM/yyyy')) AS Ano    -- Extrai o ano

FROM bronze.inter_raw_table

-- filtros
WHERE 

-- filtro para considerar apenas os valores negativos
     (CAST(REPLACE(REPLACE(Valor, '.', ''), ',', '.') -- coloco o separador decimal como em países de língua inglesa
          AS DECIMAL(10,2))) < 0 -- aplica-se o CAST para transformar o dado para numérico permitindo verificar se é < 0 (negativo)

AND
-- tratativa sobre beneficiário no campo Descrição
  -- precisamos que Descrição não seja Leandra e isso significa que
    -- a) havendo nome, não é Leandra Mara da Silva (escrito em maisc, minusc ou outras formas)
    ( (REPLACE(LOWER(
    `Descrição`
    ), ' ', '') NOT LIKE REPLACE(LOWER('%Leandra Mara Da Silva%'), ' ', '')) 
    
    -- b) ou não há nome na Descrição: campo é nulo
    OR
    `Descrição` IS NULL )

AND
-- tratativa sobre transação de investimento
REPLACE(LOWER(
`Histórico`
), ' ', '') NOT LIKE REPLACE(LOWER('%bito Renda Fixa%'), ' ', '');


Data,Transacao,Beneficiario,Valor,Mes,Ano
2024-09-09,Pagamento de boleto efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38.0,9,2024
2024-08-06,Pagamento de boleto efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38.0,8,2024
2024-07-15,Transferência enviada,,-250.0,7,2024
2024-07-10,Pagamento de boleto efetuado,PREDLINK REDE T LTDA EPP,-99.9,7,2024
2024-07-10,Pagamento de boleto efetuado,LUMARJ CONDOMINIOS,-786.81,7,2024
2024-07-10,Pagamento de boleto efetuado,NU PAGAMENTOS SA,-2926.61,7,2024
2024-07-10,Pagamento de boleto efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,-38.0,7,2024
2024-07-10,Pagamento de boleto efetuado,Fatura cartão Inter,-69.93,7,2024
2024-07-05,Pix enviado,55643372 Marcos Franquini Andrade,-14300.0,7,2024
2024-07-05,Pagamento de boleto efetuado,MERCADO PAGO INST PAG LTDA,-7619.0,7,2024


In [0]:
%sql
DROP TABLE IF EXISTS silver.inter_clean_table;

In [0]:
%sql
CREATE OR REPLACE TABLE silver.inter_clean_table AS
  
  SELECT 

  --colunas que participarão
  TO_DATE(Data, 'dd/MM/yyyy') AS Data,

      -- Coluna Valor: no mesmo formato da outra fonte de dados do Nubank para padronizar os dados
  ((CAST(REPLACE(REPLACE(Valor, '.', ''), ',', '.') AS DECIMAL(10,2)))) AS Valor,

  MONTH(TO_DATE(Data, 'dd/MM/yyyy')) AS Mes,   -- Extrai o mês
  YEAR(TO_DATE(Data, 'dd/MM/yyyy')) AS Ano,    -- Extrai o ano

  CASE 
      WHEN `Histórico` = 'Pagamento efetuado' THEN 'Pagamento de boleto efetuado'
      WHEN `Histórico` = 'Pagamento de Convênio' THEN 'Pagamento de boleto efetuado'
      WHEN `Histórico` = 'Pagamento Tim' THEN 'Pagamento de boleto efetuado'
      WHEN `Histórico` = 'Pagamento ENEL RJ' THEN 'Pagamento de boleto efetuado'
      ELSE `Histórico`
  END AS Transacao, 

  `Descrição` AS Beneficiario

  FROM bronze.inter_raw_table

  -- filtros
  WHERE 

  -- filtro para considerar apenas os valores negativos
    (CAST(REPLACE(REPLACE(Valor, '.', ''), ',', '.') -- coloco o separador decimal como em países de língua inglesa
            AS DECIMAL(10,2))) < 0 -- aplica-se o CAST para transformar o dado para numérico permitindo verificar se é < 0 (negativo)

    AND
    -- tratativa sobre beneficiário no campo Descrição
      -- precisamos que Descrição não seja Leandra e isso significa que
        -- a) havendo nome, não é Leandra Mara da Silva (escrito em maisc, minusc ou outras formas)
        ( (REPLACE(LOWER(
        `Descrição`
        ), ' ', '') NOT LIKE REPLACE(LOWER('%Leandra Mara Da Silva%'), ' ', '')) 
        
        -- b) ou não há nome na Descrição: campo é nulo
        OR
        `Descrição` IS NULL )

    AND
    -- tratativa sobre transação de investimento
    REPLACE(LOWER(
    `Histórico`
    ), ' ', '') NOT LIKE REPLACE(LOWER('%bito Renda Fixa%'), ' ', '');

num_affected_rows,num_inserted_rows


In [0]:
%sql
-- incluindo coluna com o nome do Banco
ALTER TABLE silver.inter_clean_table
ADD COLUMN Banco STRING;

UPDATE silver.inter_clean_table
SET Banco = 'Inter';

num_affected_rows
733


In [0]:
%sql
-- resultado da tabela Inter com todos os tratamentos
SELECT *
FROM silver.inter_clean_table;

Data,Valor,Mes,Ano,Transacao,Beneficiario,Banco
2024-09-09,-38.0,9,2024,Pagamento de boleto efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,Inter
2024-08-06,-38.0,8,2024,Pagamento de boleto efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,Inter
2024-07-15,-250.0,7,2024,Transferência enviada,,Inter
2024-07-10,-99.9,7,2024,Pagamento de boleto efetuado,PREDLINK REDE T LTDA EPP,Inter
2024-07-10,-786.81,7,2024,Pagamento de boleto efetuado,LUMARJ CONDOMINIOS,Inter
2024-07-10,-2926.61,7,2024,Pagamento de boleto efetuado,NU PAGAMENTOS SA,Inter
2024-07-10,-38.0,7,2024,Pagamento de boleto efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA,Inter
2024-07-10,-69.93,7,2024,Pagamento de boleto efetuado,Fatura cartão Inter,Inter
2024-07-05,-14300.0,7,2024,Pix enviado,55643372 Marcos Franquini Andrade,Inter
2024-07-05,-7619.0,7,2024,Pagamento de boleto efetuado,MERCADO PAGO INST PAG LTDA,Inter


## **Banco Nubank**

### Leitura do Arquivo CSV

In [0]:

file_id = '1ydYy3AIinzREm4v8fDS2hK3Uxi9SjGTs'  
url = f'https://drive.google.com/uc?id={file_id}'

# Leitura do arquivo CSV do Banco Nubank
nubank_df = pd.read_csv(url,sep=',',header=0) 

# Mostrar as primeiras linhas para entender a estrutura
nubank_df.head(10)


Unnamed: 0,Data,Valor,Identificador,Descrição
0,05/07/2024,281198.34,66888d22-42fe-4318-868d-44eef7a6474f,Transferência recebida pelo Pix - LEANDRA MARA...
1,06/07/2024,-600.0,66899882-751c-420f-b3b9-65689ca378f6,Transferência enviada pelo Pix - Benedita Sima...
2,08/07/2024,-706.0,668c4116-b560-4b0a-9e9b-818a0c62287a,Transferência enviada pelo Pix - Lafs Processa...
3,10/07/2024,-4000.0,668ed0c2-5350-4c85-b0da-e8593111c4c8,Transferência enviada pelo Pix - LEANDRA MARA ...
4,12/07/2024,-1340.15,66918b86-cd13-48a2-b2f4-35dca9a14648,Pagamento de boleto efetuado - SUL AMERICA COM...
5,12/07/2024,-51.99,66918c71-8d67-45fe-8df1-1d38d9f38728,Pagamento de boleto efetuado - Tim
6,12/07/2024,-352.74,66918e2b-6d37-4e24-ac52-1d7d3e07c2c5,Transferência enviada pelo Pix - ENEL DISTRIBU...
7,14/07/2024,-250.0,6693ebed-c8a2-4087-8148-569a301987de,Transferência enviada pelo Pix - LEANDRA MARA ...
8,15/07/2024,-35.0,66952395-90f9-45e6-aae6-e60050a97af3,Transferência enviada pelo Pix - M4 PRODUTOS E...
9,15/07/2024,-75.6,6695248f-92fd-4e9d-80da-2e3fc4be7efe,Transferência enviada pelo Pix - RECEITA FEDER...


### Camada Bronze - Dados Brutos

In [0]:
from pyspark.sql import functions as F

#criação de um dataframe formato spark
nubank_raw_sparkdf = spark.createDataFrame(nubank_df) 

#associando as informações de valor como string
nubank_raw_sparkdf = nubank_raw_sparkdf.withColumn("Valor", F.format_string("%.2f", nubank_raw_sparkdf["Valor"]))

#criação da tabela com as transações do Banco Nubank
nubank_raw_sparkdf.write.mode("overwrite").saveAsTable("bronze.nubank_raw_table")

In [0]:
%sql 

SELECT *
FROM bronze.nubank_raw_table;


Data,Valor,Identificador,Descrição
05/07/2024,281198.34,66888d22-42fe-4318-868d-44eef7a6474f,Transferência recebida pelo Pix - LEANDRA MARA DA SILVA - •••.582.737-•• - BANCO INTER (0077) Agência: 1 Conta: 6145024-3
06/07/2024,-600.0,66899882-751c-420f-b3b9-65689ca378f6,Transferência enviada pelo Pix - Benedita Simao Santos - •••.137.017-•• - PICPAY (0380) Agência: 1 Conta: 59633678-0
08/07/2024,-706.0,668c4116-b560-4b0a-9e9b-818a0c62287a,Transferência enviada pelo Pix - Lafs Processamento Contabil Ltda Epp - 20.076.353/0001-82 - BCO SANTANDER (BRASIL) S.A. (0033) Agência: 3826 Conta: 13003611-8
10/07/2024,-4000.0,668ed0c2-5350-4c85-b0da-e8593111c4c8,Transferência enviada pelo Pix - LEANDRA MARA DA SILVA - •••.582.737-•• - BANCO INTER (0077) Agência: 1 Conta: 6145024-3
12/07/2024,-1340.15,66918b86-cd13-48a2-b2f4-35dca9a14648,Pagamento de boleto efetuado - SUL AMERICA COMPANHIA DE SEGURO SAUDE
12/07/2024,-51.99,66918c71-8d67-45fe-8df1-1d38d9f38728,Pagamento de boleto efetuado - Tim
12/07/2024,-352.74,66918e2b-6d37-4e24-ac52-1d7d3e07c2c5,Transferência enviada pelo Pix - ENEL DISTRIBUICAO RIO - 33.050.071/0001-58 - ITAÚ UNIBANCO S.A. (0341) Agência: 911 Conta: 12768-6
14/07/2024,-250.0,6693ebed-c8a2-4087-8148-569a301987de,Transferência enviada pelo Pix - LEANDRA MARA DA SILVA - •••.582.737-•• - BANCO INTER (0077) Agência: 1 Conta: 6145024-3
15/07/2024,-35.0,66952395-90f9-45e6-aae6-e60050a97af3,Transferência enviada pelo Pix - M4 PRODUTOS E SERVIÇOS S.A - 09.614.276/0001-34 - PARATI - CFI S.A. (0326) Agência: 1 Conta: 1000000162-4
15/07/2024,-75.6,6695248f-92fd-4e9d-80da-2e3fc4be7efe,Transferência enviada pelo Pix - RECEITA FEDERAL - 00.394.460/0058-87 - ITAÚ UNIBANCO S.A. (0341) Agência: 332 Conta: 81010-0


In [0]:
%sql
DESCRIBE bronze.nubank_raw_table;

col_name,data_type,comment
Data,string,
Valor,string,
Identificador,string,
Descrição,string,


In [0]:
%sql
SELECT DISTINCT  

    -- extraindo o tipo de transacao da coluna Descrição (via SPLIT)
    -- NULLIF: se o resultado do split for NULO, ele atribui NULO
    NULLIF( SPLIT_PART(`Descrição`, ' - ', 1), '' ) AS Transacao


FROM bronze.nubank_raw_table;

Transacao
Pagamento de boleto efetuado
Compra no débito
Pagamento de fatura
Transferência enviada pelo Pix
Transferência recebida pelo Pix
Transferência Recebida
Reembolso recebido pelo Pix
Transferência enviada


In [0]:
%sql
SELECT 
    COUNT(CASE WHEN Data IS NULL THEN 1 END) AS Data_nulas,
    COUNT(CASE WHEN Identificador IS NULL THEN 1 END) AS Historico_nulo,
    COUNT(CASE WHEN `Descrição` IS NULL THEN 1 END) AS Descricao_nulo,
    COUNT(CASE WHEN Valor IS NULL THEN 1 END) AS Valor_nulo
FROM bronze.nubank_raw_table;

Data_nulas,Historico_nulo,Descricao_nulo,Valor_nulo
0,0,0,0


### Camada Silver - Limpeza e Transformação

In [0]:
%sql

SELECT 
     Data, 
          -- Coluna Valor: no mesmo formato da outra fonte de dados
     CAST(Valor AS DECIMAL(10, 2)) AS Valor,
     Identificador,
     `Descrição`
FROM bronze.nubank_raw_table
WHERE 
 -- filtro para considerar apenas os valores negativos
     CAST(Valor AS DECIMAL(10, 2)) < 0 

Data,Valor,Identificador,Descrição
06/07/2024,-600.0,66899882-751c-420f-b3b9-65689ca378f6,Transferência enviada pelo Pix - Benedita Simao Santos - •••.137.017-•• - PICPAY (0380) Agência: 1 Conta: 59633678-0
08/07/2024,-706.0,668c4116-b560-4b0a-9e9b-818a0c62287a,Transferência enviada pelo Pix - Lafs Processamento Contabil Ltda Epp - 20.076.353/0001-82 - BCO SANTANDER (BRASIL) S.A. (0033) Agência: 3826 Conta: 13003611-8
10/07/2024,-4000.0,668ed0c2-5350-4c85-b0da-e8593111c4c8,Transferência enviada pelo Pix - LEANDRA MARA DA SILVA - •••.582.737-•• - BANCO INTER (0077) Agência: 1 Conta: 6145024-3
12/07/2024,-1340.15,66918b86-cd13-48a2-b2f4-35dca9a14648,Pagamento de boleto efetuado - SUL AMERICA COMPANHIA DE SEGURO SAUDE
12/07/2024,-51.99,66918c71-8d67-45fe-8df1-1d38d9f38728,Pagamento de boleto efetuado - Tim
12/07/2024,-352.74,66918e2b-6d37-4e24-ac52-1d7d3e07c2c5,Transferência enviada pelo Pix - ENEL DISTRIBUICAO RIO - 33.050.071/0001-58 - ITAÚ UNIBANCO S.A. (0341) Agência: 911 Conta: 12768-6
14/07/2024,-250.0,6693ebed-c8a2-4087-8148-569a301987de,Transferência enviada pelo Pix - LEANDRA MARA DA SILVA - •••.582.737-•• - BANCO INTER (0077) Agência: 1 Conta: 6145024-3
15/07/2024,-35.0,66952395-90f9-45e6-aae6-e60050a97af3,Transferência enviada pelo Pix - M4 PRODUTOS E SERVIÇOS S.A - 09.614.276/0001-34 - PARATI - CFI S.A. (0326) Agência: 1 Conta: 1000000162-4
15/07/2024,-75.6,6695248f-92fd-4e9d-80da-2e3fc4be7efe,Transferência enviada pelo Pix - RECEITA FEDERAL - 00.394.460/0058-87 - ITAÚ UNIBANCO S.A. (0341) Agência: 332 Conta: 81010-0
16/07/2024,-5.0,6696ae0f-2872-449e-b171-9b1f6e67a78c,Transferência enviada pelo Pix - Mariana Silva - •••.141.067-•• - SUMUP SOCIEDADE DE CREDITO DIRETO S.A. (0404) Agência: 1 Conta: 573497688-8


In [0]:
%sql
SELECT *
FROM bronze.nubank_raw_table
WHERE 
-- precisamos que Descrição seja qualquer coisa que não contenha Leandra
-- recuperando linhas que não contenham Leandra Mara da Silva (escrito em maisc, minusc ou outras formas)
 ( (REPLACE(LOWER(
 `Descrição`
 ), ' ', '') NOT LIKE REPLACE(LOWER('%Leandra Mara Da Silva%'), ' ', '')) 
 
 -- recuperando linhas de descrição nula
 OR
 `Descrição` IS NULL );


--LOWER: converte todas as letras para minúsculas
--REPLACE: remove os espaços

Data,Valor,Identificador,Descrição
06/07/2024,-600.0,66899882-751c-420f-b3b9-65689ca378f6,Transferência enviada pelo Pix - Benedita Simao Santos - •••.137.017-•• - PICPAY (0380) Agência: 1 Conta: 59633678-0
08/07/2024,-706.0,668c4116-b560-4b0a-9e9b-818a0c62287a,Transferência enviada pelo Pix - Lafs Processamento Contabil Ltda Epp - 20.076.353/0001-82 - BCO SANTANDER (BRASIL) S.A. (0033) Agência: 3826 Conta: 13003611-8
12/07/2024,-1340.15,66918b86-cd13-48a2-b2f4-35dca9a14648,Pagamento de boleto efetuado - SUL AMERICA COMPANHIA DE SEGURO SAUDE
12/07/2024,-51.99,66918c71-8d67-45fe-8df1-1d38d9f38728,Pagamento de boleto efetuado - Tim
12/07/2024,-352.74,66918e2b-6d37-4e24-ac52-1d7d3e07c2c5,Transferência enviada pelo Pix - ENEL DISTRIBUICAO RIO - 33.050.071/0001-58 - ITAÚ UNIBANCO S.A. (0341) Agência: 911 Conta: 12768-6
15/07/2024,-35.0,66952395-90f9-45e6-aae6-e60050a97af3,Transferência enviada pelo Pix - M4 PRODUTOS E SERVIÇOS S.A - 09.614.276/0001-34 - PARATI - CFI S.A. (0326) Agência: 1 Conta: 1000000162-4
15/07/2024,-75.6,6695248f-92fd-4e9d-80da-2e3fc4be7efe,Transferência enviada pelo Pix - RECEITA FEDERAL - 00.394.460/0058-87 - ITAÚ UNIBANCO S.A. (0341) Agência: 332 Conta: 81010-0
16/07/2024,-5.0,6696ae0f-2872-449e-b171-9b1f6e67a78c,Transferência enviada pelo Pix - Mariana Silva - •••.141.067-•• - SUMUP SOCIEDADE DE CREDITO DIRETO S.A. (0404) Agência: 1 Conta: 573497688-8
17/07/2024,-22.0,6697b3ac-03dc-4185-8294-7743bcfa2dc4,Transferência enviada pelo Pix - TAYNAH ROZA DA SILVA - •••.926.807-•• - CAIXA ECONOMICA FEDERAL (0104) Agência: 2933 Conta: 1288000000768524405-6
17/07/2024,-55.0,6698150c-f432-433a-83b0-725d6b9f8b63,Transferência enviada pelo Pix - Erica Rosa Ribeiro Oliveira - •••.436.677-•• - MERCADO PAGO IP LTDA. (0323) Agência: 1 Conta: 3549651964-6


In [0]:
%sql
-- Esse SELECT será usado depois como NOT LIKE para não considerar como gasto as saídas (valores negativos) destinados a investimentos

-- investimentos possíveis deste perfil de cliente: CDB, LCI, LCA
-- é sabido que em 2023 e 2024 não foram realizados investimentos e só estamos olhando as bases destes anos

SELECT *
FROM bronze.nubank_raw_table
WHERE 
(
    REPLACE(LOWER(
    `Descrição`
    ), ' ', '') LIKE REPLACE(LOWER('CDB%'), ' ', '')
    OR
    REPLACE(LOWER(
    `Descrição`
    ), ' ', '') LIKE REPLACE(LOWER('LCI%'), ' ', '')
    OR
    REPLACE(LOWER(
    `Descrição`
    ), ' ', '') LIKE REPLACE(LOWER('LCA%'), ' ', '')
);

--LOWER: converte todas as letras para minúsculas
--REPLACE: remove os espaços

Data,Valor,Identificador,Descrição


In [0]:
%sql
SELECT 
  TO_DATE(Data, 'dd/MM/yyyy') AS Data,
  MONTH(TO_DATE(Data, 'dd/MM/yyyy')) AS Mes,   -- Extrai o mês
  YEAR(TO_DATE(Data, 'dd/MM/yyyy')) AS Ano    -- Extrai o ano
FROM bronze.nubank_raw_table;

Data,Mes,Ano
2024-07-05,7,2024
2024-07-06,7,2024
2024-07-08,7,2024
2024-07-10,7,2024
2024-07-12,7,2024
2024-07-12,7,2024
2024-07-12,7,2024
2024-07-14,7,2024
2024-07-15,7,2024
2024-07-15,7,2024


In [0]:
%sql
SELECT 
    Data,
    
    -- extraindo o tipo de transacao da coluna Descrição (via SPLIT)
    -- NULLIF: se o resultado do split for NULO, ele atribui NULO
    NULLIF( SPLIT_PART(`Descrição`, ' - ', 1), '' ) AS Transacao,

    -- extraindo o Beneficiário da coluna Descrição (via SPLIT)
    NULLIF( SPLIT_PART(`Descrição`, ' - ', 2), '' ) AS Beneficiario,

    -- não vamos incluir as informações abaixo na silver; já elas nem existem na outra fonte de dados
    -- deixamos aqui apenas para testar o desmembramento total da coluna que continha várias infs (via SPLIT)
    NULLIF( SPLIT_PART(`Descrição`, ' - ', 3), '') AS Doc_beneficiario,
    NULLIF( SPLIT_PART(`Descrição`, ' - ', 4), '' ) AS Conta_beneficiario, 

    Valor
FROM 
    bronze.nubank_raw_table;

Data,Transacao,Beneficiario,Doc_beneficiario,Conta_beneficiario,Valor
05/07/2024,Transferência recebida pelo Pix,LEANDRA MARA DA SILVA,•••.582.737-••,BANCO INTER (0077) Agência: 1 Conta: 6145024-3,281198.34
06/07/2024,Transferência enviada pelo Pix,Benedita Simao Santos,•••.137.017-••,PICPAY (0380) Agência: 1 Conta: 59633678-0,-600.0
08/07/2024,Transferência enviada pelo Pix,Lafs Processamento Contabil Ltda Epp,20.076.353/0001-82,BCO SANTANDER (BRASIL) S.A. (0033) Agência: 3826 Conta: 13003611-8,-706.0
10/07/2024,Transferência enviada pelo Pix,LEANDRA MARA DA SILVA,•••.582.737-••,BANCO INTER (0077) Agência: 1 Conta: 6145024-3,-4000.0
12/07/2024,Pagamento de boleto efetuado,SUL AMERICA COMPANHIA DE SEGURO SAUDE,,,-1340.15
12/07/2024,Pagamento de boleto efetuado,Tim,,,-51.99
12/07/2024,Transferência enviada pelo Pix,ENEL DISTRIBUICAO RIO,33.050.071/0001-58,ITAÚ UNIBANCO S.A. (0341) Agência: 911 Conta: 12768-6,-352.74
14/07/2024,Transferência enviada pelo Pix,LEANDRA MARA DA SILVA,•••.582.737-••,BANCO INTER (0077) Agência: 1 Conta: 6145024-3,-250.0
15/07/2024,Transferência enviada pelo Pix,M4 PRODUTOS E SERVIÇOS S.A,09.614.276/0001-34,PARATI,-35.0
15/07/2024,Transferência enviada pelo Pix,RECEITA FEDERAL,00.394.460/0058-87,ITAÚ UNIBANCO S.A. (0341) Agência: 332 Conta: 81010-0,-75.6


In [0]:
%sql
SELECT Data,
    -- mostra os tipo de transação com seus nomes originais
    -- essa informação é extraída do campo Descrição
    NULLIF( SPLIT_PART(`Descrição`, ' - ', 1), '' ) AS Transacao,

    -- padronizando nomes das transações para utilização com com outras fontes de dados
    -- trocando Transferência enviada pelo Pix para Pix enviado
    CASE 
        WHEN NULLIF( SPLIT_PART(`Descrição`, ' - ', 1), '' ) = 'Transferência enviada pelo Pix' THEN 'Pix enviado'
        ELSE NULLIF( SPLIT_PART(`Descrição`, ' - ', 1), '' )
    END AS Transacao

FROM bronze.nubank_raw_table;

Data,Transacao,Transacao.1
05/07/2024,Transferência recebida pelo Pix,Transferência recebida pelo Pix
06/07/2024,Transferência enviada pelo Pix,Pix enviado
08/07/2024,Transferência enviada pelo Pix,Pix enviado
10/07/2024,Transferência enviada pelo Pix,Pix enviado
12/07/2024,Pagamento de boleto efetuado,Pagamento de boleto efetuado
12/07/2024,Pagamento de boleto efetuado,Pagamento de boleto efetuado
12/07/2024,Transferência enviada pelo Pix,Pix enviado
14/07/2024,Transferência enviada pelo Pix,Pix enviado
15/07/2024,Transferência enviada pelo Pix,Pix enviado
15/07/2024,Transferência enviada pelo Pix,Pix enviado


In [0]:
%sql
SELECT 

  --colunas que participarão
  TO_DATE(Data, 'dd/MM/yyyy') AS Data,

  CAST(Valor AS DECIMAL(10, 2)) AS Valor, 

  MONTH(TO_DATE(Data, 'dd/MM/yyyy')) AS Mes,   -- Extrai o mês
  YEAR(TO_DATE(Data, 'dd/MM/yyyy')) AS Ano,    -- Extrai o ano

  -- padronizando nomes das transações para uso com outras fontes de dados
  CASE 
      WHEN NULLIF( SPLIT_PART(`Descrição`, ' - ', 1), '' ) = 'Transferência enviada pelo Pix' THEN 'Pix enviado'
      ELSE NULLIF( SPLIT_PART(`Descrição`, ' - ', 1), '' )
  END AS Transacao,

  -- extraindo o Beneficiário da coluna Descrição (via SPLIT)
  NULLIF( SPLIT_PART(`Descrição`, ' - ', 2), '' ) AS Beneficiario

FROM bronze.nubank_raw_table

-- filtros
WHERE 

-- filtro para considerar apenas os valores negativos
    CAST(Valor AS DECIMAL(10, 2)) < 0 

    AND
-- tratativa sobre beneficiário no campo Descrição
  -- precisamos que Descrição não seja Leandra e isso significa que
    -- a) havendo nome, não é Leandra Mara da Silva (escrito em maisc, minusc ou outras formas)
    ( (REPLACE(LOWER(
    `Descrição`
    ), ' ', '') NOT LIKE REPLACE(LOWER('%Leandra Mara Da Silva%'), ' ', '')) 
    
    -- b) ou não há nome na Descrição: campo é nulo
    OR
    `Descrição` IS NULL )

    AND
-- tratativa sobre transação de investimento
    ( 
      REPLACE(LOWER(
      `Descrição`
      ), ' ', '') NOT LIKE REPLACE(LOWER('CDB%'), ' ', '')
      OR
      REPLACE(LOWER(
      `Descrição`
      ), ' ', '') NOT LIKE REPLACE(LOWER('LCI%'), ' ', '')
      OR
      REPLACE(LOWER(
      `Descrição`
      ), ' ', '') NOT LIKE REPLACE(LOWER('LCA%'), ' ', '') 
    );



Data,Valor,Mes,Ano,Transacao,Beneficiario
2024-07-06,-600.0,7,2024,Pix enviado,Benedita Simao Santos
2024-07-08,-706.0,7,2024,Pix enviado,Lafs Processamento Contabil Ltda Epp
2024-07-12,-1340.15,7,2024,Pagamento de boleto efetuado,SUL AMERICA COMPANHIA DE SEGURO SAUDE
2024-07-12,-51.99,7,2024,Pagamento de boleto efetuado,Tim
2024-07-12,-352.74,7,2024,Pix enviado,ENEL DISTRIBUICAO RIO
2024-07-15,-35.0,7,2024,Pix enviado,M4 PRODUTOS E SERVIÇOS S.A
2024-07-15,-75.6,7,2024,Pix enviado,RECEITA FEDERAL
2024-07-16,-5.0,7,2024,Pix enviado,Mariana Silva
2024-07-17,-22.0,7,2024,Pix enviado,TAYNAH ROZA DA SILVA
2024-07-17,-55.0,7,2024,Pix enviado,Erica Rosa Ribeiro Oliveira


In [0]:
%sql
CREATE OR REPLACE TABLE silver.nubank_clean_table AS
  
  SELECT 

  --colunas que participarão
  TO_DATE(Data, 'dd/MM/yyyy') AS Data,

  CAST(Valor AS DECIMAL(10, 2)) AS Valor, 

  MONTH(TO_DATE(Data, 'dd/MM/yyyy')) AS Mes,   -- Extrai o mês
  YEAR(TO_DATE(Data, 'dd/MM/yyyy')) AS Ano,    -- Extrai o ano

  -- extraindo o tipo de transacao da coluna Descrição (via SPLIT)
  -- NULLIF: se o resultado do split for NULO, ele atribui NULO
  -- padronizando nomes das transações para uso com outras fontes de dados
  CASE 
      WHEN NULLIF( SPLIT_PART(`Descrição`, ' - ', 1), '' ) = 'Transferência enviada pelo Pix'   THEN 'Pix enviado'
      ELSE NULLIF( SPLIT_PART(`Descrição`, ' - ', 1), '' )
  END AS Transacao,

  -- extraindo o Beneficiário da coluna Descrição (via SPLIT)
  NULLIF( SPLIT_PART(`Descrição`, ' - ', 2), '' ) AS Beneficiario

FROM bronze.nubank_raw_table

-- filtros
WHERE 

-- filtro para considerar apenas os valores negativos
    CAST(Valor AS DECIMAL(10, 2)) < 0 

    AND
-- tratativa sobre beneficiário no campo Descrição
  -- precisamos que Descrição não seja Leandra e isso significa que
    -- a) havendo nome, não é Leandra Mara da Silva (escrito em maisc, minusc ou outras formas)
    ( (REPLACE(LOWER(
    `Descrição`
    ), ' ', '') NOT LIKE REPLACE(LOWER('%Leandra Mara Da Silva%'), ' ', '')) 
    
    -- b) ou não há nome na Descrição: campo é nulo
    OR
    `Descrição` IS NULL )

    AND
-- tratativa sobre transação de investimento
    ( 
      REPLACE(LOWER(
      `Descrição`
      ), ' ', '') NOT LIKE REPLACE(LOWER('CDB%'), ' ', '')
      OR
      REPLACE(LOWER(
      `Descrição`
      ), ' ', '') NOT LIKE REPLACE(LOWER('LCI%'), ' ', '')
      OR
      REPLACE(LOWER(
      `Descrição`
      ), ' ', '') NOT LIKE REPLACE(LOWER('LCA%'), ' ', '') 
    );

num_affected_rows,num_inserted_rows


In [0]:
%sql
ALTER TABLE silver.nubank_clean_table
ADD COLUMN Banco STRING;

UPDATE silver.nubank_clean_table
SET Banco = 'Nubank';

num_affected_rows
221


In [0]:
%sql
SELECT *
FROM silver.nubank_clean_table;

Data,Valor,Mes,Ano,Transacao,Beneficiario,Banco
2024-07-06,-600.0,7,2024,Pix enviado,Benedita Simao Santos,Nubank
2024-07-08,-706.0,7,2024,Pix enviado,Lafs Processamento Contabil Ltda Epp,Nubank
2024-07-12,-1340.15,7,2024,Pagamento de boleto efetuado,SUL AMERICA COMPANHIA DE SEGURO SAUDE,Nubank
2024-07-12,-51.99,7,2024,Pagamento de boleto efetuado,Tim,Nubank
2024-07-12,-352.74,7,2024,Pix enviado,ENEL DISTRIBUICAO RIO,Nubank
2024-07-15,-35.0,7,2024,Pix enviado,M4 PRODUTOS E SERVIÇOS S.A,Nubank
2024-07-15,-75.6,7,2024,Pix enviado,RECEITA FEDERAL,Nubank
2024-07-16,-5.0,7,2024,Pix enviado,Mariana Silva,Nubank
2024-07-17,-22.0,7,2024,Pix enviado,TAYNAH ROZA DA SILVA,Nubank
2024-07-17,-55.0,7,2024,Pix enviado,Erica Rosa Ribeiro Oliveira,Nubank


## Camada Gold

In [0]:
%sql 
DROP DATABASE IF EXISTS gold CASCADE;
CREATE DATABASE gold;

In [0]:
%sql
DESCRIBE silver.inter_clean_table;

col_name,data_type,comment
Data,date,
Valor,"decimal(10,2)",
Mes,int,
Ano,int,
Transacao,string,
Beneficiario,string,
Banco,string,


In [0]:
%sql 
SELECT COUNT (*) 
FROM silver.inter_clean_table;

count(1)
733


In [0]:
%sql
DESCRIBE silver.nubank_clean_table;

col_name,data_type,comment
Data,date,
Valor,"decimal(10,2)",
Mes,int,
Ano,int,
Transacao,string,
Beneficiario,string,
Banco,string,


In [0]:
%sql 
SELECT COUNT (*) 
FROM silver.nubank_clean_table;

count(1)
221


In [0]:
%sql
SELECT Banco,Data,Valor, Mes, Ano, Transacao, Beneficiario 
FROM (
    SELECT * FROM silver.inter_clean_table
    UNION ALL
    SELECT * FROM silver.nubank_clean_table
) AS combined_data
ORDER BY Banco ASC, Data DESC;

Banco,Data,Valor,Mes,Ano,Transacao,Beneficiario
Inter,2024-09-09,-38.0,9,2024,Pagamento de boleto efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA
Inter,2024-08-06,-38.0,8,2024,Pagamento de boleto efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA
Inter,2024-07-15,-250.0,7,2024,Transferência enviada,
Inter,2024-07-10,-99.9,7,2024,Pagamento de boleto efetuado,PREDLINK REDE T LTDA EPP
Inter,2024-07-10,-786.81,7,2024,Pagamento de boleto efetuado,LUMARJ CONDOMINIOS
Inter,2024-07-10,-2926.61,7,2024,Pagamento de boleto efetuado,NU PAGAMENTOS SA
Inter,2024-07-10,-38.0,7,2024,Pagamento de boleto efetuado,ASSISTENCIAL CACHOEIRO CEMITERIO PARQUE LTDA
Inter,2024-07-10,-69.93,7,2024,Pagamento de boleto efetuado,Fatura cartão Inter
Inter,2024-07-05,-14300.0,7,2024,Pix enviado,55643372 Marcos Franquini Andrade
Inter,2024-07-05,-7619.0,7,2024,Pagamento de boleto efetuado,MERCADO PAGO INST PAG LTDA


In [0]:
%sql
DROP TABLE IF EXISTS gold.all_banks_table;

In [0]:
%sql
CREATE OR REPLACE TABLE gold.all_banks_table AS
    SELECT Banco,Data,Valor, Mes, Ano, Transacao, Beneficiario 
    FROM (
        SELECT * FROM silver.inter_clean_table
        UNION ALL
        SELECT * FROM silver.nubank_clean_table
    ) AS combined_data
ORDER BY Data DESC;

num_affected_rows,num_inserted_rows


In [0]:
%sql
SELECT *
FROM gold.all_banks_table;

Banco,Data,Valor,Mes,Ano,Transacao,Beneficiario
Nubank,2024-12-30,-439.23,12,2024,Compra no débito,Supermercados Mundia
Nubank,2024-12-30,-160.0,12,2024,Pix enviado,Benedita Simao Santos
Nubank,2024-12-28,-454.46,12,2024,Compra no débito,Supermercados Mundia
Nubank,2024-12-28,-31.36,12,2024,Compra no débito,Supermercados Mundia
Nubank,2024-12-28,-27.0,12,2024,Pix enviado,TAYNAH ROZA DA SILVA
Nubank,2024-12-27,-39.0,12,2024,Pix enviado,Renato Magalhaes Junior
Nubank,2024-12-27,-23.0,12,2024,Pix enviado,Gabriel Silva Dantas
Nubank,2024-12-27,-60.0,12,2024,Compra no débito,Aynara Silva Lopes
Nubank,2024-12-27,-38.92,12,2024,Compra no débito,Shekinah Joias
Nubank,2024-12-27,-50.0,12,2024,Compra no débito,Riopar Participacoes


In [0]:
%sql
SELECT DISTINCT Transacao
FROM gold.all_banks_table;

Transacao
Pagamento de boleto efetuado
Compra no débito
Pagamento de fatura
Saque
Transferência enviada
Pix enviado


In [0]:
%sql
SELECT *
FROM gold.all_banks_table
WHERE Beneficiario LIKE ('%Leandra Mara Da Silva%');

Banco,Data,Valor,Mes,Ano,Transacao,Beneficiario


## Consultas na camada Gold (gold.all_banks_table)

### Q1) Gasto mensal

In [0]:
%sql
SELECT 
    Ano,
    Mes,
    SUM(Valor) AS total_gasto
FROM gold.all_banks_table
WHERE Ano IN (2023, 2024)
GROUP BY Ano, Mes
ORDER BY Ano, Mes;

Ano,Mes,total_gasto
2023,1,-8049.61
2023,2,-9514.54
2023,3,-9597.2
2023,4,-8055.1
2023,5,-8501.52
2023,6,-9992.21
2023,7,-10739.38
2023,8,-7804.8
2023,9,-10558.64
2023,10,-12206.77


O resultado de gasto mensal (acima) exibe o quanto foi gasto mês a mês, consolidando as informações das 2 contas bancárias em 2023 e em 2024. Exibimos do mês 1 até o mês 12 de 2023 e depois o mesmo para 2024. Em janeiro de 2023 gastou-se a quantia de R$ 8.049,61 enquanto em janeiro de 2024 gastou-se o valor de R$ 11.402,49

In [0]:
%sql
SELECT 
    Ano,
    -- para apresentar a média com apenas 2 casas decimais
    ROUND(AVG(mensal.total_gasto), 2) AS media_gasto_mensal
FROM (
    SELECT Ano, Mes, SUM(Valor) AS total_gasto
    FROM gold.all_banks_table
    WHERE Ano IN (2023, 2024)
    GROUP BY Ano, Mes
) AS mensal
GROUP BY Ano;

Ano,media_gasto_mensal
2023,-9933.75
2024,-13860.68


O resultado de média de gasto mensal (acima) exibe a média em cada ano, consolidando as informações das 2 contas bancárias. Exibimos a média de gasto mensal em 2023, que foi de R$9.933,75 e depois o mesmo para 2024, que foi de R$ 13.860,68. Nota-se um aumento de gasto mensal bastante considerável de um ano para o outro.

### Q2) Gasto anual

In [0]:
%sql
-- Gasto anual por ano
SELECT 
    Ano,
    SUM(Valor) AS gasto_anual
FROM gold.all_banks_table
WHERE Ano IN (2023, 2024)
GROUP BY Ano;

Ano,gasto_anual
2023,-119205.04
2024,-166328.18


O resultado de total de gasto anual (acima) exibe o gasto total em cada ano, consolidando as informações das 2 contas bancárias. Exibimos o gasto total anual em 2023, que foi de R$119.205,04 e depois o mesmo para 2024, que foi de R$ 166.328,18. Nota-se um aumento de gastos bastante considerável de um ano para o outro.

In [0]:
%sql
-- Média anual entre os dois anos
SELECT 
    ROUND(AVG(gasto_anual),2) AS media_anual_dois_anos
FROM (
    SELECT Ano, SUM(Valor) AS gasto_anual
    FROM gold.all_banks_table
    WHERE Ano IN (2023, 2024)
    GROUP BY Ano
) AS anual;

media_anual_dois_anos
-142766.61


O resultado de média de gasto anual (acima) exibe a informação considerando os dois anos (2023 e 2024) e as 2 contas bancárias. A média de gasto anual é de R$142.766,61.

### Q3) Ranking (top 10) meses de maior gasto por ano

In [0]:
%sql
SELECT 
    Mes,
    SUM(Valor) AS total_gasto
FROM gold.all_banks_table
WHERE Ano = 2023
GROUP BY Mes
ORDER BY total_gasto ASC -- já que os números estão negativos
LIMIT 10;

Mes,total_gasto
12,-13155.15
10,-12206.77
11,-11030.12
7,-10739.38
9,-10558.64
6,-9992.21
3,-9597.2
2,-9514.54
5,-8501.52
4,-8055.1


Os meses de maior gasto em 2023 foram dezembro (R$ 13.155,15), outubro (R$ 12.206,77) e novembro (R$ 11.030,12).

In [0]:
%sql
SELECT 
    Mes,
    SUM(Valor) AS total_gasto
FROM gold.all_banks_table
WHERE Ano = 2024
GROUP BY Mes
ORDER BY total_gasto ASC -- já que os números estão negativos
LIMIT 10;

Mes,total_gasto
7,-30471.63
9,-23170.15
4,-15902.26
11,-14447.15
8,-14406.38
12,-12307.46
1,-11402.49
6,-9385.73
10,-9300.63
3,-9039.95


Os meses de maior gasto em 2024 não foram os últimos meses do ano como ocorreu em 2023. Em 2024, os meses de maior gasto foram julho (R$ 30.471,63), setembro (R$ 23.170,15) e abril (R$ 15.902,26). Por ter desconfiado de tais informações, pedi que fossem listados os gastos do mês 7 e, de fato, faz todo sentido que tenha sido o Top 1 pois a conta sofreu um desvio decorrente de fraude. Já no mês que foi o top 2, houve o pagamento integral do curso de Pós Graduação e do Curso de Inglês em seu valor trimestral. A análise fez todo sentido e foi mais fácil entender os gastos.

In [0]:
%sql
-- faz todo sentido que o top 1 tenha sido o mês 7, pois o correntista sofreu uma fraude neste mês
SELECT * 
FROM gold.all_banks_table
WHERE Mes = 7 AND Ano = 2024;

Banco,Data,Valor,Mes,Ano,Transacao,Beneficiario
Nubank,2024-07-31,-23.0,7,2024,Pix enviado,Bianca Goncalves Barreto
Nubank,2024-07-30,-200.0,7,2024,Pix enviado,Gislene Nara Dias da Silva
Nubank,2024-07-28,-3.0,7,2024,Pix enviado,PAROQUIA NOSSA SENHORA AUXILIADORA
Nubank,2024-07-27,-24.58,7,2024,Compra no débito,Pad e Conf Vital Brasi
Nubank,2024-07-26,-20.0,7,2024,Pix enviado,Jose Carlos Pacheco
Nubank,2024-07-25,-53.42,7,2024,Pagamento de boleto efetuado,SUPERGASBRAS ENERGIA LTDA
Nubank,2024-07-24,-140.0,7,2024,Pix enviado,Benedita Simao Santos
Nubank,2024-07-23,-523.9,7,2024,Pagamento de boleto efetuado,GPS ARRECADACAO CONT
Nubank,2024-07-17,-22.0,7,2024,Pix enviado,TAYNAH ROZA DA SILVA
Nubank,2024-07-17,-55.0,7,2024,Pix enviado,Erica Rosa Ribeiro Oliveira


In [0]:
%sql
-- faz todo sentido que o top 2 tenha sido o mês 9, pois houve o pgto integral da Pós Graduação e IngLês
SELECT * 
FROM gold.all_banks_table
WHERE Mes = 9 AND Ano = 2024;


Banco,Data,Valor,Mes,Ano,Transacao,Beneficiario
Nubank,2024-09-30,-1447.0,9,2024,Pix enviado,Eheadset Idiomas Ltda
Nubank,2024-09-29,-35.0,9,2024,Compra no débito,Provincia Franciscana
Nubank,2024-09-28,-79.9,9,2024,Pix enviado,SYMPLA INTERNET SOLUCOES S/A
Nubank,2024-09-26,-11075.73,9,2024,Pagamento de boleto efetuado,FACULDADES CATOLICAS
Nubank,2024-09-25,-80.0,9,2024,Pix enviado,RIOPAR PARTICIPACOES SA
Nubank,2024-09-21,-12.0,9,2024,Pix enviado,Altair Vieira Júnior
Nubank,2024-09-19,-40.0,9,2024,Pix enviado,TAYNAH ROZA DA SILVA
Nubank,2024-09-15,-3.0,9,2024,Pix enviado,PAROQUIA NOSSA SENHORA AUXILIADORA
Nubank,2024-09-13,-50.0,9,2024,Pix enviado,Gabriel Silva Dantas
Nubank,2024-09-12,-140.0,9,2024,Pix enviado,Benedita Simao Santos
