# Ingest√£o Bronze - Controle Ativo

Este notebook realiza a leitura de um arquivo CSV contendo o controle de A√ß√µes e FII
e grava os dados em formato Delta na camada **Bronze**.

**Origem dos dados:**
- Arquivo: `D:\Projetos\Jornada_financas_pessoais\data\source\Controle de A√ß√µes e FII*.xlsx`

**Destino:**
- Caminho Delta: `D:\Projetos\Jornada_financas_pessoais\data\delta\bronze\`
- Tabela Delta: `bronze.raw_controleativo`


## Imports

In [1]:
from spark_config import init_spark
from pyspark.sql.functions import col
import pandas as pd
import glob
import os

## Start Spark Session

In [2]:
spark = init_spark("Leitura de arquivo de formato excel")


‚úÖ Spark 3.5.7 iniciado com Hive local persistente!
üìÅ Warehouse: D:/Projetos/DataLake/spark-warehouse
üìÅ Metastore: D:/Projetos/DataLake/metastore_db



## Variables

In [3]:
# Define o caminho do diret√≥rio dos arquivos de origem
source_path = "D:/Projetos/Jornada_financas_pessoais/data/source"

# Define caminhos locais onde ser√£o armazenadas as tabelas Delta
base_bronze_path = "D:/Projetos/Jornada_financas_pessoais/data/delta/bronze"

# Define o caminho da tabela Delta Source
delta_path_controleativo = f"{base_bronze_path}/raw_controleativo"

## Read Excel Files

In [4]:
# Lista todos os arquivos Excel que come√ßam com "Controle de A√ß√µes e FII"
file_list = glob.glob(f'{source_path}/Controle de A√ß√µes e FII*.xlsx')

print(f"Arquivos Excel encontrados: {len(file_list)}")
for f in file_list:
    print(f"  - {os.path.basename(f)}")

# L√™ todos os arquivos Excel e adiciona coluna com nome do arquivo
dfs_list = []

for file_path in file_list:
    print(f"\nProcessando: {os.path.basename(file_path)}")
    
    # L√™ apenas a aba "FII"
    # header=0 (padr√£o) usa a primeira linha como nome das colunas
    df_temp = pd.read_excel(
        file_path,
        sheet_name='FII',
        engine='openpyxl',
        header=0,  # Primeira linha (√≠ndice 0) = cabe√ßalho (PADR√ÉO)
        dtype=str  # For√ßa todas as colunas como string
    )
    
    # Faz o rename das colunas para casar com a tabela Delta
    df_temp.rename(columns={
        "DATA": "data",
        "PAPEL": "papel",
        "OP": "op",
        "QTD": "qtd",
        "PRE√áO": "preco",
        "CUS.T.": "custo_total",
        "TOTAL OP": "total_op",
        "RAT.": "rateio",
        "V. LIQUIDO": "v_liquido",
        "ESTOQUE": "estoque",
        "PMEDIO": "pmedio",
        "GAN/PER": "gan_per",
        "IR M√äS": "ir_mes",
        "M√äS REF.": "mes_ref",
        "VENDAS/M√äS": "vendas_mes",
        "CPF": "cpf",
        "COTISTA": "cotista"
    }, inplace=True)

    # Adiciona coluna com nome do arquivo (apenas o nome, sem path)
    df_temp['arquivo_origem'] = os.path.basename(file_path)
    
    dfs_list.append(df_temp)
    print(f"  ‚úì {len(df_temp)} registros lidos")

Arquivos Excel encontrados: 1
  - Controle de A√ß√µes e FII - Taynara.xlsx

Processando: Controle de A√ß√µes e FII - Taynara.xlsx
  ‚úì 63 registros lidos


## Transformation

In [5]:
# Concatena todos os DataFrames em um s√≥
df_controleativo_pd = pd.concat(dfs_list, ignore_index=True)

# Converte o DataFrame pandas para Spark
df_controleativo = spark.createDataFrame(df_controleativo_pd)

# For√ßa todas as colunas para STRING
df_controleativo = df_controleativo.select(
    [col(c).cast("string").alias(c) for c in df_controleativo.columns]
)

print(df_controleativo.count(), "registros lidos")

63 registros lidos


## Save Data Frame

In [6]:
# Grava em formato Delta
(
    df_controleativo.write.format("delta")
    .mode("overwrite")
    .option("overwriteSchema", "false")
    .save(delta_path_controleativo)
)

print(f"[SUCESSO] DataFrame gravado no Delta Lake em: {delta_path_controleativo}")

[SUCESSO] DataFrame gravado no Delta Lake em: D:/Projetos/Jornada_financas_pessoais/data/delta/bronze/raw_controleativo


## Stop Spark Session

In [7]:
# Encerra a SparkSession
spark.stop()