# üìä AWS Glue & PySpark ETL: An√°lise de Transa√ß√µes Financeiras

# üìå 1Ô∏è‚É£ Introdu√ß√£o e Objetivo

Este notebook implementa a etapa de **ETL (Extra√ß√£o, Transforma√ß√£o e Carga)** para processamento dos dados brutos.

üìå **Objetivo:**  
- Carregar os dados brutos da pasta `data/raw/`
- Aplicar transforma√ß√µes com **PySpark** (limpeza, normaliza√ß√£o e regras de neg√≥cio)
- Armazenar os dados processados em formato **Parquet** para an√°lise posterior

üîß **Tecnologias utilizadas:**  
- **PySpark** para processamento eficiente de grandes volumes de dados
- **AWS Glue** (se rodarmos na nuvem) ou Spark local
- **Parquet** como formato de armazenamento otimizado

---


## üìå 2Ô∏è‚É£ Configura√ß√£o do do PySpark

In [None]:
import os
import pyspark
from pyspark.sql import SparkSession

# Criar uma sess√£o do PySpark
spark = SparkSession.builder \
    .appName("ETL_Processing") \
    .config("spark.sql.repl.eagerEval.enabled", True) \
    .getOrCreate()

print("‚úÖ PySpark configurado com sucesso!")

## üìå 3Ô∏è‚É£ Carregamento dos Dados Brutos

In [None]:
import os
import yaml

# Carregar Configura√ß√£o do YAML
config_path = os.path.abspath(os.path.join(os.getcwd(), "..", "config/config.yaml"))  

print(f"Tentando carregar: {config_path}")

if os.path.exists(config_path):
    with open(config_path, "r") as f:
        config = yaml.safe_load(f)
    print("‚úÖ Configura√ß√£o carregada com sucesso!")
else:
    raise FileNotFoundError("‚ùå Arquivo 'config.yaml' n√£o encontrado!")

# Ajustar caminhos do config.yaml para evitar problemas com barras no Windows/Linux
raw_data_path = os.path.normpath(config.get("raw_data_path", "data/raw/"))

# Garantir que o caminho seja absoluto
if not os.path.isabs(raw_data_path):
    raw_data_path = os.path.abspath(raw_data_path)

# Verificar se o diret√≥rio existe
if not os.path.exists(raw_data_path):
    raise FileNotFoundError(f"‚ùå ERRO: O diret√≥rio de dados brutos '{raw_data_path}' n√£o existe!")

print(f"üìÇ Diret√≥rio de dados brutos encontrado: {raw_data_path}")

# üìå 4Ô∏è‚É£ Carregamento dos Dados Brutos

# Listar arquivos na pasta raw
arquivos_raw = os.listdir(raw_data_path)
print(f"üìÇ Arquivos encontrados: {arquivos_raw}")

# Verificar se h√° pelo menos um arquivo CSV na pasta
csv_files = [f for f in arquivos_raw if f.endswith(".csv")]
if not csv_files:
    raise FileNotFoundError("‚ùå Nenhum arquivo CSV encontrado na pasta de dados brutos.")

# Carregar os dados no PySpark DataFrame
df_raw = spark.read.csv(os.path.join(raw_data_path, csv_files[0]), header=True, inferSchema=True)

# Exibir amostra dos dados
print("‚úÖ Exibindo amostra dos dados:")
df_raw.show(5)

# Exibir schema dos dados
print("‚úÖ Schema do DataFrame:")
df_raw.printSchema()
