### Pipeline Raw to Silver

In [11]:
import pandas as pd 
import pandera.pandas as pa # Validação de dados de DataFrames (semelhante ao Pydantic)
from pathlib import Path
from sqlalchemy import create_engine, text
from sqlalchemy.engine import Engine

#### Definições e Configurações

In [12]:
# Definição de caminhos 
DATABASE_URL: str = "postgresql+psycopg2://admin:admin@localhost:5432/transactions"
DATA_PATH: Path = Path("../Data Layer/silver/transactions_cards_users_mcc_fraud.csv")
DDL_PATH: Path = Path("scripts/ddl.sql")

# Configuração da engine do SQLAlchemy
engine = create_engine(DATABASE_URL)

schema: pa.DataFrameSchema = pa.DataFrameSchema(
  columns={   
    "transaction_id": pa.Column(
      pa.Int64,
      nullable=False,
      checks=pa.Check.greater_than(0)
    ),
    "date": pa.Column(
      pa.DateTime, 
      nullable=False
    ),
    "client_id": pa.Column(
      pa.Int64,
      nullable=False
    ),
    "card_id": pa.Column(
      pa.Int64,
      nullable=True
    ),
    "amount": pa.Column(
      pa.Float, 
      nullable=False,
      checks=pa.Check.greater_than_or_equal_to(0)
    ),
    "mcc": pa.Column(
      pa.Int16,
      nullable=False
    ),
    "use_chip": pa.Column(pa.String, nullable=True),
    "merchant_id": pa.Column(pa.String, nullable=True),
    "merchant_city": pa.Column(pa.String, nullable=True),
    "merchant_state": pa.Column(pa.String, nullable=True),
    "zip": pa.Column(
      pa.Int32, 
      nullable=True, 
      checks=pa.Check.less_than(99999)
    ),
    "errors": pa.Column(pa.String, nullable=True),
    "card_brand": pa.Column(pa.String, nullable=True),
    "card_type": pa.Column(pa.String, nullable=True),
    "card_number": pa.Column(pa.String, nullable=True),
    "expires": pa.Column(pa.DateTime, nullable=True),
    "cvv": pa.Column(
      pa.Int32, 
      nullable=True,
      checks=pa.Check.less_than(10000) 
    ),
    "has_chip": pa.Column(pa.String, nullable=True),
    "num_cards_issued": pa.Column(pa.Int16, nullable=True), 
    "credit_limit": pa.Column(pa.Float, nullable=True), 
    "acct_open_date": pa.Column(pa.DateTime, nullable=True),
    "year_pin_last_changed": pa.Column(pa.String, nullable=True), 
    "card_on_dark_web": pa.Column(pa.String, nullable=True),
        
    "current_age": pa.Column(pa.Int16, nullable=True),
    "retirement_age": pa.Column(pa.Int16, nullable=True),
    "birth_year": pa.Column(pa.Int16, nullable=True),
    "birth_month": pa.Column(pa.Int16, nullable=True), 
    "gender": pa.Column(pa.String, nullable=True),
    "address": pa.Column(pa.String, nullable=True),
    "latitude": pa.Column(pa.Float, nullable=True), 
    "longitude": pa.Column(pa.Float, nullable=True), 
    "per_capita_income": pa.Column(pa.Float, nullable=True),
    "yearly_income": pa.Column(pa.Float, nullable=True), 
    "total_debt": pa.Column(pa.Float, nullable=True), 
    "credit_score": pa.Column(pa.Int16, nullable=True), 
    "num_credit_cards": pa.Column(pa.Int16, nullable=True), 

    "mcc_description": pa.Column(pa.String, nullable=True),
    "is_fraud": pa.Column(
      pa.Int16,
      nullable=True,
      checks=pa.Check.isin([0, 1]) 
    )
  },
  strict="filter"
)

#### Funções auxiliares

In [13]:
def convert_sql_to_string(file: Path) -> str:
  """
  Recebe: Caminho para arquivo SQL (DDL);
  Retorna: String com a instrução DDL para criação da tabela.
  """
  try:
    with open(file, 'r') as f:
      return f.read()
  except Exception as e:
    print(f"ERRO! Falha ao encontrar/ler o arquivo: {e}")
    raise

def execute_query(sql_query: str, engine: Engine) -> bool:
  try:
    with engine.connect() as conn:
      conn.execute(text(sql_query))
      conn.commit()
    return True
  except Exception as e:
    print(f"ERRO! Falha ao executar a query SQL: {e}")
    return False

#### Funções de ETL

In [14]:
def extract(path: Path) -> pd.DataFrame:
  """
  Recebe: Caminho para arquivo CSV.
  Retorna: DataFrame;
  """
  try:
    df = pd.read_csv(path)
    return df
  except Exception as e:
    print(f"ERRO! Um problema ocorreu na conversão do arquivo para DataFrame: {e}")
    return None
  
def transform_and_validate(df: pd.DataFrame, schema: pa.DataFrameSchema) -> pd.DataFrame:
  """
  Recebe: DataFrame, Schema (Padrão) para validar o DataFrame;
  Retorna: DataFrame validado.

  O parâmetro lazy=True permite que o pandera execute todas as validações definidas no schema antes de lançar uma possível exceção, coletando todos os erros encontrados.
  """
  try: 
    df = schema.validate(df, lazy=True)
    return df
  except Exception as e:
    print(f"ERRO! O DataFrame não foi validado: {e}")

def load(df: pd.DataFrame, ddl_script_path: Path, engine: Engine) -> bool:
  """
  Recebe: DataFrame, Caminho para Script SQL, engine do Postgres
  Retorna: True caso sucesso, False caso falhe.
  """
  try:
    # 1. Leitura do Script SQL (DDL)
    print(f"Lendo o arquivo DDL: {ddl_script_path}")
    ddl = convert_sql_to_string(ddl_script_path)

    # 2. Executando o DDL para criar tabela no PostgreSQL
    print("Executando DDL...")
    if not execute_query(ddl, engine):
      return False

    # 4. Populando o Banco de Dados com Pandas
    table = ddl_script_path.stem
    print(f"Quantidade de tuplas: {len(df)}, Tabela: {table}")

    df.to_sql(
      name=table,
      con=engine,
      if_exists="append",
      index=False,
      chunksize=50000,
      method="multi"
    )

    print("LOAD no PostgreSQL concluído com sucesso.")
    return True
  except Exception as e:
    print(f"ERRO! Processo de LOAD interrompido: {e}")
    return False

#### Pipeline

In [15]:
def run_pipeline(data_path: Path, ddl_script_path: Path, engine: Engine, schema: pa.DataFrameSchema) -> bool:
  """
  Executa o Pipeline 
  """

  print("ETAPA 01: Extração de dados")
  print("Executando...")
  df_raw = extract(data_path)
  if df_raw is None: 
    print("FALHA NO PIPELINE: Extração.")
    return False
  print("Extração concluida, DataFrame carregado.")


  print("\nETAPA 02: Transformação e Validação dos dados")
  print("Executando...")
  df_silver = transform_and_validate(df_raw, schema)

  if df_silver is None: 
    print("FALHA NO PIPELINE: Transformação e Validação.")
    return False 
  
  print("\nETAPA 03: Carregamento dos dados (LOAD)")
  success = load(df_silver, ddl_script_path, engine)
  if not success:
    print("FALHA NO PIPELINE: Carregamento (LOAD)")

  print("\nPIPELINE CONCLUÍDA COM SUCESSO!")
  return True

In [16]:
run_pipeline(DATA_PATH, DDL_PATH, engine, schema)

ETAPA 01: Extração de dados
Executando...
Extração concluida, DataFrame carregado.

ETAPA 02: Transformação e Validação dos dados
Executando...
ERRO! O DataFrame não foi validado: [PACKAGE_NOT_INSTALLED] PyArrow >= 11.0.0 must be installed; however, it was not found.
FALHA NO PIPELINE: Transformação e Validação.


False