In [0]:
# --- IMPORTS (REFATORED) ---
%load_ext autoreload
%autoreload 2

import sys
import os
# Adiciona o diret√≥rio atual ao path para encontrar o m√≥dulo 'src'
sys.path.append(os.getcwd())

from src.ingestion.connectors import connect_jdbc, url_jdbc
from src.ingestion.feature_store import salvar_feature_table

from pyspark.sql.functions import col, to_date, lit
from databricks.feature_engineering import FeatureEngineeringClient


In [0]:
# --- CONFIGURA√á√ïES GLOBAIS DE OTIMIZA√á√ÉO (BEST PRACTICES) ---
# Ativa otimiza√ß√£o autom√°tica de grava√ß√µes e compacta√ß√£o
spark.conf.set("spark.databricks.delta.optimizeWrite.enabled", "true")
spark.conf.set("spark.databricks.delta.autoCompact.enabled", "true")


In [0]:
list_tables = [
'CVC.BIP_vHISTORICO_SUPORTE_CANAL_LOJA_DATABRICKS'
,'CVC.BIP_vHISTORICO_TARGUET_LOJA_DATABRICKS'
,'CVC.BIP_vHISTORICO_FERIADOS_LOJA_DATABRICKS'
,'CVC.BIP_vHISTORICO_SUPORTE_CANAL_ECOMMERCE_DATABRICKS'
,'CVC.BIP_vHISTORICO_TARGUET_ECOMMERCE_DATABRICKS'
,'CVC.BIP_vHISTORICO_SUPORTE_CANAL_VENDA_DIRETA_DATABRICKS'
,'CVC.BIP_vHISTORICO_TARGUET_VENDA_DIRETA_DATABRICKS'
,'CVC.CMC_aLOJAS']

In [0]:
# --- 1. CONFIGURA√á√ÉO DE CREDENCIAIS E CONEX√ÉO ---
# Tenta pegar do Key Vault (Databricks Secrets) ou usa valores manuais (placeholder)
try:
    tenant_id = dbutils.secrets.get(scope="ss-keyvault-dev", key="FBC-API-TENANT-ID")
    client_id = dbutils.secrets.get(scope="ss-keyvault-dev", key="FBC-API-CLIENT-ID")
    client_secret = dbutils.secrets.get(scope="ss-keyvault-dev", key="FBC-API-CLIENT-SECRET")
    print("‚úÖ Credenciais recuperadas do Key Vault com sucesso.")
except:
    print("‚ö†Ô∏è Segredos n√£o encontrados. Usando valores manuais.")

scope = "https://database.windows.net/.default"
sql_endpoint = "sql-mi-cvc-prod.database.windows.net" # Ajuste conforme necess√°rio
database_name = "DSP"

# Gera propriedades de conex√£o
connection_properties = connect_jdbc(tenant_id, client_id, client_secret, scope)
jdbc_url_str = url_jdbc(sql_endpoint, database_name)

# --- 2. MAPEAMENTO DE CHAVES (PKs) E TIMESTAMP ---
# Define PKs e Timestamp para cada tabela para garantir unicidade no Feature Store
table_config = {
    'CVC.BIP_vHISTORICO_SUPORTE_CANAL_LOJA_DATABRICKS': {'pks': ["METRICAS"], 'ts': "DATA"},
    'CVC.BIP_vHISTORICO_TARGUET_LOJA_DATABRICKS': {'pks': ["CODIGO_LOJA"], 'ts': "DATA"},
    'CVC.BIP_vHISTORICO_FERIADOS_LOJA_DATABRICKS': {'pks': ["CODIGO_LOJA"], 'ts': "DATA"},
    'CVC.BIP_vHISTORICO_SUPORTE_CANAL_ECOMMERCE_DATABRICKS': {'pks': ["METRICAS"], 'ts': "DATA"},
    'CVC.BIP_vHISTORICO_TARGUET_ECOMMERCE_DATABRICKS': {'pks': ["CODIGO_LOJA"], 'ts': "DATA"},
    'CVC.BIP_vHISTORICO_SUPORTE_CANAL_VENDA_DIRETA_DATABRICKS': {'pks': ["METRICAS"], 'ts': "DATA"},
    'CVC.BIP_vHISTORICO_TARGUET_VENDA_DIRETA_DATABRICKS': {'pks': ["CODIGO_LOJA"], 'ts': "DATA"},
    'CVC.CMC_aLOJAS': {'pks': ["CODIGO_LOJA"], 'ts': None}
}
# --- 3. LOOP DE INGEST√ÉO ---
print(f"üöÄ Iniciando ingest√£o de {len(list_tables)} tabelas...")

for table_source in list_tables:
    table_name_clean = table_source.split('.')[-1] # Ex: BIP_vHISTORICO...
    target_table_name = f"cvc.features.{table_name_clean.lower()}" # Ex: cvc.features.bip_vhistorico...
    
    # Verifica configura√ß√£o
    if table_source in table_config:
        config = table_config[table_source]
        pks = config['pks']
        timestamp_col = config['ts']
    else:
        print(f"‚ö†Ô∏è Configura√ß√£o n√£o encontrada para {table_source}. Pulando...")
        continue

    print(f"\nüì¶ Processando: {table_source} -> {target_table_name}")
    
    try:
        # Leitura JDBC
        print(f"   üì• Lendo do SQL Server...")
        df_source = spark.read.jdbc(
            url=jdbc_url_str,
            table=table_source,
            properties=connection_properties
        )
        
        # Opcional: Casting de colunas de data se necess√°rio (Exemplo gen√©rico)
        # if timestamp_col:
        #     df_source = df_source.withColumn(timestamp_col, to_date(col(timestamp_col)))

        # Grava√ß√£o no Feature Store
        print(f"   üíæ Salvando no Feature Store...")
        salvar_feature_table(
            df=df_source,
            table_name_full=target_table_name,
            pk_columns=pks,
            timestamp_col=timestamp_col,
            spark=spark
        )
        print(f"‚úÖ Sucesso: {target_table_name}")
        
    except Exception as e:
        print(f"‚ùå Erro ao processar {table_source}: {str(e)}")

# Remove vari√°veis sens√≠veis da mem√≥ria
del connection_properties
del client_secret
