# Exemplos de Ingestão - Todos os Bancos de Dados

Este notebook contém exemplos rápidos de ingestão para todos os bancos de dados suportados.

## Bancos Suportados

1. **Oracle** - Ver notebook: `01_ingestao_oracle.ipynb`
2. **PostgreSQL** - Ver notebook: `02_ingestao_postgresql.ipynb`
3. **SQL Server** - Ver notebook: `03_ingestao_sqlserver.ipynb`
4. **MySQL** - Ver notebook: `04_ingestao_mysql.ipynb`
5. **MongoDB** - Ver notebook: `05_ingestao_mongodb.ipynb`

## Uso Rápido

Este notebook serve como referência rápida. Para implementações completas, use os notebooks específicos de cada banco.

In [None]:
# Importar configurações base
%run ../00_configuracao_inicial.ipynb

## 1. Oracle Database

In [None]:
# Exemplo Oracle
# from pyspark.sql.functions import *
# 
# jdbc_url = "jdbc:oracle:thin:@localhost:1521/ORCL"
# 
# df_oracle = spark.read.format("jdbc") \
#     .option("url", jdbc_url) \
#     .option("dbtable", "SCHEMA.TABELA") \
#     .option("user", "usuario") \
#     .option("password", "senha") \
#     .option("driver", "oracle.jdbc.OracleDriver") \
#     .load()
# 
# # Adicionar metadados e salvar
# df_oracle = df_oracle.withColumn("fonte", lit("ORACLE")) \
#                      .withColumn("ingestao_em", current_timestamp())
# 
# save_delta_table(df_oracle, f"{PATH_BRONZE}/oracle/tabela", mode="overwrite")

## 2. PostgreSQL

In [None]:
# Exemplo PostgreSQL
# from pyspark.sql.functions import *
# 
# jdbc_url = "jdbc:postgresql://localhost:5432/postgres"
# 
# df_postgres = spark.read.format("jdbc") \
#     .option("url", jdbc_url) \
#     .option("dbtable", "public.tabela") \
#     .option("user", "postgres") \
#     .option("password", "senha") \
#     .option("driver", "org.postgresql.Driver") \
#     .load()
# 
# # Adicionar metadados e salvar
# df_postgres = df_postgres.withColumn("fonte", lit("POSTGRESQL")) \
#                          .withColumn("ingestao_em", current_timestamp())
# 
# save_delta_table(df_postgres, f"{PATH_BRONZE}/postgresql/tabela", mode="overwrite")

## 3. SQL Server

In [None]:
# Exemplo SQL Server
# from pyspark.sql.functions import *
# 
# jdbc_url = "jdbc:sqlserver://localhost:1433;databaseName=master;encrypt=true;trustServerCertificate=true"
# 
# df_sqlserver = spark.read.format("jdbc") \
#     .option("url", jdbc_url) \
#     .option("dbtable", "dbo.tabela") \
#     .option("user", "sa") \
#     .option("password", "senha") \
#     .option("driver", "com.microsoft.sqlserver.jdbc.SQLServerDriver") \
#     .load()
# 
# # Adicionar metadados e salvar
# df_sqlserver = df_sqlserver.withColumn("fonte", lit("SQLSERVER")) \
#                             .withColumn("ingestao_em", current_timestamp())
# 
# save_delta_table(df_sqlserver, f"{PATH_BRONZE}/sqlserver/tabela", mode="overwrite")

## 4. MySQL

In [None]:
# Exemplo MySQL
# from pyspark.sql.functions import *
# 
# jdbc_url = "jdbc:mysql://localhost:3306/mysql?useSSL=false&serverTimezone=UTC"
# 
# df_mysql = spark.read.format("jdbc") \
#     .option("url", jdbc_url) \
#     .option("dbtable", "tabela") \
#     .option("user", "root") \
#     .option("password", "senha") \
#     .option("driver", "com.mysql.cj.jdbc.Driver") \
#     .load()
# 
# # Adicionar metadados e salvar
# df_mysql = df_mysql.withColumn("fonte", lit("MYSQL")) \
#                    .withColumn("ingestao_em", current_timestamp())
# 
# save_delta_table(df_mysql, f"{PATH_BRONZE}/mysql/tabela", mode="overwrite")

## 5. MongoDB

In [None]:
# Exemplo MongoDB
# from pyspark.sql.functions import *
# 
# mongodb_uri = "mongodb://admin:senha@localhost:27017/admin?authSource=admin"
# 
# df_mongodb = spark.read.format("mongo") \
#     .option("uri", mongodb_uri) \
#     .option("database", "admin") \
#     .option("collection", "colecao") \
#     .load()
# 
# # Adicionar metadados e salvar
# df_mongodb = df_mongodb.withColumn("fonte", lit("MONGODB")) \
#                         .withColumn("ingestao_em", current_timestamp())
# 
# save_delta_table(df_mongodb, f"{PATH_BRONZE}/mongodb/colecao", mode="overwrite")

## Função Genérica de Ingestão

Função auxiliar para facilitar a ingestão de qualquer banco JDBC:

In [None]:
from pyspark.sql.functions import *

def ingestao_jdbc_generica(
    jdbc_url,
    driver,
    table_or_query,
    user,
    password,
    destino_path,
    fonte_nome,
    mode="overwrite",
    partition_by=None
):
    """
    Função genérica para ingestão de qualquer banco JDBC
    
    Args:
        jdbc_url: URL JDBC de conexão
        driver: Nome da classe do driver JDBC
        table_or_query: Nome da tabela ou query SQL
        user: Usuário
        password: Senha
        destino_path: Caminho de destino no MinIO
        fonte_nome: Nome da fonte (para metadados)
        mode: Modo de escrita (overwrite, append)
        partition_by: Lista de colunas para particionamento
    """
    # Ler dados
    df = spark.read.format("jdbc") \
        .option("url", jdbc_url) \
        .option("dbtable", table_or_query) \
        .option("user", user) \
        .option("password", password) \
        .option("driver", driver) \
        .load()
    
    # Adicionar metadados
    df_ingestao = df \
        .withColumn("fonte", lit(fonte_nome)) \
        .withColumn("ingestao_em", current_timestamp()) \
        .withColumn("particao_data", date_format(current_date(), "yyyy-MM-dd"))
    
    # Salvar
    save_delta_table(df_ingestao, destino_path, mode=mode, partition_by=partition_by)
    
    return df_ingestao

# Exemplo de uso
# df = ingestao_jdbc_generica(
#     jdbc_url="jdbc:postgresql://localhost:5432/postgres",
#     driver="org.postgresql.Driver",
#     table_or_query="public.tabela",
#     user="postgres",
#     password="senha",
#     destino_path=f"{PATH_BRONZE}/postgresql/tabela",
#     fonte_nome="POSTGRESQL",
#     mode="overwrite",
#     partition_by=["particao_data"]
# )

## Checklist de Configuração

Antes de executar qualquer ingestão, verifique:

1. ✅ Driver JDBC instalado/configurado no Spark
2. ✅ Credenciais de acesso configuradas
3. ✅ Conectividade de rede testada
4. ✅ Permissões de leitura no banco de origem
5. ✅ Permissões de escrita no MinIO
6. ✅ Caminho de destino configurado

## Drivers JDBC Necessários

- **Oracle**: `ojdbc8.jar` ou `oracle.jdbc.OracleDriver`
- **PostgreSQL**: `postgresql-XX.X.jar` (já incluído no Spark)
- **SQL Server**: `mssql-jdbc-XX.X.X.jre8.jar`
- **MySQL**: `mysql-connector-java-XX.X.jar` (já incluído no Spark)
- **MongoDB**: `mongo-spark-connector_2.12-XX.X.X.jar`