# üìö Conceitos Fundamentais no Spark e Databricks

## üîç 1. Quality Checks
### ‚úÖ O que √©?
Quality Checks s√£o **valida√ß√µes aplicadas aos dados para garantir sua integridade e qualidade**. Isso √© feito antes de usar os dados para an√°lise ou grava√ß√£o em um banco de dados para evitar inconsist√™ncias.

### üìå Por que √© importante?
- Garante que os dados estejam **corretos**, **consistentes** e **completos**.
- Evita erros em an√°lises e processos posteriores.

---

## üîÄ 2. Deduplicate
### ‚úÖ O que √©?
Deduplicate √© o processo de **remover registros duplicados de um DataFrame ou tabela**. √â √∫til para evitar redund√¢ncias e garantir que cada linha seja √∫nica.

### üìå Por que √© importante?
- Mant√©m a **qualidade e integridade dos dados**.
- Evita contagens erradas e c√°lculos incorretos.

---

## üìÖ 3. Window Function
### ‚úÖ O que √©?
As Window Functions permitem realizar **c√°lculos em grupos de linhas relacionadas**, mantendo cada linha original sem agrupar como o `groupBy()` faria.

### üìå Por que √© importante?
- Permite c√°lculos complexos como **ranking, m√©dias m√≥veis e agrega√ß√µes parciais**.
- Facilita opera√ß√µes que exigem contexto sobre outras linhas sem perder os dados originais.

---

## üìù 4. Apply Schema
### ‚úÖ O que √©?
O **Apply Schema** √© o processo de definir explicitamente um esquema (`schema`) para um DataFrame, especificando **nomes de colunas e tipos de dados**.

### üìå Por que √© importante?
- **Garante consist√™ncia** no formato dos dados.
- Evita erros de infer√™ncia autom√°tica do Spark que podem ocorrer com dados sujos ou mal formatados.

---

## üìÇ 5. Opera√ß√µes: MERGE, APPEND e OVERWRITE

### üîÑ MERGE (Upsert)
#### ‚úÖ O que √©?
Combina dados de uma fonte com uma tabela existente, **atualizando registros correspondentes e inserindo novos registros**.

#### üìå Uso Ideal:
- Dados mestres que precisam ser atualizados periodicamente.

---

### üì• APPEND
#### ‚úÖ O que √©?
Adiciona **novos registros** a uma tabela sem modificar os existentes.

#### üìå Uso Ideal:
- Adicionar dados incrementais (logs, eventos, transa√ß√µes, etc.).

---

### ‚ôªÔ∏è OVERWRITE
#### ‚úÖ O que √©?
**Substitui completamente** os dados de uma tabela, apagando o conte√∫do anterior.

#### üìå Uso Ideal:
- Atualiza√ß√µes completas ou substitui√ß√£o de dados desatualizados.

---

## üìå Resumo das Opera√ß√µes

| Opera√ß√£o  | Descri√ß√£o                                                      | Uso Ideal                                    |
|-----------|----------------------------------------------------------------|--------------------------------------------|
| **MERGE** | Atualiza registros existentes e insere novos dados.           | Dados mestres que precisam de atualiza√ß√µes. |
| **APPEND**| Insere novos registros sem modificar os existentes.           | Dados incrementais (logs, eventos, etc.).  |
| **OVERWRITE**| Substitui completamente os dados de uma tabela.            | Relat√≥rios completos ou recria√ß√£o de tabelas. |


In [0]:
from pyspark.sql import functions as F
from pyspark.sql import DataFrame, window
from delta.tables import DeltaTable
from pyspark.sql.types import (StructType, StructField,
        IntegerType, StringType, DoubleType, DecimalType, TimestampType, ShortType)

In [0]:
def _validate_schema(df: DataFrame, expected_schema: StructType) -> bool:
    """
    Valida se o schema do DataFrame corresponde ao schema esperado.

    Par√¢metros:
        df (DataFrame): O DataFrame a ser validado.
        expected_schema (StructType): O schema esperado.

    Retorna:
        bool: True se o schema corresponder, False caso contr√°rio.
    """
    actual_schema = df.schema

    # Verifica se o n√∫mero de campos corresponde
    if len(expected_schema.fields) != len(actual_schema.fields):
        return False

    # Verifica cada campo e tipo de dado
    for i, field in enumerate(actual_schema.fields):
        expected_field = expected_schema.fields[i]
        if field.name != expected_field.name or not isinstance(field.dataType, type(expected_field.dataType)):
            return False

    return True


In [0]:
def _upsert_silver_table(transformed_df: DataFrame, target_table: str, primary_keys: list, not_matched_by_source_action: str = None, not_matched_by_source_condition: str = None) -> None:
    """
    Realiza o upsert (update e insert) na tabela Delta da camada prata,
    suportando a evolu√ß√£o do esquema e construindo dinamicamente a condi√ß√£o de merge.

    Par√¢metros:
        transformed_df (DataFrame): DataFrame contendo os dados transformados para inser√ß√£o na camada prata.
        target_table (str): Nome da tabela de destino.
        primary_keys (list): Lista de chaves prim√°rias para o merge.
        not_matched_by_source_action (str, opcional): A√ß√£o a ser tomada quando uma linha da tabela de destino n√£o tiver correspond√™ncia na tabela de origem. Pode ser "DELETE" ou "UPDATE".
        not_matched_by_source_condition (str, opcional): Condi√ß√£o adicional para aplicar a a√ß√£o definida em not_matched_by_source_action. -- use t.column = s.column -- t -> target / s -> source
    """
    spark.sql("USE CATALOG hive_metastore")
    spark.sql("USE DATABASE adventure_works_silver")

    if not spark.catalog.tableExists(target_table):
        transformed_df.write.format("delta").saveAsTable(target_table)
        print(f"Tabela {target_table} criada.")
        return

    
    merge_condition = " AND ".join([f"s.{key} = t.{key}" for key in primary_keys])

    delta_table = DeltaTable.forName(spark, target_table) # DeltaTable.forName -> Carrega uma tabela Delta existente

    merge_builder = delta_table.alias("t").merge(
        transformed_df.alias("s"),
        merge_condition
    )

    merge_builder = merge_builder.whenMatchedUpdateAll()

    merge_builder = merge_builder.whenNotMatchedInsertAll() # -> Adicionar a cl√°usula WHEN NOT MATCHED (inserir novos registros)

  # Se o par√¢metro not_matched_by_source_action for "DELETE", adicionar a l√≥gica para deletar linhas
    if not_matched_by_source_action and not_matched_by_source_action.upper() == "DELETE":
        # Obter as chaves das linhas na tabela de destino que n√£o t√™m correspond√™ncia na tabela de origem
        unmatched_rows = delta_table.toDF().alias("t").join(
            transformed_df.alias("s"),
            on=[F.col(f"t.{key}") == F.col(f"s.{key}") for key in primary_keys],
            how="left_anti"
        )

        # Aplicar a condi√ß√£o adicional de exclus√£o, se fornecida
        if not_matched_by_source_condition:
            unmatched_rows = unmatched_rows.filter(not_matched_by_source_condition)

        # Executar a exclus√£o das linhas n√£o correspondentes
        delta_table.alias("t").merge(
            unmatched_rows.alias("s"),
            merge_condition
        ).whenMatchedDelete().execute()

    # Executar o merge
    merge_builder.execute()
    
    print("Upsert executado com sucesso.")