# Join, Concat e Pivot no Apache Spark

O Apache Spark fornece operações poderosas para unir, concatenar e pivotar DataFrames, permitindo a combinação de dados de várias fontes, a concatenação de DataFrames e a transformação de dados para análises mais avançadas.

## Operações de Join

As operações de join permitem combinar dois ou mais DataFrames com base em uma ou mais colunas de chave:

| Operação       | Descrição                                              | Exemplo de Caso de Uso                          |
|----------------|--------------------------------------------------------|-----------------------------------------------|
| `join`         | Combina DataFrames usando uma ou mais colunas de chave | Mesclar dados de tabelas relacionadas.         |
| `crossJoin`    | Realiza um join cruzado (cada linha com cada linha)    | Gerar todas as combinações possíveis.          |
| `leftJoin`     | Executa um join esquerdo (mantém todas as linhas do DataFrame esquerdo) | Unir dados de forma hierárquica.     |
| `rightJoin`    | Executa um join direito (mantém todas as linhas do DataFrame direito) | Unir dados de forma hierárquica.     |
| `fullOuterJoin` | Executa um join externo completo (mantém todas as linhas de ambos os DataFrames) | Unir dados preservando todos os registros. |

## Estratégias de Join no Apache Spark

| Estratégia        | Descrição                                                | Quando Usar                  | Desempenho        |
|-------------------|----------------------------------------------------------|------------------------------|-------------------|
| Shuffle Join      | Redistribuição de dados para realizar a junção           | Grandes DataFrames          | Custo e Tempo     |
| Broadcast Join    | Transmissão de um DataFrame pequeno para todos os nós   | Um DataFrame é pequeno     | Eficiente         |
| Sort-Merge Join   | Ordenação e fusão de DataFrames                          | DataFrames ordenados        | Eficiente         |
| Bucketed Join     | Otimização para DataFrames divididos em buckets         | Chave de junção frequente   | Melhora o desempenho |
| Broadcast Hash Join | Transmissão da tabela menor para todos os nós        | Uma tabela é pequena        | Melhora o desempenho |


## Operações de Concatenação

As operações de concatenação permitem combinar DataFrames verticalmente (por linhas) ou horizontalmente (por colunas):

| Operação      | Descrição                                              | Exemplo de Caso de Uso                              |
|---------------|--------------------------------------------------------|---------------------------------------------------|
| `union`       | Concatena dois DataFrames verticalmente (por linhas)  | Combinar dados de DataFrames semelhantes.          |
| `unionAll`    | Concatena dois DataFrames verticalmente (por linhas)  | Combinar dados de DataFrames semelhantes.          |
| `unionByName` | Concatena dois DataFrames alinhando colunas pelo nome | Combinar dados de DataFrames com colunas renomeadas. |

## Operações de Pivot

As operações de pivot permitem transformar DataFrames reorganizando as informações:

| Operação     | Descrição                                              | Exemplo de Caso de Uso                     |
|--------------|--------------------------------------------------------|------------------------------------------|
| `pivot`      | Transforma linhas em colunas com base em uma chave    | Resumir dados em uma tabela dinâmica.    |
| `pivotBy`    | Transforma linhas em colunas com base em expressões   | Agregar dados com critérios personalizados. |
| `pivotByExpr` | Transforma linhas em colunas com base em expressões   | Agregar dados com critérios personalizados. |


# A primeira ação é construirmos os dados de air_CIA para fazermos os joins

In [2]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("Exemplo").config("spark.jars.packages", "org.postgresql:postgresql:42.2.24").getOrCreate()

In [7]:
df_air_cia = (
    spark
    .read
    .format("parquet")
    .load("/home/app/data/1.bronze/air_cia/")
)

df_air_cia.printSchema()

root
 |-- razão_social: string (nullable = true)
 |-- icao_iata: string (nullable = true)
 |-- cnpj: string (nullable = true)
 |-- atividades_aéreas: string (nullable = true)
 |-- endereço_sede: string (nullable = true)
 |-- telefone: string (nullable = true)
 |-- e-mail: string (nullable = true)
 |-- decisão_operacional: string (nullable = true)
 |-- data_decisão_operacional: string (nullable = true)
 |-- validade_operacional: string (nullable = true)
 |-- icao: string (nullable = true)
 |-- iata: string (nullable = true)



In [8]:
df_vra = (
    spark
    .read
    .format("parquet")
    .load("/home/app/data/1.bronze/vra/")
)

df_vra.printSchema()

root
 |-- icao_empresa_aerea: string (nullable = true)
 |-- numero_voo: string (nullable = true)
 |-- codigo_di: string (nullable = true)
 |-- codigo_tipo_linha: string (nullable = true)
 |-- icao_aerodromo_origem: string (nullable = true)
 |-- icao_aerodromo_destino: string (nullable = true)
 |-- partida_prevista: string (nullable = true)
 |-- partida_real: string (nullable = true)
 |-- chegada_prevista: string (nullable = true)
 |-- chegada_real: string (nullable = true)
 |-- situacao_voo: string (nullable = true)
 |-- codigo_justificativa: string (nullable = true)



# joins

# Concat

# Pivot