# Opera√ß√µes com Conjuntos (Sets) no PySpark

## Introdu√ß√£o

No PySpark, assim como em SQL, podemos realizar opera√ß√µes matem√°ticas de conjuntos entre DataFrames.
Essas opera√ß√µes s√£o muito √∫teis para combinar, comparar e filtrar dados de diferentes fontes.

### Opera√ß√µes principais:
- **Union**: Combina linhas de dois DataFrames
- **Intersect**: Retorna apenas as linhas que existem em ambos os DataFrames
- **Subtract (Except)**: Retorna linhas que existem no primeiro DataFrame mas n√£o no segundo

Vamos explorar cada uma dessas opera√ß√µes com exemplos pr√°ticos!

In [1]:
# Instalar o OpenJDK 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Baixar o Apache Spark (vers√£o 3.5.0 com Hadoop 3)
!wget -q https://archive.apache.org/dist/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz

# Extrair o arquivo baixado
!tar xf spark-3.5.0-bin-hadoop3.tgz

# Instalar a biblioteca findspark
!pip install -q findspark

In [2]:
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.5.0-bin-hadoop3"

In [3]:
import findspark
findspark.init()

In [4]:
# Configura√ß√£o inicial do PySpark
from pyspark.sql import SparkSession
from pyspark.sql.types import *
from pyspark.sql import functions as F

# Criando sess√£o do Spark
spark = SparkSession.builder \
    .appName('Operacoes_Conjuntos_PySpark') \
    .getOrCreate()

print("Spark configurado com sucesso!")

Spark configurado com sucesso!


## Preparando os Dados de Exemplo

Vamos criar alguns DataFrames com dados de funcion√°rios para demonstrar as opera√ß√µes:

In [5]:
# Esquema comum para nossos dados
esquema_funcionarios = StructType([
    StructField("id", IntegerType(), True),
    StructField("nome", StringType(), True),
    StructField("departamento", StringType(), True)
])

# DataFrame 1: Funcion√°rios da matriz
dados_matriz = [
    (1, "Ana Silva", "TI"),
    (2, "Jo√£o Santos", "RH"),
    (3, "Maria Costa", "Financeiro"),
    (4, "Pedro Lima", "TI")
]
df_matriz = spark.createDataFrame(dados_matriz, esquema_funcionarios)
df_matriz = df_matriz.withColumn("origem", F.lit("Matriz"))

print("DataFrame - Funcion√°rios da Matriz:")
df_matriz.show()
print(f"Total de registros: {df_matriz.count()}")

üìä DataFrame - Funcion√°rios da Matriz:
+---+-----------+------------+------+
| id|       nome|departamento|origem|
+---+-----------+------------+------+
|  1|  Ana Silva|          TI|Matriz|
|  2|Jo√£o Santos|          RH|Matriz|
|  3|Maria Costa|  Financeiro|Matriz|
|  4| Pedro Lima|          TI|Matriz|
+---+-----------+------------+------+

Total de registros: 4


In [6]:
# DataFrame 2: Funcion√°rios da filial
dados_filial = [
    (3, "Maria Costa", "Financeiro"),  # Mesmo funcion√°rio da matriz
    (5, "Carlos Oliveira", "Vendas"),
    (6, "Lucia Ferreira", "Marketing"),
    (7, "Roberto Alves", "TI")
]
df_filial = spark.createDataFrame(dados_filial, esquema_funcionarios)
df_filial = df_filial.withColumn("origem", F.lit("Filial"))

print("DataFrame - Funcion√°rios da Filial:")
df_filial.show()
print(f"Total de registros: {df_filial.count()}")

DataFrame - Funcion√°rios da Filial:
+---+---------------+------------+------+
| id|           nome|departamento|origem|
+---+---------------+------------+------+
|  3|    Maria Costa|  Financeiro|Filial|
|  5|Carlos Oliveira|      Vendas|Filial|
|  6| Lucia Ferreira|   Marketing|Filial|
|  7|  Roberto Alves|          TI|Filial|
+---+---------------+------------+------+

Total de registros: 4


In [7]:
# DataFrame 3: Funcion√°rios terceirizados
dados_terceirizados = [
    (1, "Ana Silva", "TI"),        # Mesmo funcion√°rio da matriz
    (8, "Fernando Rocha", "Limpeza"),
    (9, "Sandra Nunes", "Seguran√ßa")
]
df_terceirizados = spark.createDataFrame(dados_terceirizados, esquema_funcionarios)
df_terceirizados = df_terceirizados.withColumn("origem", F.lit("Terceirizados"))

print("DataFrame - Funcion√°rios Terceirizados:")
df_terceirizados.show()
print(f"Total de registros: {df_terceirizados.count()}")

DataFrame - Funcion√°rios Terceirizados:
+---+--------------+------------+-------------+
| id|          nome|departamento|       origem|
+---+--------------+------------+-------------+
|  1|     Ana Silva|          TI|Terceirizados|
|  8|Fernando Rocha|     Limpeza|Terceirizados|
|  9|  Sandra Nunes|   Seguran√ßa|Terceirizados|
+---+--------------+------------+-------------+

Total de registros: 3


## 1. UNION - Combinando DataFrames

A opera√ß√£o **UNION** combina as linhas de dois ou mais DataFrames, criando um resultado que cont√©m todos os registros.

### Caracter√≠sticas importantes:
- Remove duplicatas automaticamente (como UNION DISTINCT no SQL)
- Os DataFrames devem ter o mesmo n√∫mero de colunas
- As colunas s√£o combinadas por **posi√ß√£o**, n√£o por nome
- Use `unionByName()` para combinar por nome das colunas

In [8]:
# Exemplo 1: Union b√°sico - combinando matriz e filial
print("üîÑ UNION - Combinando funcion√°rios da Matriz e Filial")
print("="*60)

# Removendo coluna 'origem' para focar na opera√ß√£o union
df_matriz_simples = df_matriz.drop("origem")
df_filial_simples = df_filial.drop("origem")

# Realizando a union
df_union_basico = df_matriz_simples.union(df_filial_simples)

print("Resultado da Union:")
df_union_basico.show()
print(f"Total de registros ap√≥s union: {df_union_basico.count()}")
print("\nüí° Note que duplicatas s√£o removidas automaticamente!")
print("   Maria Costa aparece apenas uma vez, mesmo estando nos dois DataFrames.")

üîÑ UNION - Combinando funcion√°rios da Matriz e Filial
Resultado da Union:
+---+---------------+------------+
| id|           nome|departamento|
+---+---------------+------------+
|  1|      Ana Silva|          TI|
|  2|    Jo√£o Santos|          RH|
|  3|    Maria Costa|  Financeiro|
|  4|     Pedro Lima|          TI|
|  3|    Maria Costa|  Financeiro|
|  5|Carlos Oliveira|      Vendas|
|  6| Lucia Ferreira|   Marketing|
|  7|  Roberto Alves|          TI|
+---+---------------+------------+

Total de registros ap√≥s union: 8

üí° Note que duplicatas s√£o removidas automaticamente!
   Maria Costa aparece apenas uma vez, mesmo estando nos dois DataFrames.


In [9]:
# Exemplo 2: UnionByName - combinando por nome das colunas
print("üè∑Ô∏è  UNION BY NAME - Combinando por nome das colunas")
print("="*60)

# Criando DataFrame com colunas em ordem diferente
esquema_diferente = StructType([
    StructField("nome", StringType(), True),
    StructField("departamento", StringType(), True),
    StructField("id", IntegerType(), True)  # ID por √∫ltimo
])

dados_ordem_diferente = [
    ("Paula Mendes", "Marketing", 10),
    ("Jos√© Silva", "Vendas", 11)
]
df_ordem_diferente = spark.createDataFrame(dados_ordem_diferente, esquema_diferente)

print("DataFrame com colunas em ordem diferente:")
df_ordem_diferente.show()

# Union por nome (n√£o por posi√ß√£o)
df_union_by_name = df_matriz_simples.unionByName(df_ordem_diferente)

print("Resultado da UnionByName:")
df_union_by_name.show()
print("\nüí° As colunas foram alinhadas corretamente pelo nome, n√£o pela posi√ß√£o!")

üè∑Ô∏è  UNION BY NAME - Combinando por nome das colunas
DataFrame com colunas em ordem diferente:
+------------+------------+---+
|        nome|departamento| id|
+------------+------------+---+
|Paula Mendes|   Marketing| 10|
|  Jos√© Silva|      Vendas| 11|
+------------+------------+---+

Resultado da UnionByName:
+---+------------+------------+
| id|        nome|departamento|
+---+------------+------------+
|  1|   Ana Silva|          TI|
|  2| Jo√£o Santos|          RH|
|  3| Maria Costa|  Financeiro|
|  4|  Pedro Lima|          TI|
| 10|Paula Mendes|   Marketing|
| 11|  Jos√© Silva|      Vendas|
+---+------------+------------+


üí° As colunas foram alinhadas corretamente pelo nome, n√£o pela posi√ß√£o!


In [10]:
# Exemplo 3: UnionByName com colunas faltantes
print("üìã UNION BY NAME - Permitindo colunas faltantes")
print("="*60)

# DataFrame com coluna adicional
esquema_com_salario = StructType([
    StructField("id", IntegerType(), True),
    StructField("nome", StringType(), True),
    StructField("departamento", StringType(), True),
    StructField("salario", DoubleType(), True)
])

dados_com_salario = [
    (12, "Ricardo Santos", "TI", 5500.0),
    (13, "Marina Lima", "RH", 4800.0)
]
df_com_salario = spark.createDataFrame(dados_com_salario, esquema_com_salario)

print("DataFrame com coluna adicional (sal√°rio):")
df_com_salario.show()

# Union permitindo colunas faltantes
df_union_missing = df_matriz_simples.unionByName(df_com_salario, allowMissingColumns=True)

print("Resultado com allowMissingColumns=True:")
df_union_missing.show()
print("\nüí° Colunas faltantes s√£o preenchidas com null!")

üìã UNION BY NAME - Permitindo colunas faltantes
DataFrame com coluna adicional (sal√°rio):
+---+--------------+------------+-------+
| id|          nome|departamento|salario|
+---+--------------+------------+-------+
| 12|Ricardo Santos|          TI| 5500.0|
| 13|   Marina Lima|          RH| 4800.0|
+---+--------------+------------+-------+

Resultado com allowMissingColumns=True:
+---+--------------+------------+-------+
| id|          nome|departamento|salario|
+---+--------------+------------+-------+
|  1|     Ana Silva|          TI|   NULL|
|  2|   Jo√£o Santos|          RH|   NULL|
|  3|   Maria Costa|  Financeiro|   NULL|
|  4|    Pedro Lima|          TI|   NULL|
| 12|Ricardo Santos|          TI| 5500.0|
| 13|   Marina Lima|          RH| 4800.0|
+---+--------------+------------+-------+


üí° Colunas faltantes s√£o preenchidas com null!


## 2. INTERSECT - Encontrando Registros Comuns

A opera√ß√£o **INTERSECT** retorna apenas as linhas que existem em **ambos** os DataFrames.

### Caracter√≠sticas importantes:
- Retorna apenas registros id√™nticos que aparecem nos dois DataFrames
- Remove duplicatas (equivale ao INTERSECT DISTINCT do SQL)
- √ötil para encontrar dados comuns entre datasets

In [11]:
print("üîç INTERSECT - Encontrando funcion√°rios que trabalham em ambos os locais")
print("="*70)

# Intersect entre matriz e filial
df_intersect = df_matriz_simples.intersect(df_filial_simples)

print("Funcion√°rios presentes tanto na Matriz quanto na Filial:")
df_intersect.show()
print(f"Funcion√°rios em comum: {df_intersect.count()}")

# Vamos ver quem s√£o esses funcion√°rios
if df_intersect.count() > 0:
    nomes_comuns = [row.nome for row in df_intersect.collect()]
    print(f"\nüë• Funcion√°rio(s) em comum: {', '.join(nomes_comuns)}")
else:
    print("\n‚ùå N√£o h√° funcion√°rios em comum entre Matriz e Filial")

üîç INTERSECT - Encontrando funcion√°rios que trabalham em ambos os locais
Funcion√°rios presentes tanto na Matriz quanto na Filial:
+---+-----------+------------+
| id|       nome|departamento|
+---+-----------+------------+
|  3|Maria Costa|  Financeiro|
+---+-----------+------------+

Funcion√°rios em comum: 1

üë• Funcion√°rio(s) em comum: Maria Costa


In [12]:
# Exemplo com dados que tenham duplicatas para mostrar a diferen√ßa
print("üîç INTERSECT vs INTERSECT ALL - Tratamento de duplicatas")
print("="*60)

# Criando DataFrames com duplicatas
dados_com_duplicatas_1 = [
    (1, "Ana Silva", "TI"),
    (1, "Ana Silva", "TI"),  # Duplicata
    (2, "Jo√£o Santos", "RH")
]

dados_com_duplicatas_2 = [
    (1, "Ana Silva", "TI"),
    (3, "Maria Costa", "Financeiro")
]

df_dup_1 = spark.createDataFrame(dados_com_duplicatas_1, esquema_funcionarios)
df_dup_2 = spark.createDataFrame(dados_com_duplicatas_2, esquema_funcionarios)

print("DataFrame 1 (com duplicatas):")
df_dup_1.show()

print("DataFrame 2:")
df_dup_2.show()

# INTERSECT (remove duplicatas)
df_intersect_distinct = df_dup_1.intersect(df_dup_2)
print("INTERSECT (remove duplicatas):")
df_intersect_distinct.show()

# INTERSECT ALL (preserva duplicatas)
df_intersect_all = df_dup_1.intersectAll(df_dup_2)
print("INTERSECT ALL (preserva duplicatas):")
df_intersect_all.show()

üîç INTERSECT vs INTERSECT ALL - Tratamento de duplicatas
DataFrame 1 (com duplicatas):
+---+-----------+------------+
| id|       nome|departamento|
+---+-----------+------------+
|  1|  Ana Silva|          TI|
|  1|  Ana Silva|          TI|
|  2|Jo√£o Santos|          RH|
+---+-----------+------------+

DataFrame 2:
+---+-----------+------------+
| id|       nome|departamento|
+---+-----------+------------+
|  1|  Ana Silva|          TI|
|  3|Maria Costa|  Financeiro|
+---+-----------+------------+

INTERSECT (remove duplicatas):
+---+---------+------------+
| id|     nome|departamento|
+---+---------+------------+
|  1|Ana Silva|          TI|
+---+---------+------------+

INTERSECT ALL (preserva duplicatas):
+---+---------+------------+
| id|     nome|departamento|
+---+---------+------------+
|  1|Ana Silva|          TI|
+---+---------+------------+



## 3. SUBTRACT (EXCEPT) - Encontrando Diferen√ßas

A opera√ß√£o **SUBTRACT** retorna as linhas que existem no primeiro DataFrame mas **n√£o existem** no segundo.

### Caracter√≠sticas importantes:
- Equivale ao EXCEPT DISTINCT do SQL
- Remove duplicatas do resultado
- √ötil para encontrar registros √∫nicos ou diferen√ßas entre datasets

In [13]:
print("‚ûñ SUBTRACT - Funcion√°rios exclusivos de cada local")
print("="*60)

# Funcion√°rios que est√£o apenas na Matriz
df_apenas_matriz = df_matriz_simples.subtract(df_filial_simples)

print("Funcion√°rios que trabalham APENAS na Matriz:")
df_apenas_matriz.show()
print(f"Total: {df_apenas_matriz.count()} funcion√°rios")

# Funcion√°rios que est√£o apenas na Filial
df_apenas_filial = df_filial_simples.subtract(df_matriz_simples)

print("\nFuncion√°rios que trabalham APENAS na Filial:")
df_apenas_filial.show()
print(f"Total: {df_apenas_filial.count()} funcion√°rios")

‚ûñ SUBTRACT - Funcion√°rios exclusivos de cada local
Funcion√°rios que trabalham APENAS na Matriz:
+---+-----------+------------+
| id|       nome|departamento|
+---+-----------+------------+
|  4| Pedro Lima|          TI|
|  1|  Ana Silva|          TI|
|  2|Jo√£o Santos|          RH|
+---+-----------+------------+

Total: 3 funcion√°rios

Funcion√°rios que trabalham APENAS na Filial:
+---+---------------+------------+
| id|           nome|departamento|
+---+---------------+------------+
|  5|Carlos Oliveira|      Vendas|
|  6| Lucia Ferreira|   Marketing|
|  7|  Roberto Alves|          TI|
+---+---------------+------------+

Total: 3 funcion√°rios


## üìã Caso Pr√°tico: An√°lise Completa de Funcion√°rios

Vamos combinar todas as opera√ß√µes para fazer uma an√°lise completa dos funcion√°rios da empresa:

In [14]:
print("üìä AN√ÅLISE COMPLETA DOS FUNCION√ÅRIOS DA EMPRESA")
print("="*60)

# 1. Total de funcion√°rios √∫nicos na empresa
df_todos_funcionarios = df_matriz_simples.union(df_filial_simples).union(df_terceirizados.drop("origem"))
total_funcionarios = df_todos_funcionarios.count()

print(f"1Ô∏è‚É£ Total de funcion√°rios √∫nicos na empresa: {total_funcionarios}")
print("\nTodos os funcion√°rios:")
df_todos_funcionarios.orderBy("id").show()

# 2. Funcion√°rios que trabalham em m√∫ltiplos locais
df_matriz_filial = df_matriz_simples.intersect(df_filial_simples)
df_matriz_terceirizada = df_matriz_simples.intersect(df_terceirizados.drop("origem"))

print(f"\n2Ô∏è‚É£ Funcion√°rios que trabalham em m√∫ltiplos locais:")
if df_matriz_filial.count() > 0:
    print("   üìç Matriz e Filial:")
    df_matriz_filial.show()

if df_matriz_terceirizada.count() > 0:
    print("   üìç Matriz e Terceirizados:")
    df_matriz_terceirizada.show()

# 3. Funcion√°rios exclusivos de cada local
print("\n3Ô∏è‚É£ Distribui√ß√£o exclusiva por local:")

# Apenas matriz
apenas_matriz = df_matriz_simples.subtract(df_filial_simples).subtract(df_terceirizados.drop("origem"))
print(f"   üè¢ Apenas Matriz: {apenas_matriz.count()} funcion√°rios")

# Apenas filial
apenas_filial = df_filial_simples.subtract(df_matriz_simples).subtract(df_terceirizados.drop("origem"))
print(f"   üè™ Apenas Filial: {apenas_filial.count()} funcion√°rios")

# Apenas terceirizados
apenas_terceirizados = df_terceirizados.drop("origem").subtract(df_matriz_simples).subtract(df_filial_simples)
print(f"   üë• Apenas Terceirizados: {apenas_terceirizados.count()} funcion√°rios")

# 4. Resumo por departamento
print("\n4Ô∏è‚É£ Resumo por departamento:")
df_todos_funcionarios.groupBy("departamento").count().orderBy(F.desc("count")).show()

üìä AN√ÅLISE COMPLETA DOS FUNCION√ÅRIOS DA EMPRESA
1Ô∏è‚É£ Total de funcion√°rios √∫nicos na empresa: 11

Todos os funcion√°rios:
+---+---------------+------------+
| id|           nome|departamento|
+---+---------------+------------+
|  1|      Ana Silva|          TI|
|  1|      Ana Silva|          TI|
|  2|    Jo√£o Santos|          RH|
|  3|    Maria Costa|  Financeiro|
|  3|    Maria Costa|  Financeiro|
|  4|     Pedro Lima|          TI|
|  5|Carlos Oliveira|      Vendas|
|  6| Lucia Ferreira|   Marketing|
|  7|  Roberto Alves|          TI|
|  8| Fernando Rocha|     Limpeza|
|  9|   Sandra Nunes|   Seguran√ßa|
+---+---------------+------------+


2Ô∏è‚É£ Funcion√°rios que trabalham em m√∫ltiplos locais:
   üìç Matriz e Filial:
+---+-----------+------------+
| id|       nome|departamento|
+---+-----------+------------+
|  3|Maria Costa|  Financeiro|
+---+-----------+------------+

   üìç Matriz e Terceirizados:
+---+---------+------------+
| id|     nome|departamento|
+---+------

## üí° Dicas Importantes e Boas Pr√°ticas

### 1. Performance
- Opera√ß√µes de conjunto podem ser custosas em datasets grandes
- Use `broadcast` para DataFrames pequenos
- Considere particionar os dados adequadamente

### 2. Compatibilidade de Esquemas
- `union()`: Combina por posi√ß√£o das colunas
- `unionByName()`: Combina por nome das colunas (mais seguro)
- Sempre verifique se os tipos de dados s√£o compat√≠veis

### 3. Tratamento de Duplicatas
- `union()`, `intersect()`, `subtract()`: Removem duplicatas automaticamente
- Use `unionAll()`, `intersectAll()` para preservar duplicatas

### 4. Casos de Uso Comuns
- **Union**: Consolidar dados de m√∫ltiplas fontes
- **Intersect**: Encontrar registros comuns ou validar consist√™ncia
- **Subtract**: Identificar diferen√ßas ou registros √∫nicos

In [None]:
# Exemplo de otimiza√ß√£o com broadcast
print("‚ö° Exemplo de Otimiza√ß√£o de Performance")
print("="*50)

# Para DataFrames pequenos, use broadcast para melhor performance
from pyspark.sql.functions import broadcast

# Se um dos DataFrames for pequeno (< 10MB), use broadcast
# df_resultado = df_grande.intersect(broadcast(df_pequeno))

print("üí° Use broadcast() para DataFrames pequenos em opera√ß√µes de conjunto")
print("üí° Exemplo: df_grande.union(broadcast(df_pequeno))")

# Verificando o plano de execu√ß√£o
print("\nüîç Para verificar o plano de execu√ß√£o:")
print("df.explain() - mostra como o Spark executar√° a opera√ß√£o")

# Exemplo de explain
df_exemplo = df_matriz_simples.union(df_filial_simples)
print("\nPlano de execu√ß√£o para Union:")
df_exemplo.explain()