# Enunciado

Parte 3: Performance e Otimização
Particionamento
Explique como o particionamento pode ser usado para melhorar a performance em operações de leitura e escrita de dados em PySpark. Dê um exemplo de código que particiona um DataFrame por uma coluna específica.
Broadcast Join
Descreva o conceito de Broadcast Join em PySpark e como ele pode ser usado para otimizar operações de join. Implemente um exemplo de Broadcast Join entre dois DataFrames.

## Particionamento.
Porque o particionamento é importante para o processamento de dados utilizando o PySpark?
Bom, para respoder essa pergunda precisamos lembrar que a arquitetura do Spark foi pensada para dividir o processamento de tarefas em seus workers multicluster. Sendo assim, quando fazemos o particionamento de um conjunto de dados, damos ao Spark a possibilidade de dividir o processamento em multiplos nós de um cluster. Porem é importante realizar um particionamento eficiente para que seja possivel minimizar a transferência de dados durante as operações, e assim almentar a performance e minimizar o uso de rede.

### Exemplo de implementação de particionamento:

In [None]:
from pyspark.sql import SparkSession

# Inicializando a SparkSession
spark = SparkSession.builder.appName("Particionamento Exemplo").getOrCreate()

# Inicialização das variaveis
data = [
    ("Alice", 34, "Data Scientist"),
    ("Bob", 45, "Data Engineer"),
    ("Cathy", 29, "Data Analyst"),
    ("David", 35, "Data Scientist")
]
columns = ["Name", "Age", "Occupation"]

# Criando o DataFrame
df = spark.createDataFrame(data, schema=columns)

# Particionando o DataFrame por 'Occupation'
partitioned_df = df.repartition("Occupation")


## Broadcast Join
O que é Broadcast Join?
O Broadcast Join é uma tecnica utilizada quando um dos dataframes é suficientemente pequeno para ser carregado na memoria de todos os nós do cluster. Se essa requisito for cumprido, podemos eviar para todos os nós o dataframe completo e realizar o Join simutaneamente internamente, diminuindo assim latencia, transferencia de dados e consumo de rede. 


In [9]:
from pyspark.sql.functions import broadcast

# Criando o DataFrame "grande" (df_large) 
data_large = [("Alice", 1), ("Bob", 2), ("Charlie", 3), ("David", 4)]
columns_large = ["Nome", "ID"]
df_large = spark.createDataFrame(data_large, schema=columns_large)

# Criando o DataFrame pequeno (df_small)
data_small = [(1, "HR"), (2, "Marketing"), (3, "Financeiro")]
columns_small = ["ID", "NameDepart"]
df_small = spark.createDataFrame(data_small, schema=columns_small)

# Realizando um Broadcast Join
joined_df = df_large.join(broadcast(df_small), df_large["ID"] == df_small["ID"])

# Mostrando o resultado do join
joined_df.show()

+-------+---+---+----------+
|   Nome| ID| ID|NameDepart|
+-------+---+---+----------+
|  Alice|  1|  1|        HR|
|    Bob|  2|  2| Marketing|
|Charlie|  3|  3|Financeiro|
+-------+---+---+----------+

