### Manipulação de Dados com DataFrames no PySpark - PIVOT E UNPIVOT

#### Exemplo de Pivot no PySpark

Documentação de referência: https://spark.apache.org/docs/3.5.2/sql-ref-syntax-qry-select-pivot.html

- A cláusula `PIVOT` é utilizada para transformar os valores distintos de uma coluna (`category`) em colunas, aplicando uma função agregada como `SUM` para preencher os valores dessas novas colunas.

##### Preparando os dados


In [0]:
spark

In [0]:
from pyspark.sql.functions import sum

# Criar um DataFrame de exemplo
data = [("2024-01", "A", 10),
        ("2024-01", "B", 20),
        ("2024-02", "A", 30),
        ("2024-02", "B", 40),
        ("2024-02", "C", 50)]

schema = ["month", "category", "value"]

df = spark.createDataFrame(data, schema)

df.createOrReplaceTempView("df")

# Mostrar o DataFrame original
print("DataFrame Original:")
display(df)


##### Aplicando o Pivot


In [0]:
# Aplicar Pivot para transformar categorias em colunas e somar os valores
df_pivot = (
    df
        .groupBy("month")
        .pivot("category")
        .agg(sum("value"))
)
df_pivot.createOrReplaceTempView("df_pivoted")

print("DataFrame Após Pivot:")
display(df_pivot)


**Equivalente em SQL com PIVOT:**

In [0]:
%sql
SELECT *
FROM df
PIVOT (
    SUM(value)
    FOR category IN ('A' AS A, 'B' AS B, 'C' AS C)
);


---

### Exemplo de Unpivot

Documentação de referência: https://spark.apache.org/docs/3.5.2/sql-ref-syntax-qry-select-unpivot.html

- A cláusula `UNPIVOT` faz o inverso, convertendo colunas em linhas. No exemplo, as colunas `A`, `B`, e `C` são transformadas em linhas, com a nova coluna `category` indicando o nome original da coluna, e `value` mantendo os dados correspondentes.

#### Equivalente em SQL com UNPIVOT

Para realizar o `UNPIVOT` diretamente em SQL, você pode usar a cláusula `UNPIVOT`, como demonstrado abaixo:


**Aplicando UNPIVOT:**

In [0]:
unpivot_df = spark.sql("""
    SELECT month, category, value
    FROM df_pivoted
    UNPIVOT (
      value FOR category IN (A, B, C)
  )""")
display(
  unpivot_df
    .orderBy("month", "category")
)

`[INFO]: FIM DO NOTEBOOK`