In [1]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
import os

In [None]:
spark = (
    SparkSession.builder
    .appName("Curso de PySpark")
    .config("spark.sql.repl.eagerEval.enabled", True)
    .getOrCreate()
)

In [None]:
spark

In [None]:
path = "C:/Users/marlos.barros/Cursos/pyspark_na_pratica/DATASETS/LOGINS.parquet"

In [None]:
df = spark.read.format("parquet").load(path)

In [None]:
df

### Salvar DataFrame sem particionamento
- Função: Salva o DataFrame **df** no diretório **"output"** no formato padrão do **Spark (Parquet)**, sem particionamento ou sobrescrita.

In [None]:
df.write.save("output")

### Salvar DataFrame particionado por "estado"
- Função: Salva o DataFrame **df** no diretório **"output"** em formato **Parquet**, **sobrescrevendo os dados existentes**. As partições são criadas com base na coluna **estado**, separando os dados em diferentes diretórios por **estado**.

In [None]:
df.write.mode("overwrite").format("parquet").partitionBy("estado").save("output")

### Salvar DataFrame com parâmetros no save
- Função: Uma maneira alternativa de salvar o DataFrame **df**, passando os parâmetros **mode**, format e **partitionBy()** diretamente no método **save()**. O comportamento é semelhante ao exemplo anterior, sobrescrevendo dados e particionando por estado.

In [None]:
df.write.save("output", mode="overwrite", format="parquet", partitionBy="estado")

### Salvar DataFrame particionado por ano e mês de nascimento
- Função: Adiciona colunas para o **ano** e o **mês** da coluna **data_de_nascimento** no DataFrame **df**, e em seguida, salva o **DataFrame** no caminho especificado. O salvamento é feito no **formato Parquet**, particionado por **ano** e **mes**. O **modo()** **append** é usado para **adicionar os dados sem sobrescrever**.

In [None]:
path = "C:/Users/marlos.barros/Cursos/pyspark_na_pratica/03-tecnicas_avancadas_de_manipulacao_de_dados/output"

(
    df
    .withColumn("ano", F.year("data_de_nascimento"))
    .withColumn("mes", F.month("data_de_nascimento"))
    .write.mode("append").partitionBy("ano", "mes").format("parquet").save(path)
)

### Salvar DataFrame como Parquet com parquet()
- Função: Similar ao exemplo anterior, mas usa o método **parquet()** diretamente para salvar o DataFrame no formato **Parquet**, particionado por **ano** e **mês**, com o **modo append**.

In [None]:
path = "C:/Users/marlos.barros/Cursos/pyspark_na_pratica/03-tecnicas_avancadas_de_manipulacao_de_dados/output"

(
    df
    .withColumn("ano", F.year("data_de_nascimento"))
    .withColumn("mes", F.month("data_de_nascimento"))
    .write.mode("append").partitionBy("ano", "mes").parquet(path)
)

### Converter DataFrame para CSV
- Função: Converte o DataFrame **df** para um DataFrame **pandas** e o salva no **formato CSV** no arquivo **"output.csv"**.

In [44]:
df.toPandas().to_csv("output.csv")

### Converter DataFrame para Excel
- Função: Converte o DataFrame **df** para um DataFrame **pandas** e o salva em um arquivo **Excel** com o nome **"output.xlsx"**.

In [48]:
df.toPandas().to_excel("output.xlsx")

### Converter DataFrame para Parquet usando pandas
- Função: Converte o DataFrame **df** para **pandas** e o salva no formato **Parquet** diretamente com **pandas** no arquivo **"output.parquet"**.

In [52]:
df.toPandas().to_parquet("output.parquet")