In [1]:
# Importando as bibliotecas itilizadas
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

In [3]:
# Criando a sessão, nomeando e configurando para mostrar tabela do tipo pandas 
spark = (
    SparkSession.builder
    .appName('PySpark - Exportar Dados')
    .config('spark.sql.repl.eagerEval.enabled', True)
    .getOrCreate()
)

In [5]:
# Carregando um arquivo PARQUET para dataframe
df = spark.read.parquet('./DATASETS/LOGINS.parquet')

In [9]:
# Tendo um dataframe, basta salva-lo no formato desejado
# Nesse caso é salvo parquet dentro de uma pasta
df.write.save('saida') 

In [10]:
# Usando o parâmetro para sobrescrever 
df.write.save('saida', mode='overwrite') # pode usar o parâmetro 'append' para adicionar no final

In [12]:
# Mudando o formato para csv
df.write.save('saida', mode='overwrite', format='csv')

In [18]:
# Salvando em diferentes partições (quando for ler ve em um único dataframe)
df.write.save('saida', mode='overwrite', format='parquet', partitionBy=['estado', 'cor_favorita'])

                                                                                

In [15]:
# Salvando com uma tabela de banco de dados 
df.write.saveAsTable('db_login')

In [17]:
# Diretamente em csv
df.write.csv('saida', mode='overwrite')

In [19]:
# Diretamente como parquet
df.write.mode('overwrite').parquet('saida')

In [21]:
# Convertendo o dataframe spark para pandas e salvando (somente arquivo)
df.toPandas().to_csv('saida.csv')

In [22]:
# Para texto também usa to_csv()
df.toPandas().to_csv('saida.txt')

In [23]:
# Para no formato feather  
df.toPandas().to_feather('saida.feather')