In [4]:
# Importando bibliotecas
from pyspark.sql import SparkSession
import os
from warnings import filterwarnings
filterwarnings('ignore')

# Inicializando sessão
spark = SparkSession\
    .builder\
    .appName("art06-escrita-dados")\
    .getOrCreate()

# Definindo variáveis de diretório para leitura dos arquivos
parent_dir = ''.join(os.path.pardir + "/") * 3
flights_dir = os.path.join(parent_dir, 'data/flights-data/summary-data')

# Definindo variáveis de leitura para cada formato
csv_data_path = os.path.join(flights_dir, 'csv/2015-summary.csv')

# Lendo arquivo CSV a ser utilizado nos exemplos de escrita
df_csv = spark.read.format("csv")\
    .option("inferSchema", "true")\
    .option("header", "true")\
    .load(csv_data_path)

# Verificando DataFrame
df_csv.printSchema()
df_csv.show(5)

                                                                                

root
 |-- DEST_COUNTRY_NAME: string (nullable = true)
 |-- ORIGIN_COUNTRY_NAME: string (nullable = true)
 |-- count: integer (nullable = true)

+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
|    United States|            Romania|   15|
|    United States|            Croatia|    1|
|    United States|            Ireland|  344|
|            Egypt|      United States|   15|
|    United States|              India|   62|
+-----------------+-------------------+-----+
only showing top 5 rows



## Escrita de Dados

In [10]:
# Escrevendo DataFrame em formato JSON
df_csv.write.format("json").mode("overwrite").save('output/flights_json')

In [11]:
# Escrevendo DataFrame em formato CSV
df_csv.write.format("csv").mode("overwrite").save('output/flights_csv')

# Escrevendo DataFrame em formato ORC
df_csv.write.format("orc").mode("overwrite").save('output/flights_orc')

# Escrevendo DataFrame em formato PARQUET
df_csv.write.format("parquet").mode("overwrite").save('output/flights_parquet')

In [5]:
# Salvando base particionada no formato PARQUET
df_csv.write.format("parquet")\
    .mode("append")\
    .partitionBy("DEST_COUNTRY_NAME")\
    .save("output/flights_parquet_partitioned")

                                                                                