**_Objetivo deste notebook:_** Os códigos aqui alocados referem-se a explorações em Spark presentes no segundo capítulo do livro _Spark: A Definitive Guide_ - A Gentle Introduction to Spark. Neste cenário, propõe-se um verdadeiro primeiro contato com o Apache Spark a partir da linguagem python utilizando a biblioteca `pyspark`. Para tal, um ambiente virtual foi criado na máquina do usuário e a instalação da biblioteca foi realizada a partir do comando `pip install pyspark`.

In [1]:
# Importação do módulo pyspark
from pyspark.sql import SparkSession

# Criação de sessão
spark = SparkSession.builder.getOrCreate()
spark

In [2]:
# Importando bibliotecas adicionais e definindo variáveis de caminho
import os

DATA_PATH = 'D:\\Users\\thiagoPanini\\OneDrive\\Desenvolvimento\\estudos\\big data\\spark\\livros\\spark-the-definitive-guide\\book-github-resources\\Spark-The-Definitive-Guide-master\\data\\flight-data\\csv\\2015-summary.csv'

In [3]:
# Lendo arquivo via Spark
flights_data_2015 = spark\
    .read\
    .option("inferSchema", "true")\
    .option("header", "true")\
    .csv(DATA_PATH)

# Verificando "conteúdo" do objeto
print(f'DataFrame lido: \n{flights_data_2015}')
print(f'\nTipo primitivo: \n{type(flights_data_2015)}')

DataFrame lido: 
DataFrame[DEST_COUNTRY_NAME: string, ORIGIN_COUNTRY_NAME: string, count: int]

Tipo primitivo: 
<class 'pyspark.sql.dataframe.DataFrame'>


**_Observação:_** neste ponto, é importante ressaltar que o objeto `flights_data_2015` não contém nenhuma informação de quantidade de linhas. Isto pois, como visto em tópicos anteriores, a leitura dos dados é uma transformação (lazy operation) e, como nenhuma ação foi especificada, a única coisa que o Spark faz é coletar uma pequena amostra dos dados para tentar entender os tipos primitivos de cada coluna.

In [4]:
# Coletando algumas linhas do DataFrame
flights_data_2015.take(3)

[Row(DEST_COUNTRY_NAME='United States', ORIGIN_COUNTRY_NAME='Romania', count=15),
 Row(DEST_COUNTRY_NAME='United States', ORIGIN_COUNTRY_NAME='Croatia', count=1),
 Row(DEST_COUNTRY_NAME='United States', ORIGIN_COUNTRY_NAME='Ireland', count=344)]

In [5]:
# Ordenando por "count" e coletando nova amostra
flights_data_2015.sort("count").take(3)

[Row(DEST_COUNTRY_NAME='Moldova', ORIGIN_COUNTRY_NAME='United States', count=1),
 Row(DEST_COUNTRY_NAME='United States', ORIGIN_COUNTRY_NAME='Croatia', count=1),
 Row(DEST_COUNTRY_NAME='United States', ORIGIN_COUNTRY_NAME='Singapore', count=1)]

Após a leitura da base de dados em um formato Spark DataFrame, é possível criar uma tabela temporária (view) para realizar consultas SQL a partir da execução do método `.sql()` do objeto de sessão `spark`. Vejamos os procedimentos:

In [13]:
# Criando uma view (tabela temporária no Spark)
flights_data_2015.createOrReplaceTempView('flights_view')

# Contando registros por destino de vôo via Spark SQL
sql_way = spark.sql("""
    SELECT DEST_COUNTRY_NAME, count(1) FROM flights_view
        GROUP BY DEST_COUNTRY_NAME
""")

# Mostrando resultados
sql_way.show(5)

+-----------------+--------+
|DEST_COUNTRY_NAME|count(1)|
+-----------------+--------+
|         Anguilla|       1|
|           Russia|       1|
|         Paraguay|       1|
|          Senegal|       1|
|           Sweden|       1|
+-----------------+--------+
only showing top 5 rows



Analogamente, seria possível construir a mesma análise a partir de métodos nativos de Spark DataFrame:

In [19]:
# Contando registros por destino de vôo via DataFrame
df_way = flights_data_2015\
    .groupBy("DEST_COUNTRY_NAME")\
    .count()

# Mostrando resultados
df_way.show(5)

+-----------------+-----+
|DEST_COUNTRY_NAME|count|
+-----------------+-----+
|         Anguilla|    1|
|           Russia|    1|
|         Paraguay|    1|
|          Senegal|    1|
|           Sweden|    1|
+-----------------+-----+
only showing top 5 rows



In [24]:
# Plano de execução das queries
sql_way.explain()
print()
df_way.explain()

== Physical Plan ==
AdaptiveSparkPlan isFinalPlan=false
+- HashAggregate(keys=[DEST_COUNTRY_NAME#16], functions=[count(1)])
   +- Exchange hashpartitioning(DEST_COUNTRY_NAME#16, 200), ENSURE_REQUIREMENTS, [id=#468]
      +- HashAggregate(keys=[DEST_COUNTRY_NAME#16], functions=[partial_count(1)])
         +- FileScan csv [DEST_COUNTRY_NAME#16] Batched: false, DataFilters: [], Format: CSV, Location: InMemoryFileIndex(1 paths)[file:/D:/Users/thiagoPanini/OneDrive/Desenvolvimento/estudos/big data/..., PartitionFilters: [], PushedFilters: [], ReadSchema: struct<DEST_COUNTRY_NAME:string>



== Physical Plan ==
AdaptiveSparkPlan isFinalPlan=false
+- HashAggregate(keys=[DEST_COUNTRY_NAME#16], functions=[count(1)])
   +- Exchange hashpartitioning(DEST_COUNTRY_NAME#16, 200), ENSURE_REQUIREMENTS, [id=#481]
      +- HashAggregate(keys=[DEST_COUNTRY_NAME#16], functions=[partial_count(1)])
         +- FileScan csv [DEST_COUNTRY_NAME#16] Batched: false, DataFilters: [], Format: CSV, Location: InMemor

Retornando os top 5 países de destino

In [32]:
# Utilizando Spark SQL
sql_top5  = spark.sql("""
    SELECT
        DEST_COUNTRY_NAME,
        sum(count) AS total_destination
    FROM flights_view
    GROUP BY DEST_COUNTRY_NAME
    ORDER BY total_destination DESC
    LIMIT 5
""")
sql_top5.show()

+-----------------+-----------------+
|DEST_COUNTRY_NAME|total_destination|
+-----------------+-----------------+
|    United States|           411352|
|           Canada|             8399|
|           Mexico|             7140|
|   United Kingdom|             2025|
|            Japan|             1548|
+-----------------+-----------------+

None


In [33]:
# Utilizando Spark DataFrame
from pyspark.sql.functions import desc

df_top5 = flights_data_2015\
    .groupBy("DEST_COUNTRY_NAME")\
    .sum("count")\
    .withColumnRenamed("sum(count)", "total_destination")\
    .sort(desc("total_destination"))\
    .limit(5)\
    .show()

+-----------------+-----------------+
|DEST_COUNTRY_NAME|total_destination|
+-----------------+-----------------+
|    United States|           411352|
|           Canada|             8399|
|           Mexico|             7140|
|   United Kingdom|             2025|
|            Japan|             1548|
+-----------------+-----------------+

