<a href="https://colab.research.google.com/github/LaisST/FIAP_202501_HandsOn_data_analytics/blob/main/BigData_Aula3_ConsultasSelecoes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Fase 3 - Aula 3
# Consultas e Seleções

## Configuração de Ambiente

In [None]:
# Importar biblioteca  do Python para manipular variáveis de ambiente e o sistema operacional.
import os

In [None]:
# instalar silenciosamente (-q) o pacote findspark, que ajuda o Python a localizar a instalação do Spark.
! pip install -q findspark

In [None]:
# Importar findspark
import findspark

Apache Spark 3.5.7
https://dlcdn.apache.org/spark/spark-3.5.7/spark-3.5.7-bin-hadoop3.tgz

In [None]:
# Instalar o Java JDK 8
! apt-get install openjdk-8-jdk-headless -qq > /dev/null

In [None]:
# Baixar arquivo compacto Spark

! wget -q https://dlcdn.apache.org/spark/spark-3.5.7/spark-3.5.7-bin-hadoop3.tgz

In [None]:
# Extrair o arquivo compactado do Spark (.tgz).
! tar xf spark-3.5.7-bin-hadoop3.tgz

In [None]:
# Remover o arquivo compactado depois da extração para economizar espaço.
! rm -rf spark-3.5.7-bin-hadoop3.tgz

In [None]:
# COnfigurar as variaveis de ambiente
os.environ['JAVA_HOME'] = '/usr/lib/jvm/java-8-openjdk-amd64'
os.environ['SPARK_HOME'] = '/content/spark-3.5.7-bin-hadoop3'

Define onde o Java e o Spark estão instalados.

Essas variáveis são usadas pelo Spark para encontrar os binários corretos.

In [None]:
# Inicializar o Spark e Criar uma sessão

findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local[*]').appName('PySpark DataFrame From RDD').getOrCreate()


Configura o ambiente para que o Python saiba onde está o Spark (usando as variáveis de ambiente definidas).

Cria uma SparkSession, que é o ponto de entrada para usar o Spark com DataFrames e SQL.

master('local[*]'): executa o Spark localmente, usando todos os núcleos disponíveis da máquina.

appName('PySpark DataFrame From RDD'): dá um nome à aplicação Spark (apenas para identificação).

getOrCreate(): cria a sessão se não existir, ou reutiliza uma já existente.


In [None]:
from pyspark import SparkContext

In [None]:
# Criar (ou recuperar) um SparkContext, que é a interface de baixo nível para o cluster Spark.
sc = SparkContext.getOrCreate()

## Spark SQL - Consultas e Seleções

In [None]:
df_teste = spark.sql('''select 'OK' as Status''')
df_teste.show()

+------+
|Status|
+------+
|    OK|
+------+



## Importar Base de dados

In [None]:
df = spark.read.csv('cereal.csv', sep = ',', inferSchema=True, header = True)
df.show()

+--------------------+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+---------+
|                name|mfr|type|calories|protein|fat|sodium|fiber|carbo|sugars|potass|vitamins|shelf|weight|cups|   rating|
+--------------------+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+---------+
|           100% Bran|  N|   C|      70|      4|  1|   130| 10.0|  5.0|     6|   280|      25|    3|   1.0|0.33|68.402973|
|   100% Natural Bran|  Q|   C|     120|      3|  5|    15|  2.0|  8.0|     8|   135|       0|    3|   1.0| 1.0|33.983679|
|            All-Bran|  K|   C|      70|      4|  1|   260|  9.0|  7.0|     5|   320|      25|    3|   1.0|0.33|59.425505|
|All-Bran with Ext...|  K|   C|      50|      4|  0|   140| 14.0|  8.0|     0|   330|      25|    3|   1.0| 0.5|93.704912|
|      Almond Delight|  R|   C|     110|      2|  2|   200|  1.0| 14.0|     8|    -1|      25|    3|   1.0|0.75|34.384843|
|Apple Cinnamon 

spark.read.csv(...) → usa o Spark para ler um arquivo CSV e criar um DataFrame distribuído.

'cereal.csv' → caminho do arquivo que você está lendo.

sep=',' → define o separador de colunas (vírgula, no caso).

header=True → indica que a primeira linha do CSV contém os nomes das colunas (sem isso, o Spark chamaria as colunas de _c0, _c1, etc.).

inferSchema=True → faz o Spark tentar adivinhar o tipo de cada coluna (inteiro, string, double, etc.).

    Se não usar, todas as colunas seriam lidas como string.

In [None]:
# Contar Linhas
df.count()

77

## Manipulação de Dados com Spark SQL

In [None]:
df.createOrReplaceTempView("cereal")

In [None]:
cereal = spark.sql('''SELECT COUNT(*) AS total FROM cereal WHERE mfr = 'G' ''')
cereal.show()


+-----+
|total|
+-----+
|   22|
+-----+



In [None]:
df.where(df['mfr']=='G').count()

22

## Seleção Distinta no SparkSQL

In [None]:
#Apresentar o Schema do DataFrame df
df.printSchema()

root
 |-- name: string (nullable = true)
 |-- mfr: string (nullable = true)
 |-- type: string (nullable = true)
 |-- calories: integer (nullable = true)
 |-- protein: integer (nullable = true)
 |-- fat: integer (nullable = true)
 |-- sodium: integer (nullable = true)
 |-- fiber: double (nullable = true)
 |-- carbo: double (nullable = true)
 |-- sugars: integer (nullable = true)
 |-- potass: integer (nullable = true)
 |-- vitamins: integer (nullable = true)
 |-- shelf: integer (nullable = true)
 |-- weight: double (nullable = true)
 |-- cups: double (nullable = true)
 |-- rating: double (nullable = true)



In [None]:
# Criar uma view temporária chamada "cereal"
df.createOrReplaceTempView("cereal")

In [None]:
# Selecionar os Types e mfr da tempView cereal sem duplicadas
cereal = spark.sql('''SELECT  DISTINCT type, mfr FROM cereal''')
cereal.show()

+----+---+
|type|mfr|
+----+---+
|   C|  P|
|   C|  Q|
|   C|  N|
|   H|  Q|
|   C|  R|
|   H|  N|
|   C|  G|
|   H|  A|
|   C|  K|
+----+---+



## WHERE no Spark SQL

In [None]:
# Selecionar todas as colunas, trazendo apenas as linhas onde o mfr = 'K'
# Depois contar quantas linhas ele traz com esse filtro
cereal = spark.sql('''SELECT * FROM cereal WHERE mfr = 'K' ''''')
cereal.count()

23

In [None]:
# Selecionar todas as colunas, trazendo apenas as linhas onde calories =100
# Depois contar quantas linhas ele traz com esse filtro
cereal = spark.sql('''SELECT * FROM cereal WHERE calories =100 ''''')
cereal.count()

17

In [None]:
# Selecionar todas as colunas, trazendo apenas as linhas onde mfr = 'K' e calories =100
# Depois contar quantas linhas ele traz com esse filtro
cereal = spark.sql('''SELECT * FROM cereal WHERE mfr = 'K' AND calories =100 ''''')
cereal.count()

3

## GROUP BY

In [None]:
# Selecionar as colunas mfr e type, incluir a coluna total que apresenta a contagem das linhas, incluir coluna total_calories que soma a coluna calorias
cereal = spark.sql('''SELECT mfr, \
                             type, \
                             count(*) AS total,
                             sum(calories) AS total_calories
                      FROM cereal
                      GROUP BY  \
                            mfr, \
                            type ''')
cereal.show()

+---+----+-----+--------------+
|mfr|type|total|total_calories|
+---+----+-----+--------------+
|  A|   H|    1|           100|
|  P|   C|    9|           980|
|  K|   C|   23|          2500|
|  G|   C|   22|          2450|
|  Q|   C|    7|           660|
|  R|   C|    8|           920|
|  Q|   H|    1|           100|
|  N|   H|    1|           100|
|  N|   C|    5|           420|
+---+----+-----+--------------+



Esse código gera uma tabela que mostra, para cada fabricante (mfr) e tipo (type) de cereal:

    Quantos cereais existem (total)

    A soma das calorias (total_calories)

## CASE WHEN

In [None]:
# Selecionar os tipos distintos que tem na view cereal
cereal = spark.sql(''' SELECT DISTINCT type
                        FROM cereal''')
cereal.show()

+----+
|type|
+----+
|   C|
|   H|
+----+



In [None]:
cereal = spark.sql(''' SELECT mfr,
                              type,
                             (case
                                    when type = 'C' then 'A'
                                    when type = 'H' then 'B'
                                    else 'C'
                             end) as type_new,
                             count(*) AS total,
                             sum(calories) AS total_calories
                      FROM cereal
                      GROUP BY
                            mfr,
                            type ''''')
cereal.show()

+---+----+--------+-----+--------------+
|mfr|type|type_new|total|total_calories|
+---+----+--------+-----+--------------+
|  A|   H|       B|    1|           100|
|  P|   C|       A|    9|           980|
|  K|   C|       A|   23|          2500|
|  G|   C|       A|   22|          2450|
|  Q|   C|       A|    7|           660|
|  R|   C|       A|    8|           920|
|  Q|   H|       B|    1|           100|
|  N|   H|       B|    1|           100|
|  N|   C|       A|    5|           420|
+---+----+--------+-----+--------------+



Esse código gera uma tabela que mostra, para cada fabricante (mfr) e tipo (type) de cereal:

    Quantos cereais existem (total)

    A soma das calorias (total_calories)

    Uma nova classificação (type_new) que transforma C em A, H em B e qualquer outro valor em C.

## Consultas Avançadas em SQL usando PySpark

In [None]:
df.show(5)

+--------------------+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+---------+
|                name|mfr|type|calories|protein|fat|sodium|fiber|carbo|sugars|potass|vitamins|shelf|weight|cups|   rating|
+--------------------+---+----+--------+-------+---+------+-----+-----+------+------+--------+-----+------+----+---------+
|           100% Bran|  N|   C|      70|      4|  1|   130| 10.0|  5.0|     6|   280|      25|    3|   1.0|0.33|68.402973|
|   100% Natural Bran|  Q|   C|     120|      3|  5|    15|  2.0|  8.0|     8|   135|       0|    3|   1.0| 1.0|33.983679|
|            All-Bran|  K|   C|      70|      4|  1|   260|  9.0|  7.0|     5|   320|      25|    3|   1.0|0.33|59.425505|
|All-Bran with Ext...|  K|   C|      50|      4|  0|   140| 14.0|  8.0|     0|   330|      25|    3|   1.0| 0.5|93.704912|
|      Almond Delight|  R|   C|     110|      2|  2|   200|  1.0| 14.0|     8|    -1|      25|    3|   1.0|0.75|34.384843|
+---------------

In [None]:
cereal = spark.sql('''
                  SELECT mfr,
                         type,
                         sum(calories) as sum_calories,
                         min(calories) as min_calories,
                         max(calories) as max_calories,
                         cast (avg(calories) as decimal(10,2)) as avg_calories,

                         sum(carbo) as sum_carbo,
                         min(carbo) as min_carbo,
                         max(carbo) as max_carbo,
                         cast (avg(carbo) as decimal(10,2)) as avg_carbo,

                         sum(vitamins) as sum_vitamins,
                         min(vitamins) as min_vitamins,
                         max(vitamins) as max_vitamins,
                         cast (avg(vitamins) as decimal(10,2)) as avg_vitamins,

                         count(distinct name) as count_distinct_names,
                         count(name) as count_names
                  FROM cereal
                  GROUP BY mfr, type
                  ORDER BY mfr, type ''')
cereal.show()

+---+----+------------+------------+------------+------------+---------+---------+---------+---------+------------+------------+------------+------------+--------------------+-----------+
|mfr|type|sum_calories|min_calories|max_calories|avg_calories|sum_carbo|min_carbo|max_carbo|avg_carbo|sum_vitamins|min_vitamins|max_vitamins|avg_vitamins|count_distinct_names|count_names|
+---+----+------------+------------+------------+------------+---------+---------+---------+---------+------------+------------+------------+------------+--------------------+-----------+
|  A|   H|         100|         100|         100|      100.00|     16.0|     16.0|     16.0|    16.00|          25|          25|          25|       25.00|                   1|          1|
|  G|   C|        2450|         100|         140|      111.36|    324.0|     10.5|     21.0|    14.73|         775|          25|         100|       35.23|                  22|         22|
|  K|   C|        2500|          50|         160|      108.7

Esse código gera uma tabela estatística que mostra, para cada fabricante (mfr) e tipo (type) de cereal:

    Estatísticas de calorias, carboidratos e vitaminas (soma, mínimo, máximo, média)

    Quantidade de cereais (count_names)

    Quantidade de nomes distintos de cereais (count_distinct_names)

In [None]:
cereal = spark.sql('''
                  SELECT mfr,
                         type,
                         (case
                              when mfr = 'A' then 'Abacaxi'
                              when mfr = 'G' then 'Goiaba'
                              when mfr = 'K' then 'Banana'
                              when mfr = 'N' then 'Maça'
                              when mfr = 'P' then 'Tomate'
                              when mfr = 'Q' then 'Pera'
                              --when mfr = 'R'then 'Uva'
                              else 'NA'
                         end) as type_fruit,

                         sum(calories) as sum_calories,
                         min(calories) as min_calories,
                         max(calories) as max_calories,
                         cast (avg(calories) as decimal(10,2)) as avg_calories,

                         sum(carbo) as sum_carbo,
                         min(carbo) as min_carbo,
                         max(carbo) as max_carbo,
                         cast (avg(carbo) as decimal(10,2)) as avg_carbo,

                         sum(vitamins) as sum_vitamins,
                         min(vitamins) as min_vitamins,
                         max(vitamins) as max_vitamins,
                         cast (avg(vitamins) as decimal(10,2)) as avg_vitamins,

                         count(distinct name) as count_distinct_names,
                         count(name) as count_names
                  FROM cereal
                  GROUP BY mfr, type
                  ORDER BY mfr, type ''')
cereal.show()

+---+----+----------+------------+------------+------------+------------+---------+---------+---------+---------+------------+------------+------------+------------+--------------------+-----------+
|mfr|type|type_fruit|sum_calories|min_calories|max_calories|avg_calories|sum_carbo|min_carbo|max_carbo|avg_carbo|sum_vitamins|min_vitamins|max_vitamins|avg_vitamins|count_distinct_names|count_names|
+---+----+----------+------------+------------+------------+------------+---------+---------+---------+---------+------------+------------+------------+------------+--------------------+-----------+
|  A|   H|   Abacaxi|         100|         100|         100|      100.00|     16.0|     16.0|     16.0|    16.00|          25|          25|          25|       25.00|                   1|          1|
|  G|   C|    Goiaba|        2450|         100|         140|      111.36|    324.0|     10.5|     21.0|    14.73|         775|          25|         100|       35.23|                  22|         22|
|  K|

Esse código gera uma tabela estatística agrupada por fabricante e tipo, mostrando:

    Estatísticas de calorias, carboidratos e vitaminas (soma, mínimo, máximo, média)

    Quantidade de cereais (count_names)

    Quantidade de nomes distintos de cereais (count_distinct_names)

    Uma coluna extra (type_fruit) que traduz o código do fabricante para uma fruta

## JOINs

In [None]:
# Inner
sales = spark.read.csv('sales_data_sample.csv', sep = ',', inferSchema=True, header = True)

In [None]:
sales.show(5)

+-----------+---------------+---------+---------------+-------+---------------+-------+------+--------+-------+-----------+----+-----------+--------------------+----------------+--------------------+------------+-------------+-----+----------+-------+---------+---------------+----------------+--------+
|ORDERNUMBER|QUANTITYORDERED|PRICEEACH|ORDERLINENUMBER|  SALES|      ORDERDATE| STATUS|QTR_ID|MONTH_ID|YEAR_ID|PRODUCTLINE|MSRP|PRODUCTCODE|        CUSTOMERNAME|           PHONE|        ADDRESSLINE1|ADDRESSLINE2|         CITY|STATE|POSTALCODE|COUNTRY|TERRITORY|CONTACTLASTNAME|CONTACTFIRSTNAME|DEALSIZE|
+-----------+---------------+---------+---------------+-------+---------------+-------+------+--------+-------+-----------+----+-----------+--------------------+----------------+--------------------+------------+-------------+-----+----------+-------+---------+---------------+----------------+--------+
|      10107|             30|     95.7|              2| 2871.0| 2/24/2003 0:00|Shipped| 

In [None]:
sales.createOrReplaceTempView('sales')

In [None]:
calendar = spark.sql('''
                  SELECT DISTINCT orderdate, qtr_id, month_id, year_id
                  FROM sales
                  ORDER BY orderdate
                ''')

sales_data = spark.sql('''
                  SELECT DISTINCT ORDERNUMBER,
                                  CUSTOMERNAME,
                                  ORDERDATE,
                                  SALES,
                                  QUANTITYORDERED,
                                  PRODUCTCODE,
                                  ORDERLINENUMBER,
                                  PRICEEACH
                  FROM sales
                  ORDER BY ORDERNUMBER
                ''')

customers = spark.sql('''
                  SELECT DISTINCT CUSTOMERNAME,
                                  PHONE,
                                  ADDRESSLINE1,
                                  ADDRESSLINE2,
                                  CITY,
                                  STATE,
                                  POSTALCODE,
                                  COUNTRY,
                                  TERRITORY
                  FROM sales
                  ORDER BY CUSTOMERNAME
                ''')
sales_data.createOrReplaceTempView('sales_data')
calendar.createOrReplaceTempView('calendar')
customers.createOrReplaceTempView('customers')

Esse código está normalizando a tabela sales em três visões:

    calendar → datas e períodos

    sales_data → detalhes dos pedidos

    customers → informações dos clientes

E depois registra cada uma como uma tabela temporária, para facilitar consultas SQL.

In [None]:
calendar.count()

252

In [None]:
sales_data.count()

2823

In [None]:
customers.count()

92

In [None]:
master = spark.sql('''

                  SELECT DISTINCT s.ordernumber, c.city
                  FROM sales_data s
                  INNER JOIN customers c ON s.CUSTOMERNAME=c.CUSTOMERNAME

                  ''')
master.show()

+-----------+-------------+
|ordernumber|         city|
+-----------+-------------+
|      10300|    Frankfurt|
|      10385|   San Rafael|
|      10241|   Strasbourg|
|      10182|   San Rafael|
|      10140|   Burlingame|
|      10153|       Madrid|
|      10293|       Torino|
|      10161|      Aaarhus|
|      10406|    Kobenhavn|
|      10414|       Boston|
|      10311|       Madrid|
|      10357|   San Rafael|
|      10195| White Plains|
|      10189|     Pasadena|
|      10422|    Allentown|
|      10111|San Francisco|
|      10204|          NYC|
|      10151|         Oulu|
|      10304|   Versailles|
|      10369|   Brickhaven|
+-----------+-------------+
only showing top 20 rows



Esse código gera uma tabela (master) que mostra cada número de pedido (ordernumber) junto com a cidade (city) do cliente que fez o pedido. É uma forma de relacionar transações (sales_data) com informações de clientes (customers)