##PySpark

In [1]:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

In [2]:
!wget -q https://archive.apache.org/dist/spark/spark-3.1.2/spark-3.1.2-bin-hadoop2.7.tgz

In [3]:
!tar xf spark-3.1.2-bin-hadoop2.7.tgz

In [4]:
!pip install -q findspark

In [5]:
!pip install -q pyspark

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m310.8/310.8 MB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone


In [6]:
import os
os.environ['JAVA_HOME'] = '/usr/lib/jvm/java-8-openjdk-amd64'
os.environ['SPARK_HOME'] = '/content/spark-3.1.2-bin-hadoop2.7'


In [7]:
import findspark
findspark.init()

In [9]:
from pyspark.sql import SparkSession
spark = SparkSession.builder\
                    .master('local[*]')\
                    .appName('Dataframes com spark')\
                    .getOrCreate()

##Montando o dataframe

In [36]:
produtos = spark.createDataFrame(
    [
        ('1', 'Bebidas', 'Água mineral', 2),
        ('2', 'Limpeza', 'Sabão em pó', 8),
        ('3', 'Frios', 'Queijo', 40),
        ('4', 'Bebidas', 'Refrigerante', 8),
        ('5', 'Pet', 'Ração para gatos', 25),
        ('6', 'Limpeza', 'Amaciante', 12),
        ('7', 'Pet', 'Ração para cães', 22),
    ],
    ['id', 'categoria', 'produto', 'preco']
)

In [37]:
impostos = spark.createDataFrame(
    [
        ('Bebidas', 0.15),
        ('Limpeza', 0.05),
        ('Frios', 0.065),
        ('Carnes', 0.08),
    ],
    ['categoria', 'taxas']
)

##Consultas


In [38]:
#Consultando dados com a clausula select

#Exibindo o cabeçalho e os tipos de dados
produtos.select('*')

DataFrame[id: string, categoria: string, produto: string, preco: bigint]

In [39]:
#Exibindo todos os dados do dataframe produtos
produtos.select('*').show(10)

+---+---------+----------------+-----+
| id|categoria|         produto|preco|
+---+---------+----------------+-----+
|  1|  Bebidas|    Água mineral|    2|
|  2|  Limpeza|     Sabão em pó|    8|
|  3|    Frios|          Queijo|   40|
|  4|  Bebidas|    Refrigerante|    8|
|  5|      Pet|Ração para gatos|   25|
|  6|  Limpeza|       Amaciante|   12|
|  7|      Pet| Ração para cães|   22|
+---+---------+----------------+-----+



In [40]:
#Exibindo a categoria, produto e preço
produtos.select('categoria', 'produto', 'preco').show(10)

+---------+----------------+-----+
|categoria|         produto|preco|
+---------+----------------+-----+
|  Bebidas|    Água mineral|    2|
|  Limpeza|     Sabão em pó|    8|
|    Frios|          Queijo|   40|
|  Bebidas|    Refrigerante|    8|
|      Pet|Ração para gatos|   25|
|  Limpeza|       Amaciante|   12|
|      Pet| Ração para cães|   22|
+---------+----------------+-----+



In [41]:
#Mudando a ordem de exibição
produtos.select('preco', 'categoria', 'produto').show(10)

+-----+---------+----------------+
|preco|categoria|         produto|
+-----+---------+----------------+
|    2|  Bebidas|    Água mineral|
|    8|  Limpeza|     Sabão em pó|
|   40|    Frios|          Queijo|
|    8|  Bebidas|    Refrigerante|
|   25|      Pet|Ração para gatos|
|   12|  Limpeza|       Amaciante|
|   22|      Pet| Ração para cães|
+-----+---------+----------------+



In [42]:
#Mudando a ordem de exibição pelo preço do maior para o maior
produtos.select('categoria', 'produto', 'preco').orderBy('preco', ascending=True).show(10)

+---------+----------------+-----+
|categoria|         produto|preco|
+---------+----------------+-----+
|  Bebidas|    Água mineral|    2|
|  Limpeza|     Sabão em pó|    8|
|  Bebidas|    Refrigerante|    8|
|  Limpeza|       Amaciante|   12|
|      Pet| Ração para cães|   22|
|      Pet|Ração para gatos|   25|
|    Frios|          Queijo|   40|
+---------+----------------+-----+



In [43]:
#Mudando a ordem pela categoria de trás pra frente
produtos.select('categoria', 'produto', 'preco').orderBy('categoria', ascending=False).show(10)

+---------+----------------+-----+
|categoria|         produto|preco|
+---------+----------------+-----+
|      Pet| Ração para cães|   22|
|      Pet|Ração para gatos|   25|
|  Limpeza|       Amaciante|   12|
|  Limpeza|     Sabão em pó|    8|
|    Frios|          Queijo|   40|
|  Bebidas|    Refrigerante|    8|
|  Bebidas|    Água mineral|    2|
+---------+----------------+-----+



In [35]:
#Filtrando dados com a clausula where

#Exibindo todos os dados dos produtos de categoria limpeza
produtos.select('*').where('categoria == "Limpeza"').show(10)

+---+---------+-----------+-----+
| id|categoria|    produto|preço|
+---+---------+-----------+-----+
|  2|  Limpeza|Sabão em pó|    8|
|  6|  Limpeza|  Amaciante|   12|
+---+---------+-----------+-----+



In [44]:
#Exibindos os produtos que custam mais de 20 reais
produtos.select('*').where('preco > 20').show(10)

+---+---------+----------------+-----+
| id|categoria|         produto|preco|
+---+---------+----------------+-----+
|  3|    Frios|          Queijo|   40|
|  5|      Pet|Ração para gatos|   25|
|  7|      Pet| Ração para cães|   22|
+---+---------+----------------+-----+



In [46]:
#Exibindo todos os dados produtos que custam mais de 20 reais e que não são da categoria Pet
produtos.select('*').where('preco > 20 AND categoria !="Pet"').show(10)

+---+---------+-------+-----+
| id|categoria|produto|preco|
+---+---------+-------+-----+
|  3|    Frios| Queijo|   40|
+---+---------+-------+-----+



In [50]:
#Exibindo todos os dados dos produtos que são  bebidas ou frios
produtos.select('*').where('categoria == "Bebidas" OR categoria == "Frios"').show(10)

+---+---------+------------+-----+
| id|categoria|     produto|preco|
+---+---------+------------+-----+
|  1|  Bebidas|Água mineral|    2|
|  3|    Frios|      Queijo|   40|
|  4|  Bebidas|Refrigerante|    8|
+---+---------+------------+-----+



In [54]:
#Exibindo produtos que começam com ração

#Função filter
produtos.select('*').filter(produtos.produto.startswith('Ração')).show(10)

+---+---------+----------------+-----+
| id|categoria|         produto|preco|
+---+---------+----------------+-----+
|  5|      Pet|Ração para gatos|   25|
|  7|      Pet| Ração para cães|   22|
+---+---------+----------------+-----+



In [55]:
#Exibindo produtos que terminam com gatos

produtos.select('*').filter(produtos.produto.endswith('gatos')).show(10)

+---+---------+----------------+-----+
| id|categoria|         produto|preco|
+---+---------+----------------+-----+
|  5|      Pet|Ração para gatos|   25|
+---+---------+----------------+-----+



In [56]:
#Exibindo produtos que começam com a letra R

#Função LIKE
# % ==> qualquer quantidade de caracteres
# _ ==> um unico caractere qualquer

produtos.select('*').where(produtos.produto.like('R%')).show(10)

+---+---------+----------------+-----+
| id|categoria|         produto|preco|
+---+---------+----------------+-----+
|  4|  Bebidas|    Refrigerante|    8|
|  5|      Pet|Ração para gatos|   25|
|  7|      Pet| Ração para cães|   22|
+---+---------+----------------+-----+



In [58]:
#Exibindo produtos que terminam com a letra E
produtos.select('*').where(produtos.produto.like('%e')).show(10)

+---+---------+------------+-----+
| id|categoria|     produto|preco|
+---+---------+------------+-----+
|  4|  Bebidas|Refrigerante|    8|
|  6|  Limpeza|   Amaciante|   12|
+---+---------+------------+-----+



In [59]:
#Exibindo produtos que possuem caracteres 'ge'
produtos.select('*').where(produtos.produto.like('%ge%')).show(10)

+---+---------+------------+-----+
| id|categoria|     produto|preco|
+---+---------+------------+-----+
|  4|  Bebidas|Refrigerante|    8|
+---+---------+------------+-----+



In [61]:
#Exibindo produtos que possuem pelo menos 6 letras
# colocar 6 underlines mais o %

produtos.select('*').where(produtos.produto.like('______%')).show(10)

+---+---------+----------------+-----+
| id|categoria|         produto|preco|
+---+---------+----------------+-----+
|  1|  Bebidas|    Água mineral|    2|
|  2|  Limpeza|     Sabão em pó|    8|
|  3|    Frios|          Queijo|   40|
|  4|  Bebidas|    Refrigerante|    8|
|  5|      Pet|Ração para gatos|   25|
|  6|  Limpeza|       Amaciante|   12|
|  7|      Pet| Ração para cães|   22|
+---+---------+----------------+-----+



##Juntando Dataframes


In [62]:
#Exibindo os dados dos dataframes produtos e impostos
produtos.join(impostos, 'categoria', how='inner').show(10)

+---------+---+------------+-----+-----+
|categoria| id|     produto|preco|taxas|
+---------+---+------------+-----+-----+
|  Limpeza|  2| Sabão em pó|    8| 0.05|
|  Limpeza|  6|   Amaciante|   12| 0.05|
|    Frios|  3|      Queijo|   40|0.065|
|  Bebidas|  1|Água mineral|    2| 0.15|
|  Bebidas|  4|Refrigerante|    8| 0.15|
+---------+---+------------+-----+-----+



In [67]:
#Exibindo os dados dos dataframes produtos e impostos de todos os produtos
#right prioriza os impostos, left prioriza os produtos, outer prioriza todos

produtos.join(impostos, 'categoria', how='outer').show(10)

+---------+----+----------------+-----+-----+
|categoria|  id|         produto|preco|taxas|
+---------+----+----------------+-----+-----+
|   Carnes|null|            null| null| 0.08|
|  Limpeza|   2|     Sabão em pó|    8| 0.05|
|  Limpeza|   6|       Amaciante|   12| 0.05|
|    Frios|   3|          Queijo|   40|0.065|
|  Bebidas|   1|    Água mineral|    2| 0.15|
|  Bebidas|   4|    Refrigerante|    8| 0.15|
|      Pet|   5|Ração para gatos|   25| null|
|      Pet|   7| Ração para cães|   22| null|
+---------+----+----------------+-----+-----+



In [68]:
#Agrupando dados

#Exibindo quantos produtos existem em cada categoria
from pyspark.sql import functions as f 
produtos.select('categoria').groupBy('categoria').count().show(10)


+---------+-----+
|categoria|count|
+---------+-----+
|  Limpeza|    2|
|    Frios|    1|
|  Bebidas|    2|
|      Pet|    2|
+---------+-----+



In [76]:
#Exibindo a média de preços, o maior preço, o menor preço, o total de produtos por categoria e a quantidade de produtos por categoria
from pyspark.sql.functions import sum, avg, max, min, count
produtos.groupBy('categoria').agg(avg('preco').alias('Média de preço'), max('preco').alias('Produto mais caro'), min('preco').alias('Produto mais barato'), 
                                  count('categoria').alias('Quantidade por categoria'), sum('preco').alias('Total por categoria')).show(10)

+---------+--------------+-----------------+-------------------+------------------------+-------------------+
|categoria|Média de preço|Produto mais caro|Produto mais barato|Quantidade por categoria|Total por categoria|
+---------+--------------+-----------------+-------------------+------------------------+-------------------+
|  Limpeza|          10.0|               12|                  8|                       2|                 20|
|    Frios|          40.0|               40|                 40|                       1|                 40|
|  Bebidas|           5.0|                8|                  2|                       2|                 10|
|      Pet|          23.5|               25|                 22|                       2|                 47|
+---------+--------------+-----------------+-------------------+------------------------+-------------------+

