# Spark SQL
# Spark DataFrame

In [None]:
%%sh
sudo pip install spark
sudo pip install pyspark

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting spark
  Downloading spark-0.2.1.tar.gz (41 kB)
Building wheels for collected packages: spark
  Building wheel for spark (setup.py): started
  Building wheel for spark (setup.py): finished with status 'done'
  Created wheel for spark: filename=spark-0.2.1-py3-none-any.whl size=58762 sha256=99e188629ad3261b68785de0bd91f45a57da967306f0faf985f40670e4595383
  Stored in directory: /root/.cache/pip/wheels/4e/0e/f1/164619f9920fb447d294afaae11a7715bd442ded7225953d72
Successfully built spark
Installing collected packages: spark
Successfully installed spark-0.2.1
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pyspark
  Downloading pyspark-3.3.0.tar.gz (281.3 MB)
Collecting py4j==0.10.9.5
  Downloading py4j-0.10.9.5-py2.py3-none-any.whl (199 kB)
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup

In [None]:
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

In [None]:
spark = SparkSession.builder.appName('pyspark_df').getOrCreate()

In [None]:
# mostra todos os databases
spark.sql('show databases').show()

+---------+
|namespace|
+---------+
|  default|
+---------+



In [None]:
# cria um banco de dados
spark.sql('create database desp')
spark.sql('show databases').show()

+---------+
|namespace|
+---------+
|  default|
|     desp|
+---------+



In [None]:
# conecta no banco
spark.sql('use desp').show()

++
||
++
++



In [None]:
# criando um schema
arqschema = """
            id INT, 
            nome STRING, 
            status STRING, 
            cidade STRING, 
            vendas INT, 
            data STRING
            """

In [None]:
# importando a base de dados
despachantes = spark.read.csv('/content/despachantes.csv', header=False, schema=arqschema)

In [None]:
despachantes.show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
# transformar o df em uma tabela
despachantes.write.saveAsTable('Despachantes')

In [None]:
# verificar se a tabela existe
# sempre retorna um df
#spark.sql('show tables').show()
spark.sql('SELECT * FROM Despachantes').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
spark.sql('use desp').show()

++
||
++
++



In [None]:
# overwrite -> subscreve a tabela.
# append -> adiciona mais dados a tabela existente
despachantes.write.mode('overwrite').saveAsTable('Despachantes')

#### Tabelas Gerenciadas e Externas

In [None]:
# Tabela gerenciada
despachantes = spark.sql('SELECT * FROM Despachantes')
despachantes.show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
# Tabela externa
despachantes.write.format('parquet').save('desparquet')

In [None]:
despachantes.write.option('path', '/content/desp_parquet').saveAsTable('desspachantes_ng')

In [None]:
spark.sql('SELECT * FROM desspachantes_ng').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
# se existe caminho fisico da tabela = externa não gerenciada
# truncate=False -> exibe o comadno de criação
spark.sql('show create table Despachantes').show(truncate=False)

+-----------------------------------------------------------------------------------------------------------------------------------------------+
|createtab_stmt                                                                                                                                 |
+-----------------------------------------------------------------------------------------------------------------------------------------------+
|CREATE TABLE desp.despachantes (\n  id INT,\n  nome STRING,\n  status STRING,\n  cidade STRING,\n  vendas INT,\n  data STRING)\nUSING parquet\n|
+-----------------------------------------------------------------------------------------------------------------------------------------------+



In [None]:
# mostra as tabelas do nosso banco de dados
spark.catalog.listTables()

[Table(name='despachantes', database='desp', description=None, tableType='MANAGED', isTemporary=False),
 Table(name='despachantes_ng', database='desp', description=None, tableType='EXTERNAL', isTemporary=False),
 Table(name='desspachantes_ng', database='desp', description=None, tableType='EXTERNAL', isTemporary=False)]

#### VIEWS

In [None]:
# cria uma view com a api de dataframe do spark
despachantes.createOrReplaceTempView('despachantes_view1')

In [None]:
# consulta a view
spark.sql('SELECT * FROM despachantes_view1').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
# cria uma view global
despachantes.createOrReplaceGlobalTempView('despachantes_view2')

In [None]:
# para consultar uma view global, utiliza-se 'global_temp.nomedaview'
spark.sql('SELECT * FROM global_temp.despachantes_view2').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



### Criando view usando clausula SQL

In [None]:
spark.sql('CREATE OR REPLACE TEMP VIEW desp_view AS select * from despachantes')

DataFrame[]

In [None]:
spark.sql('SELECT * FROM desp_view').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
# criando uma view global utiliando sql
spark.sql("""CREATE OR REPLACE GLOBAL TEMP VIEW desp_view2 
             AS select * from despachantes """
          )

DataFrame[]

In [None]:
# consultando uma view global
spark.sql('SELECT * FROM global_temp.desp_view2').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



### Comparando DataFrame com Tabelas SQL

In [None]:
from pyspark.sql import functions
from pyspark.sql.functions import *

In [None]:
spark.sql('SELECT * FROM despachantes').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
# selecionando nome e vendas com spark sql
spark.sql('SELECT nome, vendas FROM despachantes').show()

+-------------------+------+
|               nome|vendas|
+-------------------+------+
|   Carminda Pestana|    23|
|    Deolinda Vilela|    34|
|   Emídio Dornelles|    34|
|Felisbela Dornelles|    36|
|     Graça Ornellas|    12|
|   Matilde Rebouças|    22|
|    Noêmia   Orriça|    45|
|      Roque Vásquez|    65|
|      Uriel Queiroz|    54|
|   Viviana Sequeira|     0|
+-------------------+------+



In [None]:
# selecionando nome e vendas com spark df
despachantes.select('nome', 'vendas').show()

+-------------------+------+
|               nome|vendas|
+-------------------+------+
|   Carminda Pestana|    23|
|    Deolinda Vilela|    34|
|   Emídio Dornelles|    34|
|Felisbela Dornelles|    36|
|     Graça Ornellas|    12|
|   Matilde Rebouças|    22|
|    Noêmia   Orriça|    45|
|      Roque Vásquez|    65|
|      Uriel Queiroz|    54|
|   Viviana Sequeira|     0|
+-------------------+------+



In [None]:
# limitando as linhas com spark sql
spark.sql('SELECT nome, vendas FROM despachantes WHERE vendas > 20').show()


+-------------------+------+
|               nome|vendas|
+-------------------+------+
|   Carminda Pestana|    23|
|    Deolinda Vilela|    34|
|   Emídio Dornelles|    34|
|Felisbela Dornelles|    36|
|   Matilde Rebouças|    22|
|    Noêmia   Orriça|    45|
|      Roque Vásquez|    65|
|      Uriel Queiroz|    54|
+-------------------+------+



In [None]:
# limitando as linhas com spark df
despachantes.select('nome', 'vendas').where(col('vendas') > 20).show()

+-------------------+------+
|               nome|vendas|
+-------------------+------+
|   Carminda Pestana|    23|
|    Deolinda Vilela|    34|
|   Emídio Dornelles|    34|
|Felisbela Dornelles|    36|
|   Matilde Rebouças|    22|
|    Noêmia   Orriça|    45|
|      Roque Vásquez|    65|
|      Uriel Queiroz|    54|
+-------------------+------+



In [None]:
# total de vendas por cidades com spark sql
# spark.sql('SELECT * FROM despachantes').show()
spark.sql("""
          SELECT cidade, SUM(vendas) AS qtd_vendas
          FROM despachantes
          GROUP BY cidade
          ORDER BY SUM(vendas) DESC
          """
          ).show()

+-------------+----------+
|       cidade|qtd_vendas|
+-------------+----------+
| Porto Alegre|       223|
|  Santa Maria|        68|
|Novo Hamburgo|        34|
+-------------+----------+



In [None]:
# total de vendas por cidades com spark df
despachantes.groupby('cidade')\
            .agg(sum('vendas'))\
            .orderBy(col('sum(vendas)')\
            .desc())\
            .show()

+-------------+-----------+
|       cidade|sum(vendas)|
+-------------+-----------+
| Porto Alegre|        223|
|  Santa Maria|         68|
|Novo Hamburgo|         34|
+-------------+-----------+



In [None]:
# api df = consultando objeto temporario
# spark sql = consultando uma tabela do spark sql

### joins

In [None]:
# criando o schema reclamacoes
recschema = """
            idred INT,
            datarec STRING,
            iddesp INT
            """

In [None]:
# criando o dataframe
reclamacoes = spark.read.csv('/content/reclamacoes.csv', header=False, schema=recschema)

In [None]:
reclamacoes.show()

+-----+----------+------+
|idred|   datarec|iddesp|
+-----+----------+------+
|    1|2020-09-12|     2|
|    2|2020-09-11|     2|
|    3|2020-10-05|     4|
|    4|2020-10-02|     5|
|    5|2020-12-06|     5|
|    6|2020-01-09|     5|
|    7|2020-01-05|     9|
+-----+----------+------+



In [None]:
# criando a tabela no banco de dados
reclamacoes.write.saveAsTable('reclamacoes')

#### inner join

In [None]:
# join com spark sql
spark.sql(""" 
          SELECT rec.*, desp.id, desp.nome 
          FROM despachantes AS desp
          INNER JOIN reclamacoes AS rec
            ON desp.id = rec.iddesp
          """).show()

+-----+----------+------+---+-------------------+
|idred|   datarec|iddesp| id|               nome|
+-----+----------+------+---+-------------------+
|    1|2020-09-12|     2|  2|    Deolinda Vilela|
|    2|2020-09-11|     2|  2|    Deolinda Vilela|
|    3|2020-10-05|     4|  4|Felisbela Dornelles|
|    4|2020-10-02|     5|  5|     Graça Ornellas|
|    5|2020-12-06|     5|  5|     Graça Ornellas|
|    6|2020-01-09|     5|  5|     Graça Ornellas|
|    7|2020-01-05|     9|  9|      Uriel Queiroz|
+-----+----------+------+---+-------------------+



In [None]:
# join com spark df
despachantes.join(reclamacoes, despachantes.id == reclamacoes.iddesp, 'inner')\
            .select('idred', 'datarec', 'iddesp', 'id', 'nome')\
            .orderBy('idred').show()

+-----+----------+------+---+-------------------+
|idred|   datarec|iddesp| id|               nome|
+-----+----------+------+---+-------------------+
|    1|2020-09-12|     2|  2|    Deolinda Vilela|
|    2|2020-09-11|     2|  2|    Deolinda Vilela|
|    3|2020-10-05|     4|  4|Felisbela Dornelles|
|    4|2020-10-02|     5|  5|     Graça Ornellas|
|    5|2020-12-06|     5|  5|     Graça Ornellas|
|    6|2020-01-09|     5|  5|     Graça Ornellas|
|    7|2020-01-05|     9|  9|      Uriel Queiroz|
+-----+----------+------+---+-------------------+



#### right join

In [None]:
# right join com spark sql
spark.sql(""" 
          SELECT rec.*, desp.id, desp.nome
          FROM despachantes AS desp
          LEFT JOIN reclamacoes AS rec
            ON desp.id = rec.iddesp
         """).show()

+-----+----------+------+---+-------------------+
|idred|   datarec|iddesp| id|               nome|
+-----+----------+------+---+-------------------+
| null|      null|  null|  1|   Carminda Pestana|
|    2|2020-09-11|     2|  2|    Deolinda Vilela|
|    1|2020-09-12|     2|  2|    Deolinda Vilela|
| null|      null|  null|  3|   Emídio Dornelles|
|    3|2020-10-05|     4|  4|Felisbela Dornelles|
|    6|2020-01-09|     5|  5|     Graça Ornellas|
|    5|2020-12-06|     5|  5|     Graça Ornellas|
|    4|2020-10-02|     5|  5|     Graça Ornellas|
| null|      null|  null|  6|   Matilde Rebouças|
| null|      null|  null|  7|    Noêmia   Orriça|
| null|      null|  null|  8|      Roque Vásquez|
|    7|2020-01-05|     9|  9|      Uriel Queiroz|
| null|      null|  null| 10|   Viviana Sequeira|
+-----+----------+------+---+-------------------+



In [None]:
# right join com spark df
despachantes.join(reclamacoes, despachantes.id == reclamacoes.iddesp, 'left').select('idred', 'datarec', 'iddesp', 'id', 'nome').show()

+-----+----------+------+---+-------------------+
|idred|   datarec|iddesp| id|               nome|
+-----+----------+------+---+-------------------+
| null|      null|  null|  1|   Carminda Pestana|
|    2|2020-09-11|     2|  2|    Deolinda Vilela|
|    1|2020-09-12|     2|  2|    Deolinda Vilela|
| null|      null|  null|  3|   Emídio Dornelles|
|    3|2020-10-05|     4|  4|Felisbela Dornelles|
|    6|2020-01-09|     5|  5|     Graça Ornellas|
|    5|2020-12-06|     5|  5|     Graça Ornellas|
|    4|2020-10-02|     5|  5|     Graça Ornellas|
| null|      null|  null|  6|   Matilde Rebouças|
| null|      null|  null|  7|    Noêmia   Orriça|
| null|      null|  null|  8|      Roque Vásquez|
|    7|2020-01-05|     9|  9|      Uriel Queiroz|
| null|      null|  null| 10|   Viviana Sequeira|
+-----+----------+------+---+-------------------+

