# CONFIGURAÇÃO DO AMBIENTE

In [None]:
!pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.3.tar.gz (317.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.3/317.3 MB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.3-py2.py3-none-any.whl size=317840625 sha256=b028686aea7c276e9909dd124f32e645a12ef9e0059dfaa852d5bb291cd4f96f
  Stored in directory: /root/.cache/pip/wheels/1b/3a/92/28b93e2fbfdbb07509ca4d6f50c5e407f48dce4ddbda69a4ab
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.3


In [None]:
!pip list

Package                            Version
---------------------------------- -------------------
absl-py                            1.4.0
accelerate                         0.34.2
aiohappyeyeballs                   2.4.3
aiohttp                            3.10.9
aiosignal                          1.3.1
alabaster                          0.7.16
albucore                           0.0.16
albumentations                     1.4.15
altair                             4.2.2
annotated-types                    0.7.0
anyio                              3.7.1
argon2-cffi                        23.1.0
argon2-cffi-bindings               21.2.0
array_record                       0.5.1
arviz                              0.19.0
astropy                            6.1.4
astropy-iers-data                  0.2024.10.7.0.32.46
astunparse                         1.6.3
async-timeout                      4.0.3
atpublic                           4.1.0
attrs                              24.2.0
audioread         

In [None]:
import pyspark
print(pyspark.__version__)

3.5.3


# Spark SQL

In [None]:
# importações desta etapa
from pyspark.sql import SparkSession
from pyspark.sql.types import *

# Criando uma sessão Spark
spark = SparkSession.builder.appName("MeuApp").getOrCreate()

In [None]:
# comando SQL: spark.sql("comando vem aqui")
# o comando funciona como uma consulta, logo vai retorna um dataframe
# logo temos q usar o 'show' ou atribuir a uma variavel
spark.sql("show databases").show()

+---------+
|namespace|
+---------+
|  default|
+---------+



In [None]:
# criando tabela no SQL
spark.sql("create database desp")

DataFrame[]

In [None]:
# verifiando os bancos existentes
spark.sql("show databases").show()

+---------+
|namespace|
+---------+
|  default|
|     desp|
+---------+



In [None]:
# conectando ao banco
spark.sql("use desp").show()

++
||
++
++



In [None]:
# definido o schema do o arquivo q vai ser importado
arqschema = "id INT, nome STRING, status STRING, cidade STRING, vendas INT, data STRING"


# Ler o arquivo CSV com o delimitador correto
despachantes = spark.read.csv("/content/despachantes.csv", header=False, schema= arqschema)

# verificando dataframe
despachantes.show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
# transformando o dataframe para transformar em uma tabela
despachantes.write.saveAsTable("Despachantes")
# criamos uma tabela gerenciada! Equivalente a um banco relacional com dados e metadados

In [None]:
# apagar tabela se necessário
# spark.sql("drop table despachantes")

In [None]:
spark.sql("show tables").show()

+---------+------------+-----------+
|namespace|   tableName|isTemporary|
+---------+------------+-----------+
|     desp|despachantes|      false|
+---------+------------+-----------+



In [None]:
# 'mode('overwrite')' para recriar a tabela (sobrescrever)
despachantes.write.mode("overwrite").saveAsTable("Despachantes")

# se houver novos registros usar o:
# 'mode('append')' (pesquisar para ver se essa é a escrtia)

In [None]:
# OBS: ao encerrar a sessão spark os dataframes se perdem, mas os objetos
# como tabelas de banco criadas usando SQL, permanecem!

In [None]:
# caso a gente perca o dataframe por encerra a sessão spark, podemos recuperá-lo
# fazendo uma consulta, ja q o mesmo esta como objeto SQL

# exemplo:
### despachantes = spark.sql("select * from Despachantes").show()
# não executado, pois o ambiente do colab sempre é executado td após reiniciado

In [None]:
despachantes.show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
# ao informar o caminho, o spark ja entende q se trata de uma tabela externa (não gerenciada)
# 'option' ('path' 'caminho do arquivo')
despachantes.write.option("path", "/content/dfimportparquet/despachantes.parquet").saveAsTable("Despachantes_ng")

In [None]:
# conferindo as tabelas
spark.sql("show tables").show()

+---------+---------------+-----------+
|namespace|      tableName|isTemporary|
+---------+---------------+-----------+
|     desp|   despachantes|      false|
|     desp|despachantes_ng|      false|
+---------+---------------+-----------+



In [None]:
# como saber se uma tabela é gerenciada ou externa

# PRIMEIRA FORMA
# tabela gerenciada
spark.sql("show create table Despachantes").show(truncate=False)

+-------------------------------------------------------------------------------------------------------------------------------------------------------------+
|createtab_stmt                                                                                                                                               |
+-------------------------------------------------------------------------------------------------------------------------------------------------------------+
|CREATE TABLE spark_catalog.desp.Despachantes (\n  id INT,\n  nome STRING,\n  status STRING,\n  cidade STRING,\n  vendas INT,\n  data STRING)\nUSING parquet\n|
+-------------------------------------------------------------------------------------------------------------------------------------------------------------+



In [None]:
# tabela externa
spark.sql("show create table Despachantes_ng").show(truncate=False)
# se aparece um 'location' é uma tabela externa

+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|createtab_stmt                                                                                                                                                                                                                 |
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|CREATE TABLE spark_catalog.desp.Despachantes_ng (\n  id INT,\n  nome STRING,\n  status STRING,\n  cidade STRING,\n  vendas INT,\n  data STRING)\nUSING parquet\nLOCATION 'file:/content/dfimportparquet/despachantes.parquet'\n|
+-----------------------------------------------------------------------------------------------

In [None]:
# SEGUNDA FORMA
spark.catalog.listTables()

[Table(name='despachantes', catalog='spark_catalog', namespace=['desp'], description=None, tableType='MANAGED', isTemporary=False),
 Table(name='despachantes_ng', catalog='spark_catalog', namespace=['desp'], description=None, tableType='EXTERNAL', isTemporary=False)]

In [None]:
# sabemos como ver onde estão as tabelas externas, pois passamos os caminhos
# na sua criação.

### mas onde estão as gerenciadas?

In [None]:
# VIEWS - APELIDO PARA UMA OU MAIS TABELAS, PARA O USUARIO VAI PARECER SO UMA TABELA

# view temporaria
despachantes.createOrReplaceTempView("Despachantes_view1")

In [None]:
spark.sql("select * from despachantes_view1").show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
# View global
despachantes.createOrReplaceGlobalTempView("Despachantes_view2")

In [None]:
# 'view' global precisa de um pré fixo
# 'global_temp.' + nome da view
spark.sql("select * from global_temp.Despachantes_view2").show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
# criando views com SQL
spark.sql("create or replace temp view Desp_view as select * from despachantes")

DataFrame[]

In [None]:
spark.sql("select * from desp_view").show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
# criando view global com SQL
spark.sql("create or replace global temp view Desp_view2 as select * from despachantes")

DataFrame[]

In [None]:
spark.sql("select * from global_temp.Desp_view2").show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
# tudo q se consegue fazer com 'select', se consegue tb usando a API do dataframe
from pyspark.sql import functions as Func
from pyspark.sql.functions import *

# SQL
spark.sql("select * from despachantes").show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
# API
despachantes.show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
spark.sql("select nome, vendas from despachantes").show()

+-------------------+------+
|               nome|vendas|
+-------------------+------+
|   Carminda Pestana|    23|
|    Deolinda Vilela|    34|
|   Emídio Dornelles|    34|
|Felisbela Dornelles|    36|
|     Graça Ornellas|    12|
|   Matilde Rebouças|    22|
|    Noêmia   Orriça|    45|
|      Roque Vásquez|    65|
|      Uriel Queiroz|    54|
|   Viviana Sequeira|     0|
+-------------------+------+



In [None]:
despachantes.select("nome", "vendas").show()

+-------------------+------+
|               nome|vendas|
+-------------------+------+
|   Carminda Pestana|    23|
|    Deolinda Vilela|    34|
|   Emídio Dornelles|    34|
|Felisbela Dornelles|    36|
|     Graça Ornellas|    12|
|   Matilde Rebouças|    22|
|    Noêmia   Orriça|    45|
|      Roque Vásquez|    65|
|      Uriel Queiroz|    54|
|   Viviana Sequeira|     0|
+-------------------+------+



In [None]:
spark.sql("select nome, vendas from despachantes where vendas > 20").show()

+-------------------+------+
|               nome|vendas|
+-------------------+------+
|   Carminda Pestana|    23|
|    Deolinda Vilela|    34|
|   Emídio Dornelles|    34|
|Felisbela Dornelles|    36|
|   Matilde Rebouças|    22|
|    Noêmia   Orriça|    45|
|      Roque Vásquez|    65|
|      Uriel Queiroz|    54|
+-------------------+------+



In [None]:
despachantes.select("nome", "vendas").where(Func.col("vendas") > 20).show()

+-------------------+------+
|               nome|vendas|
+-------------------+------+
|   Carminda Pestana|    23|
|    Deolinda Vilela|    34|
|   Emídio Dornelles|    34|
|Felisbela Dornelles|    36|
|   Matilde Rebouças|    22|
|    Noêmia   Orriça|    45|
|      Roque Vásquez|    65|
|      Uriel Queiroz|    54|
+-------------------+------+



In [None]:
# 'order by 2' é para ordenar pela coluna de indice '2'
spark.sql("select cidade, sum(vendas) from despachantes group by cidade order by 2 desc").show()

+-------------+-----------+
|       cidade|sum(vendas)|
+-------------+-----------+
| Porto Alegre|        223|
|  Santa Maria|         68|
|Novo Hamburgo|         34|
+-------------+-----------+



In [None]:
despachantes.groupBy("cidade").agg(sum("vendas")).orderBy(Func.col("sum(vendas)").desc()).show()


+-------------+-----------+
|       cidade|sum(vendas)|
+-------------+-----------+
| Porto Alegre|        223|
|  Santa Maria|         68|
|Novo Hamburgo|         34|
+-------------+-----------+



# Spark SQL 2

In [None]:
# criando 'schema' para 'reclamações'
recschema = "idrec INT, datarec STRING, iddesp INT"
# criando dataframe
reclamacoes = spark.read.csv("/content/reclamacoes.csv", header=False, schema= recschema)

In [None]:
reclamacoes.show()

+-----+----------+------+
|idrec|   datarec|iddesp|
+-----+----------+------+
|    1|2020-09-12|     2|
|    2|2020-09-11|     2|
|    3|2020-10-05|     4|
|    4|2020-10-02|     5|
|    5|2020-12-06|     5|
|    6|2020-01-09|     5|
|    7|2020-01-05|     9|
+-----+----------+------+



In [None]:
# criando tabela
reclamacoes.write.saveAsTable("Reclamacoes")

In [None]:
# apagando tabela
# spark.sql("drop table Reclamacoes")

DataFrame[]

In [None]:
# 'Inner join' entre 'reclamações' e 'despachantes'
# 'reclamacoes.*' pq queremos tds os campos de 'reclamaceos'
spark.sql("select Reclamacoes.*, despachantes.nome from despachantes inner join Reclamacoes on (despachantes.id = Reclamacoes.iddesp)").show()

+-----+----------+------+-------------------+
|idrec|   datarec|iddesp|               nome|
+-----+----------+------+-------------------+
|    1|2020-09-12|     2|    Deolinda Vilela|
|    2|2020-09-11|     2|    Deolinda Vilela|
|    3|2020-10-05|     4|Felisbela Dornelles|
|    4|2020-10-02|     5|     Graça Ornellas|
|    5|2020-12-06|     5|     Graça Ornellas|
|    6|2020-01-09|     5|     Graça Ornellas|
|    7|2020-01-05|     9|      Uriel Queiroz|
+-----+----------+------+-------------------+



In [None]:
# right join
spark.sql("select Reclamacoes.*, despachantes.nome from despachantes right join Reclamacoes on (despachantes.id = Reclamacoes.iddesp)").show()

+-----+----------+------+-------------------+
|idrec|   datarec|iddesp|               nome|
+-----+----------+------+-------------------+
|    1|2020-09-12|     2|    Deolinda Vilela|
|    2|2020-09-11|     2|    Deolinda Vilela|
|    3|2020-10-05|     4|Felisbela Dornelles|
|    4|2020-10-02|     5|     Graça Ornellas|
|    5|2020-12-06|     5|     Graça Ornellas|
|    6|2020-01-09|     5|     Graça Ornellas|
|    7|2020-01-05|     9|      Uriel Queiroz|
+-----+----------+------+-------------------+



In [None]:
# left join - sem reclamações aparecem tb
spark.sql("select Reclamacoes.*, despachantes.nome from despachantes left join Reclamacoes on (despachantes.id = Reclamacoes.iddesp)").show()

+-----+----------+------+-------------------+
|idrec|   datarec|iddesp|               nome|
+-----+----------+------+-------------------+
| NULL|      NULL|  NULL|   Carminda Pestana|
|    2|2020-09-11|     2|    Deolinda Vilela|
|    1|2020-09-12|     2|    Deolinda Vilela|
| NULL|      NULL|  NULL|   Emídio Dornelles|
|    3|2020-10-05|     4|Felisbela Dornelles|
|    6|2020-01-09|     5|     Graça Ornellas|
|    5|2020-12-06|     5|     Graça Ornellas|
|    4|2020-10-02|     5|     Graça Ornellas|
| NULL|      NULL|  NULL|   Matilde Rebouças|
| NULL|      NULL|  NULL|    Noêmia   Orriça|
| NULL|      NULL|  NULL|      Roque Vásquez|
|    7|2020-01-05|     9|      Uriel Queiroz|
| NULL|      NULL|  NULL|   Viviana Sequeira|
+-----+----------+------+-------------------+



In [None]:
# junçoes usando a API do dataframe

In [None]:
# tabela, qual coluna? == com a coluna, join de sua escolha
despachantes.join(reclamacoes, despachantes.id == reclamacoes.iddesp, "inner").select("idrec", "datarec", "iddesp", "nome").show()

+-----+----------+------+-------------------+
|idrec|   datarec|iddesp|               nome|
+-----+----------+------+-------------------+
|    2|2020-09-11|     2|    Deolinda Vilela|
|    1|2020-09-12|     2|    Deolinda Vilela|
|    3|2020-10-05|     4|Felisbela Dornelles|
|    6|2020-01-09|     5|     Graça Ornellas|
|    5|2020-12-06|     5|     Graça Ornellas|
|    4|2020-10-02|     5|     Graça Ornellas|
|    7|2020-01-05|     9|      Uriel Queiroz|
+-----+----------+------+-------------------+



In [None]:
# left join
despachantes.join(reclamacoes, despachantes.id == reclamacoes.iddesp, "left").select("idrec", "datarec", "iddesp", "nome").show()

+-----+----------+------+-------------------+
|idrec|   datarec|iddesp|               nome|
+-----+----------+------+-------------------+
| NULL|      NULL|  NULL|   Carminda Pestana|
|    2|2020-09-11|     2|    Deolinda Vilela|
|    1|2020-09-12|     2|    Deolinda Vilela|
| NULL|      NULL|  NULL|   Emídio Dornelles|
|    3|2020-10-05|     4|Felisbela Dornelles|
|    6|2020-01-09|     5|     Graça Ornellas|
|    5|2020-12-06|     5|     Graça Ornellas|
|    4|2020-10-02|     5|     Graça Ornellas|
| NULL|      NULL|  NULL|   Matilde Rebouças|
| NULL|      NULL|  NULL|    Noêmia   Orriça|
| NULL|      NULL|  NULL|      Roque Vásquez|
|    7|2020-01-05|     9|      Uriel Queiroz|
| NULL|      NULL|  NULL|   Viviana Sequeira|
+-----+----------+------+-------------------+



# SQL PURO

In [None]:
# podemos usar SQL puro no Spark, porem aqui no colab não ;-;

In [None]:
spark.sql("SHOW DATABASES").show()

+---------+
|namespace|
+---------+
|  default|
|     desp|
+---------+



In [None]:
spark.sql("USE desp").show()

++
||
++
++



In [None]:
spark.sql("SHOW TABLES").show()

+---------+------------------+-----------+
|namespace|         tableName|isTemporary|
+---------+------------------+-----------+
|     desp|      despachantes|      false|
|     desp|   despachantes_ng|      false|
|     desp|       reclamacoes|      false|
|         |         desp_view|       true|
|         |despachantes_view1|       true|
+---------+------------------+-----------+



In [None]:
spark.sql("SELECT * FROM despachantes").show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [None]:
spark.sql("SELECT * FROM despachantes WHERE vendas > 20").show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
+---+-------------------+------+-------------+------+----------+



# FAÇA VC MESMO

In [None]:
# Importe tds os arquivos '.parquet' da pasta 'download' do curso
# Questão 1:

In [None]:
clientes = spark.read.load("/content/Clientes.parquet")

In [None]:
clientes.show()

+---------+--------------------+------+------+--------+
|ClienteID|             Cliente|Estado|Genero|  Status|
+---------+--------------------+------+------+--------+
|        1|Adelina Buenaventura|    RJ|     M|  Silver|
|        2|        Adelino Gago|    RJ|     M|  Silver|
|        3|     Adolfo Patrício|    PE|     M|  Silver|
|        4|    Adriana Guedelha|    RO|     F|Platinum|
|        5|       Adélio Lisboa|    SE|     M|  Silver|
|        6|       Adérito Bahía|    MA|     M|  Silver|
|        7|       Aida Dorneles|    RN|     F|  Silver|
|        8|   Alarico Quinterno|    AC|     M|  Silver|
|        9|    Alberto Cezimbra|    AM|     M|  Silver|
|       10|    Alberto Monsanto|    RN|     M|    Gold|
|       11|       Albino Canela|    AC|     M|  Silver|
|       12|     Alceste Varanda|    RR|     F|  Silver|
|       13|  Alcides Carvalhais|    RO|     M|  Silver|
|       14|        Aldo Martins|    GO|     M|  Silver|
|       15|   Alexandra Tabares|    MG|     F|  

In [None]:
vendas = spark.read.load("/content/Vendas.parquet")

In [None]:
vendas.show()

+--------+----------+---------+---------+--------+
|VendasID|VendedorID|ClienteID|     Data|   Total|
+--------+----------+---------+---------+--------+
|       1|         1|       91| 1/1/2019|  8053.6|
|       2|         6|      185| 1/1/2020|   150.4|
|       3|         7|       31| 2/1/2020|  6087.0|
|       4|         5|       31| 2/1/2019| 13828.6|
|       5|         5|       31| 3/1/2018|26096.66|
|       6|         5|       31| 4/1/2020| 18402.0|
|       7|         5|       31| 6/1/2019|  7524.2|
|       8|         5|      186| 6/1/2019| 12036.6|
|       9|         7|       91| 6/1/2020| 2804.75|
|      10|         2|      202| 6/1/2020|  8852.0|
|      11|         7|       58| 8/1/2019|16545.25|
|      12|         7|       58| 9/1/2018|11411.88|
|      13|         7|       58|10/1/2019| 15829.7|
|      14|         3|      249|12/1/2020| 6154.36|
|      15|         4|      249|12/1/2018| 3255.08|
|      16|         7|      192|13/1/2020| 2901.25|
|      17|         2|       79|

In [None]:
itensVendas = spark.read.load("/content/ItensVendas.parquet")

In [None]:
itensVendas.show()

+---------+--------+----------+-------------+----------+--------+----------------+
|ProdutoID|VendasID|Quantidade|ValorUnitario|ValorTotal|Desconto|TotalComDesconto|
+---------+--------+----------+-------------+----------+--------+----------------+
|        2|     400|         2|       9201.0|   18402.0| 6256,68|        12145.32|
|        2|     385|         2|       9201.0|   18402.0| 5704,62|        12697.38|
|        4|     395|         2|       6892.2|   13784.4| 5100,23|         8684.17|
|        4|     367|         2|       6509.3|   13018.6| 4816,88|         8201.72|
|        2|     380|         2|      7038.77|  14077.54| 4364,04|          9713.5|
|        2|     346|         2|       8280.9|   16561.8| 4140,45|        12421.35|
|        2|     339|         2|       8280.9|   16561.8| 3312,36|        13249.44|
|        2|     397|         1|       9201.0|    9201.0| 3312,36|         5888.64|
|        1|     346|         2|       7966.8|   15933.6| 3186,72|        12746.88|
|   

In [None]:
produtos = spark.read.load("/content/Produtos.parquet")

In [None]:
produtos.show()

+---------+--------------------+---------+
|ProdutoID|             Produto|    Preco|
+---------+--------------------+---------+
|        1|Bicicleta Aro 29 ...|8.852,00 |
|        2|Bicicleta Altools...|9.201,00 |
|        3|Bicicleta Gts Adv...|4.255,00 |
|        4|Bicicleta Trinc C...|7.658,00 |
|        5|Bicicleta Gometws...|2.966,00 |
|        6|Bicicleta Gometws...|2.955,00 |
|        7|Capacete Gometws ...|  155,00 |
|        8|Luva De Ciclismo ...|  188,00 |
|        9|Bermuda Predactor...|  115,00 |
|       10|Camiseta Predacto...|  135,00 |
+---------+--------------------+---------+



In [None]:
vendedores = spark.read.load("/content/Vendedores.parquet")

In [None]:
vendedores.show()

+----------+----------------+
|VendedorID|        Vendedor|
+----------+----------------+
|         1|    Armando Lago|
|         2|Capitolino Bahía|
|         3|   Daniel Pirajá|
|         4| Godo Capiperibe|
|         5|  Hélio Liberato|
|         6|   Iberê Lacerda|
|         7|Jéssica Castelão|
|         8| Napoleão Méndez|
|         9|    Simão Rivero|
|        10|  Tobias Furtado|
+----------+----------------+



In [None]:
# para criar no "DW" precisamos criar um banco de dados
spark.sql("create database VendasVarejo").show()

++
||
++
++



In [None]:
# conectando ao banco
spark.sql("use VendasVarejo").show()

++
||
++
++



In [None]:
# salvar os dataframes neste banco de dados
clientes.write.saveAsTable("clientes")

In [None]:
vendas.write.saveAsTable("vendas")

In [None]:
itensVendas.write.saveAsTable("itensVendas")

In [None]:
produtos.write.saveAsTable("produtos")

In [None]:
vendedores.write.saveAsTable("vendedores")

In [None]:
# verificando as tabelas
spark.sql("show tables").show()

+------------+------------------+-----------+
|   namespace|         tableName|isTemporary|
+------------+------------------+-----------+
|vendasvarejo|          clientes|      false|
|vendasvarejo|       itensvendas|      false|
|vendasvarejo|          produtos|      false|
|vendasvarejo|            vendas|      false|
|vendasvarejo|        vendedores|      false|
|            |         desp_view|       true|
|            |despachantes_view1|       true|
+------------+------------------+-----------+



In [None]:
# teste q podemos fazer
spark.sql("select * from produtos").show()

+---------+--------------------+---------+
|ProdutoID|             Produto|    Preco|
+---------+--------------------+---------+
|        1|Bicicleta Aro 29 ...|8.852,00 |
|        2|Bicicleta Altools...|9.201,00 |
|        3|Bicicleta Gts Adv...|4.255,00 |
|        4|Bicicleta Trinc C...|7.658,00 |
|        5|Bicicleta Gometws...|2.966,00 |
|        6|Bicicleta Gometws...|2.955,00 |
|        7|Capacete Gometws ...|  155,00 |
|        8|Luva De Ciclismo ...|  188,00 |
|        9|Bermuda Predactor...|  115,00 |
|       10|Camiseta Predacto...|  135,00 |
+---------+--------------------+---------+



In [None]:
# Questão 2:

In [None]:
# indo para o banco 'vendasvarejo'
spark.sql("use vendasvarejo").show()

++
||
++
++



In [None]:
# 1 - inner join de 'itens vendas' com 'produto' 2 - # inner join de 'vendas' com 'itens vendas' 3 - 'vendedores' com 'vendas' 4 - 'cliente' com 'vendas
spark.sql("select c.cliente, v.data, p.produto, vd.vendedor, iv.valortotal from itensvendas iv inner join produtos p on (p.produtoid = iv.produtoid) inner join vendas v on (v.vendasid = iv.vendasid) inner join vendedores vd on (vd.vendedorid = v.vendedorid) inner join clientes c on (c.clienteid = v.clienteid)").show()

+--------------------+----------+--------------------+----------------+----------+
|             cliente|      data|             produto|        vendedor|valortotal|
+--------------------+----------+--------------------+----------------+----------+
|    Humberto Almeida|28/12/2019|Bicicleta Altools...|   Iberê Lacerda|   18402.0|
|   Bárbara Magalhães|15/12/2020|Bicicleta Altools...|  Hélio Liberato|   18402.0|
|        Artur Macedo|22/12/2018|Bicicleta Trinc C...|  Hélio Liberato|   13784.4|
|    Dinarte Tabalipa| 1/12/2020|Bicicleta Trinc C...|   Daniel Pirajá|   13018.6|
|      Humberto Lemes|12/12/2019|Bicicleta Altools...|    Simão Rivero|  14077.54|
|    Antão Corte-Real|16/11/2018|Bicicleta Altools...|   Iberê Lacerda|   16561.8|
|Cândido Sousa do ...|10/11/2018|Bicicleta Altools...|   Daniel Pirajá|   16561.8|
|      Brígida Gusmão|23/12/2019|Bicicleta Altools...|  Hélio Liberato|    9201.0|
|    Antão Corte-Real|16/11/2018|Bicicleta Aro 29 ...|   Iberê Lacerda|   15933.6|
|   