## Setup inicial

In [None]:
# pyspark
!pip install pyspark

# findspark
!pip install findspark

# Import das bibliotecas
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql.types import *

spark = SparkSession.builder \
      .master("local[1]") \
      .appName("SparkByExamples.com") \
      .getOrCreate()


# Download dos arquivos
!wget www.datascientist.com.br/bigdata/download.zip

# Extrair os arquivos
!unzip download.zip

In [4]:
clientes = spark.read.load("/content/download/Atividades/Clientes.parquet")

clientes.show(2)

+---------+--------------------+------+------+------+
|ClienteID|             Cliente|Estado|Genero|Status|
+---------+--------------------+------+------+------+
|        1|Adelina Buenaventura|    RJ|     M|Silver|
|        2|        Adelino Gago|    RJ|     M|Silver|
+---------+--------------------+------+------+------+
only showing top 2 rows



In [3]:
vendas = spark.read.load("/content/download/Atividades/Vendas.parquet")

vendas.show(2)

+--------+----------+---------+--------+------+
|VendasID|VendedorID|ClienteID|    Data| Total|
+--------+----------+---------+--------+------+
|       1|         1|       91|1/1/2019|8053.6|
|       2|         6|      185|1/1/2020| 150.4|
+--------+----------+---------+--------+------+
only showing top 2 rows



In [6]:
itensvendas = spark.read.load("/content/download/Atividades/ItensVendas.parquet")

itensvendas.show(2)

+---------+--------+----------+-------------+----------+--------+----------------+
|ProdutoID|VendasID|Quantidade|ValorUnitario|ValorTotal|Desconto|TotalComDesconto|
+---------+--------+----------+-------------+----------+--------+----------------+
|        2|     400|         2|       9201.0|   18402.0| 6256,68|        12145.32|
|        2|     385|         2|       9201.0|   18402.0| 5704,62|        12697.38|
+---------+--------+----------+-------------+----------+--------+----------------+
only showing top 2 rows



In [7]:
produtos = spark.read.load("/content/download/Atividades/Produtos.parquet")

produtos.show(2)

+---------+--------------------+---------+
|ProdutoID|             Produto|    Preco|
+---------+--------------------+---------+
|        1|Bicicleta Aro 29 ...|8.852,00 |
|        2|Bicicleta Altools...|9.201,00 |
+---------+--------------------+---------+
only showing top 2 rows



In [8]:
vendedores = spark.read.load("/content/download/Atividades/Vendedores.parquet")

vendedores.show(2)

+----------+----------------+
|VendedorID|        Vendedor|
+----------+----------------+
|         1|    Armando Lago|
|         2|Capitolino Bahía|
+----------+----------------+
only showing top 2 rows



In [9]:
spark.sql("CREATE DATABASE VendasVarejo").show()

++
||
++
++



In [10]:
spark.sql("use VendasVarejo").show()

++
||
++
++



In [None]:
clientes.write.saveAsTable("clientes")

In [None]:
vendas.write.saveAsTable("vendas")

In [13]:
itensvendas.write.saveAsTable("itensvendas")

In [15]:
produtos.write.saveAsTable("produtos")

In [17]:
vendedores.write.saveAsTable("vendedores")

In [19]:
spark.sql("show tables").show()

+------------+-----------+-----------+
|   namespace|  tableName|isTemporary|
+------------+-----------+-----------+
|vendasvarejo|   clientes|      false|
|vendasvarejo|itensvendas|      false|
|vendasvarejo|   produtos|      false|
|vendasvarejo|     vendas|      false|
|vendasvarejo| vendedores|      false|
+------------+-----------+-----------+



In [20]:
spark.sql("select * from produtos").show()

+---------+--------------------+---------+
|ProdutoID|             Produto|    Preco|
+---------+--------------------+---------+
|        1|Bicicleta Aro 29 ...|8.852,00 |
|        2|Bicicleta Altools...|9.201,00 |
|        3|Bicicleta Gts Adv...|4.255,00 |
|        4|Bicicleta Trinc C...|7.658,00 |
|        5|Bicicleta Gometws...|2.966,00 |
|        6|Bicicleta Gometws...|2.955,00 |
|        7|Capacete Gometws ...|  155,00 |
|        8|Luva De Ciclismo ...|  188,00 |
|        9|Bermuda Predactor...|  115,00 |
|       10|Camiseta Predacto...|  135,00 |
+---------+--------------------+---------+



## Resposta - 02

In [27]:
sql = "select c.cliente, v.data, p.produto, vd.vendedor, iv.valortotal\
       from itensvendas iv \
       inner join produtos p on (p.produtoid = iv.produtoid)\
       inner join vendas v on (v.vendasid = iv.vendasid)\
       inner join vendedores vd on (vd.vendedorid = v.vendedorid)\
       inner join clientes c on (c.clienteid = v.clienteid);"

In [31]:
spark.sql(sql).show()

+--------------------+----------+--------------------+----------------+----------+
|             cliente|      data|             produto|        vendedor|valortotal|
+--------------------+----------+--------------------+----------------+----------+
|    Humberto Almeida|28/12/2019|Bicicleta Altools...|   Iberê Lacerda|   18402.0|
|   Bárbara Magalhães|15/12/2020|Bicicleta Altools...|  Hélio Liberato|   18402.0|
|        Artur Macedo|22/12/2018|Bicicleta Trinc C...|  Hélio Liberato|   13784.4|
|    Dinarte Tabalipa| 1/12/2020|Bicicleta Trinc C...|   Daniel Pirajá|   13018.6|
|      Humberto Lemes|12/12/2019|Bicicleta Altools...|    Simão Rivero|  14077.54|
|    Antão Corte-Real|16/11/2018|Bicicleta Altools...|   Iberê Lacerda|   16561.8|
|Cândido Sousa do ...|10/11/2018|Bicicleta Altools...|   Daniel Pirajá|   16561.8|
|      Brígida Gusmão|23/12/2019|Bicicleta Altools...|  Hélio Liberato|    9201.0|
|    Antão Corte-Real|16/11/2018|Bicicleta Aro 29 ...|   Iberê Lacerda|   15933.6|
|   

In [32]:
spark.sql("select count(*) as count from itensvendas").show()

+-----+
|count|
+-----+
|  940|
+-----+

