# Insper
## Programa Avançado em Data Science e Decisão
## Big Data e Computação em Nuvem

Prof. Michel Fornaciali

Prof. Thanuci Silva


**Do que praticamos na aula passada para o que vamos praticar hoje:**

Tabela comparativa entre a programação utilizando Dask e a programação usando Spark RDDs.

| Característica        | Dask                                   | Apache Spark RDDs                    |
|-----------------------|----------------------------------------|--------------------------------------|
| **Modelo de Programação** | APIs paralelas para arrays, dataframes e listas. Agendamento dinâmico e execução em tempo real. | Baseado em RDDs, coleções distribuídas de objetos imutáveis. Opera em lotes. |
| **Escala e Performance** | Escala de uma máquina a clusters; útil mesmo em hardware limitado. Bom para dados além da memória. | Ideal para grandes volumes de dados em clusters. Alta eficiência com processamento em memória. |
| **Facilidade de Uso** | Fácil integração com NumPy, pandas e scikit-learn. Favorável para usuários desses pacotes. | Curva de aprendizado mais íngreme. Integração com SQL, machine learning, processamento de grafos e streaming. |
| **Comunidade e Suporte** | Comunidade menor, **mas crescente**. Popular na comunidade de ciência de dados Python. | Amplo suporte de uma grande comunidade e uso industrial. Suporte comercial extenso. |
| **Caso de Uso** | Análises interativas em larga escala, integração com ferramentas de análise de dados Python. | Processamento de dados em grande escala, transformações complexas, alta tolerância a falhas. |



# Prática - Supermercado

Faça códigos usando Spark para responder as perguntas abaixo:

- **Qual o valor total da compra?**
- **Quantos produtos foram comprados? Se representar uma fração, considere um único produto**
- **Qual o produto mais caro (em termos de valor unitário)?**

In [None]:
from pyspark.sql import SparkSession


In [None]:
spark

In [None]:
sc = spark.sparkContext

['PRODUTO;QUANTIDADE;PRECO UNIT. (R$)', 'Achocolatado;2;5.89', 'Acucar;3;2.03']

## Tarefa 1: Organizando o RDD

* [pyspark.RDD.map](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.map.html)

   Return a new RDD by applying a function **to each element** of this RDD.


* [pyspark.RDD.filter](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.filter.html)

  Return a new RDD containing **only the elements** that satisfy a predicate.
  
* [string.split()](https://stackoverflow.com/questions/40955656/how-does-python-split-function-works)

    Will break and **split the string on the argument that is passed** and **return all the parts in a list**. The list will not include the splitting character(s).

Dito isso:

1. **Remova o cabeçalho**
2. **Separe cada string com delimitador ponto e vírgula** (`'A;B' -> ['A','B']`)

['PRODUTO;QUANTIDADE;PRECO UNIT. (R$)']

['Achocolatado;2;5.89', 'Acucar;3;2.03', 'Agua;10;1.89']

[['Achocolatado', '2', '5.89'], ['Acucar', '3', '2.03']]

3. **Transforme as strings que contém números em floats** (`'2' -> 2`)
* [pyspark.RDD.map](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.map.html)
* [string to float](https://stackoverflow.com/questions/379906/how-do-i-parse-a-string-to-a-float-or-int)

  Convert str to float

[['Achocolatado', 2.0, 5.89],
 ['Acucar', 3.0, 2.03],
 ['Agua', 10.0, 1.89],
 ['Alface', 1.0, 2.99],
 ['Arroz', 4.0, 14.87],
 ['Atum', 3.0, 7.45],
 ['Azeite', 2.0, 17.8],
 ['Azeitona', 2.0, 8.04],
 ['Batata', 2.8, 4.99],
 ['Batata palha', 5.0, 5.99]]

## Tarefa 2: Analisando a lista de compras

* [pyspark.RDD.map](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.map.html)
* [Como checar se um número é inteiro](https://stackoverflow.com/a/9266979)


4. **Encontre a quantidade de itens comprados (se for um número quebrado arredonde para 1)**

[['Achocolatado', 2.0, 5.89], ['Acucar', 3.0, 2.03], ['Agua', 10.0, 1.89]]

A quantidade de produtos comprada eh: 122.0


5. **Obtenha o valor total da compra**


* [pyspark.RDD.map](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.map.html)

[['Achocolatado', 2.0, 5.89, 11.78],
 ['Acucar', 3.0, 2.03, 6.09],
 ['Agua', 10.0, 1.89, 18.9],
 ['Alface', 1.0, 2.99, 2.99],
 ['Arroz', 4.0, 14.87, 59.48],
 ['Atum', 3.0, 7.45, 22.35],
 ['Azeite', 2.0, 17.8, 35.6],
 ['Azeitona', 2.0, 8.04, 16.08],
 ['Batata', 1, 4.99, 4.99],
 ['Batata palha', 5.0, 5.99, 29.950000000000003]]

O total da compra é: R$ 798.85


6. **Qual o produto mais caro, em termos de preço unitário?**


* [pyspark.RDD.map](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.map.html)
* [pyspark.RDD.takeOrdered](https://spark.apache.org/docs/3.1.1/api/python/reference/api/pyspark.RDD.takeOrdered.html)

[('Achocolatado', 5.89),
 ('Acucar', 2.03),
 ('Agua', 1.89),
 ('Alface', 2.99),
 ('Arroz', 14.87),
 ('Atum', 7.45),
 ('Azeite', 17.8),
 ('Azeitona', 8.04),
 ('Batata', 4.99),
 ('Batata palha', 5.99),
 ('Cafe', 9.7),
 ('Cebola', 3.45),
 ('Cenoura', 3.99),
 ('Cha', 3.67),
 ('Chocolate', 9.9)]

O produto mais caro eh: [('Presunto', 50.0)]
