<a href="https://colab.research.google.com/github/cruz-marco/pyspark_course/blob/main/pyspark_RDD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Instalação e configuração do Spark

In [None]:
# Instalando a OpenJDK
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Baixando o Spark
!wget -q https://dlcdn.apache.org/spark/spark-3.2.3/spark-3.2.3-bin-hadoop3.2.tgz

#Descompactando o Spark
!tar xf spark-3.2.3-bin-hadoop3.2.tgz

In [None]:
# Ajustando as variáveis universais
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64" #PATH Java
os.environ["SPARK_HOME"] = '/content/spark-3.2.3-bin-hadoop3.2' #PATH Spark

# Instalando o FindSpark
!pip install -q findspark
# Importando
import findspark
# Iniciando findspark
findspark.init()
# Checando o local onde está o Spark
findspark.find()

'/content/spark-3.2.3-bin-hadoop3.2'

In [None]:
# Import SparkSession
from pyspark.sql import SparkSession
# Create a Spark Session
spark = SparkSession.builder.master("local[*]").getOrCreate()
# Check Spark Session Information

sc = spark.sparkContext

# Resilient Distributed Dataset (RDD) 

> [Documentação](https://sparkbyexamples.com/pyspark/pyspark-parallelize-create-rdd/)

- Estrutura de dados mais básica do Spark, é distribuído e verboso, os cálculos e transformações necessitam de mais linhas de código.

- Todas as estruturas de dados do Spark são imutáveis, portanto as transformações só são aplicadas quando executamos alguma ação, substituíndo o conjunto de dados antigo pelo novo, caso desejemos. 

In [None]:
numeros = sc.parallelize(list(range(1,11)))
numeros2 = sc.parallelize(list(range(6,11)))

In [None]:
#Exemplos de funçõe do RDD (Resilient Distributed Dataset)
display(
    numeros.take(5), #pega os primeiros 5
    numeros.top(3), #pega os 3 maiores
    numeros.count(), #conta a quantidade de elementos
    numeros.mean(), #retorna a média
    numeros.sum(), #retorna a soma dos elementos
    numeros.max(), #retorna o maior valor
    numeros.min(), #retorna o menor valor
    numeros.stdev() #retorna o desvio padrão
)

[1, 2, 3, 4, 5]

[10, 9, 8]

10

5.5

55

10

1

2.8722813232690143

Criando um filtro usando um lambda

In [None]:
filtro = numeros.filter(lambda x: x%2 == 0)

In [None]:
filtro.collect()

[2, 4, 6, 8, 10]

Criando uma amostra.

In [None]:
amostra = numeros.sample(False, 0.4)
amostra.collect()

[2, 4, 5, 7, 8]

Aplicando uma transformação no RDD usando o MAP, semelhante ao pandas

In [None]:
mapa = numeros.map(lambda x: x**2)
mapa.collect()

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

Unindo os dois RDD's

In [None]:
uniao = numeros.union(numeros2)
uniao.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 6, 7, 8, 9, 10]

Verificando a intersecção dos RDD's

In [None]:
intersect = numeros.intersection(numeros2)
intersect.collect()

[8, 9, 6, 10, 7]

Retorna a diferença dos RDD's (numeros1 - numeros2)

In [None]:
subtract = numeros.subtract(numeros2)
subtract.collect()

[4, 1, 5, 2, 3]

Retorna o produto cartesiano dos dois conjuntos

In [None]:
prodCartesian = numeros.cartesian(numeros2)
prodCartesian.collect()

[(1, 6),
 (1, 7),
 (2, 6),
 (2, 7),
 (3, 6),
 (3, 7),
 (4, 6),
 (4, 7),
 (5, 6),
 (5, 7),
 (1, 8),
 (1, 9),
 (2, 8),
 (2, 9),
 (3, 8),
 (3, 9),
 (4, 8),
 (4, 9),
 (5, 8),
 (5, 9),
 (1, 10),
 (2, 10),
 (3, 10),
 (4, 10),
 (5, 10),
 (6, 6),
 (6, 7),
 (7, 6),
 (7, 7),
 (8, 6),
 (8, 7),
 (9, 6),
 (9, 7),
 (10, 6),
 (10, 7),
 (6, 8),
 (6, 9),
 (7, 8),
 (7, 9),
 (8, 8),
 (8, 9),
 (9, 8),
 (9, 9),
 (10, 8),
 (10, 9),
 (6, 10),
 (7, 10),
 (8, 10),
 (9, 10),
 (10, 10)]

Retorna o número de ocorrências de cada dado no RDD na forma de um dicionário.

In [None]:
prodCartesian.countByValue()

defaultdict(int,
            {(1, 6): 1,
             (1, 7): 1,
             (2, 6): 1,
             (2, 7): 1,
             (3, 6): 1,
             (3, 7): 1,
             (4, 6): 1,
             (4, 7): 1,
             (5, 6): 1,
             (5, 7): 1,
             (1, 8): 1,
             (1, 9): 1,
             (2, 8): 1,
             (2, 9): 1,
             (3, 8): 1,
             (3, 9): 1,
             (4, 8): 1,
             (4, 9): 1,
             (5, 8): 1,
             (5, 9): 1,
             (1, 10): 1,
             (2, 10): 1,
             (3, 10): 1,
             (4, 10): 1,
             (5, 10): 1,
             (6, 6): 1,
             (6, 7): 1,
             (7, 6): 1,
             (7, 7): 1,
             (8, 6): 1,
             (8, 7): 1,
             (9, 6): 1,
             (9, 7): 1,
             (10, 6): 1,
             (10, 7): 1,
             (6, 8): 1,
             (6, 9): 1,
             (7, 8): 1,
             (7, 9): 1,
             (8, 8): 1,
             (8,

In [None]:
id = tuple(range(1,6))
values = (200, 300, 120, 250, 78)
data = list(zip(id, values))

data

[(1, 200), (2, 300), (3, 120), (4, 250), (5, 78)]

Criando um RDD com Chave e valor

In [None]:
compras = sc.parallelize(data)
compras.collect()

[(1, 200), (2, 300), (3, 120), (4, 250), (5, 78)]

Mostrando as chaves

In [None]:
compras.keys().collect()

[1, 2, 3, 4, 5]

Mostrando os valores

In [None]:
compras.values().collect()

[200, 300, 120, 250, 78]

Contando as ocorrências por chave

In [None]:
compras.countByKey()

defaultdict(int, {1: 1, 2: 1, 3: 1, 4: 1, 5: 1})

Aplicando uma transformação nos valores com o mapValues

In [None]:
compras.mapValues(lambda x: x*2).collect()

[(1, 400), (2, 600), (3, 240), (4, 500), (5, 156)]

Criando um RDD com débitos

In [None]:
debitos = sc.parallelize([(1,20), (2,300)])

Fazendo um Join por chave com os dados das compras e débitos.

In [None]:
resultados = compras.join(debitos)
resultados.collect()

[(1, (200, 20)), (2, (300, 300))]

Retirando os clientes que não têm débitos

In [None]:
semdebs = compras.subtractByKey(debitos)
semdebs.collect()

[(4, 250), (5, 78), (3, 120)]