# Formação Spark com Pyspark: o Curso Completo

Curso da Udemy.

In [1]:
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
import os
import sys

os.environ['JAVA_HOME'] = "D:\Java\jre1.8.0_361"
os.environ['PYSPARK_PYTHON'] = sys.executable

## DataFrames e RDDs

* Transformações: criam um novo RDD / Dataframe cujas alterações não são executadas até que haja uma ação
* Ações: calcula todas as transformações de uma só vez

* RDD - Resilient Distributed Datasets (RDD)
    * Estrutura básica de baixo nível
    * Dados "imutáveis", distribuídos pelo cluster
    * Em memória
    * Pode ser persistido em disco
    * Tolerante a falha
    * Operações sobre um RDD criam um novo RDD
    * Complexo e verboso
    * Otimização difícil pelo Spark

* Dataset e DataFrame
    * Semelhante a uma tabela de banco de dados
    * Compatível com objetos dataframe do R e do Python
    * Dataset: Disponíveis em Java e Scala e Não disponíveis em R e Python
    * Vamos estudar RDD, porém prioridade será o DataFrame

### RDDs - Código

In [2]:
conf = SparkConf().setMaster("local").setAppName("MyApp")
sc = SparkContext(conf = conf)

#### Código 1 - Números

In [3]:
numeros = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

In [4]:
# obter 5 numeros
numeros.take(5)

[1, 2, 3, 4, 5]

In [5]:
# obter os 5 maiores elementos
numeros.top(5)

[10, 9, 8, 7, 6]

In [6]:
# traz todos dados
numeros.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [15]:
# numero de elementos
print(f"Quantidade de elementos: {numeros.count()}")

# média
print(f"Média: {numeros.mean()}")

# soma
print(f"Soma: {numeros.sum()}")

# máximo
print(f"Máximo: {numeros.max()}")

# mínimo
print(f"Mínimo: {numeros.min()}")

# desvio padrão
print(f"Desvio Padrão: {numeros.stdev()}")

Quantidade de elementos: 10
Média: 5.5
Soma: 55
Máximo: 10
Mínimo: 1
Desvio Padrão: 2.8722813232690143


In [16]:
# filtro - transformação
filtro = numeros.filter(lambda filtro: filtro > 2)

# collect - ação
filtro.collect()

[3, 4, 5, 6, 7, 8, 9, 10]

In [17]:
# amostra com reposição - transformação
amostra = numeros.sample(True, 0.5, 1)

# collect - ação
amostra.collect()

[2, 3, 4, 5, 9, 10]

In [18]:
# multiplicar todos elementos por 2 - transformação
mapa = numeros.map(lambda mapa: mapa * 2)

# collect - ação
mapa.collect()

[2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

In [19]:
# unir dois RDDs - transformação
numeros2 = sc.parallelize([6, 7, 8, 9, 10])
uniao = numeros.union(numeros2)

# collect - ação
uniao.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 6, 7, 8, 9, 10]

In [20]:
# intersecção dos RDDs - transformação
interseccao = numeros.intersection(numeros2)

# collect - ação
interseccao.collect()

[6, 8, 10, 7, 9]

In [21]:
# diferença entre RDDs - transformação
subtrai = numeros.subtract(numeros2)

# collect - ação
subtrai.collect()

[2, 4, 1, 3, 5]

In [30]:
# produto cartesiano - transformação
cartesiano = numeros.cartesian(numeros2)

# collect - ação
print(cartesiano.collect())

[(1, 6), (1, 7), (1, 8), (1, 9), (1, 10), (2, 6), (2, 7), (2, 8), (2, 9), (2, 10), (3, 6), (3, 7), (3, 8), (3, 9), (3, 10), (4, 6), (4, 7), (4, 8), (4, 9), (4, 10), (5, 6), (5, 7), (5, 8), (5, 9), (5, 10), (6, 6), (6, 7), (6, 8), (6, 9), (6, 10), (7, 6), (7, 7), (7, 8), (7, 9), (7, 10), (8, 6), (8, 7), (8, 8), (8, 9), (8, 10), (9, 6), (9, 7), (9, 8), (9, 9), (9, 10), (10, 6), (10, 7), (10, 8), (10, 9), (10, 10)]


In [29]:
# contar quantas vezes cada elemento aparece - ação
print(cartesiano.countByValue())

defaultdict(<class 'int'>, {(1, 6): 1, (1, 7): 1, (1, 8): 1, (1, 9): 1, (1, 10): 1, (2, 6): 1, (2, 7): 1, (2, 8): 1, (2, 9): 1, (2, 10): 1, (3, 6): 1, (3, 7): 1, (3, 8): 1, (3, 9): 1, (3, 10): 1, (4, 6): 1, (4, 7): 1, (4, 8): 1, (4, 9): 1, (4, 10): 1, (5, 6): 1, (5, 7): 1, (5, 8): 1, (5, 9): 1, (5, 10): 1, (6, 6): 1, (6, 7): 1, (6, 8): 1, (6, 9): 1, (6, 10): 1, (7, 6): 1, (7, 7): 1, (7, 8): 1, (7, 9): 1, (7, 10): 1, (8, 6): 1, (8, 7): 1, (8, 8): 1, (8, 9): 1, (8, 10): 1, (9, 6): 1, (9, 7): 1, (9, 8): 1, (9, 9): 1, (9, 10): 1, (10, 6): 1, (10, 7): 1, (10, 8): 1, (10, 9): 1, (10, 10): 1})


#### Código 2 - Compras

In [31]:
# (chave cliente, valor)
compras = sc.parallelize([(1, 200), (2, 300), (3, 120), (4, 250), (5, 78)])

In [32]:
# obter apenas chaves - transformação
chaves = compras.keys()

# collect - ação
chaves.collect()

[1, 2, 3, 4, 5]

In [34]:
# obter apenas valores - transformação
valores = compras.values()

# collect - ação
valores.collect()

[200, 300, 120, 250, 78]

In [37]:
# contar quantas vezes cada chave aparece - ação
compras.countByKey()

defaultdict(int, {1: 1, 2: 1, 3: 1, 4: 1, 5: 1})

In [39]:
# somar 1 a todos valores - transformação
soma = compras.mapValues(lambda soma: soma + 1)

# collect - ação
soma.collect()

[(1, 201), (2, 301), (3, 121), (4, 251), (5, 79)]

In [40]:
# clientes com debito - RDD
debitos = sc.parallelize([(1, 20), (2, 300)])

In [41]:
# inner join compras e debitos - transformaçào
resultado = compras.join(debitos)

# collect - ação
resultado.collect()

[(2, (300, 300)), (1, (200, 20))]

In [43]:
# obter apenas clientes sem debito - transformação
semdebito = compras.subtractByKey(debitos)

# collect - ação
semdebito.collect()

[(4, 250), (3, 120), (5, 78)]