In [1]:
import pyspark

# 1 - Introdução RDD

## 1.1 - Criando um RDD

In [2]:
numeros = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

## 1.2 - Vizualizando os primeiros 5 elementos

In [3]:
numeros.take(5)

[1, 2, 3, 4, 5]

## 1.3 - Vizualizando os maiores 5 elementos 

In [4]:
numeros.top(5)

[10, 9, 8, 7, 6]

## 1.4 - Forma de apresentar os dados

In [5]:
numeros.collect()
#OBS: Não recomendado para grandes volumes de dados

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

## 1.5 - Realizar uma contagem de elementos

In [6]:
numeros.count()

10

## 1.6 - Realizar cálculo de média

In [7]:
numeros.mean()

5.5

## 1.7 - Realizar cálculo de soma

In [8]:
numeros.sum()

55

## 1.8 - Coletar valor máximo

In [9]:
numeros.max()

10

## 1.9 - Coletar valor mínimo

In [10]:
numeros.min()

1

## 1.10 - Realizar cálculo de desvio padrão

In [11]:
numeros.stdev()

2.8722813232690143

## 1.11 - Realizar filtro dos dados

In [12]:
filtro = numeros.filter(lambda filtro: filtro > 2) # Transformação
filtro.collect() # Ação

[3, 4, 5, 6, 7, 8, 9, 10]

## 1.12 - Gerar amostras dos dados

In [13]:
amostra = numeros.sample(True, 0.5, 1)
amostra.collect()

[2, 2, 3, 8]

## 1.13 - Iterar dados com map() + lambda

In [14]:
mapa = numeros.map(lambda mapa: mapa * 2)
mapa.collect()

[2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

# 2 - Operações entre RDDs

In [15]:
numeros.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [16]:
numeros2 = sc.parallelize([6, 7, 8, 9, 10])

## 2.1 - União entre RDDs

In [17]:
uniao = numeros.union(numeros2)
uniao.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 6, 7, 8, 9, 10]

## 2.2 - Intersecção entre RDDs

In [18]:
interseccao = numeros.intersection(numeros2)
interseccao.collect()

[6, 7, 8, 9, 10]

## 2.3 - Diferença de dados entre RDDs

In [19]:
subtrai = numeros.subtract(numeros2)
subtrai.collect() # Aqui é mostrado os dados que a variável numeros têm, mas numeros2 não

[1, 2, 3, 4, 5]

## 2.4 - Produto cartesiano entre RDDs

In [20]:
cartesiano = numeros.cartesian(numeros2)
cartesiano.collect()

[(1, 6),
 (1, 7),
 (1, 8),
 (1, 9),
 (1, 10),
 (2, 6),
 (2, 7),
 (2, 8),
 (2, 9),
 (2, 10),
 (3, 6),
 (3, 7),
 (3, 8),
 (3, 9),
 (3, 10),
 (4, 6),
 (4, 7),
 (4, 8),
 (4, 9),
 (4, 10),
 (5, 6),
 (5, 7),
 (5, 8),
 (5, 9),
 (5, 10),
 (6, 6),
 (6, 7),
 (6, 8),
 (6, 9),
 (6, 10),
 (7, 6),
 (7, 7),
 (7, 8),
 (7, 9),
 (7, 10),
 (8, 6),
 (8, 7),
 (8, 8),
 (8, 9),
 (8, 10),
 (9, 6),
 (9, 7),
 (9, 8),
 (9, 9),
 (9, 10),
 (10, 6),
 (10, 7),
 (10, 8),
 (10, 9),
 (10, 10)]

## 2.5 - Contagem por valor

In [21]:
cartesiano.countByValue()

                                                                                

defaultdict(int,
            {(1, 6): 1,
             (1, 7): 1,
             (1, 8): 1,
             (1, 9): 1,
             (1, 10): 1,
             (2, 6): 1,
             (2, 7): 1,
             (2, 8): 1,
             (2, 9): 1,
             (2, 10): 1,
             (3, 6): 1,
             (3, 7): 1,
             (3, 8): 1,
             (3, 9): 1,
             (3, 10): 1,
             (4, 6): 1,
             (4, 7): 1,
             (4, 8): 1,
             (4, 9): 1,
             (4, 10): 1,
             (5, 6): 1,
             (5, 7): 1,
             (5, 8): 1,
             (5, 9): 1,
             (5, 10): 1,
             (6, 6): 1,
             (6, 7): 1,
             (6, 8): 1,
             (6, 9): 1,
             (6, 10): 1,
             (7, 6): 1,
             (7, 7): 1,
             (7, 8): 1,
             (7, 9): 1,
             (7, 10): 1,
             (8, 6): 1,
             (8, 7): 1,
             (8, 8): 1,
             (8, 9): 1,
             (8, 10): 1,
             (9

# 3 - Simulações

Criando um RDD na qual simula o cliente e o valor em compra gasto

In [22]:
compras = sc.parallelize([(1, 200), (2, 300), (3, 120), (4, 250), (5, 78)])
compras.collect()

[(1, 200), (2, 300), (3, 120), (4, 250), (5, 78)]

## 3.1 - Extraindo apenas as chaves

In [23]:
chaves = compras.keys()
chaves.collect()

[1, 2, 3, 4, 5]

## 3.2 - Extraindo apenas os valores

In [24]:
valores = compras.values()
valores.collect()

[200, 300, 120, 250, 78]

## 3.3 - Contagem por chave

In [25]:
compras.countByKey()

defaultdict(int, {1: 1, 2: 1, 3: 1, 4: 1, 5: 1})

## 3.4 - Aplicando uma função para somar + 1 no valor com map()

In [26]:
soma = compras.mapValues(lambda soma: soma + 1)
soma.collect()

[(1, 201), (2, 301), (3, 121), (4, 251), (5, 79)]

# 4 - Mais operações

Criando um RDD na qual simula os cliente que estão com dívidas

In [27]:
debitos = sc.parallelize([(1, 20), (2, 300)])
debitos.collect()

[(1, 20), (2, 300)]

## 4.1 - Inner Join

In [28]:
resultado = compras.join(debitos)
resultado.collect()

[(1, (200, 20)), (2, (300, 300))]

## 4.2 - Diferença pela chave

Nesse caso iremos pegar aqueles clientes que não têm débitos ativos

In [29]:
sem_debito = compras.subtractByKey(debitos)
sem_debito.collect()

[(3, 120), (4, 250), (5, 78)]