In [23]:
from pyspark import SparkContext 

**Criando uma aplicação Spark**

In [24]:
sc = SparkContext.getOrCreate()

**Criando um RDD**

In [25]:
numeros = sc.parallelize([1,2,3,4,5,6,7,8,9,10])

**Ver os cinco primeiros elementos**

In [26]:
numeros.take(5)

[1, 2, 3, 4, 5]

**Ver os maiores elementos**

In [27]:
numeros.top(5)

[10, 9, 8, 7, 6]

**Contar a quantidade de elementos**

In [28]:
numeros.count()

10

**Calcular a média**

In [29]:
numeros.mean()

5.5

**Somar os elementos**

In [30]:
numeros.sum()

55

**Calcular o desvio padrão**

In [31]:
numeros.stdev()

2.8722813232690143

**Filtrando dados**

In [45]:
filtro = numeros.filter(lambda filtro: filtro > 2)

In [46]:
filtro.collect()

[3, 4, 5, 6, 7, 8, 9, 10]

**Amostra**

In [47]:
amostra = numeros.sample(True, 0.5,1)

In [48]:
amostra.collect()

[2, 5, 6, 7, 7, 8, 10]

**Função map**

In [50]:
# Todos os elementos multiplicados por 2.
mapa = numeros.map(lambda mapa: mapa * 2)

In [51]:
mapa.collect()

[2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

**Novo RDD**

**União**

In [54]:
numeros2 = sc.parallelize([6,7,8,9,10])

In [55]:
# Unindo numeros a números2
uniao = numeros.union(numeros2)

In [56]:
uniao.collect()

[6, 7, 8, 9, 10, 6, 7, 8, 9, 10]

**Intersecção**

In [57]:
# Números em comum
interseccao = numeros.intersection(numeros2)

In [58]:
interseccao.collect()

[8, 9, 10, 6, 7]

**Valores diferentes**

In [59]:
subtrai = numeros.subtract(numeros2)

In [60]:
subtrai.collect()

[]

**Produto cartesiano**

In [61]:
cartesiano = numeros.cartesian(numeros2)

In [62]:
cartesiano.collect()

[(6, 6),
 (6, 7),
 (6, 8),
 (6, 9),
 (6, 10),
 (7, 6),
 (7, 7),
 (7, 8),
 (7, 9),
 (7, 10),
 (8, 6),
 (8, 7),
 (8, 8),
 (8, 9),
 (8, 10),
 (9, 6),
 (10, 6),
 (9, 7),
 (10, 7),
 (9, 8),
 (10, 8),
 (9, 9),
 (9, 10),
 (10, 9),
 (10, 10)]

In [63]:
cartesiano.countByValue()

defaultdict(int,
            {(6, 6): 1,
             (6, 7): 1,
             (6, 8): 1,
             (6, 9): 1,
             (6, 10): 1,
             (7, 6): 1,
             (7, 7): 1,
             (7, 8): 1,
             (7, 9): 1,
             (7, 10): 1,
             (8, 6): 1,
             (8, 7): 1,
             (8, 8): 1,
             (8, 9): 1,
             (8, 10): 1,
             (9, 6): 1,
             (10, 6): 1,
             (9, 7): 1,
             (10, 7): 1,
             (9, 8): 1,
             (10, 8): 1,
             (9, 9): 1,
             (9, 10): 1,
             (10, 9): 1,
             (10, 10): 1})

**Novo RDD**

In [32]:
compras = sc.parallelize([(1, 200), (2, 300), (3, 120), (4,250), (5,78)])

**MÉTODOS**

**Ver apenas as chaves**

In [33]:
chaves = compras.keys()

In [34]:
chaves.collect()

[1, 2, 3, 4, 5]

**Ver apenas os valores**

In [35]:
valores = compras.values()

In [36]:
valores.collect()

[200, 300, 120, 250, 78]

**Contando quantos elementos tem cada chave**

In [37]:
compras.countByKey()

defaultdict(int, {1: 1, 2: 1, 3: 1, 4: 1, 5: 1})

**Somando mais um a cada elemento do valor**

In [38]:
soma = compras.mapValues(lambda soma: soma + 1)

In [39]:
soma.collect()

[(1, 201), (2, 301), (3, 121), (4, 251), (5, 79)]

**Criando um novo RDD**

In [40]:
debitos = sc.parallelize([(1,20), (2,300)])

**Join**

In [41]:
## RDDs compras/debito
resultado = compras.join(debitos)

In [42]:
resultado.collect()

[(1, (200, 20)), (2, (300, 300))]

**Mostrar apenas os clientes sem debito**

In [43]:
semdebito = compras.subtractByKey(debitos)

In [44]:
semdebito.collect()

[(3, 120), (4, 250), (5, 78)]