# RDD: resilient distributed dataset

* Resilient: os dados perdidos na memória podem ser recriados
* Distributed: dados separados atráves do cluster
* Data Set: entrada pode ser qualquer tipo de origem

In [1]:
#import findspark
#findspark.init()

import pyspark
from pyspark import SparkContext

sc = SparkContext.getOrCreate()

Existem três formas de criar um RDD:

    1. De um arquivo ou conjunto de arquivos;
    2. De dados na memória
    3. De outro rdd
    
Utilizamos o método **.textFile()** para carregar arquivos em uma aplicação spark. Seu retorno é um RDD

In [2]:
rdd = sc.textFile("sobreRDD.txt")

O método **.collect()** é responsável por passar os dados do RDD ao drive e apresenta-los para o usuário, seu uso é *custoso*.

In [3]:
rdd.collect()

['Um rdd no spark e simplesmente uma colecao distribuida imutavel de objetos. ',
 'Cada rdd e dividido em varias particoes, que podem ser calculadas em diferentes nos do cluster. ',
 'Os rdd podem conter qualquer tipo de objetos Python, Java ou Scala, incluindo classes definidas pelo usuario, o spark utiliza rdd para trabalhar com essas estruturas de dados',
 'Os usuarios criam RDDs de duas maneiras: carregando um conjunto de dados externo ou distribuindo uma colecao de objetos (por exemplo, uma lista ou conjunto) em seu programa de driver. ',
 'Para carregar um arquivo de texto com um RDD de strings usamos SparkContext.textFile()']

O método **.filter** que aprendemos em python também é utilizado em RDD's, para isso usamos a função **lambda**

In [4]:
# Utilizando funcao .filter(), mesmo conceito que usamos em python, aplicando a funcao lambda.
rddSparkLinhas = rdd.filter(lambda line: "spark" in line)

In [5]:
# .collect() para exibir o resultado
rddSparkLinhas.collect()

['Um rdd no spark e simplesmente uma colecao distribuida imutavel de objetos. ',
 'Os rdd podem conter qualquer tipo de objetos Python, Java ou Scala, incluindo classes definidas pelo usuario, o spark utiliza rdd para trabalhar com essas estruturas de dados']

O método **first()** pode nos auxiliar exibindo a primeira linha. Observação: não é possível selecionar quantas linhas apresentar.

In [6]:
rdd.first()

'Um rdd no spark e simplesmente uma colecao distribuida imutavel de objetos. '

E para exibir a quantidade de linhas dentro do RDD, utilizamos o método **.count()**

In [7]:
rdd.count()

5

In [8]:
# RDD com 2 "colunas"
sc.parallelize([(1, 2),(3, 4)]).collect()

[(1, 2), (3, 4)]

# Transformação e Ação

Transformações básicas em um RDD. Contendo: {1, 2, 3, 3}

Nome da função | Propósito | Exemplo | Resultado
---- | ----
```.map()``` | Aplica a função para cada elemento no RDD, seu retorno é outro RDD. | rdd.map(lambda x: x + 1) | {2, 3, 4, 4}
```.flatMap()``` | Aplica a função para cada elemento no RDD, seu retorno é outro RDD. | rdd.flatMap(lambda x: range(x, 4)) | {1, 2, 3, 2, 3, 3, 3}
```.filter()``` | Retorna um novo RDD somente com o resultado do filtro realizado. | rdd.filter(lambda x: x != 1) | {2, 3, 3}
```.distinct()``` | Remove duplicados. | rdd.distinct() | {1, 2, 3}

In [9]:
# map()
nums = sc.parallelize([1, 2, 3, 4])
squared = nums.map(lambda x: x * x).collect()
for num in squared:
    print(num)

1
4
9
16


In [10]:
# flatMap()
nums = sc.parallelize([1, 2, 3, 3])
nums.flatMap(lambda x: range(x, 4)).collect()

[1, 2, 3, 2, 3, 3, 3]

In [11]:
# Contador de palavras
rddGrafen = sc.parallelize(["Eu estou Aprendendo Spark com a Grafen", "eu estou gostando das aulas da Grafen"])
counts = rddGrafen.flatMap(lambda line: line.split(" ")) \
            .map(lambda word: (str(word).lower(), 1)) \
            .reduceByKey(lambda a, b: a + b)

counts.collect()

[('estou', 2),
 ('das', 1),
 ('spark', 1),
 ('com', 1),
 ('a', 1),
 ('gostando', 1),
 ('aprendendo', 1),
 ('grafen', 2),
 ('aulas', 1),
 ('da', 1),
 ('eu', 2)]

Transformações básicas que utilizam dois RDD's. Contendo {1, 2, 3} e {3, 4, 5}

Nome da função | Propósito | Exemplo | Resultado
---- | ----
```.union()``` | Produzir um RDD contendo elementos de ambos os RDDs. | rdd.union(other) | {1, 2, 3, 3, 4, 5}
```.intersection()``` | RDD contendo apenas elementos encontrados em ambos os RDDs. | rdd.intersection(other) | {3}
```.subtract()``` | Remover o conteúdo de um RDD (por exemplo, remover dados de treinamento). | rdd.subtract(other) | {1, 2}

In [12]:
# intersection(), trazendo rdd somente com os dados entre os dois.
rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize([3, 4, 5])
rdd1.intersection(rdd2).collect()

[3]

Ações básicas em um RDD contendo {1, 2, 3, 3}

Nome da função | Propósito | Exemplo | Resultado
---- | ----
```.collect()``` | Retorna todos os elementos de um RDD. | rdd.collect() | {1, 2, 3, 3}
```.count()``` | Retorna o número de elementos em um RDD. | rdd.intersection(other) | 4
```.countByValue()``` | Retorna número de elementos pela chave. | rdd.countByValue() | {(1, 1), (2, 1), (3, 2)}
```.take()``` | Retorna os elementos(n) do RDD. | rdd.subtract(other) | {1, 2}
```.top()``` | Retorna os elementos top(n) do RDD | rdd.top(2) | {3, 3}
```.reduce()``` | Combina os elementos do RDD juntos em paralelo (por exemplo, soma). | rdd.reduce(lambda x, y: x + y) | 9
```.foreach()``` | Aplica a função fornecida a cada elemento do RDD | rdd.foreach(func) | Não se aplica

In [13]:
# Utilizando .reduce() para trazer a SOMA
nums = sc.parallelize([1, 2, 3, 3])
nums.reduce(lambda x, y: x + y)

9

In [14]:
nums.count()

4

## Exercícios: 
#### *Praticar é a arte do aprender*

1. Faça um código que exista a entrada de dois números inteiros e exiba a multiplicação deles.

2. Faça um código que exiba os valores de um RDD que são maiores que 10.

3. Faça um código que exiba os valores de um RDD que são somente impares

4. Faça um código que exiba a soma dos valores dentro de um RDD

5. Faça um código que exiba cada elemento do RDD multiplicado por 100.

6. Faça um código que leia o arquivo "sobreRDD.txt" que foi disponibilizado em aula e conte quantas vezes aparece a palavra "rdd"

7. Faça um código que contenha um RDD com as palavras "rdd" e "spark". 

    Leia o arquivo "sobreRDD.txt" e identifique se o arquivo possui as duas palavras do rdd anterior
    
    OBS: Quebre cada frase em diversas linhas de palavras