# RDD: resilient distributed dataset

* Resilient: os dados perdidos na memória podem ser recriados
* Distributed: dados separados atráves do cluster
* Data Set: entrada pode ser qualquer tipo de origem

RDDs são a unidade fundamental do Spark, são imutáveis. Podem ser criados de três formas:

* De um arquivo ou conjunto de arquivos;
* De dados na memória;
* De outro RDD;

In [None]:
import findspark
findspark.init()

import pyspark
from pyspark import SparkContext

Existem três formas de criar um RDD:

    1. De um arquivo ou conjunto de arquivos;
    2. De dados na memória
    3. De outro rdd
    
Utilizamos o método **.textFile()** para carregar arquivos em uma aplicação spark. Seu retorno é um RDD

O método **.collect()** é responsável por passar os dados do RDD ao drive e apresenta-los para o usuário, seu uso é *custoso*.

O método **.filter** que aprendemos em python também é utilizado em RDD's, para isso usamos a função **lambda**

In [1]:
# Utilizando funcao .filter(), mesmo conceito que usamos em python, aplicando a funcao lambda.


In [2]:
# .collect() para exibir o resultado


O método **first()** pode nos auxiliar exibindo a primeira linha. Observação: não é possível selecionar quantas linhas apresentar.

E para exibir a quantidade de linhas dentro do RDD, utilizamos o método **.count()**

In [3]:
# RDD com 2 "colunas"


# Transformação e Ação

Transformações básicas em um RDD. Contendo: {1, 2, 3, 3}

Nome da função | Propósito | Exemplo | Resultado
---- | ----
```.map()``` | Aplica a função para cada elemento no RDD, seu retorno é outro RDD. | rdd.map(lambda x: x + 1) | {2, 3, 4, 4}
```.flatMap()``` | Aplica a função para cada elemento no RDD, seu retorno é outro RDD. | rdd.flatMap(lambda x: range(x, 4)) | {1, 2, 3, 2, 3, 3, 3}
```.filter()``` | Retorna um novo RDD somente com o resultado do filtro realizado. | rdd.filter(lambda x: x != 1) | {2, 3, 3}
```.distinct()``` | Remove duplicados. | rdd.distinct() | {1, 2, 3}

In [None]:
# map()


In [None]:
# flatMap()


In [None]:
# Contador de palavras


Transformações básicas que utilizam dois RDD's. Contendo {1, 2, 3} e {3, 4, 5}

Nome da função | Propósito | Exemplo | Resultado
---- | ----
```.union()``` | Produzir um RDD contendo elementos de ambos os RDDs. | rdd.union(other) | {1, 2, 3, 3, 4, 5}
```.intersection()``` | RDD contendo apenas elementos encontrados em ambos os RDDs. | rdd.intersection(other) | {3}
```.subtract()``` | Remover o conteúdo de um RDD (por exemplo, remover dados de treinamento). | rdd.subtract(other) | {1, 2}

In [None]:
# intersection(), trazendo rdd somente com os dados entre os dois.


Ações básicas em um RDD contendo {1, 2, 3, 3}

Nome da função | Propósito | Exemplo | Resultado
---- | ----
```.collect()``` | Retorna todos os elementos de um RDD. | rdd.collect() | {1, 2, 3, 3}
```.count()``` | Retorna o número de elementos em um RDD. | rdd.intersection(other) | 4
```.countByValue()``` | Retorna número de elementos pela chave. | rdd.countByValue() | {(1, 1), (2, 1), (3, 2)}
```.take()``` | Retorna os elementos(n) do RDD. | rdd.subtract(other) | {1, 2}
```.top()``` | Retorna os elementos top(n) do RDD | rdd.top(2) | {3, 3}
```.reduce()``` | Combina os elementos do RDD juntos em paralelo (por exemplo, soma). | rdd.reduce(lambda x, y: x + y) | 9
```.foreach()``` | Aplica a função fornecida a cada elemento do RDD | rdd.foreach(func) | Não se aplica

In [None]:
# Utilizando .reduce() para trazer a SOMA


## Exercícios: 
#### *Praticar é a arte do aprender*

1. Faça um código que exista a entrada de dois números inteiros e exiba a multiplicação deles.

2. Faça um código que exiba os valores de um RDD que são maiores que 10.

3. Faça um código que exiba os valores de um RDD que são somente impares

4. Faça um código que exiba a soma dos valores dentro de um RDD

5. Faça um código que exiba cada elemento do RDD multiplicado por 100.

6. Faça um código que leia o arquivo "sobreRDD.txt" que foi disponibilizado em aula e conte quantas vezes aparece a palavra "rdd"

7. Faça um código que contenha um RDD com as palavras "rdd" e "spark". 

    Leia o arquivo "sobreRDD.txt" e identifique se o arquivo possui as duas palavras do rdd anterior
    
    OBS: Quebre cada frase em diversas linhas de palavras