# Spark - RDD (Resilient Distributed Datasets)
- Dados imutáveis, distribuídos pelo cluster
- Processamento em memória
- Tolerante a falha
- operações sobre um RDD criam um novo RDD
- [Transformações](https://spark.apache.org/docs/latest/rdd-programming-guide.html#transformations)
- [Ações](https://spark.apache.org/docs/latest/rdd-programming-guide.html#actions)



    

In [None]:
!pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.0.tar.gz (316.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m316.9/316.9 MB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.0-py2.py3-none-any.whl size=317425345 sha256=026d7ff549164f753250712b155c690079c4612195999963aad92ec33f52b7cf
  Stored in directory: /root/.cache/pip/wheels/41/4e/10/c2cf2467f71c678cfc8a6b9ac9241e5e44a01940da8fbb17fc
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.0


## Importando as bibliotecas

In [7]:
import pyspark
from pyspark.sql import SparkSession

## Criando um SparkSession

In [8]:
spark = (
    SparkSession
    .builder
    .appName('RDD_SPARK')
    .getOrCreate()
)

## Criando um SparkContext

In [9]:
sc = spark.sparkContext

## parallelize
- É um método do Spark que cria um RDD (Resilient Distributed Dataset) no programa driver. Esse RDD pode ser processado em paralelo.

In [28]:
numeros = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15])
numeros2 = sc.parallelize([10, 11, 12, 13, 14, 15, 16])

## collect
- Exibe todos os elementos

In [15]:
numeros.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]

## take
- Exibe os n primeiros elementos

In [12]:
numeros.take(5)

[1, 2, 3, 4, 5]

## top
- Exibe os n maiores elementos

In [14]:
numeros.top(5)

[15, 14, 13, 12, 11]

## count
- Retorna a quantidade de dados

In [16]:
numeros.count()

15

## mean
- Retorna a média dos elementos

In [17]:
numeros.mean()

8.0

## sum
- Retorna a soma de todos os elementos

In [18]:
numeros.sum()

120

## max
- Retorna o maior valor

In [19]:
numeros.max()

15

## min
- Retorna o menor valor

In [20]:
numeros.min()

1

## stdev
- Retorna o desvio padrão

In [21]:
numeros.stdev()

4.320493798938574

## Funções de Transformações

### filter
- Permite aplicar uma função de filtro a uma sequência de elementos, retornando apenas os elementos que atendem à condição especificada

In [23]:
# retornando os numeros maiores que 10
maiores_que_10 = numeros.filter(lambda x: x > 10)
maiores_que_10.collect()

[11, 12, 13, 14, 15]

### map
- Permite aplicar uma função a todos os elementos de um iterável

In [24]:
metade = numeros.map(lambda x: x / 2)
metade.collect()

[0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5, 5.0, 5.5, 6.0, 6.5, 7.0, 7.5]

### union
- Retorna a união dos rdds

In [29]:
# numeros = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15])
# numeros2 = sc.parallelize([10, 11, 12, 13, 14, 15, 16])
union = numeros.union(numeros2)
union.collect()

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 10, 11, 12, 13, 14, 15, 16]

### intersection
- Retorna os elementos comuns

In [30]:
# numeros = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15])
# numeros2 = sc.parallelize([10, 11, 12, 13, 14, 15, 16])
intersection = numeros.intersection(numeros2)
intersection.collect()

[12, 13, 10, 14, 11, 15]

### subtract
- Retorna a diferença dos elementos que estão no `numeros` mas não estão em `numeros2`

In [33]:
# numeros = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15])
# numeros2 = sc.parallelize([10, 11, 12, 13, 14, 15, 16])
subtract = numeros.subtract(numeros2)
subtract.collect()

[4, 8, 1, 5, 9, 2, 6, 3, 7]