<a href="https://colab.research.google.com/github/helenam42/Estudos/blob/main/RDD_intro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# RDD - Resilient Distributed Dataset

O conjunto de dados resilientes e distribuídos ou RDD (Resilient Distributed Datasets) é o conceito central do framework Spark. Imagine o RDD como uma tabela do banco de dados que pode guardar qualquer tipo de dado. O Spark armazena os dados do RDD em diferentes partições. Isso ajuda a reorganização computacional e a otimização no processamento dos dados.

Os RDDs são o principal componente para a programação no Spark, pois eles armazenam os dados na memória, podendo fazer diversas operações. A maioria dos programas em Spark consistem em manipular RDDs.

*   **R**esilient: se dados na memória são perdidos, podem ser recriados.
*   **D**istributed: armazenados na memória por todo o cluster.
*   **D**atasets: dados iniciais podem vir de um arquivo ou ser criado programaticamente.

Os RDDs são imutáveis. Ainda que aparentemente seja possível modificar um RDD com uma transformação, na verdade o resultado dessa transformação é um novo RDD, sendo que o original permanece intocável.

Existem dois tipos de operações com RDDs:

1.  **Transformação**: é uma operação que possui um RDD de entrada e produz um RDD de saída (por exemplo, filtros e mapeamentos).

2.  **Ação**: é uma operação aplicada em um RDD para produzir um só valor. 
Em suma, transformações são aplicadas para gerar outro RDD enquanto ações são usadas para gerar um resultado que não seja RDD (por exemplo, realizar algum cálculo com os valores do RDD ou salvar os dados em um arquivo).

Fontes:

[A Comprehensive Guide to PySpark RDD Operations 
](https://www.analyticsvidhya.com/blog/2021/10/a-comprehensive-guide-to-pyspark-rdd-operations/)

[Spark: RDD
](https://cursos.alura.com.br/extra/alura-mais/spark-rdd-c1326)

[Introdução ao Apache Spark
](https://www.devmedia.com.br/introducao-ao-apache-spark/34178)

[INTRODUÇÃO À COMPUTAÇÃO PARALELA E DITRIBUÍDA - Apache Spark](https://www.ime.usp.br/~gold/cursos/2015/MAC5742/slides/ApacheSpark.pdf)

[Big Data com Apache Spark - Parte 1: Introdução
](https://www.infoq.com/br/articles/apache-spark-introduction/)

In [19]:
! pip install pyspark



In [20]:
from pyspark import SparkContext #responsável pela interação do código com o spark

In [21]:
sc = SparkContext() #início do contexto

In [22]:
data = [1, 4, 0, 2, 7]

In [23]:
RDD = sc.parallelize(data) #criação da abstração RDD - quebrando os dados em quantos nós forem necessários

In [24]:
RDD

ParallelCollectionRDD[0] at readRDDFromFile at PythonRDD.scala:274

**Ações**

In [25]:
RDD.collect() #exibe os dados - semelhante ao comando read ou display do pandas

[1, 4, 0, 2, 7]

In [26]:
RDD.take(3) #retorna n elementos do RDD

[1, 4, 0]

In [27]:
RDD.reduce(lambda x, y: x + y) #operações elaboradas aproveitando o processamento distribuído

14

In [28]:
RDD.count()

5

**Transformações**

In [29]:
RDD.map(lambda x: x + 10) #o resultado não apareceu aqui porque as transformações não acontecem na RDD original

PythonRDD[5] at RDD at PythonRDD.scala:53

In [30]:
RDD.collect()

[1, 4, 0, 2, 7]

In [31]:
RDD2 = RDD.map(lambda x: x + 10)

In [32]:
RDD2.collect()

[11, 14, 10, 12, 17]

In [33]:
RDD3 = RDD.filter(lambda x: x%2 == 0) #verifica se o número é par (se a divisão de x por 2 resulta em 0)

In [34]:
RDD3.collect()

[4, 0, 2]

In [35]:
sc.stop() #fim do contexto - boa prática