## Importação das bibliotecas

In [12]:
import pyspark
from pyspark.sql import SparkSession

## Criação do RDD com Spark

In [14]:
spark = SparkSession.builder \
    .appName("RDD Example") \
    .getOrCreate()

data = ["Apache Spark", "Resilient Distributed Dataset", "Big Data", "Hadoop"]

# parallelize() method is used to create an RDD from a list of elements
rdd = spark.sparkContext.parallelize(data)
rdd.collect()

['Apache Spark', 'Resilient Distributed Dataset', 'Big Data', 'Hadoop']

## Operações básicas com RDD

In [15]:
# 1. Contar o número de elementos no RDD
print("Número de elementos no RDD:", rdd.count())

Número de elementos no RDD: 4


In [16]:
# 2. Exibir os primeiros elementos do RDD
print("Primeiros elementos:", rdd.take(3))

Primeiros elementos: ['Apache Spark', 'Resilient Distributed Dataset', 'Big Data']


In [19]:
# 3. Transformação: Map (convertendo para maiúsculas)
rdd_upper = rdd.map(lambda x: x.upper())
print("RDD transformado para maiúsculas:", rdd_upper.collect())

RDD transformado para maiúsculas: ['APACHE SPARK', 'RESILIENT DISTRIBUTED DATASET', 'BIG DATA', 'HADOOP']


In [20]:
# 4. Transformação: Filter (filtrando palavras que contêm 'Data')
rdd_filtered = rdd.filter(lambda x: "Data" in x)
print("RDD filtrado:", rdd_filtered.collect())

RDD filtrado: ['Resilient Distributed Dataset', 'Big Data']


In [23]:
# 5. Transformação: FlatMap (dividindo strings em palavras)
# Somente com map
rdd_words = rdd.map(lambda x: x.split(" "))
print("Palavras agrupadas do RDD:", rdd_words.collect())

# Utilizando FlatMap
rdd_words = rdd.flatMap(lambda x: x.split(" "))
print("Palavras individuais do RDD:", rdd_words.collect())

Palavras agrupadas do RDD: [['Apache', 'Spark'], ['Resilient', 'Distributed', 'Dataset'], ['Big', 'Data'], ['Hadoop']]
Palavras individuais do RDD: ['Apache', 'Spark', 'Resilient', 'Distributed', 'Dataset', 'Big', 'Data', 'Hadoop']


In [24]:
# 6. Redução: Concatenando todas as palavras
def concat(a, b):
    return a + ", " + b

rdd_reduced = rdd_words.reduce(concat)
print("Concatenado:", rdd_reduced, type(rdd_reduced))

Concatenado: Apache, Spark, Resilient, Distributed, Dataset, Big, Data, Hadoop <class 'str'>


In [25]:
# 7. Contagem de frequência de palavras
rdd_word_pairs = rdd_words.map(lambda word: (word, 1))
rdd_word_counts = rdd_word_pairs.reduceByKey(lambda a, b: a + b)
print("Contagem de palavras:", rdd_word_counts.collect())

Contagem de palavras: [('Resilient', 1), ('Dataset', 1), ('Spark', 1), ('Distributed', 1), ('Hadoop', 1), ('Big', 1), ('Apache', 1), ('Data', 1)]
