# Ejercicio Práctico RDDs

## ¿Qué es un RDD? 
Un RDD (Resilient Distributed Dataset) es la abstracción básica en Spark. Representa una colección inmutable y particionada de elementos que pueden ser operados en paralelo

A continuación mostraremos como se definen y algunas formas de manipularlo. 

In [1]:
import findspark
findspark.init()

import pandas as pd
import pyspark
from pyspark.sql import SparkSession

In [2]:
spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

Las colecciones paralelas se crean llamando al método de paralelización de SparkContext en un iterable o colección existente en su programa controlador. Generamos un RDD llamado newRDD con la siguiente lista [1, 2, 3, 4, 5]


In [3]:
num = [1, 2, 3, 4, 5]
newRDD = sc.parallelize(num)
newRDD.collect()

[1, 2, 3, 4, 5]

Existen varias funciones que pondemos utilizar sobre un RDD para manipular los datos, como **map**, **filter**, **distinct**... 

A continuación algunos ejemplos relevantes:

In [4]:
#Aplicamos map para multiplicar los elementos del RDD por 2.

double_rdd = newRDD.map(lambda x: x * 2)
double_rdd.collect()

[2, 4, 6, 8, 10]

In [5]:
#Creamos un nuevo RDD

data= [1, 2, 3, 4, 5, 6]

myRDD= sc.parallelize(data)

## Filtramos  por los elementos pares
filtered_rdd = myRDD.filter(lambda x: x % 2 == 0)

filtered_rdd.collect()


[2, 4, 6]

In [6]:
## Muestra los elementos unicos del RDD
unique_val_rdd = myRDD.distinct()
unique_val_rdd.collect()

[1, 2, 3, 4, 5, 6]

In [7]:
myRDD = sc.parallelize([('a', 1), ('a', 2), ('a', 3), ('b', 1)])

## Obten la suma de los valores agrupados por el key

sum_by_key = myRDD.reduceByKey(lambda x ,y: x + y)

print("Resultado usando lambdas:")
sum_by_key.collect()

Resultado usando lambdas:


[('b', 1), ('a', 6)]

In [8]:
#Lo mismo pero usando add
from operator import add
add_by_key = myRDD.reduceByKey(add)
print("Resultado usando add:")
add_by_key.collect()


Resultado usando add:


[('b', 1), ('a', 6)]

In [9]:
## Ordena los RDDs en base al key
by_key = myRDD.groupByKey()

for key, value in by_key.collect():
    print(f"Clave: {key}, Valor:{list(value)}")

Clave: b, Valor:[1]
Clave: a, Valor:[1, 2, 3]


In [10]:
data= [1, 2, 3, 4, 5]

myRDD= sc.parallelize(data)
## Toma los elementos del RDD para multiplicarlos entre si y obtener un resultado

result = myRDD.reduce(lambda x, y: x * y)

print("The result is: ", result)

The result is:  120


In [11]:
data= ['Python', 'Scala', 'Python', 'R', 'Python', 'Java', 'R' ]

myRDD= sc.parallelize(data)

## Cuenta cuantas veces aparece cada valor

count_by_value = myRDD.countByValue() 

print(count_by_value)

defaultdict(<class 'int'>, {'Python': 3, 'Scala': 1, 'R': 2, 'Java': 1})


In [12]:
data= [('a', 1), ('b', 1), ('c', 1), ('a', 1)]
myRDD = sc.parallelize(data)

## Cuenta cuantas veces aparece cada una de las keys
keys = myRDD.map(lambda x: x[0])

count = keys.countByValue()

for key, value in count.items():
    print(f"The letter {key} appears {value} times")

The letter a appears 2 times
The letter b appears 1 times
The letter c appears 1 times
