# EJERCICIOS

In [28]:
import pandas as pd
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local[*]").appName("pyspark_rdd").getOrCreate()
#spark = SparkSession.builder.getOrCreate()
sc = spark.sparkContext

## EJERCICIO 0
En un documento word haz una lista de las diferentes operaciones con una breve descripción de lo que hace y un ejemplo de como se utiliza (justo la parte donde se utiliza sin contexto).


**Operaciones en PySpark**

1. **map**: Aplica una función a todos los elementos de un RDD.
   ```python
   rdd.map(lambda x: x * 2)
   ```

2. **filter**: Filtra los elementos de un RDD según una condición.
   ```python
   rdd.filter(lambda x: x % 2 == 0)
   ```

3. **flatMap**: Aplica una función y aplana los resultados en un solo RDD.
   ```python
   rdd.flatMap(lambda x: x.split(" "))
   ```

4. **reduce**: Aplica una función de reducción a los elementos de un RDD.
   ```python
   rdd.reduce(lambda a, b: a + b)
   ```

5. **reduceByKey**: Aplica una función de reducción a los valores con la misma clave en un RDD de pares clave-valor.
   ```python
   rdd.reduceByKey(lambda a, b: a + b)
   ```

6. **groupByKey**: Agrupa los valores de un RDD de pares clave-valor por clave.
   ```python
   rdd.groupByKey()
   ```

7. **sortBy**: Ordena los elementos de un RDD según una función clave.
   ```python
   rdd.sortBy(lambda x: x[1])
   ```

8. **distinct**: Devuelve los elementos únicos de un RDD.
   ```python
   rdd.distinct()
   ```

9. **count**: Cuenta la cantidad de elementos en un RDD.
   ```python
   rdd.count()
   ```

10. **collect**: Recupera todos los elementos de un RDD en una lista.
   ```python
      rdd.collect()
   ```

11. **take**: Devuelve los primeros N elementos de un RDD.
   ```python
      rdd.take(5)
   ```

12. **first**: Devuelve el primer elemento de un RDD.
   ```python
      rdd.first()
   ```

13. **union**: Une dos RDDs en uno solo.
   ```python
      rdd1.union(rdd2)
   ```

14. **intersection**: Devuelve los elementos comunes entre dos RDDs.
   ```python
      rdd1.intersection(rdd2)
   ```

15. **subtract**: Devuelve los elementos del primer RDD que no están en el segundo.
   ```python
      rdd1.subtract(rdd2)
   ```

16. **join**: Une dos RDDs de pares clave-valor por clave.
   ```python
      rdd1.join(rdd2)
   ```

17. **coalesce**: Reduce el número de particiones de un RDD.
   ```python
      rdd.coalesce(2)
   ```

18. **repartition**: Redistribuye los datos en un RDD en un número específico de particiones.
   ```python
      rdd.repartition(4)
   ```

19. **cache**: Almacena en caché un RDD para evitar recomputaciones.
   ```python
      rdd.cache()
   ```

20. **persist**: Almacena un RDD en un nivel específico de almacenamiento.
   ```python
      rdd.persist()
   ```



## EJERCICIO 1

Si tenemos dos RDD (A y B):
* rddA = sc.parallelize([1,2,3,4])
* rddB = sc.parallelize([3,4,5,6])

¿Cómo conseguimos los elementos que están en A y no B y los de B que no están en A? (es decir [1, 2, 5, 6]):

In [2]:
rddA = sc.parallelize([1,2,3,4])
rddB = sc.parallelize([3,4,5,6])
diff_A_B = rddA.subtract(rddB)
diff_B_A = rddB.subtract(rddA)

rdd_Diff=diff_A_B.union(diff_B_A)
print(rdd_Diff.collect())



[1, 2, 5, 6]


                                                                                

## EJERCICIO 2

A partir de la lista implicita en el string "Perro Gato Loro Pez León Tortuga Gallina"
1.	Crea un RDD a partir de esta lista
2.	Convierte el RDD normal en un RDD de pares cuya clave sea la primera letra del animal
3.	Crea otro RDD de pares pero poniendo como clave un número incremental
4.	¿Y si queremos que el índice incremental empiece en 100?


In [3]:
lista="Perro Gato Loro Pez León Tortuga Gallina"
rdd_lista = sc.parallelize(lista.split())
print(rdd_lista.collect())

rdd_claves = rdd_lista.map(lambda x: (x[0],x))
print(rdd_claves.collect())

rdd_claves2 = rdd_lista.zipWithIndex().map(lambda x: (x[1],x[0]))
print(rdd_claves2.collect())

rdd_claves3 = rdd_lista.zipWithIndex().map(lambda x: (x[1]+100,x[0]))
print(rdd_claves3.collect())


['Perro', 'Gato', 'Loro', 'Pez', 'León', 'Tortuga', 'Gallina']
[('P', 'Perro'), ('G', 'Gato'), ('L', 'Loro'), ('P', 'Pez'), ('L', 'León'), ('T', 'Tortuga'), ('G', 'Gallina')]
[(0, 'Perro'), (1, 'Gato'), (2, 'Loro'), (3, 'Pez'), (4, 'León'), (5, 'Tortuga'), (6, 'Gallina')]
[(100, 'Perro'), (101, 'Gato'), (102, 'Loro'), (103, 'Pez'), (104, 'León'), (105, 'Tortuga'), (106, 'Gallina')]


## EJERCICIO 3

Dada la siguiente lista de compra:

lista = [('pan',3), ('agua',2), ('azúcar',1), ('leche',2), ('pan',1), ('cereales',3), ('agua',0.5), ('leche',2), ('filetes',5)]

Calcula:
1.	El total que se ha gastado por cada producto
2.	Cuánto es lo máximo que se ha pagado por cada producto

In [None]:
lista = [('pan',3), ('agua',2), ('azúcar',1), ('leche',2), ('pan',1), ('cereales',3), ('agua',0.5), ('leche',2), ('filetes',5)]

rdd_comida = sc.parallelize(lista)
print(rdd_comida.collect())

total_por_producto = rdd_comida.reduceByKey(lambda x,y: x+y)
max_por_producto = rdd_comida.reduceByKey(lambda x,y: max(x,y))

print("Total gastado por producto:")
for producto, total in total_por_producto.collect():
    print(f"{producto}: {total}")

print("\nMáximo pagado en una sola compra por producto:")
for producto, maximo in max_por_producto.collect():
    print(f"{producto}: {maximo}")

[('pan', 3), ('agua', 2), ('azúcar', 1), ('leche', 2), ('pan', 1), ('cereales', 3), ('agua', 0.5), ('leche', 2), ('filetes', 5)]
Total gastado por producto:
pan: 4
cereales: 3
agua: 2.5
azúcar: 1
filetes: 5
leche: 4

Máximo pagado en una sola compra por producto:
pan: 3
cereales: 3
agua: 2
azúcar: 1
filetes: 5
leche: 2


## EJERCICIO 4

Ahora tenemos las cuentas de las compras de 3 días:
* día 1: pan 3€, agua 2€, azúcar 1€, leche 2€, pan 4€
* día 2: pan 1€, cereales 3€, agua 0.5€, leche 2€, filetes 5€
* día 3: filetes 2€, cereales 1€

Dada la siguiente lista de compra:

- dia1 = [('pan',3), ('agua',2), ('azúcar',1), ('leche',2), ('pan',4)]
- dia2 = [('pan',1), ('cereales',3), ('agua',0.5), ('leche',2), ('filetes',5)]
- dia3 = [('filetes',2), ('cereales',1)]

Responde:
1.	¿Cómo obtenemos lo que hemos gastado en cada producto?
2.	¿Y el gasto medio que hemos realizado en cada uno de ellos?

In [None]:
dia1 = [('pan',3), ('agua',2), ('azúcar',1), ('leche',2), ('pan',4)]
dia2 = [('pan',1), ('cereales',3), ('agua',0.5), ('leche',2), ('filetes',5)]
dia3 = [('filetes',2), ('cereales',1)]

rdd_dia1 = sc.parallelize(dia1)
rdd_dia2 = sc.parallelize(dia2)
rdd_dia3 = sc.parallelize(dia3)

rdd_dias = rdd_dia1.union(rdd_dia2).union(rdd_dia3)
print(rdd_dias.collect())

total_por_producto = rdd_dias.reduceByKey(lambda x,y: x+y)
gasto_medio = total_por_producto.mapValues(lambda x: x/3)

print("Total gastado por producto:")
for producto, total in total_por_producto.collect():
    print(f"{producto}: {total}€")

print("\nGasto medio por producto:")
for producto, total in gasto_medio.collect():
    print(f"{producto}: {total:.2f}€")

[('pan', 3), ('agua', 2), ('azúcar', 1), ('leche', 2), ('pan', 4), ('pan', 1), ('cereales', 3), ('agua', 0.5), ('leche', 2), ('filetes', 5), ('filetes', 2), ('cereales', 1)]
Total gastado por producto:
azúcar: 1€
filetes: 7€
cereales: 4€
pan: 8€
agua: 2.5€
leche: 4€

Gasto medio por producto:
azúcar: 0.33€
filetes: 2.33€
cereales: 1.33€
pan: 2.67€
agua: 0.83€
leche: 1.33€


## EJERCICIO 5

A partir de la lista ciudades = ['Alicante', 'Elche', 'Valencia', 'Madrid', 'Barcelona', 'Bilbao', 'Sevilla'] crea rdds con las siguientes características:

1. Sólo las ciudades que tengan la letra e en su nombre y muéstralas.
2. Ciudades que tienen la letra e y el número de veces que aparece en cada nombre.
3. Averigua las ciudades que solo tengan una única e.
4. Nos han enviado una nueva lista pero no han separado bien las ciudades. Reorganiza la lista y colocalas correctamente, y cuenta las apariciones de la letra e de cada ciudad.

    ciudades_mal = [['Alicante.Elche', 'Valencia', 'Madrid.Barcelona', 'Bilbao.Sevilla'], ['Murcia', 'San Sebastián', 'Melilla.Aspe']]

In [6]:
ciudades = ['Alicante', 'Elche', 'Valencia', 'Madrid', 'Barcelona', 'Bilbao', 'Sevilla']
rdd_ciudades = sc.parallelize(ciudades)
rdd_e= rdd_ciudades.filter(lambda x: 'e' in x)
print(rdd_e.collect())
rdd_e_suma = rdd_e.map(lambda x: (x , x.lower().count('e')))
print(rdd_e_suma.collect())
rdd_e_1 = rdd_e_suma.filter(lambda x: x[1]==1)
print(rdd_e_1.collect())



['Alicante', 'Elche', 'Valencia', 'Barcelona', 'Sevilla']
[('Alicante', 1), ('Elche', 2), ('Valencia', 1), ('Barcelona', 1), ('Sevilla', 1)]
[('Alicante', 1), ('Valencia', 1), ('Barcelona', 1), ('Sevilla', 1)]


In [None]:
ciudades_mal = [['Alicante.Elche', 'Valencia', 'Madrid.Barcelona', 'Bilbao.Sevilla'], ['Murcia', 'San Sebastián', 'Melilla.Aspe']]

rdd_ciudades_mal = sc.parallelize(ciudades_mal)

rdd_ciudades_separar_punto = rdd_ciudades_mal.map(lambda x: [ciudad.split('.') for ciudad in x])

rdd_ciudades2 = rdd_ciudades_separar_punto.flatMap(lambda x: x)

rdd_e_ciudades = rdd_ciudades2.flatMap(lambda x: [ (ciudad, ciudad.lower().count('e')) for ciudad in x])

print(rdd_e_ciudades.collect())


[('Alicante', 1), ('Elche', 2), ('Valencia', 1), ('Madrid', 0), ('Barcelona', 1), ('Bilbao', 0), ('Sevilla', 1), ('Murcia', 0), ('San Sebastián', 1), ('Melilla', 1), ('Aspe', 1)]


## EJERCICIO 6

A partir de las siguientes listas:
* Inglés: hello, table, angel, cat, dog, animal, chocolate, dark, doctor, hospital, computer
* Español: hola, mesa, angel, gato, perro, animal, chocolate, oscuro, doctor, hospital, ordenador

Crea un RDD con tuplas de palabras y su traducción: 
[('hello', 'hola'),
 ('table', 'mesa'),
 ('angel', 'angel'),
 ('cat', 'gato')...]

Averigua:
1. Palabras que se escriben igual en inglés y en español
2. Palabras que en español son distintas que en inglés
3. Obtén una única lista con las palabras en ambos idiomas que son distintas entre ellas (['hello', 'hola', 'table', ...)
4. Haz dos grupos con todas las palabras, uno con las que empiezan por vocal y otro con las que empiecen por consonante.


In [8]:
ingles= ['hello', 'table', 'angel', 'cat', 'dog', 'animal', 'chocolate', 'dark', 'doctor', 'hospital', 'computer']
español=['hola', 'mesa', 'angel', 'gato', 'perro', 'animal', 'chocolate', 'oscuro', 'doctor', 'hospital', 'ordenador']

rdd_ingles = sc.parallelize(ingles)
rdd_español = sc.parallelize(español)

rdd_tupla= rdd_ingles.zip(rdd_español)

rdd_traduccion_igual = rdd_tupla.filter(lambda x: x[0]==x[1])
print(rdd_traduccion_igual.collect())

rdd_distintos=rdd_tupla.filter(lambda x: x[0]!=x[1])
print(rdd_distintos.collect())

rdd_distintos_lista = rdd_distintos.flatMap(lambda x: [x[0],x[1]])
print(rdd_distintos_lista.collect())

vocal = ['a','e','i','o','u']

rdd_grupos = rdd_tupla.flatMap(lambda x: [x[0],x[1]]).groupBy(lambda x: 0 if x[0][0].lower() in vocal else 1)
resultado = rdd_grupos.mapValues(list).collect()

print(resultado)



[('angel', 'angel'), ('animal', 'animal'), ('chocolate', 'chocolate'), ('doctor', 'doctor'), ('hospital', 'hospital')]
[('hello', 'hola'), ('table', 'mesa'), ('cat', 'gato'), ('dog', 'perro'), ('dark', 'oscuro'), ('computer', 'ordenador')]
['hello', 'hola', 'table', 'mesa', 'cat', 'gato', 'dog', 'perro', 'dark', 'oscuro', 'computer', 'ordenador']
[(0, ['angel', 'angel', 'animal', 'animal', 'oscuro', 'ordenador']), (1, ['hello', 'hola', 'table', 'mesa', 'cat', 'gato', 'dog', 'perro', 'chocolate', 'chocolate', 'dark', 'doctor', 'doctor', 'hospital', 'hospital', 'computer'])]


## EJERCICIO 7

A partir del fichero de El Quijote:
1. Crear un rdd con todas las palabras del documento.
2. ¿Cuantas veces aparece la palabra Dulcinea (independientemente de si está en mayúsculas o minúsculas)? ¿Y Rocinante?
3. Devuelve una lista ordenada según el número de veces que sale cada palabra de más a menos.
4. Guarda el resultado en el disco

In [12]:
rdd = sc.textFile("./el_quijote.txt")
rdd_palabras = rdd.flatMap(lambda x: x.split())
print(rdd_palabras.take(10))

rdd_dulcinea = rdd_palabras.filter(lambda x: x.lower() == 'dulcinea')
print(rdd_dulcinea.count())

rdd_rocinante = rdd_palabras.filter(lambda x: x.lower() == 'rocinante')
print(rdd_rocinante.count())

rdd_palabra_count_desc = rdd_palabras.map(lambda x: (x,1)).reduceByKey(lambda x,y: x+y).sortBy(lambda x: x[1],ascending=False)
print(rdd_palabra_count_desc.take(10))

#Guardar el resultado en el disco
rdd_palabra_count_desc.saveAsTextFile("./resultado")

['DON', 'QUIJOTE', 'DE', 'LA', 'MANCHA', 'Miguel', 'de', 'Cervantes', 'Saavedra', 'PRIMERA']
47
43
[('que', 10351), ('de', 8947), ('y', 8042), ('la', 4941), ('a', 4725), ('en', 3883), ('el', 3726), ('no', 2786), ('se', 2382), ('los', 2122)]


## EJERCICIO 8

Dada una cadena que contiene una lista de nombres Juan, Jimena, Luis, Cristian, Laura, Lorena, Cristina, Jacobo, Jorge:
1. Tranforma la cadena en una lista y luego en un RDD
2. Agrúpalos según su inicial, de manera que tengamos tuplas formadas por la letra inicial y todos los nombres que comienzan por dicha letra:

    [('J', ['Juan', 'Jimena', 'Jacobo', 'Jorge']),

    ('L', ['Luis', 'Laura', 'Lorena']),
    
    ('C', ['Cristian', 'Cristina'])]
3. De la lista original, obtén una muestra de 5 elementos sin repetir valores.
4. Devuelve una muestra de datos de aproximadamente la mitad de registros que la lista original con datos que pudieran llegar a repetirse.

In [13]:
nombres= "Juan, Jimena, Luis, Cristian, Laura, Lorena, Cristina, Jacobo, Jorge"

rdd_nombres = sc.parallelize(nombres.split(", "))
print(rdd_nombres.collect())

rdd_agrupados = rdd_nombres.groupBy(lambda nombre: nombre[0])

agrupados = rdd_agrupados.mapValues(list).collect()
print(agrupados)

muestra_sin_repetir = rdd_nombres.takeSample(False, 5, seed=42)
print(muestra_sin_repetir)

muestra_con_repeticion = rdd_nombres.sample(True, 0.5, seed=42).collect()
print(muestra_con_repeticion)

['Juan', 'Jimena', 'Luis', 'Cristian', 'Laura', 'Lorena', 'Cristina', 'Jacobo', 'Jorge']
[('C', ['Cristian', 'Cristina']), ('L', ['Luis', 'Laura', 'Lorena']), ('J', ['Juan', 'Jimena', 'Jacobo', 'Jorge'])]
['Cristian', 'Cristina', 'Jacobo', 'Laura', 'Jorge']
['Jimena', 'Cristian', 'Cristian', 'Cristian', 'Jacobo']


## EJERCICIO 9

Dada una lista de elementos desordenados y algunos repetidos, mediante rdd devolver una muestra de 5 elementos, que estén en la lista, sin repetir y ordenados descendentemente.

lista = [4,6,34,7,9,2,3,4,4,21,4,6,8,9,7,8,5,4,3,22,34,56,98]

1. Selecciona el elemento mayor de la lista resultante.
2. Muestra los dos elementos menores.

In [14]:
lista = [4,6,34,7,9,2,3,4,4,21,4,6,8,9,7,8,5,4,3,22,34,56,98]

rdd = sc.parallelize(lista)

rdd_distinct = rdd.distinct()
rdd_orden_desc = rdd_distinct.sortBy(lambda x: x, ascending=False)

muestra = rdd_orden_desc.take(5)
print(muestra)


mayor = muestra[0]
print(mayor)
dos_menores = muestra[-2:]
print(dos_menores)

[98, 56, 34, 22, 21]
98
[22, 21]


## EJERCICIO 10

En una red social sobre cine, tenemos un fichero ratings.txt compuesta por el código de la película, el código del usuario, la calificación asignada y el TIMESTAMP de la votación con el siguiente formato:

1::1193::5::978300760

1::661::3::978302109

1::914::3::978301968

Se pide:
1. Obtener para cada película, la nota media de todas sus votaciones.
2. Películas cuya nota media sea superior a 3.

In [15]:
rdd = sc.textFile("./ratings.txt")

rdd_campos = rdd.map(lambda line: line.split("::"))

rdd_movie_rating = rdd_campos.map(lambda campos: (campos[0], float(campos[2])))
rdd_movie_rating = rdd_movie_rating.reduceByKey(lambda x,y: (x+y)/2)
print(rdd_movie_rating.take(15))

rdd_movie_rating_mayor_3 = rdd_movie_rating.filter(lambda x: x[1]>3)
print(rdd_movie_rating_mayor_3.take(15))


[('3', 4.253844368250714), ('4', 4.8599090576171875), ('5', 3.293398257510824), ('6', 4.000726767205338), ('7', 3.8326099272817373), ('10', 4.244639060181543), ('13', 3.508077662177371), ('14', 3.263818144798279), ('15', 3.522758386599256), ('16', 4.447707879415248), ('17', 4.533270462423108), ('18', 4.709092693083274), ('21', 1.421952247619629), ('22', 3.464138641725664), ('24', 3.2736965687729143)]
[('3', 4.253844368250714), ('4', 4.8599090576171875), ('5', 3.293398257510824), ('6', 4.000726767205338), ('7', 3.8326099272817373), ('10', 4.244639060181543), ('13', 3.508077662177371), ('14', 3.263818144798279), ('15', 3.522758386599256), ('16', 4.447707879415248), ('17', 4.533270462423108), ('18', 4.709092693083274), ('22', 3.464138641725664), ('24', 3.2736965687729143), ('26', 3.0175744637972466)]


## EJERCICIO 11

Tenemos las calificaciones de las asignaturas de matemáticas (notas_mates.txt), inglés (notas_ingles.txt) y física (notas_fisica.txt) de los alumnos del instituto en 3 documentos de texto. A partir de estos ficheros:
1. Crea 3 RDD de pares, uno para cada asignatura, con los alumnos y sus notas
2. Crea un solo RDD con todas las notas (cada entrada es un usuario con sus tres notas)
3. ¿Cuál es la nota más baja que ha tenido cada alumno?
4. ¿Cuál es la nota media de cada alumno?
5. ¿Cuántos estudiantes suspende cada asignatura?
         [('Matemáticas', 7), ('Física', 8), ('Inglés', 7)]
6. ¿En qué asignatura suspende más gente?
7. Total de notables o sobresalientes por alumno, es decir, cantidad de notas superiores o igual a 7.
8. ¿Qué alumno no se ha presentado a inglés?
9. ¿A cuántas asignaturas se ha presentado cada alumno?

In [31]:
rdd_fisica = sc.textFile("notas_fisica.txt")
rdd_fisica = rdd_fisica.map(lambda x: x.split(",")).map(lambda x: (x[0], float(x[1])))

rdd_mates = sc.textFile("notas_mates.txt")
rdd_mates = rdd_mates.map(lambda x: x.split(",")).map(lambda x: (x[0], float(x[1])))

rdd_ingles = sc.textFile("notas_ingles.txt")
rdd_ingles = rdd_ingles.map(lambda x: x.split(",")).map(lambda x: (x[0], float(x[1])))

rdd_notas = rdd_fisica.union(rdd_mates).union(rdd_ingles)
rdd_notas= rdd_notas.groupByKey().mapValues(list)
print(rdd_notas.collect())

rdd_nota_mas_baja = rdd_notas.mapValues(lambda x: min(x))
print(rdd_nota_mas_baja.collect())

rdd_nota_media = rdd_notas.mapValues(lambda x: sum(x) / len(x))
print(rdd_nota_media.collect())

suspensos_fisica = rdd_fisica.filter(lambda x: x[1] < 5).count()
suspensos_mates = rdd_mates.filter(lambda x: x[1] < 5).count()
suspensos_ingles = rdd_ingles.filter(lambda x: x[1] < 5).count()

rdd_suspensos = sc.parallelize([("Física", suspensos_fisica), ("Matemáticas", suspensos_mates), ("Inglés", suspensos_ingles)])
print(rdd_suspensos.collect())

rdd_mas_suspensos = rdd_suspensos.takeOrdered(1, lambda x: -x[1])
print(rdd_mas_suspensos)

rdd_total_notables = rdd_notas.flatMap(lambda x: x[1]).filter(lambda x: x >= 7).count()
print(rdd_total_notables)

rdd_alumno_no_presentado = rdd_notas.filter(lambda x: len(x[1]) < 3).keys()
print(rdd_alumno_no_presentado.collect())

rdd_cantidad_asignaturas = rdd_notas.mapValues(lambda x: len(x))
print(rdd_cantidad_asignaturas.collect())

[('Pedro', [2.0, 5.0]), ('Jose Juan', [3.0, 5.0, 3.0]), ('Ramon', [7.0, 4.5, 8.0]), ('Anabel', [2.0, 8.0, 7.0]), ('Andres', [4.0, 4.0, 6.0]), ('Oscar', [5.0, 7.0, 3.0]), ('Rosa', [8.0, 6.0, 9.0]), ('Susana', [9.0, 9.0, 2.0]), ('Rocio', [7.0, 6.0, 4.0]), ('Leonardo', [6.0, 1.0, 4.0]), ('Angel', [9.0, 6.0, 4.0]), ('Jorge', [5.0, 10.0, 5.0]), ('Carlos', [4.0, 4.0, 8.0]), ('Fernando', [9.0, 5.0, 7.0]), ('Isabel', [8.0, 8.0, 7.0]), ('Triana', [3.0, 3.0, 4.0]), ('Alejandro', [3.0, 5.0, 7.0]), ('Maria', [3.0, 2.0, 6.0]), ('Nicolas', [7.0, 2.0, 5.0])]
[('Pedro', 2.0), ('Jose Juan', 3.0), ('Ramon', 4.5), ('Anabel', 2.0), ('Andres', 4.0), ('Oscar', 3.0), ('Rosa', 6.0), ('Susana', 2.0), ('Rocio', 4.0), ('Leonardo', 1.0), ('Angel', 4.0), ('Jorge', 5.0), ('Carlos', 4.0), ('Fernando', 5.0), ('Isabel', 7.0), ('Triana', 3.0), ('Alejandro', 3.0), ('Maria', 2.0), ('Nicolas', 2.0)]
[('Pedro', 3.5), ('Jose Juan', 3.6666666666666665), ('Ramon', 6.5), ('Anabel', 5.666666666666667), ('Andres', 4.666666666666

## EJERCICIO 12

Realiza las siguientes operaciones:
1. Genera un RDD con la siguiente lista [1, 2, 3, 3, 4, 5, 6]
2. Multiplica por 2 todos los elementos del RDD anterior
3. Filtra el RDD inicial por los elementos pares
4. Muestra los elementos unicos del RDD inicial
5. Toma los elementos del RDD inicial para multiplicarlos entre si y obtener un resultado

In [30]:
spark = SparkSession.builder.appName("RDD_Operations").getOrCreate()
sc = spark.sparkContext

rdd = sc.parallelize([1, 2, 3, 3, 4, 5, 6])

rdd_multiplied = rdd.map(lambda x: x * 2)
print("RDD multiplicado por 2:", rdd_multiplied.collect())

rdd_even = rdd.filter(lambda x: x % 2 == 0)
print("Elementos pares:", rdd_even.collect())

rdd_unique = rdd.distinct()
print("Elementos únicos:", rdd_unique.collect())

product = rdd.reduce(lambda x, y: x * y)
print("Producto de todos los elementos:", product)


RDD multiplicado por 2: [2, 4, 6, 6, 8, 10, 12]
Elementos pares: [2, 4, 6]
Elementos únicos: [1, 2, 3, 4, 5, 6]
Producto de todos los elementos: 2160


## EJERCICIO 13

rdd = sc.parallelize([('a', 1), ('a', 2), ('a', 3), ('b', 1)])

Realiza las siguientes operaciones:
1. Obten la suma de los valores agrupados por el key
2. Ordena el RDD inicial en base al key, de forma descendente

In [33]:
rdd = sc.parallelize([('a', 1), ('a', 2), ('a', 3), ('b', 1)])

rdd_sum = rdd.reduceByKey(lambda x, y: x + y)
print(rdd_sum.collect())

rdd_sorted = rdd.sortBy(lambda x: x[0], ascending=False)
print(rdd_sorted.collect())



[('b', 1), ('a', 6)]
[('b', 1), ('a', 1), ('a', 2), ('a', 3)]


## EJERCICIO 14

data= ['Python', 'Scala', 'Python', 'R', 'Python', 'Java', 'R' ]

rdd= sc.parallelize(data)

Cuenta cuantas veces aparece cada valor

In [82]:
data= ['Python', 'Scala', 'Python', 'R', 'Python', 'Java', 'R' ]

rdd= sc.parallelize(data)
rdd_count = rdd.map(lambda x: (x,1)).reduceByKey(lambda x,y: x+y)
print(rdd_count.collect())

[('Scala', 1), ('R', 2), ('Java', 1), ('Python', 3)]
