# Inicializa contexto Spark

In [1]:
# Import PySpark libraries
from pyspark import SparkContext, SparkConf 

# Initialize SparkConf
conf = SparkConf().setMaster("local[*]").setAppName("Ejercicios RDD")

conf.set("spark.hadoop.fs.defaultFS", "file:///")  # Sistema de archivos local
conf.set("spark.hadoop.io.file.buffer.size", "4096")

# Initialize SparkContext
sc = SparkContext(conf = conf)


# 1. Crea un RDD y visualiza su contenido

Ejercicio  
Crea un RDD con los nombres de países más visitados del mundo. Muestra su contenido.  

Datos  
paises = ["Francia", "España", "Estados Unidos", "China", "Italia", "Turquía"]  

Tarea
 - Crear un RDD a partir de la lista de países (usar función parallelize de SparkContext).
 - Mostrar su contenido usando collect().


In [None]:
# Datos
paises = ["Francia", "España", "Estados Unidos", "China", "Italia", "Turquía"]

# Tarea
# - Crear un RDD con la lista.
rdd = sc.parallelize(paises)

# - Mostrar su contenido usando collect(). collect() es una acción que recupera todos los elementos del RDD y los devuelve como una lista.
rdd.collect()


# 2. map(): Transformar datos  
Aplica una función a cada elemento del RDD y devuelve un nuevo RDD.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.map.html

Ejercicio  
Tenemos las temperaturas promedio (en °C) de las principales ciudades del mundo en una lista. Convierte estas temperaturas a grados Fahrenheit.  

Datos  
temperaturas_c = [20, 15, 30, 25, 10]

Tarea
 - Crear un RDD con las temperaturas.
 - Convertir cada temperatura de °C a °F usando la fórmula: (°C × 9/5) + 32.


In [None]:
# Datos
temperaturas_c = [20, 15, 30, 25, 10]

# Tarea
# - Crear un RDD con las temperaturas


# - Convertir temperaturas a grados Fahrenheit

# - Mostrar su contenido usando collect()


# 3. filter(): Filtrar datos
Devuelve un nuevo RDD que contiene solo los elementos que cumplen con la condición dada.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.filter.html

Ejercicio  
De una lista de alturas de montañas (en metros), selecciona solo las montañas que superen los 3000 metros.  

Datos  
alturas_montanas = [8848, 8611, 2825, 4500, 1500, 3100]

Tarea
 - Crear un RDD con las alturas.
 - Filtrar las alturas mayores a 3000 metros.


In [None]:
# Datos
alturas_montanas = [8848, 8611, 2825, 4500, 1500, 3100]

# Tarea
# - Crear un rdd con las alturas


# - Filtrar las alturas mayores que 3000

# - Mostrar su contenido usando collect()


# 4. flatMap(): Generar múltiples elementos por entrada
Similar a map, pero cada elemento de entrada puede ser mapeado a cero o más elementos de salida (aplana el resultado).

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.flatMap.html

Ejercicio  
Divide las siguientes frases en palabras individuales.  

Datos  
frases = ["El león es el rey de la selva", "Los elefantes son los mamíferos terrestres más grandes", "Las ballenas son gigantes del océano"]

Tarea
 - Crear un RDD con las frases.
 - Usar flatMap para dividir cada frase en palabras (la función split divide una cadena por el separador indicado).


In [None]:
# Datos
frases = ["El león es el rey de la selva", "Los elefantes son los mamíferos terrestres más grandes", "Las ballenas son gigantes del océano"]

# Tarea
# - Crear un rdd con las frases

# - Dividir cada frase en palabras

# - Mostrar su contenido usando collect()


# 5. reduce(): Agregar valores
Agrega los elementos del RDD usando una función de reducción (combinación).

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.reduce.html 

Ejercicio  
Calcula el total de puntos de una temporada de un equipo de fútbol sumando los puntos de cada partido.  

Datos
puntos_partidos = [3, 1, 0, 3, 3, 1]

 Tarea
 - Crear un RDD con los puntos de cada partido.
 - Usar reduce para obtener la suma total de puntos.


In [None]:
# Datos
puntos_partidos = [3, 1, 0, 3, 3, 1]

# Tarea
# - Crear un RDD con los puntos de cada partido.

# - Usar reduce para obtener la suma total de puntos.

# - Imprimir resultado


# 6. groupBy(): Agrupar datos
Agrupa los elementos del RDD usando una función de agrupamiento.  
  - https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.groupBy.html


Ejercicio  
Agrupa los nombres de animales según su longitud (número de letras).  
 
 
Datos  
animales = ["gato", "elefante", "perro", "jirafa", "pez", "león"]

 Tarea
 - Crear un RDD con los nombres de los animales.
 - Agrupar los animales por la longitud de sus nombres (función len()).


In [None]:
# Datos
animales = ["gato", "elefante", "perro", "jirafa", "pez", "león"]

# Tarea
# - Crear un RDD con los nombres de los animales.

# - Agrupar los animales por la longitud de sus nombres.

# - Convertir a lista con collect() y recorrer con un bucle para mostrar longitud y lista del iterable grupo

for longitud, grupo in rdd_animales_agrupados.collect():
    print(f"Longitud: {longitud}, grupo: {list(grupo)}")



# 7. distinct(): Eliminar duplicados
Devuelve un nuevo RDD que contiene solo elementos distintos del RDD original.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.distinct.html

Ejercicio  
Tienes una lista de destinos turísticos visitados por diferentes personas. Obtén una lista de destinos únicos.  

Datos  
destinos = ["París", "Nueva York", "Londres", "París", "Tokio", "Londres"]

Tarea
 - Crear un RDD con los destinos.
 - Obtener una lista de destinos únicos usando distinct().


In [None]:
# Datos
destinos = ["París", "Nueva York", "Londres", "París", "Tokio", "Londres"]

# Tarea
# - Crear un RDD con los destinos.

# - Obtener una lista de destinos únicos usando distinct().

# - Mostrar su contenido usando collect()


# 8. sortBy(): Ordenar datos
Devuelve un nuevo RDD ordenado según una función de ordenamiento.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.sortBy.html

Ejercicio  
Tienes una lista de edades de estudiantes. Ordena las edades de menor a mayor.  
 
Datos  
edades = [21, 19, 22, 20, 18, 23]

Tarea
 - Crear un RDD con las edades.
 - Ordenar las edades de menor a mayor usando sortBy().


In [None]:
# Datos
edades = [21, 19, 22, 20, 18, 23]

# Tarea
# - Crear un RDD con las edades.

# - Ordenar las edades de menor a mayor usando sortBy().

# - Mostrar su contenido usando collect()


# 9. count(): Contar elementos
Devuelve el número de elementos en el RDD.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.count.html

Calcula cuántos nombres hay en una lista de personas invitadas a una fiesta.  
 
 
Datos  
invitados = ["Carlos", "Ana", "Luis", "Sofía", "Carlos", "María"]

 Tarea
 - Crear un RDD con los nombres de los invitados.
 - Contar cuántos nombres hay en total.


In [None]:
# Datos
invitados = ["Carlos", "Ana", "Luis", "Sofía", "Carlos", "María"]

# Tarea
# - Crear un RDD con los nombres de los invitados.

# - Contar cuántos nombres hay en total.

# - Imprimir el total de invitados


# 10. take(): Obtener los primeros elementos
Devuelve una lista con los primeros n elementos del RDD.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.take.html

De una lista de puntuaciones de videojuegos, muestra las 3 puntuaciones más altas.  
 
 
Datos  
puntuaciones = [50, 80, 100, 40, 90, 70]

 Tarea
 - Crear un RDD con las puntuaciones.
 - Mostrar las 3 puntuaciones más altas.


In [None]:
# Datos
puntuaciones = [50, 80, 100, 40, 90, 70]

# Tarea
# - Crear un RDD con las puntuaciones.

# - Obtener un RDD con las 3 puntuaciones más altas.

# - Mostrar su contenido usando collect()


# 11. saveAsTextFile(): Guardar resultados
Guarda el contenido del RDD como un archivo de texto en la ruta especificada.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.saveAsTextFile.html
  
De una lista de nombres de películas, guarda los nombres en un archivo de texto.  
 
 
Datos  
peliculas = ["Inception", "Avatar", "The Dark Knight", "Titanic", "Interstellar"]

Tarea
 - Crear un RDD con los nombres de las películas.
 - Guardar los nombres en un archivo de texto llamado "peliculas.txt".


In [None]:
# Datos
peliculas = ["Inception", "Avatar", "The Dark Knight", "Titanic", "Interstellar"]

# Tarea
# - Crear un RDD con los nombres de las películas.

# - Guardar los nombres en un archivo de texto llamado "peliculas.txt".
rdd_peliculas.saveAsTextFile("file:///c:/users/acalv/peliculas.txt") 


# 12. textFile(): Carga un fichero en un RDD
Lee un archivo de texto y lo convierte en un RDD.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.textFile.html

Tarea
- Leer el fichero 1800.csv del directorio BDASpark ("file:///c:/BDASpark/1800.csv")
- Mostrar las líneas


In [2]:
# - Leer el fichero 1800.csv del directorio BDASpark ("file:///c:/BDASpark/1800.csv")

# - Mostrar las líneas


In [None]:
sc.stop()