# Inicializa contexto Spark

In [0]:
# Import PySpark libraries
from pyspark import SparkContext, SparkConf 
from pyspark.sql import SparkSession
#from pyspark import SparkContext

# Obtener la sesión de Spark en Databricks (NO creamos un nuevo SparkContext)
spark = SparkSession.builder.appName("Ejercicios RDD").getOrCreate()

# Obtener el SparkContext ya existente desde SparkSession
sc = spark.sparkContext  # ✅ Usa el SparkContext que ya existe

print(sc)

# Initialize SparkConf
conf = SparkConf().setMaster("local[*]").setAppName("Ejercicios RDD")

conf.set("spark.hadoop.fs.defaultFS", "file:///")  # Sistema de archivos local
conf.set("spark.hadoop.io.file.buffer.size", "4096")

# Initialize SparkContext
# sc = SparkContext(conf = conf)


<SparkContext master=local[8] appName=Databricks Shell>
Out[1]: <pyspark.conf.SparkConf at 0x7f00c041c250>

# 1. Crea un RDD y visualiza su contenido

Ejercicio  
Crea un RDD con los nombres de países más visitados del mundo. Muestra su contenido.  

Datos  
paises = ["Francia", "España", "Estados Unidos", "China", "Italia", "Turquía"]  

Tarea
 - Crear un RDD a partir de la lista de países (usar función parallelize de SparkContext).
 - Mostrar su contenido usando collect().


In [0]:
# Datos
paises = ["Francia", "España", "Estados Unidos", "China", "Italia", "Turquía"]

# Tarea
# - Crear un RDD con la lista.
rdd = sc.parallelize(paises)

# - Mostrar su contenido usando collect(). collect() es una acción que recupera todos los elementos del RDD y los devuelve como una lista.
rdd.collect()


Out[2]: ['Francia', 'España', 'Estados Unidos', 'China', 'Italia', 'Turquía']

# 2. map(): Transformar datos  
Aplica una función a cada elemento del RDD y devuelve un nuevo RDD.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.map.html

Ejercicio  
Tenemos las temperaturas promedio (en °C) de las principales ciudades del mundo en una lista. Convierte estas temperaturas a grados Fahrenheit.  

Datos  
temperaturas_c = [20, 15, 30, 25, 10]

Tarea
 - Crear un RDD con las temperaturas.
 - Convertir cada temperatura de °C a °F usando la fórmula: (°C × 9/5) + 32.


In [0]:
# Datos
temperaturas_c = [20, 15, 30, 25, 10]

# Tarea
# - Crear un RDD con las temperaturas
rdd_temperaturas = sc.parallelize(temperaturas_c)

# - Convertir temperaturas a grados Fahrenheit
rdd_temperaturas_f = rdd_temperaturas.map(lambda temp: (temp, (temp * 9/5) + 32))

# - Mostrar su contenido usando collect()
print("Temperaturas en °C y su equivalente en °F:")
print(rdd_temperaturas_f.collect())

Temperaturas en °C y su equivalente en °F:
[(20, 68.0), (15, 59.0), (30, 86.0), (25, 77.0), (10, 50.0)]


# 3. filter(): Filtrar datos
Devuelve un nuevo RDD que contiene solo los elementos que cumplen con la condición dada.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.filter.html

Ejercicio  
De una lista de alturas de montañas (en metros), selecciona solo las montañas que superen los 3000 metros.  

Datos  
alturas_montanas = [8848, 8611, 2825, 4500, 1500, 3100]

Tarea
 - Crear un RDD con las alturas.
 - Filtrar las alturas mayores a 3000 metros.


In [0]:
# Datos
alturas_montanas = [8848, 8611, 2825, 4500, 1500, 3100]

# Tarea
# - Crear un rdd con las alturas
rdd_alturas = sc.parallelize(alturas_montanas)

# - Filtrar las alturas mayores que 30  00
rdd_alturas_filtradas = rdd_alturas.filter(lambda h: h > 3000)
# - Mostrar su contenido usando collect()
print("Alturas mayores a 3000 metros:")
print(rdd_alturas_filtradas.collect())

Alturas mayores a 3000 metros:
[8848, 8611, 4500, 3100]


# 4. flatMap(): Generar múltiples elementos por entrada
Similar a map, pero cada elemento de entrada puede ser mapeado a cero o más elementos de salida (aplana el resultado).

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.flatMap.html

Ejercicio  
Divide las siguientes frases en palabras individuales.  

Datos  
frases = ["El león es el rey de la selva", "Los elefantes son los mamíferos terrestres más grandes", "Las ballenas son gigantes del océano"]

Tarea
 - Crear un RDD con las frases.
 - Usar flatMap para dividir cada frase en palabras (la función split divide una cadena por el separador indicado).


In [0]:
# Datos
frases = ["El león es el rey de la selva", "Los elefantes son los mamíferos terrestres más grandes", "Las ballenas son gigantes del océano"]

# Tarea
# - Crear un rdd con las frases
rdd_frases = sc.parallelize(frases)

# - Dividir cada frase en palabras
# - Usar flatMap para dividir cada frase en palabras
# La función split() separa la cadena por espacios
rdd_palabras = rdd_frases.flatMap(lambda frase: frase.split(" "))

# - Mostrar su contenido usando collect()
print("Palabras individuales:")
print(rdd_palabras.collect())

Palabras individuales:
['El', 'león', 'es', 'el', 'rey', 'de', 'la', 'selva', 'Los', 'elefantes', 'son', 'los', 'mamíferos', 'terrestres', 'más', 'grandes', 'Las', 'ballenas', 'son', 'gigantes', 'del', 'océano']


# 5. reduce(): Agregar valores
Agrega los elementos del RDD usando una función de reducción (combinación).

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.reduce.html 

Ejercicio  
Calcula el total de puntos de una temporada de un equipo de fútbol sumando los puntos de cada partido.  

Datos
puntos_partidos = [3, 1, 0, 3, 3, 1]

 Tarea
 - Crear un RDD con los puntos de cada partido.
 - Usar reduce para obtener la suma total de puntos.


In [0]:
# Datos
puntos_partidos = [3, 1, 0, 3, 3, 1]

# Tarea
# - Crear un RDD con los puntos de cada partido.
rdd_puntos = sc.parallelize(puntos_partidos)

# - Usar reduce para obtener la suma total de puntos.
total_puntos = rdd_puntos.reduce(lambda a, b: a + b)

# - Imprimir resultado
print("La suma total de puntos es:", total_puntos)

La suma total de puntos es: 11


# 6. groupBy(): Agrupar datos
Agrupa los elementos del RDD usando una función de agrupamiento.  
  - https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.groupBy.html


Ejercicio  
Agrupa los nombres de animales según su longitud (número de letras).  
 
 
Datos  
animales = ["gato", "elefante", "perro", "jirafa", "pez", "león"]

 Tarea
 - Crear un RDD con los nombres de los animales.
 - Agrupar los animales por la longitud de sus nombres (función len()).


In [0]:
# Datos
animales = ["gato", "elefante", "perro", "jirafa", "pez", "león"]

# Tarea
# - Crear un RDD con los nombres de los animales.
rdd_animales = sc.parallelize(animales)

# - Agrupar los animales por la longitud de sus nombres.
rdd_animales_agrupados = rdd_animales.groupBy(lambda animal: len(animal))
# - Convertir a lista con collect() y recorrer con un bucle para mostrar longitud y lista del iterable grupo

for longitud, grupo in rdd_animales_agrupados.collect():
    print(f"Longitud: {longitud}, grupo: {list(grupo)}")



Longitud: 8, grupo: ['elefante']
Longitud: 3, grupo: ['pez']
Longitud: 4, grupo: ['gato', 'león']
Longitud: 5, grupo: ['perro']
Longitud: 6, grupo: ['jirafa']


# 7. distinct(): Eliminar duplicados
Devuelve un nuevo RDD que contiene solo elementos distintos del RDD original.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.distinct.html

Ejercicio  
Tienes una lista de destinos turísticos visitados por diferentes personas. Obtén una lista de destinos únicos.  

Datos  
destinos = ["París", "Nueva York", "Londres", "París", "Tokio", "Londres"]

Tarea
 - Crear un RDD con los destinos.
 - Obtener una lista de destinos únicos usando distinct().


In [0]:
# Datos
destinos = ["París", "Nueva York", "Londres", "París", "Tokio", "Londres"]

# Tarea
# - Crear un RDD con los destinos.
rdd_destinos = sc.parallelize(destinos)

# - Obtener una lista de destinos únicos usando distinct().
rdd_destinos_unicos = rdd_destinos.distinct()

# - Mostrar su contenido usando collect()
print("Destinos únicos:")
print(rdd_destinos_unicos.collect())

Destinos únicos:
['París', 'Nueva York', 'Tokio', 'Londres']


# 8. sortBy(): Ordenar datos
Devuelve un nuevo RDD ordenado según una función de ordenamiento.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.sortBy.html

Ejercicio  
Tienes una lista de edades de estudiantes. Ordena las edades de menor a mayor.  
 
Datos  
edades = [21, 19, 22, 20, 18, 23]

Tarea
 - Crear un RDD con las edades.
 - Ordenar las edades de menor a mayor usando sortBy().


In [0]:
# Datos
edades = [21, 19, 22, 20, 18, 23]

# Tarea
# - Crear un RDD con las edades.
rdd_edades = sc.parallelize(edades)

# - Ordenar las edades de menor a mayor usando sortBy().
rdd_edades_ordenadas = rdd_edades.sortBy(lambda x: x, ascending=True)

# - Mostrar su contenido usando collect()
print("Edades ordenadas de menor a mayor:")
print(rdd_edades_ordenadas.collect())

Edades ordenadas de menor a mayor:
[18, 19, 20, 21, 22, 23]


# 9. count(): Contar elementos
Devuelve el número de elementos en el RDD.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.count.html

Calcula cuántos nombres hay en una lista de personas invitadas a una fiesta.  
 
 
Datos  
invitados = ["Carlos", "Ana", "Luis", "Sofía", "Carlos", "María"]

 Tarea
 - Crear un RDD con los nombres de los invitados.
 - Contar cuántos nombres hay en total.


In [0]:
# Datos
invitados = ["Carlos", "Ana", "Luis", "Sofía", "Carlos", "María"]

# Tarea
# - Crear un RDD con los nombres de los invitados.
rdd_invitados = sc.parallelize(invitados)

# - Contar cuántos nombres hay en total.
total_invitados = rdd_invitados.count()

# - Imprimir el total de invitados
print("Total de invitados:", total_invitados)

Total de invitados: 6


# 10. take(): Obtener los primeros elementos
Devuelve una lista con los primeros n elementos del RDD.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.take.html

De una lista de puntuaciones de videojuegos, muestra las 3 puntuaciones más altas.  
 
 
Datos  
puntuaciones = [50, 80, 100, 40, 90, 70]

 Tarea
 - Crear un RDD con las puntuaciones.
 - Mostrar las 3 puntuaciones más altas.


In [0]:
# Datos
puntuaciones = [50, 80, 100, 40, 90, 70]

# Tarea
# - Crear un RDD con las puntuaciones.
rdd_puntuaciones = sc.parallelize(puntuaciones)

# - Obtener un RDD con las 3 puntuaciones más altas.
top3 = rdd_puntuaciones.top(3)

# - Mostrar su contenido usando collect()
print("Las 3 puntuaciones más altas:", top3)

Las 3 puntuaciones más altas: [100, 90, 80]


# 11. saveAsTextFile(): Guardar resultados
Guarda el contenido del RDD como un archivo de texto en la ruta especificada.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.saveAsTextFile.html
  
De una lista de nombres de películas, guarda los nombres en un archivo de texto.  
 
 
Datos  
peliculas = ["Inception", "Avatar", "The Dark Knight", "Titanic", "Interstellar"]

Tarea
 - Crear un RDD con los nombres de las películas.
 - Guardar los nombres en un archivo de texto llamado "peliculas.txt".


In [0]:
# Datos
peliculas = ["Inception", "Avatar", "The Dark Knight", "Titanic", "Interstellar"]

# Tarea
# - Crear un RDD con los nombres de las películas.
rdd_peliculas = sc.parallelize(peliculas)

# - Guardar los nombres eAn un archivo de texto llamado "peliculas.txt".
rdd_peliculas.saveAsTextFile("file:///c:/users/acalv/peliculas.txt") 


# 12. textFile(): Carga un fichero en un RDD
Lee un archivo de texto y lo convierte en un RDD.

- https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.SparkContext.textFile.html

Tarea
- Leer el fichero 1800.csv del directorio BDASpark ("file:///c:/BDASpark/1800.csv")
- Mostrar las líneas


In [0]:
# - Leer el fichero 1800.csv del directorio BDASpark ("file:///c:/BDASpark/1800.csv")
# rdd_1800 = sc.textFile("file:///C:/BDASpark/1800.csv")
rdd_1800 = sc.textFile("dbfs:/FileStore/1800.csv")

# - Mostrar las líneas
lineas = rdd_1800.collect()
for linea in lineas:
    print(linea)

ITE00100554,18000101,TMAX,-75,,,E,
ITE00100554,18000101,TMIN,-148,,,E,
GM000010962,18000101,PRCP,0,,,E,
EZE00100082,18000101,TMAX,-86,,,E,
EZE00100082,18000101,TMIN,-135,,,E,
ITE00100554,18000102,TMAX,-60,,I,E,
ITE00100554,18000102,TMIN,-125,,,E,
GM000010962,18000102,PRCP,0,,,E,
EZE00100082,18000102,TMAX,-44,,,E,
EZE00100082,18000102,TMIN,-130,,,E,
ITE00100554,18000103,TMAX,-23,,,E,
ITE00100554,18000103,TMIN,-46,,I,E,
GM000010962,18000103,PRCP,4,,,E,
EZE00100082,18000103,TMAX,-10,,,E,
EZE00100082,18000103,TMIN,-73,,,E,
ITE00100554,18000104,TMAX,0,,,E,
ITE00100554,18000104,TMIN,-13,,,E,
GM000010962,18000104,PRCP,0,,,E,
EZE00100082,18000104,TMAX,-55,,,E,
EZE00100082,18000104,TMIN,-74,,,E,
ITE00100554,18000105,TMAX,10,,,E,
ITE00100554,18000105,TMIN,-6,,,E,
GM000010962,18000105,PRCP,0,,,E,
EZE00100082,18000105,TMAX,-40,,,E,
EZE00100082,18000105,TMIN,-58,,,E,
ITE00100554,18000106,TMAX,13,,,E,
ITE00100554,18000106,TMIN,13,,,E,
GM000010962,18000106,PRCP,0,,,E,
EZE00100082,18000106,TMAX,-39,,,

In [0]:
sc.stop()