
#
# MODULO 07 - EJERCICIO 03-A
# ALEXIS YURI M.


Primero es necesario instalar y configurar PySpark en el notebook de Colab. Para eso se ejecutan las siguientes celdas para instalar las librerías necesarias y crear un contexto de Spark.




In [2]:

# Se instalan PySpark y findspark.
!pip install pyspark findspark

# Se inicializa findspark.
import findspark
findspark.init()

# Se importa SparkContext.
from pyspark import SparkContext

# Se crea un SparkContext si no existe.
try:
    sc.stop()
except:
    pass
sc = SparkContext.getOrCreate()

print("SparkContext creado.")

SparkContext creado.


Paso 1: Carga de los datos.

Se crea un RDD a partir de una lista de frases usando sc.parallelize(), lo que simula la carga de un archivo de texto.

In [11]:
# Se crea una lista de frases para simular un archivo de texto
texto = [
    "Cuando cuentes cuentos",
    "cuenta cuantos cuentos cuentas,",
    "porque si no cuentas",
    "cuantos cuentos cuentas",
    "nunca sabrás cuántos cuentos sabes contar."
]

# Se cargan los datos en un RDD.
lineas_rdd = sc.parallelize(texto)

print("Datos cargados en el RDD:")
lineas_rdd.collect()

Datos cargados en el RDD:


['Cuando cuentes cuentos',
 'cuenta cuantos cuentos cuentas,',
 'porque si no cuentas',
 'cuantos cuentos cuentas',
 'nunca sabrás cuántos cuentos sabes contar.']

Paso 2: Uso de flatMap() para separar el texto.

Se utiliza flatMap() para dividir cada frase en palabras y, al mismo tiempo "aplanar" la estructura de los datos para tener una única lista de palabras.

In [12]:
# Se convierten las frases en palabras y se "aplana" la lista.
# Se convierten a minúsculas y se eliminan los puntos para una limpieza básica.
palabras_rdd = lineas_rdd.flatMap(lambda linea: linea.lower().replace('.', '').split(' '))

print("RDD con todas las palabras del texto:")
palabras_rdd.collect()

RDD con todas las palabras:


['cuando',
 'cuentes',
 'cuentos',
 'cuenta',
 'cuantos',
 'cuentos',
 'cuentas,',
 'porque',
 'si',
 'no',
 'cuentas',
 'cuantos',
 'cuentos',
 'cuentas',
 'nunca',
 'sabrás',
 'cuántos',
 'cuentos',
 'sabes',
 'contar']

Paso 3: Uso de filter() para eliminar palabras vacías o con menos de 4 letras.

Para limpiar los datos se usa la transformación filter() para eliminar palabras vacías ('') y palabras que tengan menos de 4 letras.

In [13]:
# Se filtran las palabras vacías y con menos de 4 letras.
palabras_filtradas_rdd = palabras_rdd.filter(lambda palabra: len(palabra) >= 4)

print("RDD después de usar el filtrado:")
palabras_filtradas_rdd.collect()

RDD después de usar el filtrado:


['cuando',
 'cuentes',
 'cuentos',
 'cuenta',
 'cuantos',
 'cuentos',
 'cuentas,',
 'porque',
 'cuentas',
 'cuantos',
 'cuentos',
 'cuentas',
 'nunca',
 'sabrás',
 'cuántos',
 'cuentos',
 'sabes',
 'contar']

Paso 4: Uso de map() para crear pares.

Se crean pares clave-valor. La clave será cada palabra, y el valor será en número 1.
Este formato se usará para poder contar las palabras.

In [14]:
# Se crean pares (clave, valor).
pares_rdd = palabras_filtradas_rdd.map(lambda palabra: (palabra, 1))

print("RDD de pares (palabra, 1):")
pares_rdd.collect()

RDD de pares (palabra, 1):


[('cuando', 1),
 ('cuentes', 1),
 ('cuentos', 1),
 ('cuenta', 1),
 ('cuantos', 1),
 ('cuentos', 1),
 ('cuentas,', 1),
 ('porque', 1),
 ('cuentas', 1),
 ('cuantos', 1),
 ('cuentos', 1),
 ('cuentas', 1),
 ('nunca', 1),
 ('sabrás', 1),
 ('cuántos', 1),
 ('cuentos', 1),
 ('sabes', 1),
 ('contar', 1)]

Paso 5: Uso de reduceByKey() para contar la frecuencia de cada palabra.

Se usa reduceByKey() para el conteo. Esta acción agrupa los valores por su clave y luego aplica la función suma, lo que entrega la frecuencia de cada palabra.

In [15]:
# Se cuenta la frecuencia de cada palabra.
frecuencias_rdd = pares_rdd.reduceByKey(lambda a, b: a + b)

print("RDD con cada palabra y su frecuencia:")
frecuencias_rdd.collect()

RDD con cada palabra y su frecuencia:


[('cuando', 1),
 ('cuentes', 1),
 ('cuenta', 1),
 ('cuantos', 2),
 ('cuentas,', 1),
 ('cuentas', 2),
 ('nunca', 1),
 ('sabrás', 1),
 ('contar', 1),
 ('cuentos', 4),
 ('porque', 1),
 ('cuántos', 1),
 ('sabes', 1)]

Paso 6: Uso de sortBy() para mostrar las 5 palabras mas frecuentes.

Se ordenan los resultados por la frecuencia de forma descendente.

In [16]:
# Se ordena por frecuencia de forma descendente.
top_5_rdd = frecuencias_rdd.sortBy(lambda par: par[1], ascending=False)




Paso 7: Uso de take() para mostrar el resultado.

Finalmente, se mostran los 5 más frecuentes usando take(5).


In [None]:
# Se muestran las 5 palabras más frecuentes.
print("Las 5 palabras más frecuentes son:")
top_5_rdd.take(5)


# Parada ordenada de Spark.
spark.stop()
print("\n")
print("Spark detenido.")

Las 5 palabras más frecuentes son:


[('cuentos', 4), ('cuantos', 2), ('cuentas', 2), ('cuando', 1), ('cuentes', 1)]