#M7_AE3_Procesamiento Distribuido de datos  

### Explora y transforma datos con RDDs

**Contexto:**  
Una de las claves para trabajar con datos distribuidos en Spark es conocer cómo manipular RDDs mediante transformaciones. Esta actividad te permitirá practicar con datos reales y aplicar operaciones fundamentales.  

**Consigna:**  
A partir de un conjunto de datos (puede ser un archivo `.txt` simulado con texto libre o una lista), aplica transformaciones utilizando métodos como `filter`, `map`, `flatMap`, `distinct` y `sortBy` para limpiar y reorganizar la información.  

**Paso a paso:**  
1. Carga el archivo o lista usando `sc.textFile()` o `sc.parallelize()`.  
2. Utiliza `flatMap()` para separar el texto en palabras.  
3. Aplica `filter()` para eliminar palabras vacías o con menos de 4 letras.  
4. Usa `map()` para crear pares `(palabra, 1)`.  
5. Aplica `reduceByKey()` para contar la frecuencia de cada palabra.  
6. Ordena los resultados con `sortBy()` y muestra las 5 más frecuentes.  
7. Muestra el resultado con `take(5)` o `collect()`.  


In [11]:
# Crear un archivo de texto simulado
texto = """Spark es un motor de procesamiento distribuido diseñado para trabajar con grandes volúmenes de datos.
Permite realizar análisis rápidos mediante RDDs y DataFrames.
Spark soporta transformaciones y acciones que facilitan la manipulación de datos.
El conocimiento de RDDs es fundamental para aplicar filtros, mapeos y agregaciones."""

# Guardar en un archivo .txt
with open("datos.txt", "w", encoding="utf-8") as f:
    f.write(texto)

print("Archivo datos.txt creado correctamente.")


Archivo datos.txt creado correctamente.


In [6]:
!pip install pyspark




In [10]:
#Importar SparkSession y crear la sesión de Spark
from pyspark.sql import SparkSession

spark = (SparkSession.builder
         .appName("Colab_PySpark_Basico")
         .getOrCreate())  # Inicializa Spark

# Obtener SparkContext desde SparkSession
sc = spark.sparkContext

print("Versión de Spark:", spark.version)
print("Master:", sc.master)


Versión de Spark: 3.5.1
Master: local[*]


In [12]:
rdd = sc.textFile("datos.txt")
rdd.take(5)


['Spark es un motor de procesamiento distribuido diseñado para trabajar con grandes volúmenes de datos.',
 'Permite realizar análisis rápidos mediante RDDs y DataFrames.',
 'Spark soporta transformaciones y acciones que facilitan la manipulación de datos.',
 'El conocimiento de RDDs es fundamental para aplicar filtros, mapeos y agregaciones.']

In [15]:
#Separar el texto en palabras con flatMap
palabras = rdd.flatMap(lambda linea: linea.split())

#Filtrar palabras vacías o con menos de 4 letras
palabras_filtradas = palabras.filter(lambda palabra: len(palabra) >= 4)

#Crear pares (palabra, 1)
pares = palabras_filtradas.map(lambda palabra: (palabra.lower().strip(".,") , 1))

#Contar la frecuencia de cada palabra
conteo = pares.reduceByKey(lambda a, b: a + b)

#Ordenar por frecuencia descendente
ordenado = conteo.sortBy(lambda x: x[1], ascending=False)

#Mostrar las 5 palabras más frecuentes
print(ordenado.take(5))


[('para', 2), ('spark', 2), ('datos', 2), ('rdds', 2), ('procesamiento', 1)]


In [16]:

spark.stop()
print("Sesión Spark detenida.")


Sesión Spark detenida.
