<a href="https://colab.research.google.com/github/apchavezr/-Analisis_Grandes_Volumenes_Datos/blob/main/Ejercicio_MapReduce_vs_Spark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio práctico: Simulación y análisis comparativo de ejecución MapReduce vs. Spark

Este ejercicio tiene como propósito que el estudiante compare de forma práctica los enfoques de procesamiento de datos de Hadoop MapReduce y Apache Spark, analizando sus diferencias en cuanto a modelo de programación, rendimiento y escalabilidad.


## Parte 1 – Simulación del proceso MapReduce (en Python local)

Ejecute el siguiente código para simular un conteo de palabras usando el paradigma MapReduce en Python:

In [1]:
from collections import defaultdict

texto = "big data requiere procesamiento distribuido y spark acelera procesos big data big spark"

# Map: convierte en pares (palabra, 1)
map_output = [(palabra, 1) for palabra in texto.split()]

# Reduce: agrupa y suma
reduce_output = defaultdict(int)
for palabra, cuenta in map_output:
    reduce_output[palabra] += cuenta

# Resultados
print("Resultados MapReduce simulados:")
for palabra, cuenta in reduce_output.items():
    print(f"{palabra}: {cuenta}")


Resultados MapReduce simulados:
big: 3
data: 2
requiere: 1
procesamiento: 1
distribuido: 1
y: 1
spark: 2
acelera: 1
procesos: 1


## Parte 2 – Procesamiento con PySpark

Instale PySpark si está ejecutando este notebook en Google Colab:

In [2]:
!pip install pyspark



In [3]:
from pyspark import SparkContext

# Crear el contexto de Spark
sc = SparkContext.getOrCreate()

texto = "big data requiere procesamiento distribuido y spark acelera procesos big data big spark"
palabras = sc.parallelize(texto.split())

conteo = palabras.map(lambda x: (x, 1)).reduceByKey(lambda a, b: a + b)
print("Resultados con PySpark RDD:")
for palabra, cuenta in conteo.collect():
    print(f"{palabra}: {cuenta}")


Resultados con PySpark RDD:
big: 3
requiere: 1
procesamiento: 1
distribuido: 1
data: 2
y: 1
spark: 2
acelera: 1
procesos: 1


## Parte 3 – Reflexión técnica (para responder en el cuaderno)

Responda brevemente:

1. ¿Qué diferencias observó en los enfoques de programación entre el modelo MapReduce simulado y Spark?
2. ¿Qué ventajas ofrece Spark frente a MapReduce en cuanto a escalabilidad y rendimiento?
3. Si trabajara con un conjunto de datos 100 veces mayor, ¿cuál modelo sería más conveniente implementar en un clúster y por qué?


## Recursos recomendados

- Zaharia et al. (2012). *Resilient distributed datasets*: https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf  
- Video de comparación técnica: https://www.youtube.com/watch?v=EN3jkhJ4GgE  
- Curso gratuito de Apache Spark: https://www.databricks.com/learn/training/free/apache-spark-scap
