Para implementar las funciones map y reduce en Python sin usar las funciones nativas y siguiendo la arquitectura propuesta en el paper de Jeffrey Dean sobre MapReduce, vamos a enfocarnos en el ejemplo clásico de contar palabras. Aquí te explicaré el enfoque y luego procederemos a escribir el código.

Enfoque
Map Function: Esta función tomará un documento o un conjunto de documentos y dividirá el texto en palabras. Para cada palabra, generará un par (clave, valor), donde la clave es la palabra y el valor es 1, indicando que la palabra ha aparecido una vez.

Shuffle and Sort: Después de la fase de map, los pares clave-valor necesitan ser ordenados y agrupados por clave. Esto facilitará el proceso de reducción agrupando todas las ocurrencias de una palabra específica.

Reduce Function: Esta función tomará los pares clave-valor agrupados por clave y sumará los valores para cada clave. Esto efectivamente contará la cantidad total de veces que cada palabra aparece en el documento o conjunto de documentos.

Integración: Integraremos estas funciones en un sistema que pueda tomar un conjunto de documentos como entrada, aplicar las funciones map y reduce, y producir un conteo final de palabras.

Implementación
Ahora procederé a escribir el código en el Python Code Interpreter (PCI) siguiendo este enfoque. Después de eso, revisaremos y optimizaremos el código juntos.

He implementado las funciones map, shuffle_and_sort, reduce, y una función integradora map_reduce para contar palabras en un conjunto de documentos, siguiendo la arquitectura de MapReduce. Aquí hay un resumen del código:

map_function: Esta función toma una lista de documentos y para cada palabra en un documento, produce un par (palabra, 1).

shuffle_and_sort: Después de la fase de map, esta función ordena y agrupa los valores por clave (palabra), preparándolos para la reducción.

reduce_function: Toma los valores agrupados por clave de la fase de shuffle and sort y suma los valores para cada clave, contando así las ocurrencias totales de cada palabra.

map_reduce: Esta es la función integradora que orquesta el proceso de MapReduce aplicando las funciones de map, shuffle and sort, y reduce para contar palabras en los documentos proporcionados.

El siguiente paso es revisar y optimizar este código. Específicamente, podemos enfocarnos en la eficiencia de estas funciones, la claridad del código, y asegurarnos de que sigue las buenas prácticas de Python. ¿Te gustaría hacer alguna modificación o añadir alguna característica específica a esta implementación? ​

In [57]:
# Implementación de Map y Reduce sin usar funciones nativas

def map_function(documents):
    """
    Map function that processes a list of documents and returns a list of tuples (word, 1)
    for each word in the document.
    """
    word_counts = []
    for document in documents.values():
        # Dividir el documento en palabras
        words = document.split()
        for word in words:
            word_counts.append((word, 1))
    return word_counts

def shuffle_and_sort(mapped_values):
    """
    Shuffle and sort function that takes the output of the map function, sorts it,
    and groups values by key (word).
    """
    sorted_values = sorted(mapped_values, key=lambda x: x[0])
    grouped_values = {}
    for key, value in sorted_values:
        if key in grouped_values:
            grouped_values[key].append(value)
        else:
            grouped_values[key] = [value]
    return grouped_values

def reduce_function(grouped_values):
    """
    Reduce function that processes grouped values and sums the counts for each word.
    """
    reduced_values = {}
    for key, values in grouped_values.items():
        reduced_values[key] = sum(values)
    return reduced_values

def map_reduce(documents):
    """
    Integrates map, shuffle_and_sort, and reduce functions to count words in documents.
    """
    mapped_values = map_function(documents)
    grouped_values = shuffle_and_sort(mapped_values)
    reduced_values = reduce_function(grouped_values)
    return reduced_values


In [58]:
documents = { 
    "historia_corta": "El lugar es oscuro, pero igual sigo caminando. La clase esta buena, pero igual sigo faltando. El dia esta lindo, no esta para quedarse encerrado. Ir en auto tarda menos, ir caminando tarda mas." ,
    "palabras": "El domador de focas esta pensando en renunciar."
}


In [59]:
map_reduce(documents)

{'El': 3,
 'Ir': 1,
 'La': 1,
 'auto': 1,
 'buena,': 1,
 'caminando': 1,
 'caminando.': 1,
 'clase': 1,
 'de': 1,
 'dia': 1,
 'domador': 1,
 'en': 2,
 'encerrado.': 1,
 'es': 1,
 'esta': 4,
 'faltando.': 1,
 'focas': 1,
 'igual': 2,
 'ir': 1,
 'lindo,': 1,
 'lugar': 1,
 'mas.': 1,
 'menos,': 1,
 'no': 1,
 'oscuro,': 1,
 'para': 1,
 'pensando': 1,
 'pero': 2,
 'quedarse': 1,
 'renunciar.': 1,
 'sigo': 2,
 'tarda': 2}

Para implementar una versión didáctica de las funciones de map y reduce utilizando las funciones nativas de Python map, lambda, y reduce (esta última disponible en el módulo functools), centrémonos de nuevo en el ejemplo del contador de palabras. Esta versión ilustrará cómo Python puede simplificar significativamente la implementación de la funcionalidad MapReduce con sus características incorporadas.

Enfoque Didáctico
Map Phase: Usaremos la función nativa map con una función lambda para procesar cada documento, dividiéndolo en palabras y generando pares (palabra, 1) para cada palabra.

Shuffle and Sort Phase: Aprovecharemos las capacidades de agrupación de Python, específicamente con la función groupby de itertools, después de ordenar los pares por clave (palabra) para agrupar los resultados del map.

Reduce Phase: Utilizaremos reduce de functools junto con funciones lambda para sumar las ocurrencias de cada palabra.

Integración: Combinaremos estas fases en una función de alto nivel que ejecute el proceso completo de MapReduce para contar palabras.

Ahora, voy a implementar esta versión.

He creado una versión didáctica utilizando las funciones nativas map, lambda, y reduce de Python para implementar el contador de palabras siguiendo el modelo MapReduce. Aquí está el desglose del código:

map_phase: Esta función utiliza map y una expresión lambda para procesar cada documento en pares (palabra, 1).

reduce_phase: Aquí combinamos reduce de functools y groupby de itertools para agrupar y sumar las ocurrencias de cada palabra. Primero, aplanamos la lista de listas de pares generados en la fase de map, los ordenamos por palabra, y luego agrupamos por palabra. Para cada grupo, usamos reduce para sumar las ocurrencias.

map_reduce_native: Esta función integra las fases de map y reduce para contar las palabras en los documentos dados, mostrando el poder de las funciones de alto orden de Python para realizar tareas de procesamiento de datos complejas de manera concisa y eficiente.

Este enfoque muestra cómo las funciones nativas de Python pueden ser extremadamente útiles para implementar patrones de diseño complejos, como MapReduce, de una manera mucho más directa y legible.

In [64]:
from functools import reduce
from itertools import groupby
from operator import itemgetter

def map_phase(documents):
    """
    Map phase using Python's native map function. It processes each document into (word, 1) pairs.
    """
    return list(map(lambda doc: [(word, 1) for word in doc.split()], documents.values()))

def reduce_phase(mapped_values):
    """
    Reduce phase that sums up the occurrences of each word using Python's native reduce function.
    """
    # Flatten the list of lists
    all_items = [item for sublist in mapped_values for item in sublist]
    # Sort items by word for grouping
    sorted_items = sorted(all_items, key=itemgetter(0))
    # Group by word and reduce
    grouped_items = groupby(sorted_items, key=itemgetter(0))
    reduced_items = {key: reduce(lambda x, y: x + y[1], group, 0) for key, group in grouped_items}
    return reduced_items

def map_reduce_native(documents):
    """
    Integrates map and reduce phases to count words in documents using native Python functions.
    """
    mapped_values = map_phase(documents)
    reduced_values = reduce_phase(mapped_values)
    return reduced_values

# Comentar las llamadas a funciones para la revisión de código
# documents = ["hello world", "world of mapreduce", "hello mapreduce world"]
# word_counts = map_reduce_native(documents)
# print(word_counts)


In [65]:
map_reduce_native(documents)

{'El': 3,
 'Ir': 1,
 'La': 1,
 'auto': 1,
 'buena,': 1,
 'caminando': 1,
 'caminando.': 1,
 'clase': 1,
 'de': 1,
 'dia': 1,
 'domador': 1,
 'en': 2,
 'encerrado.': 1,
 'es': 1,
 'esta': 4,
 'faltando.': 1,
 'focas': 1,
 'igual': 2,
 'ir': 1,
 'lindo,': 1,
 'lugar': 1,
 'mas.': 1,
 'menos,': 1,
 'no': 1,
 'oscuro,': 1,
 'para': 1,
 'pensando': 1,
 'pero': 2,
 'quedarse': 1,
 'renunciar.': 1,
 'sigo': 2,
 'tarda': 2}

Crear una versión del contador de palabras utilizando PySpark implica aprovechar el modelo de programación distribuida que Spark ofrece, lo cual es especialmente útil para procesar grandes volúmenes de datos. Aquí, las operaciones de map y reduce se realizan a través de transformaciones y acciones en RDDs (Resilient Distributed Datasets) o DataFrames, dependiendo del enfoque que prefieras. Para este ejemplo, usaré RDDs por su cercanía al modelo MapReduce.

Enfoque PySpark
Crear RDD: Inicialmente, los documentos se cargarán en un RDD. Cada documento puede ser una línea de un archivo o un elemento en una lista si cargamos los datos directamente para fines didácticos.

Fase de Map: Aplicaremos una transformación flatMap para dividir los documentos en palabras y mapear cada palabra a un par (palabra, 1).

Fase de Reduce: Utilizaremos la acción reduceByKey para sumar todas las ocurrencias de cada palabra.

Acción de Recolección: Finalmente, con la acción collect, recogeremos los resultados del conteo de palabras.

Implementación en PySpark

In [68]:
from pyspark import SparkContext

def count_words_with_pyspark(documents):
    # Inicializar SparkContext
    sc = SparkContext("local", "WordCount")
    
    # Cargar documentos en un RDD
    rdd = sc.parallelize(documents.values())
    
    # Fase de Map: dividir en palabras y mapear a (palabra, 1)
    mapped_rdd = rdd.flatMap(lambda document: document.split()).map(lambda word: (word, 1))
    
    # Fase de Reduce: sumar las ocurrencias de cada palabra
    reduced_rdd = mapped_rdd.reduceByKey(lambda a, b: a + b)
    
    # Recolectar y devolver los resultados
    word_counts = reduced_rdd.collect()
    
    # Detener el SparkContext
    sc.stop()
    
    return word_counts

# Ejemplo de uso
# documents = ["hello world", "world of mapreduce", "hello mapreduce world"]
# word_counts = count_words_with_pyspark(documents)
# print(word_counts)


In [69]:
count_words_with_pyspark(documents)

[('El', 3),
 ('lugar', 1),
 ('es', 1),
 ('oscuro,', 1),
 ('pero', 2),
 ('igual', 2),
 ('sigo', 2),
 ('caminando.', 1),
 ('La', 1),
 ('clase', 1),
 ('esta', 4),
 ('buena,', 1),
 ('faltando.', 1),
 ('dia', 1),
 ('lindo,', 1),
 ('no', 1),
 ('para', 1),
 ('quedarse', 1),
 ('encerrado.', 1),
 ('Ir', 1),
 ('en', 2),
 ('auto', 1),
 ('tarda', 2),
 ('menos,', 1),
 ('ir', 1),
 ('caminando', 1),
 ('mas.', 1),
 ('domador', 1),
 ('de', 1),
 ('focas', 1),
 ('pensando', 1),
 ('renunciar.', 1)]

Este código debe ejecutarse en un entorno que tenga PySpark configurado y listo para usar, ya que PySpark no está disponible en este entorno de código interactivo. La función count_words_with_pyspark demuestra cómo cargar datos, aplicar las transformaciones de map y reduce, y recoger los resultados en un programa Spark.

La implementación ilustra un enfoque típico de Spark para el problema del conteo de palabras, aprovechando la distribución y paralelización para procesar grandes conjuntos de datos eficientemente.


Porque no usamos shuffle and sort?

En realidad, Spark sí implementa las operaciones de "shuffle and sort" (barajado y ordenamiento), pero lo hace de manera interna y optimizada, por lo que no es necesario que el usuario las gestione explícitamente en la mayoría de los casos. Estas operaciones son una parte crucial del proceso de computación distribuida, especialmente para operaciones que involucran agrupación o reducción de datos a través de múltiples particiones, como reduceByKey, groupBy, join, entre otros.

Shuffle
El "shuffle" ocurre cuando los datos deben ser redistribuidos entre diferentes particiones para que las operaciones de agrupación o reducción puedan ejecutarse. Esto generalmente implica la transferencia de datos a través de la red entre los nodos del cluster, lo cual puede ser costoso en términos de rendimiento. Spark intenta minimizar el costo de esta operación con técnicas como:

Pipelining: Cuando es posible, Spark realiza operaciones de map y reduce en el mismo nodo para reducir la necesidad de transferir datos.
Optimización del Plan de Ejecución: Spark's Catalyst Optimizer puede reorganizar y combinar operaciones para minimizar el shuffle.
Sort
El "sort" (ordenamiento) es parte de ciertas operaciones que requieren que los datos estén en un orden específico. En muchas operaciones de shuffle, Spark realiza un ordenamiento de los datos para facilitar la agrupación o reducción posterior. Por ejemplo, reduceByKey primero agrupará todas las claves iguales juntas (lo cual implica un ordenamiento implícito por clave) antes de aplicar la función de reducción.

Por qué no es explícito
Abstracción y simplicidad: Uno de los objetivos de Spark es proporcionar una abstracción de alto nivel para el procesamiento de datos distribuidos, escondiendo la complejidad de las operaciones de bajo nivel como shuffle y sort. Esto hace que Spark sea más accesible y reduce el esfuerzo necesario para optimizar las aplicaciones de procesamiento de datos.

Optimización interna: Spark maneja internamente las optimizaciones relacionadas con el shuffle y el sort. Tiene algoritmos y estrategias para decidir cuándo y cómo realizar estas operaciones de la manera más eficiente posible, basándose en el contexto de la aplicación y la configuración del cluster.

En resumen, aunque no se gestione explícitamente en la mayoría de los casos, el "shuffle and sort" es una parte integral de cómo Spark ejecuta operaciones distribuidas, gestionando de forma inteligente y optimizada para mejorar el rendimiento y la eficiencia del procesamiento de datos a gran escala.