# Cálculo de la media mediante map-reduce con post-procesamiento

## El porqué del post-procesamiento. Conceptos básicos

Deseamos calcular la media de una lista de números. Por ejemplo, la siguiente:

$$ [2, 3, 4] $$

Observamos que esta operación no es asociativa, y que la asociación en cualquier orden no conduce a la media verdadera:

$$\frac{\frac{2+3}{2} + 4}{2} \neq \frac{2 + \frac{3+4}{2}}{2} \neq \frac{2+3+4}{3}$$

Así pues, la simple aplicación de un algoritmo de map-reduce no es tan simple.

Otro enfoque posible es calcular las sumas de los valores y del número de valores:

    [2, 3, 4] -> [(2, 1), (3, 1), (4, 1)] -> (9, 3)
    
La operación de sumar los pares sí es asociativa:

    [2, 3, 4] -> [(2, 1), (3, 1), (4, 1)] -> [(5, 2), (4, 1)] -> (9, 3)
    [2, 3, 4] -> [(2, 1), (3, 1), (4, 1)] -> [(2, 1), (7, 2)] -> (9, 3)

Pero produce finalmente un par, y no solo la media. Adoptamos este enfoque: calcular las sumas de los pares, pero **luego**, para cada par, nos quedamos únicamente con la media.

Esta operación que se debe hacer **luego** es la que nos ayuda a ilustrar cómo aplicar algún tipo de postprocesamiento.

## Nuestro ejemplo concreto

Vamos a empezar por generar una lista aleatoria de pares (color, número). Nuestra lista de colores es la siguiente:

    Colores = {Azul, Blanco, Verde, Amarillo}

Para cada color, el número es una v.a. uniforme extraída de un valor para cada color, $\pm 1$. Las medias de los distintos colores vienen dadas en el siguiente diccionario:

    Colores = {"Azul": 3.0, "Blanco": 5.0, "Verde": 15.0, "Amarillo": 10.0}

Por ejemplo, si elegimos el azul, su número es $3.0 \pm 1$.

In [1]:
import random

Colores = {"Azul": 3.0, "Blanco": 5.0, "Verde": 15.0, "Amarillo": 10.0}

def v_a(color):
    return random.random() * 2 + Colores[color] - 1

def generar_datos(archivo, n):
    with open(archivo, "w") as f:
        for _ in range(n):
            [color] = random.choices(list(Colores.keys()))
            x = round(v_a(color), 2)
            f.write(color + " " + str(x) + "\n")

In [2]:
generar_datos("datos.txt", 100)

In [3]:
# Veamos el contenido de esta carpeta tras la generación de este archivo:
    
! dir

 El volumen de la unidad C es Windows 
 El n£mero de serie del volumen es: 22D6-2907

 Directorio de C:\Users\cpareja\Jupyter\Python E1 - librer¡as - an lisis de datos\E7 - map-reduce\prueba - media - postprocesamiento

04/03/2021  19:57    <DIR>          .
04/03/2021  19:57    <DIR>          ..
04/03/2021  18:27    <DIR>          .ipynb_checkpoints
04/03/2021  19:59             1.306 datos.txt
04/03/2021  18:12               521 generar_archivo.py
04/03/2021  19:57               940 medias.py
04/03/2021  19:57             7.529 media_post.ipynb
               4 archivos         10.296 bytes
               3 dirs  364.108.529.664 bytes libres


He aquí el inicio del archivo `datos.txt`:

    Blanco 4.26
    Blanco 4.42
    Azul 3.13
    Blanco 5.96
    Amarillo 10.8
    Amarillo 9.18
    Azul 3.75
    Azul 2.51
    Azul 2.3
    Amarillo 10.05

## Problema: cálculo de la media de cada color

Aquí es donde se plantea resolver el cálculo de la media por color, con un programa map-reduce.

Se ha planteado un programa para ser ejecutado desde la consola. Veámoslo.

In [4]:
! python medias.py datos.txt

Amarillo - 10.02


No configs specified for inline runner



Azul - 3.08

Blanco - 4.92

Verde - 15.12



In [5]:
! type medias.py

ï»¿"""
Ejemplo de map-reduce
con post-procesamiento
@author: cpareja
"""

import sys
from mrjob.job import MRJob

def suma_doble(pares):
    """Ej. [(1, 10), (2, 20), (3, 30)]  --> (6, 60)"""
    a, b = 0, 0
    for x, y in pares:
        a, b = a + x, b + y
    return a, b

class MRSumaTotales(MRJob):
   
    def mapper(self, _, linea):
        [color, x] = linea.split()
        yield color, (float(x), 1)
              
    def reducer(self, key, values):
        yield key, suma_doble(values)
        
if __name__ == '__main__':
                
    archivo_datos = sys.argv[1]
    trabajo = MRSumaTotales(args=[archivo_datos])    
    with trabajo.make_runner() as runner:
        runner.run()
        for key, value in trabajo.parse_output(runner.cat_output()):
            media = value[0] / value[1]
            media_str = str(round(media, 2))
            print(key + " - " + media_str + "\n")


## Nota final

Se trata de unos apuntes breves que intentan ser sobre todo útiles y claros.
Obviamente, se han omitido los comentarios del programa de `map-reduce` por brevedad, esperando que sea lo bastante claro así.