# MapReduce

<hr>

(Este documento es por el momento un borrador de trabajo. No hay inconveniente en difundirlo, pero la condición de borrador se ha de tener en cuenta al emitir valoraciones sobre el mismo, y sobre todo se agradecen sugerencias de todo tipo, en mi dirección de email, *cpareja@ucm.es*.)

### Breve recordatorio de map

Queremos calcular los $n$ primeros términos de la sucesión
$a_i=\frac{i^2}{i+1}$.

Por ejemplo, para los cinco primeros términos, te ndríamos la lista siguiente:

$$[\frac{1}{2}, \frac{2^2}{3}, \frac{3^2}{4}, \frac{4^2}{5}, \frac{5^2}{6}]$$

Podemos hacerlo con la notación intensional o con la función `map`:

In [1]:
def termino(i):
    return i**2/(i+1)

def lista_de_terminos(n):
    return [i**2/(i+1) for i in range(1, n+1)]

print(lista_de_terminos(5))

def lista_de_terminos(n):
    return list(map(lambda i: termino(i), range(1, n+1)))

print(lista_de_terminos(5))

[0.5, 1.3333333333333333, 2.25, 3.2, 4.166666666666667]
[0.5, 1.3333333333333333, 2.25, 3.2, 4.166666666666667]


### Breve recordatorio de reduce

Si quisiéramos ahora sumar todos los elementos de una lista, bastaría con insertar la función suma entre sus elementos. Esto se puede hacer con la función `reduce`:

In [2]:
from functools import reduce

def suma(lista):
    return reduce(lambda a, b: a+b, lista)

mis_terminos = lista_de_terminos(5)
mi_sumatorio = suma(mis_terminos)

print(mi_sumatorio)

11.45


### Primera versión de la técnica map-reduce

La técnica de map-reduce consiste en resolver un problema mediante la combinación sucesiva de estas dos operaciones, `map` y `reduce`:


$$\sum_{i=1}^{n} a_i=\frac{i^2}{i+1}$$


In [None]:
def sumatorio(n):
    return suma(lista_de_terminos(n))
    
print(sumatorio(5))

11.45


Observa que la clave ha sido encontrar las funciones mapeadora

$$\lambda i \rightarrow a_i=\frac{i^2}{i+1}$$

y la función reductora:

$$\lambda a, b \rightarrow a + b$$

### Segunda versión de la técnica map-reduce

Queremos contabilizar cuántas veces aparece el carácter `a` en un texto, cuántas, el `b`, etc.

**Versión 2 del mapper.** En realidad, el mapper toma cada elemento (una línea) de la lista de entrada y devuelve una lista de pares, clave-valor en un dominio diferente:

    "calabaza" → [("c" ,1),("a" ,1),("l" ,1),("a" ,1),("b" ,1),("a" ,1),("z" ,1),("a" ,1)]
    "lima" → [("l" ,1),("i" ,1),("m" ,1),("a" ,1)]

(Posiblemente, te preguntarás por qué no hemos hecho una función más útil, como la siguiente:

"calabaza" → [("c" ,1),("a" ,4),("l" ,1),("b" ,1),("z" ,1)]

Pero déjame que conteste a esto más tarde.)

**Versión 2 del reducer.** En realidad, el reducer toma todos los valores de cada clave y los combina:

 [("c" ,[1]),("a" ,[1,1,1,1,1]),("l" ,[1,1]),("b" ,[1]),("z" ,[1]),("i" ,[1]),("m" ,[1])]
→ [("c" ,1),("a" ,5),("l" ,2),("b" ,1),("z" ,1),("i" ,1),("m" ,1)]

Para que todo esto funcione, basta con definir el mapper, que actúa sobre una línea así:
for car in línea:
    yield car, 1

Y el reducer, que actúa sobre una lista de números así:

lista → sum(lista)

**Explicación del paréntesis anterior.** Completando el paréntesis de antes, vemos que una función que suma las repeticiones de cada carácter, simplemente adelanta una parte del trabajo del reducer, pero no altera el resultado, y es más sencillo para nosotros dar la versión sencilla de una lista de unos.

**Ejecución desde la línea de comandos.** 
Para mostrar el comportamiento de estas funciones desde la línea de comandos, realizamos las llamadas desde las celdas siguientes.

In [4]:
# He aquí el archivo de datos

!type dos_palabras.txt

calabaza
lima


In [5]:
# Nuestro programa, contador de caracteres:

!type char_count.py

from mrjob.job import MRJob

class MRCharCount(MRJob):

    def mapper(self, _, line):
        for car in line:
            yield car, 1
                
    def reducer(self, key, values):
        yield key, sum(values)

if __name__ == '__main__':
    MRCharCount.run()


In [6]:
#Y ahora vemos el programa en acción sobre el archivo de datos:

! python char_count.py dos_palabras.txt -q

"a"	5
"b"	1
"c"	1
"i"	1
"l"	2
"m"	1
"z"	1


**Nota.** La opción `-q` significa $quiet$. Elimina mensajes superfluos del sistema operativo en la consola de comandos. Para ver su efecto, ejecuta la orden anterior suprimiendo esta opción.

### Dos ejercicios básicos

**Ejercicio 1** Hemos diseñado un contador de letras. ¿Sabrías diseñar tú un contador de palabras?

Para una línea dada, la función mapper debería generar, cada palabra acompañada con un 1.

**Ejercicio 2** ¿Sabrías diseñar tú un programa que cuenta cuántas líneas hay en un archivo?

Para una línea dada, la función mapper debería generar un 1, con una etiqueta cualquiera.

In [7]:
#Y ahora vemos el programa en acción sobre el archivo de datos:

! type pi_cuarteto.txt

Soy y seré a todos definible
mi nombre tengo que daros
cociente diametral siempre inmedible
soy de los redondos aros

y seré también todos los aros cuadrados
y soy definible y cociente siempre de los aros cuadrados


In [8]:
#Y ahora vemos el contador de palabras en acción sobre el archivo de datos:

! python word_count.py pi_cuarteto.txt -q

"Soy"	1
"a"	1
"aros"	3
"cociente"	2
"cuadrados"	2
"daros"	1
"de"	2
"definible"	2
"diametral"	1
"inmedible"	1
"los"	3
"mi"	1
"nombre"	1
"que"	1
"redondos"	1
"ser\u00e9"	2
"siempre"	2
"soy"	2
"tambi\u00e9n"	1
"tengo"	1
"todos"	2
"y"	4


In [9]:
#Y ahora vemos el contador de líneas en acción sobre el archivo de datos:

! python lines_count.py pi_cuarteto.txt -q

"lines"	7


### Un ejemplo más completo:

Tenemos un archivo de datos con información sobre las causas de muerte en cada país del mundo según la causa del deceso. He aquí unas cuantas líneas de dicho archivo:

In [10]:
! type "annual-number-of-deaths-by-cause.csv"

Entity,Code,Year,Execution,Meningitis (deaths),Lower respiratory infections (deaths),Intestinal infectious diseases (deaths),Protein-energy malnutrition (deaths),Terrorism (deaths),Cardiovascular diseases (deaths),Dementia (deaths),Kidney disease (deaths),Respiratory diseases (deaths),Liver diseases (deaths),Digestive diseases (deaths),Hepatitis (deaths),Cancers (deaths),Parkinson disease (deaths),Fire (deaths),Malaria (deaths),Drowning (deaths),Homicide (deaths),HIV/AIDS (deaths),Drug use disorders (deaths),Tuberculosis (deaths),Road injuries (deaths),Maternal disorders (deaths),Neonatal disorders (deaths),Alcohol use disorders (deaths),Natural disasters (deaths),Diarrheal diseases (deaths),Heat (hot and cold exposure) (deaths),Nutritional deficiencies (deaths),Suicide (deaths),Conflict (deaths),Diabetes (deaths),Poisonings (deaths)
Afghanistan,AFG,2007,15,9121.085992495782,29066.442137435646,461.195201808,1846.9966859901444,1199,53532.68049507392,2458.120489526255,3715.2775921059497,

Mejor es que lo veas por ti mismo, abriendo el archivo,
aunque te proporciono una imagen a continuación de un fragmento:
    
<center>
    <img src="./causas_de_muerte_fragmento.png" width="600">
</center>

Los campos están separados por comas. La  primera línea es la cabecera. Queremos saber cuántas muertes ha habido en Estados Unidos (la abreviatura es USA, en el segundo campo de la tabla) debidas a ejecuciones.

In [11]:
! python deadh_cause.py "annual-number-of-deaths-by-cause.csv" -q

Belgium,BEL,2002,,67.7372038836438,5326.496481573126,0.483599636578,112.22012158130893,0,35922.723743033814,7923.168599702642,1462.0555603432356,7049.8500818641305,1807.9392712348674,4748.459102228866,47.114076165298904,28503.28267660546,938.1820809142874,184.72808704368794,0,107.0877108052443,218.58667782496758,95.71422230532018,195.41023172700164,132.17686540592928,1645.9846752297087,8.93705631505045,236.85350994557314,368.4985984883272,2.999999967308866,284.68561555083573,70.67269475791721,168.83536031302077,2311.0691580828056,0,1621.9213982756607,56.38020908092849
Belgium,BEL,2003,,65.35439634098012,5425.466552555146,0.475825243326,122.23659828714455,0,35479.41415558417,8041.6801721555685,1508.7091654429541,7030.380388526124,1805.4752207119132,4750.987355434725,41.606284358912816,28176.28696607491,968.3770385111236,184.25555960487856,0,104.18196660394969,202.36013729630338,93.72503421179435,196.00726006575934,128.02425038753034,1536.3489453718175,10.910939820572384,234.256313636673

Cameroon,CMR,2006,,3637.961855644099,17045.154411844447,712.36214425,2476.5623641322036,,19004.468324930825,1716.8673409713624,2713.8776737111793,4301.4276211160595,3814.442031917352,6353.211053307664,403.07144025734414,10587.166995647562,316.45243904082935,553.2553706354058,30294.661401732243,916.9743072072305,662.9880950824509,34416.93569144806,288.2694575703125,7833.22245486743,3601.8804721402066,3029.630474865578,15312.212635001022,248.54618445566834,0,17545.42932395365,209.77259739279882,2584.2597037651644,1621.785188991097,30.999999751998576,2801.4530433826612,209.0263478447146
Cameroon,CMR,2017,,3110.4426419554943,16148.398415423108,,1939.3557070165245,228,22662.68923366618,2550.4614463361327,3248.617724778258,5096.262674957447,4080.347936367026,7473.625355756664,380.15544447143407,14657.633138723377,455.19138275804414,562.1617563440199,22040.51773342546,881.8514273780369,728.1854352662485,22802.719594250077,547.2980642270287,8077.382887009578,4108.1804237603,2592.444781723495,1

Eritrea,ERI,1990,,1025.784404481064,5252.752446837629,139.171441181,3361.496790669638,,3931.939134652249,135.9690583126099,402.2019765661574,877.7330307293282,519.3372311685972,1010.3014465045027,91.73018489126332,1968.4578982283692,24.313244012520435,169.96136981673405,16.866935363518884,268.67817353641834,238.31085683565453,191.60168564431808,10.33307604495276,2804.890367289512,1000.6598712458618,843.4309294515434,3687.10144851934,46.54917885341663,0,5762.273723906387,15.153647218411775,3497.755141874797,290.66533934370403,30701.999999992306,480.1781513193545,63.47258507081999
Eritrea,ERI,1991,,1014.4308729702118,5365.5435319285,139.202193217,3269.169706664033,,3498.0480603071665,134.36485211169452,364.83968505793905,787.5507886288656,479.6962913882366,932.9661878608857,83.08282289071526,1777.8144707882934,23.433549838963277,157.79021535115,10.632163143251567,256.4630432849476,220.03478173196,232.60099597825115,9.69910921816148,2529.7481563378537,899.6741707556022,716.1128061896081,3

Guyana,GUY,2008,,9.13608013756309,236.23076157003396,0.278200393409,42.54547943976714,23,1699.2117995840338,103.42306331243465,140.67078042330147,98.31210045716861,157.776707287421,258.5459461561783,5.380796823618244,507.20526279881244,16.647789656964978,13.84193445361241,13.06354859200344,58.44699413316402,129.04696256787378,242.08521481266268,8.159415013549765,60.529015714140556,133.26797545334142,21.235263629226207,262.67286363254317,31.385995447837743,0,64.18951590750113,8.483512128542346,48.710759516839076,181.83090640476425,52.00000275695841,377.12126600088664,3.745970279073485
Guyana,GUY,2009,,8.885972439657538,232.55819898140038,0.297205410428,40.07769335421832,,1705.2423584000803,104.802870286296,144.9769100363704,99.11642694426605,157.64071915513964,257.5877785068486,4.911907673394227,508.02414168169906,16.81895842497452,13.710585607858501,13.119786528791646,58.67426446321389,125.07024778197592,223.12286746491125,7.7946947174430905,57.61652969434088,130.67372637325747,19.2441

Luxembourg,LUX,1999,,1.9998100450880048,98.18056111536909,0.0314464971524,2.436079285609637,,1464.7993159898942,248.9503063146846,51.25793623575482,192.47689257577454,90.36528655026547,181.2678483747199,1.8806368311927872,1024.47258807433,36.2080757037287,4.663610405731308,0,3.513074621642717,7.570227668105115,4.0904053928072175,14.154633175201008,2.8796756153740852,58.28267456636766,0.5632475575510509,11.678526686598161,20.570633677708557,0,5.54033599643412,1.738563666123741,3.072322373568308,68.9114761799746,0,51.53261243200246,1.373391182192496
Luxembourg,LUX,2000,,1.8982894050631263,100.98646709255716,0.0312737629251,2.5680655580996685,,1448.1072373807324,253.28397878117107,52.47601040789993,189.4517424621755,90.34961191654392,182.61651851765544,1.830446187853715,1031.4016876827736,37.17894919533823,4.617533049518564,0,3.5602434197650665,7.411947640646315,3.8248377132430478,14.17828370762914,2.71464453378198,56.5737390510177,0.5397573562646473,10.843550429322928,20.90560489501052,1

Norway,NOR,2002,,31.488181705868573,2013.9134043264999,0.25416073865,7.323424569537668,,17095.974989545102,3823.5813527841233,455.6300205062024,2309.985987649354,351.0363218871961,1372.9522798761934,7.288907408297523,11050.360555510582,389.0991606437682,82.17979141841073,0,80.63186362533474,49.17623296951221,16.54897028845842,312.61389427530696,58.04710092281971,355.40531747541706,4.021571118481922,91.26428071313894,259.35069425840703,5.999999996883723,146.4345150701299,41.10090346790704,15.764884847058214,605.4064159775451,0,640.1047502306271,27.020362826230503
Norway,NOR,2003,,30.367498279227743,1884.2891682579161,0.249372442385,8.491215675215152,0,16163.473455412002,3821.398243531142,461.9267890990117,2295.1593543905456,348.2303249175654,1353.2895570903772,6.8305347469844735,10881.339709828437,388.7797115619327,82.00523709873515,0,76.40574112290666,48.40278618940651,23.054348232256174,285.6909709914337,57.71714939004203,335.0400862715132,5.61588491174282,88.47690410315634,258.733824

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [12]:
#Veamos el código:

! type deadh_cause.py

from mrjob.job import MRJob

def to_int(cadena):
    try:
        return int(cadena)
    except:
        return 0

class MRCauseOfDeadth(MRJob):

    def mapper(self, _, line):
        campos = line.split(",")
        passcodigo = campos[1]
        num_ejecs = to_int(campos[3])
        if passcodigo == "USA":
            yield "ejecs", num_ejecs
               
    def reducer(self, key, values):
        yield key, sum(values)

if __name__ == '__main__':
    MRCauseOfDeadth.run()


### Parámetros en la línea de comandos

*** Faltan explicaciones ***


In [13]:
! python deadh_cause_country.py --country=USA "annual-number-of-deaths-by-cause.csv" -q

"USA"	385


In [14]:
! python deadh_cause_country.py --country=ESP "annual-number-of-deaths-by-cause.csv" -q

"ESP"	0


In [15]:
#Veamos el código:

! type deadh_cause_country.py

from mrjob.job import MRJob

def to_int(cadena):
    try:
        return int(cadena)
    except:
        return 0
        
class MRCauseOfDeadth(MRJob):

    def configure_args(self):
        super(MRCauseOfDeadth, self).configure_args()
        self.add_passthru_arg(
            '--country', default='Spain',
            help="Indica el cÃ³digo del paÃ­s.")

    def mapper(self, _, line):
        campos = line.split(",")
        passcodigo = campos[1]
        if passcodigo == self.options.country:
                num_ejecs = to_int(campos[3])
                yield passcodigo, num_ejecs
               
    def reducer(self, key, values):
        yield key, sum(values)

if __name__ == '__main__':
    MRCauseOfDeadth.run()


### Propiedades matemáticas supuestas

Podemos calcular la suma de una lista de varias maneras, alterando el orden y agrupamiento
de los sumandos:
    
    [1, 2, 3, 4, 5] -> [1, 2, 3], [4, 5] -> [6, 9] -> 15
    [1, 2, 3, 4, 5] -> [1, 2], [3, 4, 5] -> [3, 12] -> 15
    ...

Siempre obtenemos el mismo resultado, porque la suma es conmutativa y asociativa.

Hagamos lo mismo con la media:
    
    [1, 2, 3, 4, 5] -> [1, 2, 3], [4, 5] -> [2, 4.5] -> 3.25
    [1, 2, 3, 4, 5] -> [1, 2], [3, 4, 5] -> [1.5, 4] -> 2.75

Se obtienen resultados distintos agrupando en distintos órdenes porque la media no es asociativa.

El modelo *map-reduce* está pensado para procesar grandes volúmenes de datos en un orden arbitrario y agrupando los resultados de forma arbitraria, según vayan siendo generados los paquetes de trabajo por distintas máquinas o procesadores. Esto puede no percibirse con datos pequeños o cuando el procesamiento es en un solo ordenador, pero conviene saber que la función `reduce` tiene que estar basada en una operación binaria asociativa y conmutativa. Y la media no lo es.

Pongamos ahora que deseamos calcular la media de una gran cangtidad de números. Ponemos una solución inicial errónea, aunque se trata de un error muy frecuente y que pasa desapercibido con cantidades pequeñas de datos, y luego comentamos una solución correcta.

**Nota.** Esta solución está explicada y con ejemplos en la carpeta aparte siguiente:
`ej3 - media - postprocesamiento`

## Bibliografía

* En la siguiente url se puede encontrar

        https://mrjob.readthedocs.io/en/latest/guides/writing-mrjobs.html
        
* En particular, los detalles técnicos sobre el paso de opciones (como `--country=ESP`) puede completarse con el apartado *Defining command line options*.