# MapReduce
## El nacimiento del BigData
---


Según un análisis rápido de la popularidad de términos de busqueda en google terms, es a partir de 2012 cuando explota la popularidad del termino **Big Data**. A pesar de que es difícil explicar toda la casuística que pudo desencadenar la viralización del termino, es bastante probable que fuese iniciada por su mención especial por parte del World Economy Forum en su informe [Big Data, Big Impact: New Possibilities for International Development](http://www3.weforum.org/docs/WEF_TC_MFS_BigDataBigImpact_Briefing_2012.pdf) y su posterior difusión gracias a un artículo del New York Times con el suculento título [The Age of Big Data](http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html).

<img src='img/data_terms_trends.png' width=400>
$$\text{Fig.1 Importancia relativa de términos de busqueda en google relacionados con el mundo del dato}$$

No obstante, en contra de lo que parece indicar la gráfica anterior, deberíamos situar el nacimiento del Big Data un poco antes, concretamente en 2004, cuando J. Dean y S. Ghemawat, dos ingenieros de Google, publican un artículo titulado [MapReduce: Simplified Data Processing on Large Clusters](https://static.googleusercontent.com/media/research.google.com/en//archive/mapreduce-osdi04.pdf).

En este artículo, Jeffrey Sanjay exponen de forma clara un nuevo modelo de programación que reduce a dos funciones básicas el procesado de un fichero. Estás dos funciones, *Map* y *Reduce*, inspiradas en las funciones primitivas homónimas de Lisp y otros lenguajes funcionales, consisten básicamente en contar (map) cuantas ocurrencias hay de cada tipo de elemento (por ejemplo: número de veces que se repite una palabra en un texto) y posteriormente sumar (reducir) el número de elementos que hay de cada tipo.

A pesar de su sencillez, este paradigma resulta ser muy versatil ya que muchas de las tareas a realizar en grandes volumenes de datos se pueden expresar bajo este modelo.

<img src='img/map-reduce-execution.png'>

A pesar de su sencillez, este paradigma resulta ser muy versatil ya que muchas de las tareas a realizar en grandes volumenes de datos se pueden expresar bajo este modelo. La gracia del concepto MapReduce es que es facilmente paralelizable y permite a usuarios sin experiencia en computación distribuida usar los recursos de grandes *clusters* (conjuntos de máquinas).

---

## MapyReduce: una versión simplificada en python
Adaptada de Data Science from scratch.

Como punto de partida, vamos a crear una función que cuente las palabras de una serie de documentos. Consideraremos en este caso que un documento es una frase, y una serie de documentos una lista de frases.

In [100]:
def cuenta_palabras_secuencial(documents):
    """
    Cuenta las palabras que existen en una serie de documentos.
    """
    # Inicializa un diccionario vacio. En el pondremos la palabras y el número
    # de veces que aparecen en forma de clave, valor
    wordcount = {}
    
    # Crea un loop que recorra los documentos.
    for doc in documents:
        # pon en minusculas y divide las palabras del documento en una lista
        doc_smallcaps = doc.lower()
        doc_words = re.findall("[a-z0-9']+", doc_smallcaps)
        
        #crea un loop que recorra las palabras del documento
        for word in doc_words:
            # Comprueba si la palabra existe ya en el diccionario inicial.
            # Si no existe, asignale al diccionario una nueva clave con el nombre de la
            # palabra y dale el valor 1.
            # En caso contrario, actualiza el valor que contiene y súmale uno.
            if word not in wordcount:
                wordcount[word] = 1
            else:
                wordcount[word] += 1
    return wordcount   


In [105]:
import requests

path_othello = 'https://raw.githubusercontent.com/martin-gorner/tensorflow-rnn-shakespeare/master/shakespeare/macbeth.txt'
path_mcbeth = ''

paths = [path_othello, path_mcbeth]

docs = []
for path in paths:
    data = requests.get(path)
    docs.append(data.text)
    

In [99]:
cuenta_palabras_secuencial([data.text])

{'othello': 339,
 'dramatis': 1,
 'personae': 1,
 'duke': 36,
 'of': 474,
 'venice': 46,
 'brabantio': 47,
 'a': 450,
 'senator': 16,
 'other': 24,
 'senators': 5,
 'first': 36,
 'second': 14,
 'gratiano': 28,
 'brother': 4,
 'to': 625,
 'lodovico': 44,
 'kinsman': 1,
 'noble': 21,
 'moor': 57,
 'in': 339,
 'the': 761,
 'service': 9,
 'venetian': 6,
 'state': 17,
 'cassio': 244,
 'his': 167,
 'lieutenant': 30,
 'iago': 361,
 'ancient': 10,
 'roderigo': 104,
 'gentleman': 24,
 'montano': 36,
 "othello's": 11,
 'predecessor': 1,
 'government': 3,
 'cyprus': 28,
 'clown': 19,
 'servant': 2,
 'desdemona': 227,
 'daughter': 15,
 'and': 795,
 'wife': 36,
 'emilia': 138,
 'bianca': 28,
 'mistress': 18,
 'sailor': 5,
 'messenger': 6,
 'herald': 3,
 'officers': 8,
 'gentlemen': 17,
 'musicians': 3,
 'attendants': 13,
 'officer': 10,
 'third': 6,
 'musician': 7,
 'scene': 16,
 'sea': 12,
 'port': 2,
 'act': 26,
 'i': 828,
 'street': 5,
 'enter': 63,
 'tush': 1,
 'never': 40,
 'tell': 23,
 'me': 

In [70]:
docs = ['Cada día me interesa menos ser juez de las cosas y voy prefiriendo ser su amante',
       'El malvado descansa algunas veces; el necio jamás',
       'El hombre no tiene naturaleza, sólo tiene historia']

cuenta_palabras_secuencial()

{'Cada': 1,
 'El': 2,
 'algunas': 1,
 'amante': 1,
 'cosas': 1,
 'de': 1,
 'descansa': 1,
 'día': 1,
 'el': 1,
 'historia': 1,
 'hombre': 1,
 'interesa': 1,
 'jamás': 1,
 'juez': 1,
 'las': 1,
 'malvado': 1,
 'me': 1,
 'menos': 1,
 'naturaleza,': 1,
 'necio': 1,
 'no': 1,
 'prefiriendo': 1,
 'ser': 2,
 'su': 1,
 'sólo': 1,
 'tiene': 2,
 'veces;': 1,
 'voy': 1,
 'y': 1}

In [45]:
import re

def tokenize(mensaje):
    """
    Dado un mensaje, es decir, una serie de palabras en forma de cadena realiza:
    1. Convierte a minusculas
    2. Extrae las palabras usando una expresión regular
    3. Quita las palabras duplicadas
    """
    mensaje = mensaje.lower()
    todas_palabras = re.findall("[a-z0-9']+", mensaje)
    palabras_unicas = set(all_words)
    return palabras_unicas



def wc_reducer(word, counts):
    """sum up the counts for a word"""
    yield (word, sum(counts))

def word_count(documents):
    """count the words in the input documents using MapReduce"""

    # place to store grouped values
    collector = defaultdict(list) 

    for document in documents:
        for word, count in wc_mapper(document):
            collector[word].append(count)

    return [output
            for word, counts in collector.items()
            for output in wc_reducer(word, counts)]

In [46]:
    documents = ["data science", "big data", "science fiction"]

    wc_mapper_results = [result 
                         for document in documents
                         for result in wc_mapper(document)]

    print("wc_mapper results")
    print(wc_mapper_results)

wc_mapper results
[('data', 1), ('science', 1), ('data', 1), ('big', 1), ('fiction', 1), ('science', 1)]


In [55]:
from collections import defaultdict

In [59]:
word_count(documents)

[('data', 2), ('science', 2), ('big', 1), ('fiction', 1)]