# Introdução a Modelos de Computação Distribuídos


## MapReduce

# O que é o MapReduce?


=> Map Reduce é um modelo de programação que processa e analisa grandes quantidades de dados logicamente em clusters separados

# Principais Componentes do Hadoop

In [2]:
%%HTML
<img src="img/hadoop-core-components.jpg" width="100%">

# MapReduce na Essência

In [3]:
%%HTML
<img src="img/mapreduce-in-a-nutshell.jpg" width="100%" />

# Principais Vantagens e Características do MapReduce

=> Dados processados em paralelo


=> Processamento rápido (em relação a quê?)


=> Mover dados para processamento se torna muito caro (Data Locality)

* Custoso em termos de tempo, largura de banda entre outros


* No MapReduce, movemos o processamento para os dados

# Exemplo de MapReduce Aplicado à Contagens de Palavras

<img src="https://www.researchgate.net/profile/Oscar_Pereira3/publication/270448794/figure/fig6/AS:295098651824130@1447368409317/Word-count-program-flow-executed-with-MapReduce-5.png" width="100%">

# Do que é o MapReduce é feito?


=> Consiste de duas fases, o mapeamento (map) e o redução (reduce)


=> Ambas as fases recebem a entrada em um formato de chave-valor e emitem dados como chave-valor


=> Quando os mappers terminam de executar, os reducers rodam em paralelo nos nós (reducers não necessitam esperar todos os mappers terminarem de executar para iniciarem)


<img src="http://ercoppa.github.io/HadoopInternals/public/images/timeline-mapreduce-job_534c0041-2498-44cd-9480-18910a008c0f.png" width="50%">

# Mais sobre MapReduce


=> Geralmente, o conjunto de dados é tão grande que uma única instância de map e reduce não são sucificientes para processarem todo o conjunto.


=> Tipicamente, temos M x N instâncias de mapper e reducers respectivamente envolvido no processamento dos dados, tipicamente com M > N


=> Os mappers e reducers rodam em paralelo nos DataNodes


=> O MapReduce resolve a maioria dos problemas de análise relacionados ao big data ao espalhar a computação pelos nós de um cluster

# As Fases do MapReduce


1. Map - Mapeia entradas de pares chave-valor para pares chave-valor intermediários


2. Sort - aplica a classificação de entradas de chaves


3. Shuffle e Sort acontecem simultaneamente enquanto fazem a entrada de dados


4. Reduce - chama a função reduce para cada chave, coleção de valores


5. Saída do reduce é escrita em `RecordWriter` via objeto de contexto

# O Papel do Combiner (opcional)


=> Papel primário é otimizar/minimizar o número de chaves-valores espalhados pelo cluster


=> Reduz os dados intermediários e escrita no disco


=> Reduz os dados trafegados pela rede


=> O Combiner é representado pela mesma interface do Reduce

# Visualização do Combiner


<img src="https://image.slidesharecdn.com/module3-bigdataandhadoop-160425063358/95/hadoop-mapreduce-framework-48-638.jpg?cb=1461743943" width="100%" />

# Mapeando e Reduzindo Filmes

| id do usuário | id do filme | classificação | timestamp |
|--------------:|------------:|:-------------:|:---------:|
| 196           | 242         | 3             | 123456789 |
| 186           | 302         | 3             | 123456789 |
| 196           | 377         | 1             | 123456789 |
| 244           | 51          | 2             | 123456789 |
| 166           | 346         | 1             | 123456789 |
| 186           | 474         | 4             | 123456789 |
| 186           | 265         | 2             | 123456789 |

In [1]:
# A implementação de um Mapper
def mapper_get_ratings(self, _, line):
    (userID, movieID, rating, timestamp) = line.split('\t')
    yield rating,1

# Após a etapa de Mapping

| Resultado |
|-----|
| 3,1 |
| 3,1 |
| 1,1 |
| 2,1 |
| 1,1 |
| 4,1 |
| 2,1 |

# Após a etapa de Shuffling e Sorting


| Resultado  |
|----------|
| 1 -> 1,1 |
| 2 -> 1,1 |
| 3 -> 1,1 |
| 4 -> 1   |

# Após a etapa de Reducing


| Resultado  |
|----------|
| 1,2      |
| 2,2      |
| 3,2      |
| 4,1      |

In [11]:
# A implementação de um reducer
def reducer_count_ratings(self, key, values):
    yield key, sum(values)

# Atividade 1

=> Descreva com suas próprias palavras o que é o MapReduce e para quais situações é utilizado de duas formas:

 * Para uma criança de 5 anos de idade
 
 
 * Para um especialista da área


=> Explique as vantagens do modelo de programação do MapReduce de duas formas:

 * Para uma criança de 5 anos de idade
 
 
 * Para um especialista da área

# Atividade 2

=> Pense em cenários que exemplifiquem o uso do MapReduce para:

* Busca de informações


* Classificação


* Recomendação

# Atividade 3

=> O que mudaria na implementação dos métodos (ou funções) de map e reduce para cada um dos cenários que você propôs acima

# Tudo Junto

In [None]:
from mrjob.job import MRJob
from mrjob.step import MRStep

class RatingsBreakdown(MRJob):
    def steps(self):
        return [
            MRStep(mapper=self.mapper_get_ratings,
                   reducer=self.reducer_count_ratings)
        ]
    
    def mapper_get_ratings(self, _, line):
        (userID, movieID, ratings, timestamp) = line.split("\t")
        yield rating,1
        
    def reducer_count_ratings(self, key, values):
        yield key, sum(values)

if (__name__ == '__main__'):
    RatingsBreakdown.run()

# Quantas Tarefas Map?

```
num_splits = 0
for each input file f:
   remaining = f.length
   while remaining / split_size > split_slope:
      num_splits += 1
      remaining -= split_size
```

em que:

```
split_slope = 1.1
split_size =~ dfs.blocksize
```


# Animação MapReduce

In [2]:
%%HTML
HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/fIECbEKyWNQ" frameborder="0" allow="autoplay; encrypted-media" allowfullscreen></iframe>')