# Introdução ao MapReduce


## MapReduce

# O que é o MapReduce?


Map Reduce é um modelo de programação que processa e analisa grandes quantidades de dados logicamente em clusters separados

#### Principais Componentes do Hadoop

In [2]:
%%HTML
<img src="img/hadoop-core-components.jpg" width="100%">

### O Processamento de dados utilizando MapReduce


#### MapReduce

##### É a componente de processamento do Apache Hadoop


##### Processa os dados paralelamente

#### MapReduce na Essência

In [3]:
%%HTML

<img src="img/mapreduce-in-a-nutshell.jpg" width="100%" />

### Principais Vantagens e Características do MapReduce

#### Dados processados em paralelo

#### Processamento rápido

#### Mover dados para processamento se torna muito caro (i.e., custoso em termos de tempo, largura de banda entre outros)

#### No MapReduce, movemos o processamento para os dados

<img src="img/distributed-computing.jpg" width="20%"/>

# Exemplos


## Como contar quantas espadas há em um baralho de cartas?


### Dividir o baralho entre todos os jogadores da mesa


### Dizer a todos os jogadores que devem contar as espadas em seus baralhos e reportar o número de volta para você


### Você deve somar todas as somas parciais de todos os jogadores para chegar a

# MapReduce Building Blocks


1. Consiste de duas fases, o mapeamento (map) e o redução (reduce)


2. Ambas as fases recebem a entrada em um formato de chave-valor e emitem dados como chave-valor


3. Quando os maps terminam de executar, os reducers rodam em paralelo nos nós (reducers não necessitam esperar todos os mappers terminarem de executar


<img src="http://ercoppa.github.io/HadoopInternals/public/images/timeline-mapreduce-job_534c0041-2498-44cd-9480-18910a008c0f.png" width="50%">

# MapReduce Building Blocks (cont.)


4. Geralmente, o conjunto de dados é tão grande que uma única instância de map e reduce não são sucificientes para processarem todo o conjunto.


5. Tipicamente, temos M x N instâncias de mapper e reducers respectivamente envolvido no processamento dos dados (M > N)


6. Os programas mappers rodam em paralelo nos DataNodes


7. O MapReduce resolve a maioria dos problemas de análise relacionados ao big data ao espalhar a computação pelos nós de um cluster

# A Classe Mapper


1. Mapeia entradas de pares chave-valor para pares chave-valor intermediários


2. Sort - aplica a classificação de entradas de chaves


3. Shuffle e Sort acontecem simultaneamente enquanto fazem a entrada de dados


4. Reduce - chama a função reduce para cada chave, coleção de valores


5. Saída do reduce é escrita em `RecordWriter` via objeto de contexto

# A Contagem de Palavras no MapReduce

<img src="https://www.researchgate.net/profile/Oscar_Pereira3/publication/270448794/figure/fig6/AS:295098651824130@1447368409317/Word-count-program-flow-executed-with-MapReduce-5.png" width="100%">

# Combiner


1. Papel primário é otimizar/minimizar o número de chaves-valores espalhados pelo cluster


2. Reduz os dados intermediários e escrita no disco


3. Reduz os dados trafegados pela rede


4. O Combiner é representado pela mesma interface do Reduce

# Combiner (cont)


<img src="https://image.slidesharecdn.com/module3-bigdataandhadoop-160425063358/95/hadoop-mapreduce-framework-48-638.jpg?cb=1461743943" width="100%" />

# Escrevendo o Mapper

| id do usuário | id do filme | classificação | timestamp |
|--------------:|------------:|:-------------:|:---------:|
| 196           | 242         | 3             | 123456789 |
| 186           | 302         | 3             | 123456789 |
| 196           | 377         | 1             | 123456789 |
| 244           | 51          | 2             | 123456789 |
| 166           | 346         | 1             | 123456789 |
| 186           | 474         | 4             | 123456789 |
| 186           | 265         | 2             | 123456789 |

In [12]:
def mapper_get_ratings(self, _, line):
    (userID, movieID, rating, timestamp) = line.split('\t')
    yield rating,1

# => Map

| Results |
|-----|
| 3,1 |
| 3,1 |
| 1,1 |
| 2,1 |
| 1,1 |
| 4,1 |
| 2,1 |

# => Shuffle & Sort


| Results  |
|----------|
| 1 -> 1,1 |
| 2 -> 1,1 |
| 3 -> 1,1 |
| 4 -> 1   |

# => Reduce


| Results  |
|----------|
| 1,2      |
| 2,2      |
| 3,2      |
| 4,1      |

In [11]:
def reducer_count_ratings(self, key, values):
    yield key, sum(values)

# Tudo Junto

In [None]:
from mrjob.job import MRJob
from mrjob.step import MRStep

class RatingsBreakdown(MRJob):
    def steps(self):
        return [
            MRStep(mapper=self.mapper_get_ratings,
                   reducer=self.reducer_count_ratings)
        ]
    
    def mapper_get_ratings(self, _, line):
        (userID, movieID, ratings, timestamp) = line.split("\t")
        yield rating,1
        
    def reducer_count_ratings(self, key, values):
        yield key, sum(values)

if (__name__ == '__main__'):
    RatingsBreakdown.run()

# Quantas Tarefas Map?

```
num_splits = 0
for each input file f:
   remaining = f.length
   while remaining / split_size > split_slope:
      num_splits += 1
      remaining -= split_size
```

em que:

```
split_slope = 1.1
split_size =~ dfs.blocksize
```


# Animação MapReduce

In [13]:
%%HTML
HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/fIECbEKyWNQ" frameborder="0" allow="autoplay; encrypted-media" allowfullscreen></iframe>')