# <center>Lab Trabalhando com o MapReduce</center>

### IMPORTANTE

- Para este laboratório foram fornecidos os arquivos `AvaliaFilme.py` e `AnalisaFilme.py` contendo **Jobs de MapReduce** utilizando a linguagem Python e também o arquivo `ml-100k.zip` contendo o **dataset** a ser usado.

<br> <b>
    
---
    
    
<br> <b>

# O que é MapReduce?

O MapReduce é um modelo de programação distribuído utilizado principalmente em frameworks como o Hadoop para processar grandes volumes de dados. Ele permite que problemas complexos sejam divididos em pequenas partes que podem ser processadas paralelamente em um cluster de servidores. Esse modelo é particularmente útil para cenários de Big Data, onde o volume de dados é grande demais para ser processado de maneira eficiente em uma única máquina.

### Como Funciona o Modelo MapReduce

O modelo MapReduce é composto por duas fases principais: **Map** (Mapeamento) e **Reduce** (Redução), além de uma fase intermediária chamada **Shuffle**.

- **1. Fase de Mapeamento (Map)**: O processo começa com o cientista de dados analisando o problema e definindo como os dados de entrada serão representados em pares de chave e valor. Por exemplo, em uma contagem de palavras em um conjunto de textos, as palavras individuais podem ser as chaves e a contagem (geralmente 1) seria o valor associado.

O cientista de dados desenvolve um programa de mapeamento (Mapper), que aplica essas regras de negócios, "quebrando" os dados de entrada em pequenos pares de chave/valor. Cada bloco de dados de entrada é então processado pelo Mapper, que gera os pares conforme definido no código.

**Exemplo**: Se os dados de entrada forem "Deer, Bear, River, Car", o Mapper pode gerar os seguintes pares: ("Deer", 1), ("Bear", 1), ("River", 1), ("Car", 1).

<br>

- **2. Fase Intermediária** - Shuffle: Após a fase de mapeamento, ocorre a fase de Shuffle. O Shuffle é executado automaticamente pelo framework (neste caso, o Hadoop), sem que o cientista de dados precise intervir diretamente. A função dessa fase é agrupar todos os pares de chave/valor gerados pela etapa de mapeamento.

**Exemplo**: Se em várias partes do texto foram encontradas várias ocorrências da palavra "Car", o Shuffle agrupará todas essas ocorrências em um único lugar para que possam ser processadas na fase seguinte.

<br>

- **3. Fase de Redução (Reduce)**: Na fase de Reduce, os pares agrupados pelo Shuffle são processados para gerar o resultado final. O cientista de dados define como será a redução dos dados. No caso da contagem de palavras, a redução pode ser simplesmente somar os valores para cada chave.

**Exemplo**: Se os pares de chave/valor após o Shuffle são ("Car", [1, 1, 1]), a fase de redução somará esses valores, resultando em ("Car", 3).

Essa fase de redução retorna a informação processada e consolidada que o cientista de dados precisa para resolver o problema em questão. No exemplo, a saída seria uma lista das palavras e suas respectivas contagens, como ("Car", 3), ("Deer", 2), ("Bear", 2).

<br><br>

---

<br>

# Objetivo do Laboratório

<br>

Utilizando um **dataset de sistema de recomendação de filmes**, o objetivo é **executar um programa** que conte a quantidade de avaliações recebidas para cada tipo de nota atribuída aos filmes.

Em outras palavras, vamos verificar **quantas vezes cada filme recebeu determinadas avaliações**.

Por exemplo, se um filme recebeu a nota <i>**4 estrelas**</i> uma vez ou <i>**5 estrelas**</i> sete vezes, isso será contabilizado e apresentado de forma estruturada.


<br>

---

# Pergunta de Negócio

<br>

> **Quantas avaliações de cada tipo um filme recebeu?**

Esta questão nos ajudará a entender o comportamento das avaliações, identificando quais tipos de notas são mais comuns e qual é a distribuição das avaliações para diferentes filmes.

<br>

---

# Sobre o Dataset

<br>

Para este laboratório usaremos o dataset **MovieLens 100K** que é um dos conjuntos de dados mais utilizados para sistemas de recomendação e foi criado pelo GroupLens Research. Ele é frequentemente empregado para avaliar o desempenho de algoritmos colaborativos e análise preditiva na recomendação de filmes.

---

### Descrição Geral do Dataset MovieLens 100K

- **Lançamento**: Abril de 1998
- **Tamanho**: 100.000 avaliações
- **Número de usuários**: 1.000
  - Cada usuário avaliou pelo menos 20 filmes.
- **Número de filmes**: 1.700
  - Filmes lançados até 1998, com múltiplos gêneros.
- **Formato das avaliações**: Escala de 1 a 5 estrelas.

---


### Estrutura dos Arquivos

- **`u.data`** (**será usado neste laboratório**):
  - Contém as avaliações no formato (usuário, filme, nota, timestamp).
  - **Exemplo**: 196 242 3 881250949 (Usuário 196 deu nota 3 para o filme 242 no timestamp correspondente).

- **`u.user`**: 
  - Informações sobre os usuários, como (ID, idade, sexo, ocupação, CEP).
  - **Exemplo**: 1|24|M|technician|85711.

- **`u.item`**:
  - Detalhes dos filmes, como (ID, título, data de lançamento, gêneros).
  - **Exemplo**: 1|Toy Story (1995)|01-Jan-1995|Animation|Children's|Comedy.

- **`u.genre`**:
  - Lista os gêneros disponíveis, como Action, Comedy, Drama, etc.

- **`u.occupation`**:
  - Lista as ocupações dos usuários.
  
<br>

- **Arquivos de Treino e Teste** (`*.base` e `*.test`):

 - O dataset é dividido em conjuntos para **treinamento** e **teste**, usados para validar algoritmos de recomendação.
  
<br>

- **README.txt**:
  - Contém instruções sobre a utilização do dataset, incluindo os termos de licença.

---

### Aplicações e Casos de Uso

- **Teste de Sistemas de Recomendação**: Avaliação de algoritmos colaborativos, como Filtragem Colaborativa e Modelos de Fatoração de Matrizes.
- **Análise de Comportamento do Usuário**: Identificação de padrões nas avaliações e preferências.
- **Treinamento e Validação de Modelos de Machine Learning**.

## <br><br><br><br>

---

<br><br><br><br>

# <center><u>Iniciando o Laboratório</u></center>

<br><br><br>

## 1. Iniciando os Serviços

<br>

1.1 **Iniciar o HDFS (NameNode, DataNode, SecondaryNameNode)**:
   ```bash
   start-dfs.sh  |  stop-dfs.sh
   ```
1.2 **Iniciar o YARN (ResourceManager, NodeManager)**:
   ```bash
   start-yarn.sh  |  stop-yarn.sh
   ```
<br> <br> 

---

<br> 

## 2. Criando Pasta/Diretório com o nome de `mapred` para o Laboratório no HDFS

<br>

```bash
    hdfs dfs -mkdir /mapred
```

<br>

2.1 **Lista os arquivos e diretórios no HDFS raiz**.

<br>

```bash
   hdfs dfs -ls /
```

<br> <br> 

---

<br> 

## 3. Copiando o Dataset do `Sistema Operacional Local` para dentro do `HDFS`:

<br>

**Para este laboratório precisaremos do arquivo `u.data` que está dentro da pasta extraída do dataset**.

Abrir pasta onde está o arquivo a ser copiado, abrir um terminal e digitar o comando abaixo:

<br>

```bash
    hdfs dfs -put u.data /mapred
```

<br> <br> 

---

<br> 

## 4. Criando Arquivo Python com o Job para o MapReduce

<br>

#### Código do Arquivo `AvaliaFilme.py`

---

```python
from mrjob.job import MRJob

class MRAvaliaFilme(MRJob):
    def mapper(self, key, line):
        # Dividimos cada linha por tabulação e extraímos os valores
        (userID, movieID, rating, timestamp) = line.split('\t')
        # Emitimos a nota como chave e 1 como valor
        yield rating, 1

    def reducer(self, rating, occurences):
        # Somamos todas as ocorrências da mesma avaliação
        yield rating, sum(occurences)

if __name__ == '__main__':
    # Executa o job MapReduce
    MRAvaliaFilme.run()
```

---

<br>

### 4.1 Entendendo as 3 Fases do Processo de <i>MapReduce</i> considerando o Script `AvaliaFilme.py`

<br><br>

#### Fase 1 – Mapeamento (Mapper)

![Example Image](Analytics/image1.png)

Na fase de mapeamento, o objetivo é **contar quantas vezes cada filme foi avaliado com uma determinada nota**. Utilizamos a palavra reservada `yield` para definir a **chave** que será usada no processo. No nosso caso, a **coluna** `rating` é escolhida como chave, pois queremos saber o **número total de filmes avaliados para cada tipo de nota**, variando de **1 a 5 estrelas**.

Durante esta fase, cada **rating** é **mapeado** e associado ao valor **1**, que representa uma única ocorrência dessa nota para um filme. Este passo é crucial para contabilizar a frequência de cada avaliação.

O **código** responsável por essa fase é escrito pelo **Cientista de Dados**, que define a lógica de como processar as linhas de entrada para gerar os pares de **chave-valor**.

#### Explicando o trecho do código:

- A função `mapper` recebe como entrada cada linha do arquivo de dados.
- A linha é dividida em **quatro partes**: `userID`, `movieID`, `rating` e `timestamp`, com os valores separados por tabulações (`\t`).
- A chave escolhida é a **nota (rating)** dada ao filme, enquanto o valor é o número **1**. Isso indica que para cada avaliação feita, estamos registrando **uma ocorrência** da nota.
- O `yield` é a palavra-chave que emite cada par **chave-valor** para a próxima fase do processo.

<br>

Esse processo de mapeamento é fundamental para preparar os dados para a próxima fase, onde as avaliações serão agrupadas e somadas.

<br><br>

#### Fase 2 – Shuffle e Sort

Essa fase é **processada automaticamente pelo framework MapReduce**. Não há um código explícito para essa fase no script, pois o próprio framework cuida de:

- Agrupar todos os pares de **chave-valor** emitidos pela função `mapper`.
- Organizar os dados com base nas **chaves iguais** (neste caso, os ratings de 1 a 5).
- Após o agrupamento, os pares chave-valor para as notas são semelhantes ao seguinte exemplo:

**Exemplo de Agrupamento:**

```makefile
    1: [1, 1]
    2: [1, 1, 1]
    3: [1, 1]
    4: [1]
```

<br><br>

#### Fase 3 – Redução (Reducer)

![Example Image](Analytics/image2.png)

Na fase de **redução**, o código aplica um cálculo matemático para somar as ocorrências de cada nota (rating). Utilizamos a função `sum()` para agregar todas as ocorrências de uma nota específica, resultando na **quantidade total de filmes avaliados** com aquela nota.

Essa fase é fundamental, pois transforma os dados mapeados em informações úteis: quantos filmes receberam cada tipo de avaliação.

O **Cientista de Dados** é responsável por definir como essa redução será aplicada, usando a lógica apropriada.

#### Explicando o trecho do código:

- A função `reducer` recebe como entrada a **nota (rating)** como chave, e uma lista de **ocorrências** (que são os números 1 gerados na fase de mapeamento).
- A função `sum()` é aplicada a essa lista, somando todas as ocorrências de cada nota.
- O `yield` emite o **rating (chave)** e o total de ocorrências (quantidade de filmes que receberam aquela nota).

<br>

**Exemplo de Resultado Final**:

```makefile
    1: 2
    2: 3
    3: 2
    4: 1
```

**Isso indica que**: 2 filmes receberam nota 1, 3 filmes receberam nota 2, 2 filmes receberam nota 3 e 1 filme recebeu nota 4

<br> <br>

### Resumo das 3 Fases com Código Explicado

- **Mapper (Fase 1)**: Divide as linhas do arquivo e emite pares de chave-valor, onde a **chave é a nota** (`rating`) e o **valor é 1** para cada ocorrência da nota.
- **Shuffle e Sort (Fase 2)**: O framework organiza automaticamente as notas iguais e agrupa as ocorrências.
- **Reducer (Fase 3)**: Soma as ocorrências de cada nota, retornando o total de filmes para cada tipo de nota.

<br>

Esse processo permite **contabilizar o número de filmes** que receberam cada tipo de avaliação (de 1 a 5 estrelas) no dataset.


<br> <br>

---

<br> 

## 5. Executando Arquivo Python com o Job para o MapReduce

<br>

#### Como Executar um Job MapReduce ?

<br>

> Para executar um **Job MapReduce**, precisamos rodar um script Python que utiliza o framework Hadoop para processar os dados. Aqui está uma **explicação sobre como realizar essa execução**.

<br><br><br>

#### 5.1 Executando o Script Python:


Normalmente, para executar um script Python, bastaria abrir um terminal no diretório onde o arquivo se encontra e digitar:

<br>

```bash
    python AvaliaFilme.py
```

<br>

#### 5.2 Passando o Conjunto de Dados como Entrada:

No contexto do nosso laboratório, o arquivo Python `AvaliaFilme.py` **precisa receber como entrada um conjunto de dados que está armazenado no HDFS (sistema de arquivos distribuído do Hadoop)**.

Para isso, precisamos indicar corretamente o caminho do arquivo de dados no **HDFS** durante a execução do script, da seguinte forma:

<br>

```bash
    python AvaliaFilme.py hdfs:///mapred/u.data -r hadoop
```

<br>

- `hdfs:///mapred/u.data` é o caminho do arquivo de dados no HDFS.
- `-r hadoop` indica que o job será executado usando o Hadoop como backend.

<br>

#### 5.3 Explicando a Saída no Terminal (Indicadores de Execução Bem-Sucedida)

<i>**Job Completado com Sucesso**</i>: Quando o job é finalizado sem erros, você verá uma linha de confirmação, indicando que o processamento foi concluído com sucesso:

<br>

```bash
    Job job_1728940457090_0001 completed successfully
```
<br>

<i>**Map e Reduce Concluídos**</i>: O processo de MapReduce envolve duas etapas: **mapeamento (map)** e **redução (reduce)**. O status de 100% para ambas as fases confirma que o processamento foi concluído corretamente:

```bash
    map 100% reduce 100%
```

<br>

<i>**Resultado Final Exibido**</i>: Após a execução bem-sucedida do job, o resultado é extraído do **HDFS** e apresentado. No nosso exemplo, vemos a quantidade de filmes que receberam cada tipo de nota:

```bash
    "1"  6110
    "2"  11370
    "3"  27145
    "4"  34174
    "5"  21201
```

<br>

**Isso significa que**: 6.110 filmes receberam nota 1, 11.370 filmes receberam nota 2, 27.145 filmes receberam nota 3, 34.174 filmes receberam nota 4 e 21.201 filmes receberam nota 5.

<br>

<i>**Limpeza dos Diretórios Temporários**</i>: Após a conclusão do job, os diretórios temporários no **HDFS** são removidos automaticamente para manter o sistema organizado. Isso garante que nenhum arquivo desnecessário permaneça no sistema após o processamento:

```bash
    Removing HDFS temp directory hdfs:///user/hadoop/tmp/mrjob/AvaliaFilme.hadoop.20241016.205700.452291...
```

<br> <br>

---

<br> 