# Paralelismo Teoria

Consiste no uso de múltiplos processadores, simultaneamente, para resolver um problema.  
Tem por objetivo o aumento do desempenho, ou seja, a redução do tempo necessário para resolver um problema.  

Usamos paralelismo normalmente por dois motivos:  

1. **Problemas cada vez mais complexos e/ou maiores**  
2. **Clock dos processadores se aproximando dos limites ditados pela física**


## Taxonomia de Flynn

### A Taxonomia de Flynn é uma forma de classificar computadores paralelos.  Proposta por **Flynn, em 1972**, baseia-se no fato de que um computador executa uma sequência de instruções sobre uma sequência de dados.  

![Taxonomia de Flynn](img/Image1.png)

## Sistemas MultiCore

### ![Taxonomia de Flynn2](img/Image.png)
### ![Sistemas Multicore](img/Image2.png)

## SMP (Symmetric Multiprocessing)

### Contexto Histórico
Não faz muito tempo que todos os PCs continham um único processador de propósito geral.

### Avanço Tecnológico
- **Demanda crescente por desempenho**: Com o aumento da necessidade de maior capacidade de processamento, e a redução dos custos dos processadores, os fabricantes passaram a introduzir sistemas com uma organização SMP.

### Definição de SMP
O termo **SMP** se refere a:
1. **Arquitetura de hardware computacional**: Vários processadores trabalhando em um único sistema de memória compartilhada.
2. **Comportamento do sistema operacional**: Reflete a arquitetura SMP, possibilitando a utilização eficiente de múltiplos processadores.

## Dependências

### O que é Dependência?
- Uma **dependência** ocorre quando uma iteração depende de resultados calculados em iterações anteriores.

### Paralelizabilidade
- Quando **não existe nenhuma dependência** em um loop, dizemos que ele é **ingenuamente paralelizável**.  
Isso significa que as iterações podem ser executadas simultaneamente, sem a necessidade de sincronização entre elas.

## Tipos de Paralelismo

### Paralelismo de Dados
- A **mesma operação (lenta)** é executada para todos os elementos de um **conjunto de dados (grande)**.
- Exemplos:
  - Aplicação de filtros em imagens.
  - Operações matemáticas sobre matrizes.

### Paralelismo de Tarefas
- **Duas ou mais tarefas independentes** são executadas em paralelo.
- Quando há dependências:
  - O problema é **quebrado em partes independentes**.
  - As partes são executadas na **ordem adequada** para evitar conflitos.

![Taxonomia de Flynn](img/image3.png)

# Paralelismo Prática (OPENMP)

## Sintaxe

![Taxonomia de Flynn](img/Image5.png)

![Taxonomia de Flynn](img/Image6.png)

![Taxonomia de Flynn](img/Image7.png)

![Taxonomia de Flynn](img/Image8.png)

![Taxonomia de Flynn](img/Image9.png)

![Taxonomia de Flynn](img/Image10.png)

![Taxonomia de Flynn](img/Image11.png)

![Taxonomia de Flynn](img/Image13.png)

![Taxonomia de Flynn](img/Image14.png)

![Taxonomia de Flynn](img/Image15.png)


## Compilar OpenMP

![Taxonomia de Flynn](img/Image4.png)

## Sections

### O que é?
A diretiva **`sections`** divide o trabalho de forma **não iterativa** em seções separadas, onde cada seção será executada por uma **thread** do grupo.  
- Representa a implementação de **paralelismo funcional** (ou seja, paralelismo por código).

### Observações Importantes

1. **Definição de Seções**:  
   - A diretiva **`sections`** define a parte do código sequencial onde as **seções independentes** serão especificadas, utilizando a diretiva **`section`**.

2. **Execução das Seções**:  
   - Cada **`section`** será executada por uma **thread** do grupo de threads.

3. **Sincronização Implícita**:  
   - Existe um **ponto de sincronização implícita** no final da diretiva **`sections`**, a menos que se especifique o atributo **`nowait`**.

4. **Alocação de Threads**:  
   - Caso existam **mais threads do que seções**, o OpenMP decidirá:
     - Quais threads executarão os blocos de **`section`**.
     - Quais threads ficarão inativas.

## Tasks

### O que é uma Tarefa?
- Uma **tarefa** é definida em um **bloco estruturado de código**.
- Representa uma **unidade de trabalho independente**.

### Características das Tarefas

1. **Aninhamento de Tarefas**:  
   - As tarefas podem ser **aninhadas**, ou seja, uma tarefa pode **gerar outras novas tarefas**.

2. **Alocação de Threads**:  
   - Cada **thread** pode ser alocada para executar uma **tarefa**.

3. **Execução Não Ordenada**:  
   - Não há uma ordenação específica para o início das tarefas, elas são iniciadas conforme disponibilidade.

4. **Independência**:  
   - As tarefas são projetadas para serem **independentes**, permitindo maior flexibilidade e paralelismo.

![Taxonomia de Flynn](img/Image12.png)

## Visão Geral
O **método de escalonamento (`schedule`)** em OpenMP define como as iterações de um loop são atribuídas às threads. Aqui está uma explicação detalhada dos métodos **static**, **dynamic** e **guided**, com exemplos práticos.

### Exemplo
Loop com 16 iterações (`for (int i = 0; i < 16; i++)`) e 4 threads:

- **`schedule(static)`** (padrão):
  - Iterações são divididas igualmente:
    - Thread 0: `{0, 1, 2, 3}`
    - Thread 1: `{4, 5, 6, 7}`
    - Thread 2: `{8, 9, 10, 11}`
    - Thread 3: `{12, 13, 14, 15}`

- **`schedule(static, 2)`**:
  - Iterações divididas em blocos de 2:
    - Thread 0: `{0, 1, 8, 9}`
    - Thread 1: `{2, 3, 10, 11}`
    - Thread 2: `{4, 5, 12, 13}`
    - Thread 3: `{6, 7, 14, 15}`

### Quando usar
- **Workloads previsíveis e uniformes**, como processamento de imagens:
```cpp
#pragma omp parallel for schedule(static)
for (int i = 0; i < num_rows; i++) {
    process_row(image[i]); // Cada linha leva o mesmo tempo
}

### 2. **Dynamic Scheduling**
- **Como funciona**:
  - As threads solicitam blocos de iterações dinamicamente durante a execução.
  - O tamanho do bloco é definido por `chunk_size`. O padrão é `chunk_size = 1`.
  - Ideal para workloads imprevisíveis ou não uniformes.

#### Exemplo
Loop com 16 iterações, 4 threads e `schedule(dynamic, 2)`:
- Blocos são distribuídos dinamicamente:
  - Thread 0: `{0, 1}`
  - Thread 1: `{2, 3}`
  - Threads que terminarem primeiro recebem o próximo bloco:
    - Ex.: Thread 0 -> `{4, 5}`, Thread 1 -> `{6, 7}`, e assim por diante.

#### Quando usar
- **Workloads imprevisíveis ou irregulares**, como busca em listas de tarefas:
```cpp
#pragma omp parallel for schedule(dynamic, 2)
for (int i = 0; i < num_tasks; i++) {
    process_task(tasks[i]); // Algumas tarefas levam mais tempo
}



### 3. Guided Scheduling

**Como funciona:**
- As threads recebem blocos de iterações dinamicamente, mas o tamanho dos blocos diminui exponencialmente.
- Começa com blocos grandes e reduz progressivamente até o tamanho mínimo especificado por `chunk_size`.

**Exemplo:**

Loop com 16 iterações, 4 threads e `schedule(guided, 2)`:

- **Blocos grandes no início:**
  - Thread 0: `{0, 1, 2, 3, 4, 5}`
  - Thread 1: `{6, 7, 8, 9}`
- **Blocos menores conforme o trabalho avança:**
  - Thread 0: `{10, 11}`
  - Thread 1: `{12, 13}`
- **Pequenos blocos finais:**
  - Thread 0: `{14}`
  - Thread 1: `{15}`

**Quando usar:**

Workloads com tempo decrescente ao longo do loop, como multiplicação de matrizes esparsas:

```c
#pragma omp parallel for schedule(guided, 4)
for (int i = 0; i < num_rows; i++) {
    multiply_sparse_row(matrix[i], vector); // Linhas maiores processadas primeiro
}


### Comparação dos Métodos

| **Método**  | **Divisão das Iterações**                                | **Quando Usar**                                        |
|-------------|---------------------------------------------------------|-------------------------------------------------------|
| **Static**  | Divisão fixa em blocos determinados no início.           | Workloads previsíveis e uniformes.                   |
| **Dynamic** | Blocos distribuídos dinamicamente conforme threads terminam. | Workloads imprevisíveis ou irregulares.              |
| **Guided**  | Blocos grandes no início, diminuindo exponencialmente.   | Workloads com tempo decrescente ao longo do loop.    |
| **Auto**    | O sistema decide o método ideal.                         | Cenários experimentais ou genéricos.                 |


## Geração de Números Aleatórios em Ambientes Paralelos

A geração de números aleatórios em ambientes paralelos é complicada porque é necessário garantir que cada thread tenha números **independentes**, evitando que compartilhem o mesmo estado, o que pode causar:

- **Conflitos nos resultados**, diminuindo a precisão e a acurácia do algoritmo.
- **Impactos no desempenho**.

### Solução com Sincronização

Uma solução possível é **sincronizar o acesso** ao gerador de números aleatórios, utilizando áreas críticas. Contudo, isso apresenta uma desvantagem significativa:

> O código se torna quase inteiramente **sequencial**, levando a perdas de desempenho.

### Solução com RNG para cada thread

A falta de acurácia e precisão, nesse caso, não vem do acesso concorrente. O principal problema é que cada thread utiliza um gerador de números aleatórios com “seeds” diferentes, o que pode introduzir:

- **Viés entre as distribuições**: as sequências geradas por cada thread podem não ser **independentes** ou **bem distribuídas** quando combinadas.

Esses desafios destacam a complexidade de implementar soluções robustas para geração de números aleatórios em sistemas paralel

# MPI: Message Passing Interface

Paralelismo de tarefas, em memória distribuída

## Características Principais

- **Assume que não há compartilhamento de memória** entre os processos.

### Responsabilidades do Programador

1. **Dividir os dados**:
   - Garantir que cada processo receba apenas os dados necessários para realizar sua parte do trabalho.

2. **Trabalhar com interações bilaterais**:
   - Utilizar operações como `send` e `receive` para a comunicação entre processos.

3. **Reduzir a comunicação (quando possível)**:
   - Minimizar a quantidade de dados transferidos entre os processos para otimizar o desempenho geral do programa.

![Taxonomia de Flynn](img/Image16.png)

## Conceitos do MPI


### Rank
- Cada processo possui uma única **identificação (rank)**, atribuída automaticamente pelo sistema ao iniciar.
- Essa identificação é:
  - **Contínua**: começa em `0` e vai até `n-1` processos.
  - Usada para diferenciar e endereçar os processos.

### Group
- Um **grupo** é um conjunto ordenado de `N` processos.
- Cada grupo está associado a um **communicator**.
- Inicialmente, todos os processos pertencem a um grupo padrão chamado **MPI_COMM_WORLD**.

### Communicator
- O **communicator** define:
  - Uma **coleção de processos** (grupo).
  - O **contexto** no qual os processos podem se comunicar.
- O MPI utiliza a combinação de **grupo** e **contexto** para:
  - Garantir uma comunicação segura.
  - Prevenir problemas no envio de mensagens entre os processos.

![Taxonomia de Flynn](img/Image17.png)

## Sintaxe

![Taxonomia de Flynn](img/Image18.png)

![Taxonomia de Flynn](img/Image19.png)

![Taxonomia de Flynn](img/Image20.png)

![Taxonomia de Flynn](img/Image21.png)

## Parametros

### MPI_Send(&mensagem, 1, MPI_INT, rank + 1, 0, MPI_COMM_WORLD);

- **1.** O endereço da variável a ser enviada, nesse caso **mensagem**.
- **2.** A quantidade de elementos a serem enviados de certo tipo, nesse caso **1**.
- **3.** O tipo a ser enviado, nesse caso **MPI_INT**
- **4.** O rank de destino, nesse caso **rank + 1**
- **5.** A tag da mensagem, nesse caso **0**
- **6.** O comunicador que define o grupo de processos, nesse caso **MPI_COMM_WORLD** 

### MPI_Recv(&mensagem, 1, MPI_INT, size - 1, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);

- **1.** O endereço da variável a ser recebida, nesse caso **mensagem**.
- **2.** A quantidade de elementos a serem recebidos de certo tipo, nesse caso **1**.
- **3.** O tipo a ser recebido, nesse caso **MPI_INT**
- **4.** O rank de envio, nesse caso **size -1**
- **5.** A tag da mensagem, nesse caso **0**
- **6.** O comunicador que define o grupo de processos, nesse caso **MPI_COMM_WORLD** 
- **7.** Status da mensagem, nesse caso ignoramos ele **MPI_STATUS_IGNORE** 

### Broadcast e Reduce

Mandar uma mensagem para todos os processos: MPI_Bcast

#### MPI_Bcast(&numIterations, 1, MPI_INT, 0, MPI_COMM_WORLD);

- **1.** O endereço da variável a ser propagada, nesse caso **numIterations**.
- **2.** A quantidade de elementos a serem propagados de certo tipo, nesse caso **1**.
- **3.** O tipo a ser propagado, nesse caso **MPI_INT**
- **4.** O rank do processo que irá realizar a propagação, nesse caso **0**
- **5.** O comunicador que define o grupo de processos, nesse caso **MPI_COMM_WORLD** 

#### MPI_Reduce(&local_sum, &global_sum, 1, MPI_INT, MPI_SUM, 0, MPI_COMM_WORLD);

- **1.** O endereço das variáveis dos processos a serem reduzidas, nesse caso **local_sum**.
- **2.** Variável onde será guardada a redução, nesse caso **global_sum**.
- **3.** A quantidade de elementos a serem reduzidos, nesse caso **1**.
- **4.** O tipo a ser propagado, nesse caso **MPI_INT**
- **4.** A função de redução, nesse caso **MPI_SUM**
- **5.** O rank do processo que irá realizar a propagação, nesse caso **0**
- **6.** O comunicador que define o grupo de processos, nesse caso **MPI_COMM_WORLD** 

![Taxonomia de Flynn](img/Image22.png)

### Scatter/Gather

Root manda uma quantidade igual de dados para todos os outros processos

#### MPI_Scatter(data.data(), localSize, MPI_INT, localData.data(), localSize, MPI_INT, 0, MPI_COMM_WORLD);

- **1.** Representa o buffer de envio contendo os dados a serem distribuídos, nesse caso **data**.
- **2.** Número de elementos a serem enviados para cada processo, nesse caso **localSize = data.size()/n_processos**.
- **3.** Tipo de dado do buffer de envio, nesse caso **MPI_INT**
- **4.** Buffer de recepção local em cada processo, nesse caso **localData.data()**
- **5.** Número de elementos que cada processo espera receber, nesse caso **localSize**
- **6.** Tipo de dado do buffer de recepção, nesse caso **MPI_INT**
- **7.** Rank do processo root, aquele que contém o array original a ser distribuído., nesse caso **0**
- **8.** O comunicador que inclui todos os processos participantes da operação, nesse caso **MPI_COMM_WORLD**

#### MPI_Scatterv(data.data(), send_counts.data(), displs.data(), MPI_INT, local_data.data(), local_chunk_size, MPI_INT, 0, MPI_COMM_WORLD);

- **1.** Representa o buffer de envio contendo os dados a serem distribuídos, nesse caso **data**.
- **2.** Número de elementos a serem enviados para cada processo, nesse caso **send_counts.data()**.
- **3.** Index de Início da chunk de cada processo, nesse caso **displs.data()**.
- **4.** Tipo de dado do buffer de envio, nesse caso **MPI_INT**
- **5.** Buffer de recepção local em cada processo, nesse caso **localData.data()**
- **6.** Número de elementos que cada processo espera receber, nesse caso **local_chunk_size**
- **7.** Tipo de dado do buffer de recepção, nesse caso **MPI_INT**
- **8.** Rank do processo root, aquele que contém o array original a ser distribuído., nesse caso **0**
- **9.** O comunicador que inclui todos os processos participantes da operação, nesse caso **MPI_COMM_WORLD**

#### MPI_Gather(&localAverage, 1, MPI_DOUBLE, localAverages.data(), 1, MPI_DOUBLE, 0, MPI_COMM_WORLD);

- **1.** Endereço do dado a ser enviado por cada processo, nesse caso **localAverage**.
- **2.** Número de elementos a serem enviados para cada processo, nesse caso **1**.
- **3.** Tipo de dado do buffer de envio, nesse caso **MPI_DOUBLE**
- **4.** Ponteiro para o buffer onde os dados coletados serão armazenados no processo root, nesse caso **localAverages.data()**
- **5.** Número de elementos esperados de cada processo, nesse caso **1**
- **6.** Tipo de dado esperado de cada processo, nesse caso **MPI_DOUBLE**
- **7.** Rank do processo root,onde os dados coletados serão armazenados, nesse caso **0**
- **8.** O comunicador que inclui todos os processos participantes da operação, nesse caso **MPI_COMM_WORLD**

![Taxonomia de Flynn](img/Image24.png)

![Taxonomia de Flynn](img/Image23.png)