## Curso Intensivo de Threads em C++

**Introdução:**

Este curso intensivo visa apresentar os conceitos básicos de threads em C++ de forma concisa e prática. O objetivo é fornecer aos estudantes um entendimento sólido dos fundamentos de multithreading e suas aplicações na otimização de desempenho de programas.

**O que são Threads?**

Threads são unidades independentes de execução dentro de um processo. Elas compartilham a mesma memória e recursos do processo pai, mas podem executar código de forma independente. Em termos práticos, podemos visualizar threads como unidades de trabalho menores que permitem a execução simultânea de tarefas dentro de um programa.

**Benefícios do Multithreading:**

* **Melhor desempenho:** Permite a execução paralela de tarefas, reduzindo o tempo total de execução.
* **Melhor utilização de recursos:** Permite que o CPU seja usado com maior eficiência, especialmente em sistemas multi-core.
* **Melhor experiência do usuário:** Permite que programas respondam mais rapidamente e de forma mais fluida, mesmo quando executam tarefas intensivas.

**Conceitos Fundamentais:**

* **Criação de Threads:** A criação de threads em C++ é feita utilizando a classe `std::thread`.

**Exemplo 1:**

```cpp
#include <iostream>
#include <thread>

void tarefa1() {
  for (int i = 0; i < 5; ++i) {
    std::cout << "Tarefa 1: " << i << std::endl;
  }
}

void tarefa2() {
  for (int i = 0; i < 5; ++i) {
    std::cout << "Tarefa 2: " << i << std::endl;
  }
}

int main() {
  std::thread t1(tarefa1);
  std::thread t2(tarefa2);

  t1.join();  // Aguarda a thread t1 terminar
  t2.join();  // Aguarda a thread t2 terminar

  return 0;
}
```

Neste exemplo, duas threads são criadas: `t1` e `t2`, executando as funções `tarefa1` e `tarefa2`, respectivamente. As threads são iniciadas simultaneamente e executam de forma independente, imprimindo seus resultados na tela. A função `join()` garante que o programa principal espere as threads terminarem antes de finalizar.

**Exemplo 2:**

```cpp
#include <iostream>
#include <thread>
#include <vector>

void calculaSoma(int inicio, int fim, int &resultado) {
  resultado = 0;
  for (int i = inicio; i <= fim; ++i) {
    resultado += i;
  }
}

int main() {
  int n = 1000; // Número de elementos a serem somados
  int numThreads = 4; // Número de threads a serem usadas

  std::vector<std::thread> threads;
  std::vector<int> resultados(numThreads);

  // Cria as threads e distribui o trabalho
  for (int i = 0; i < numThreads; ++i) {
    int inicio = i * (n / numThreads) + 1;
    int fim = (i + 1) * (n / numThreads);
    threads.push_back(std::thread(calculaSoma, inicio, fim, std::ref(resultados[i])));
  }

  // Aguarda as threads terminarem
  for (auto &t : threads) {
    t.join();
  }

  // Calcula a soma total
  int somaTotal = 0;
  for (int i = 0; i < numThreads; ++i) {
    somaTotal += resultados[i];
  }

  std::cout << "A soma total é: " << somaTotal << std::endl;

  return 0;
}
```

Neste exemplo, o programa calcula a soma dos números de 1 a 1000 usando múltiplas threads. O trabalho é dividido entre as threads, cada uma calculando a soma de um subconjunto dos números. No final, as somas parciais são combinadas para obter a soma total.

* **Execução de Threads:** Após a criação, a execução da thread é iniciada automaticamente.

* **Sincronização de Threads:**  É crucial garantir a sincronização entre threads quando elas compartilham recursos. A falta de sincronização pode levar a condições de corrida e inconsistência de dados.

**Sincronização de Threads:**

* **Mutexes:** Um mutex (mutual exclusion) é um mecanismo de bloqueio que garante que apenas uma thread tenha acesso a um recurso compartilhado por vez, evitando conflitos simultâneos.

**Exemplo 1:**

```cpp
#include <iostream>
#include <thread>
#include <mutex>

std::mutex mtx; // Declaração do mutex
int contador = 0;

void incrementaContador() {
  for (int i = 0; i < 10000; ++i) {
    std::lock_guard<std::mutex> lock(mtx); // Bloqueia o mutex
    contador++;
  }
}

int main() {
  std::thread t1(incrementaContador);
  std::thread t2(incrementaContador);

  t1.join();
  t2.join();

  std::cout << "Contador: " << contador << std::endl;
  return 0;
}
```

Neste exemplo, um mutex é usado para proteger o acesso à variável `contador`. A função `incrementaContador` incrementa o contador 10.000 vezes, mas antes de cada incremento, ela obtém um lock do mutex. Somente uma thread pode obter o lock por vez, garantindo que o contador seja incrementado corretamente mesmo com múltiplas threads executando a função simultaneamente.

**Exemplo 2:**

```cpp
#include <iostream>
#include <thread>
#include <mutex>
#include <random>

std::mutex mtx;
std::vector<int> dadosCompartilhados(10);

void produtor(int id) {
  std::random_device rd;
  std::mt19937 gen(rd());
  std::uniform_int_distribution<> distrib(1, 100);

  for (int i = 0; i < 10; ++i) {
    std::lock_guard<std::mutex> lock(mtx);
    dadosCompartilhados[i] = distrib(gen);
    std::cout << "Produtor " << id << " gerou dado: " << dadosCompartilhados[i] << std::endl;
  }
}

void consumidor(int id) {
  for (int i = 0; i < 10; ++i) {
    std::lock_guard<std::mutex> lock(mtx);
    std::cout << "Consumidor " << id << " consumiu dado: " << dadosCompartilhados[i] << std::endl;
  }
}

int main() {
  std::thread produtor1(produtor, 1);
  std::thread produtor2(produtor, 2);
  std::thread consumidor1(consumidor, 1);
  std::thread consumidor2(consumidor, 2);

  produtor1.join();
  produtor2.join();
  consumidor1.join();
  consumidor2.join();

  return 0;
}
```

Neste exemplo, temos dois produtores e dois consumidores acessando um vetor de dados compartilhado. O mutex garante que as threads não interfiram umas nas outras ao acessar e modificar o vetor, evitando inconsistência de dados.

* **Condition Variables:** Uma condition variable é usada para notificar threads que estão esperando por um evento específico. Isso é útil quando uma thread precisa esperar que outra thread modifique um estado específico antes de prosseguir.

**Exemplo 1:**

```cpp
#include <iostream>
#include <thread>
#include <mutex>
#include <condition_variable>

std::mutex mtx;
std::condition_variable cv;
bool dadosProntos = false;

void produtor() {
  std::unique_lock<std::mutex> lock(mtx);
  // Simula a produção de dados...
  dadosProntos = true;
  cv.notify_one(); // Notifica o consumidor
}

void consumidor() {
  std::unique_lock<std::mutex> lock(mtx);
  cv.wait(lock, []{ return dadosProntos; }); // Espera até que dadosProntos seja true
  // Processa os dados...
  std::cout << "Dados processados!" << std::endl;
}

int main() {
  std::thread prod(produtor);
  std::thread cons(consumidor);

  prod.join();
  cons.join();
  return 0;
}
```

Neste exemplo, o produtor produz dados e notifica o consumidor através da condition variable `cv`. O consumidor espera que os dados estejam prontos usando a função `wait`. A função `wait` libera o lock do mutex e entra em um estado de espera até que a condição seja satisfeita. Quando o produtor notifica o consumidor, o lock é retomado e o consumidor pode processar os dados.

**Exemplo 2:**

```cpp
#include <iostream>
#include <thread>
#include <mutex>
#include <condition_variable>
#include <queue>

std::mutex mtx;
std::condition_variable cv;
std::queue<int> filaCompartilhada;

void produtor() {
  for (int i = 1; i <= 10; ++i) {
    std::unique_lock<std::mutex> lock(mtx);
    filaCompartilhada.push(i);
    std::cout << "Produtor adicionou " << i << " à fila." << std::endl;
    cv.notify_one();
  }
}

void consumidor() {
  while (true) {
    std::unique_lock<std::mutex> lock(mtx);
    cv.wait(lock, [] { return !filaCompartilhada.empty(); });
    int valor = filaCompartilhada.front();
    filaCompartilhada.pop();
    std::cout << "Consumidor consumiu " << valor << " da fila." << std::endl;
  }
}

int main() {
  std::thread prod(produtor);
  std::thread cons(consumidor);

  prod.join();
  cons.join();

  return 0;
}
```

Neste exemplo, temos um produtor que adiciona elementos a uma fila compartilhada e um consumidor que remove elementos da fila. A condition variable `cv` é usada para sincronizar o produtor e o consumidor. O produtor notifica o consumidor quando adiciona um novo elemento à fila. O consumidor, por sua vez, espera que a fila não esteja vazia antes de consumir um elemento.

* **Futures:** Um future é um objeto que representa o resultado de uma tarefa assíncrona. Você pode usar futures para obter o resultado de uma thread que está executando uma tarefa separada.

**Exemplo 1:**

```cpp
#include <iostream>
#include <future>
#include <thread>

int calcularSoma(int inicio, int fim) {
  int soma = 0;
  for (int i = inicio; i <= fim; ++i) {
    soma += i;
  }
  return soma;
}

int main() {
  std::future<int> resultado = std::async(std::launch::async, calcularSoma, 1, 100);

  // Faz outras tarefas...

  int soma = resultado.get(); // Obtém o resultado da thread
  std::cout << "A soma é: " << soma << std::endl;
  return 0;
}
```

Neste exemplo, a função `calcularSoma` é executada em uma thread separada usando `std::async`. A variável `resultado` do tipo `std::future` armazena o resultado da thread. O programa principal pode então usar `resultado.get()` para obter o resultado da thread quando estiver disponível.

**Exemplo 2:**

```cpp
#include <iostream>
#include <future>
#include <thread>
#include <vector>

int calcularFatorial(int n) {
  if (n == 0) {
    return 1;
  }
  return n * calcularFatorial(n - 1);
}

int main() {
  std::vector<std::future<int>> resultados;
  std::vector<int> numeros = {5, 10, 3, 7};

  // Cria uma tarefa para cada número
  for (int num : numeros) {
    resultados.push_back(std::async(std::launch::async, calcularFatorial, num));
  }

  // Imprime os resultados
  for (auto &fut : resultados) {
    std::cout << "Fatorial de " << fut.get() << " é " << fut.get() << std::endl;
  }

  return 0;
}
```

Neste exemplo, o programa calcula o fatorial de vários números de forma assíncrona. A função `calcularFatorial` é executada em threads separadas, e os resultados são armazenados em objetos `std::future`. O programa principal espera que as threads terminem e, em seguida, imprime os resultados.


**Localidade Espacial do Cache e Desempenho:**

A localidade espacial de dados ocorre quando elementos de dados próximos em termos de endereço de memória são acessados sequencialmente. Explorar a localidade espacial do cache pode significativamente melhorar o desempenho de um programa.

**Hierarquia de Memória:**

A CPU possui acesso direto à memória principal (RAM), mas este acesso é relativamente lento. Para acelerar o acesso à memória, a CPU usa uma hierarquia de memória, que inclui caches. Os caches são pequenos blocos de memória de acesso rápido que armazenam cópias de dados recentemente usados da memória principal.

**Localidade:**

Localidade refere-se à tendência de que um programa acesse dados que estão próximos em termos de tempo ou espaço. Existem dois tipos de localidade:

**Localidade Temporal:** Um dado que é acessado em um momento é provavelmente acessado novamente no futuro próximo.
**Localidade Espacial:** Dados próximos na memória são provavelmente acessados sequencialmente.

**Explorar Localidade Espacial:**

Explorar a localidade espacial do cache é crucial para otimizar o desempenho de programas. Ao organizar os dados na memória de forma a maximizar a localidade espacial, podemos reduzir o número de cache misses, acelerando o acesso à memória.


**Exemplo: Multiplicação de Matriz por Vetor:**

**1. Percorrendo a matriz por linha:**


```cpp
#include <iostream>
#include <vector>
#include <chrono>

int main() {
  const int N = 1000;
  std::vector<std::vector<int>> matriz(N, std::vector<int>(N, 1));
  std::vector<int> vetor(N, 1);
  std::vector<int> resultado(N, 0);

  // Multiplicação de Matriz por Vetor (Não Otimizado)
  auto inicio = std::chrono::high_resolution_clock::now();
  for (int i = 0; i < N; ++i) {
    for (int j = 0; j < N; ++j) {
      resultado[i] += matriz[i][j] * vetor[j];
    }
  }
  auto fim = std::chrono::high_resolution_clock::now();
  auto duracao = std::chrono::duration_cast<std::chrono::microseconds>(fim - inicio);
  std::cout << "Tempo de execução (não otimizado): " << duracao.count() << " microsegundos" << std::endl;

  return 0;
}
```



**2. Percorrendo a matriz por coluna:**



```cpp
#include <iostream>
#include <vector>
#include <chrono>

int main() {
  const int N = 1000;
  std::vector<std::vector<int>> matriz(N, std::vector<int>(N, 1));
  std::vector<int> vetor(N, 1);
  std::vector<int> resultado(N, 0);

  // Multiplicação de Matriz por Vetor (Otimizado)
  auto inicio = std::chrono::high_resolution_clock::now();
  for (int j = 0; j < N; ++j) {
    for (int i = 0; i < N; ++i) {
      resultado[i] += matriz[i][j] * vetor[j];
    }
  }
  auto fim = std::chrono::high_resolution_clock::now();
  auto duracao = std::chrono::duration_cast<std::chrono::microseconds>(fim - inicio);
  std::cout << "Tempo de execução (otimizado): " << duracao.count() << " microsegundos" << std::endl;

  return 0;
}
```


**3. Código Utilizando Blocagem:**

```cpp
#include <iostream>
#include <vector>
#include <chrono>

int main() {
  const int N = 1000;
  const int BLOCK_SIZE = 16; // Tamanho do bloco
  std::vector<std::vector<int>> matriz(N, std::vector<int>(N, 1));
  std::vector<int> vetor(N, 1);
  std::vector<int> resultado(N, 0);

  // Multiplicação de Matriz por Vetor (Com Blocagem)
  auto inicio = std::chrono::high_resolution_clock::now();
  for (int j = 0; j < N; j += BLOCK_SIZE) {
    for (int i = 0; i < N; ++i) {
      for (int k = j; k < std::min(j + BLOCK_SIZE, N); ++k) {
        resultado[i] += matriz[i][k] * vetor[k];
      }
    }
  }
  auto fim = std::chrono::high_resolution_clock::now();
  auto duracao = std::chrono::duration_cast<std::chrono::microseconds>(fim - inicio);
  std::cout << "Tempo de execução (blocagem): " << duracao.count() << " microsegundos" << std::endl;

  return 0;
}
```

Neste código, a matriz é processada em blocos de tamanho `BLOCK_SIZE`. A blocagem aumenta a localidade espacial do cache ao garantir que elementos próximos sejam acessados sequencialmente. O tamanho do bloco deve ser escolhido de forma a otimizar o uso do cache.

**Desabilitando Otimizações do Compilador:**

Para medir o tempo de execução real do código, é necessário desabilitar otimizações do compilador que podem afetar o desempenho. Isso pode ser feito usando flags de compilação:

**GCC:**

* `-O0`  Desabilita todas as otimizações.
* `-fno-tree-vectorize`  Desabilita a vetorização automática.
* `-fno-inline`  Desabilita a inlining de funções.

**Clang:**

* `-O0`  Desabilita todas as otimizações.
* `-fno-tree-vectorize`  Desabilita a vetorização automática.
* `-fno-inline`  Desabilita a inlining de funções.

**Exemplo de Compilação com GCC:**

```bash
g++ -O0 -fno-tree-vectorize -fno-inline multiplica_matriz.cpp -o multiplica_matriz
```



**Comparando PThreads e Threads C++:**

* **PThreads:** Uma biblioteca de threads POSIX (Portable Operating System Interface) disponível em vários sistemas operacionais Unix-like.
* **Threads C++:** Recursos de threading integrados na linguagem C++ a partir do C++11.

**Vantagens e Desvantagens:**

| Feature | PThreads | Threads C++ |
|---|---|---|
| **Portabilidade:** | Alta | Alta, mas pode variar entre compiladores |
| **Facilidade de uso:** | Mais complexo, requer código mais detalhado | Mais simples e intuitivo, com recursos de alto nível |
| **Desempenho:** | Geralmente mais rápido | Geralmente mais lento, mas a diferença diminui com a otimização do compilador |
| **Recursos:** |  | Mais recursos modernos, como `std::future`, `std::promise` e `std::packaged_task` |
| **Integração com C++:** |  | Integração nativa com a linguagem |

**PThreads:**

* **Vantagens:**
    * Portabilidade para vários sistemas operacionais.
    * Maior controle sobre o gerenciamento de threads.
* **Desvantagens:**
    * Código mais complexo e verboso.
    * Menos recursos modernos comparado ao Threads C++.

**Threads C++:**

* **Vantagens:**
    * Mais fácil de usar e integrar com o código C++.
    * Recursos modernos para simplificar o desenvolvimento concorrente.
* **Desvantagens:**
    * Menos portabilidade entre compiladores, dependendo da versão C++ e das implementações.
    * Potencialmente mais lento que PThreads em alguns casos.

**Conclusão:**

Este curso intensivo apresentou os conceitos básicos de threads em C++, incluindo criação, execução e sincronização, além de uma análise comparativa com PThreads e uma introdução à exploração da localidade espacial do cache. As informações aqui fornecidas servem como base para iniciar sua jornada no desenvolvimento de programas concorrentes em C++. É fundamental praticar e explorar recursos adicionais para dominar o poder do multithreading e otimizar o desempenho de seus programas.





## Para entregar

1. **Crie dois executáveis para a parte de multiplicação de matrizes: um que percorre em ordem de linha e outro que percorre em ordem de coluna.**

   Faça agora a multiplicação de matrizes considerando:  
   
   $A * B = C$, onde:

  1. Dimensões de A: M x N

  2. Dimensões de B: N x X (qq dimensão razoável, mas não um vetor)

  3. Consequentemente, dimensões de C: M x X

  se quiser, pode utilizar matrizes quadradas.

2. **Crie um terceiro executável para utilizar corretamente o cache (hierarquia de memória)**:

   Para utilizar corretamente o cache (L1, L2) utilizando a abordagem de **blocagem** apresentada no [artigo da Intel](https://www.intel.com/content/www/us/en/developer/articles/technical/putting-your-data-and-code-in-order-optimization-and-memory-part-1.html).

   Você deve fazer a análise da velocidade do seu algoritmo compilando o código da seguinte forma:

  a. desligando todas as otimizações do compilador, como indicado acima.

  b. ligando a otimização máxima.

   Para cada opção, você deve medir o tempo de execução, seguindo o exemplo mostrado nos trechos de código acima.

3. **Valgrind**

  Faça também uma análise do padrão de acesso ao cache de todas as versões utilizando o utilitário `valgrind`. Veja abaixo um exemplo de saída que o **`valgrind`** dá:

```
$ valgrind --tool=cachegrind ./matmulcol
==23104== Cachegrind, a cache and branch-prediction profiler
==23104== Copyright (C) 2002-2015, and GNU GPL'd, by Nicholas Nethercote et al.
==23104== Using Valgrind-3.11.0 and LibVEX; rerun with -h for copyright info
==23104== Command: ./matmulcol
==23104==
--23104-- warning: L3 cache found, using its data for the LL simulation.
Column order; tempo para multiplicar coluna: 0.085526 secs
==23104==
==23104== I   refs:      17,994,092
==23104== I1  misses:         1,051
==23104== LLi misses:         1,040
==23104== I1  miss rate:       0.01%
==23104== LLi miss rate:       0.01%
==23104==
==23104== D   refs:      12,641,331  (7,385,328 rd   + 5,256,003 wr)
==23104== D1  misses:     1,117,327  (    2,580 rd   + 1,114,747 wr)
==23104== LLd misses:       134,009  (    2,378 rd   +   131,631 wr)
==23104== D1  miss rate:        8.8% (      0.0%     +      21.2%  )
==23104== LLd miss rate:        1.1% (      0.0%     +       2.5%  )
==23104==
==23104== LL refs:        1,118,378  (    3,631 rd   + 1,114,747 wr)
==23104== LL misses:        135,049  (    3,418 rd   +   131,631 wr)
==23104== LL miss rate:         0.4% (      0.0%     +       2.5%  )


$ valgrind --tool=cachegrind ./matmulrow
==23161== Cachegrind, a cache and branch-prediction profiler
==23161== Copyright (C) 2002-2015, and GNU GPL'd, by Nicholas Nethercote et al.
==23161== Using Valgrind-3.11.0 and LibVEX; rerun with -h for copyright info
==23161== Command: ./matmulrow
==23161==
--23161-- warning: L3 cache found, using its data for the LL simulation.
Row order; tempo para multiplicar: 0.053935 secs
==23161==
==23161== I   refs:      17,993,582
==23161== I1  misses:         1,049
==23161== LLi misses:         1,038
==23161== I1  miss rate:       0.01%
==23161== LLi miss rate:       0.01%
==23161==
==23161== D   refs:      12,641,128  (7,385,188 rd   + 5,255,940 wr)
==23161== D1  misses:       134,287  (    2,579 rd   +   131,708 wr)
==23161== LLd misses:       134,009  (    2,378 rd   +   131,631 wr)
==23161== D1  miss rate:        1.1% (      0.0%     +       2.5%  )
==23161== LLd miss rate:        1.1% (      0.0%     +       2.5%  )
==23161==
==23161== LL refs:          135,336  (    3,628 rd   +   131,708 wr)
==23161== LL misses:        135,047  (    3,416 rd   +   131,631 wr)
==23161== LL miss rate:         0.4% (      0.0%     +       2.5%  )
```

## Entregas

1. Você deve entregar um código fonte para cada versão do algoritmo implementado.
2. Você deve entregar um relatório em PDF com as evidências de todas as **compilações** e **execuções** dos códigos.
3. Você deve fazer uma análise da saída do **`valgrind`**  para o **item 3** discutindo os resultados.