# Desafio 02
#### _bootcamp_ da Escola Supercomputador Santos Dumont - 2025
por Calebe de Paula Bianchini

### Você sabe contar?

Imagine uma matriz $M \times N$ tendo em cada posição $A=(a_{ij})$ números inteiros. Condidere também o número $k \in \mathbb{Z}$. Existe um problema que é encontrar a quantidade de submatrizes não-vazias que tem como resultado da soma de seus elementos o valor de $k$.

Algumas observações:
* a matriz pode conter números negativos
* uma submatriz é obtida eliminando linhas ou colunas do início ou do final de uma matriz

Por exemplo: considere uma matriz $2 \times 2$:

| | |
|---|---|
| 1 | 0 |
| 0 | 1 |


O resultado da soma das submatrizes com $k = 1$ é 6.

Neste caso, a contagem considerou a $matriz[0][0]$, a $matriz[1][1]$, as duas submatrizes linha ($1 \times 2$), e as duas submatrizes coluna ($2 \times 1$).

Um outro exemplo: considere a seguinte matriz  $2 \times 2$:

| | |
|----|----|
| 1  | -1 |
| -1 |  1 |

Neste caso, para o $k = 0$, o resultado é 5.

Mais uma vez, foram contabilizadas as duas submatrizes linha ($1 \times 2$), e as duas submatrizes coluna ($2 \times 1$)e a submatriz $2 \times 2$.


O código sequencial referente a essa solução pode ser visto a seguir:

In [None]:
%%writefile soma.cpp

#include <bits/stdc++.h>

using namespace std;

int A[1000][1000];
int ps[1010][1010];

typedef long long ll;

ll solve(int m, int n, int k) {
  for (int i = 1; i <= m; i++) {
    for (int j = 1; j <= n; j++) {
      ps[i][j] = A[i - 1][j - 1] + ps[i][j - 1];
    }
  }
  unordered_map<ll, ll> h;
  ll ans = 0;
  for (int j = 1; j <= n; j++) // O(m*n^2)
    for (int l = j; l <= n; l++) {
      h.clear();
      h[0] = 1;
      ll s = 0;
      for (int i = 1; i <= m; i++) {
        s += ps[i][l] - ps[i][j - 1];
        ans += h.find(s - k) != h.end() ? h[s - k] : 0;
        h[s]++;
      }
    }
  return ans;
}

int main() {
  int k, m, n;
  cin >> k >> m >> n;
  memset(A, 0, sizeof A);
  memset(ps, 0, sizeof ps);

  for (int i = 0; i < m; i++)
    for (int j = 0; j < n; j++)
      cin >> A[i][j];

  cout << solve(m, n, k) << endl;
  return 0;
}

Compilando e executando, teremos:

In [None]:
!g++ soma.cpp -o soma -Wall -O3 -std=c++11
!time -p ./soma < soma-1.in

### Desafio: você consegue gerar uma versão usando OpenMP?

Dicas:

* onde devemos criar a região paralela com o OpenMP
  + devemos utilizar alguma outra diretiva nessa regição paralela?
* será que cada iteração do laço de repetição pode ser executado de forma independente?
* o código tem, ao menos, 3 laços importantes: com _i_, com _l_ e com _j_ - qual desses desses deve ser analisado?
* a ordem de execução das iterações altera o resultado final da contagem de submatrizes?
* existe um _map_ nesse código - ele precisa ser controlado?

Vamos praticar!

In [None]:
%%writefile omp_soma.cpp

#include <bits/stdc++.h>

using namespace std;

int A[1000][1000];
int ps[1010][1010];

typedef long long ll;

ll solve(int m, int n, int k) {
  for (int i = 1; i <= m; i++) {
    for (int j = 1; j <= n; j++) {
      ps[i][j] = A[i - 1][j - 1] + ps[i][j - 1];
    }
  }
  unordered_map<ll, ll> h;
  ll ans = 0;
  for (int j = 1; j <= n; j++) // O(m*n^2)
    for (int l = j; l <= n; l++) {
      h.clear();
      h[0] = 1;
      ll s = 0;
      for (int i = 1; i <= m; i++) {
        s += ps[i][l] - ps[i][j - 1];
        ans += h.find(s - k) != h.end() ? h[s - k] : 0;
        h[s]++;
      }
    }
  return ans;
}

int main() {
  int k, m, n;
  cin >> k >> m >> n;
  memset(A, 0, sizeof A);
  memset(ps, 0, sizeof ps);

  for (int i = 0; i < m; i++)
    for (int j = 0; j < n; j++)
      cin >> A[i][j];

  cout << solve(m, n, k) << endl;
  return 0;
}

Compilando e executando...

In [None]:
!g++ ...

In [None]:
!./...

### Perguntas para pensar

* o resultado para 1 ou mais _threads_ se manteve o mesmo?
* o tempo de execução mudou proporcionalmente ao aumentar a quantidade de _threads_?
* e se a entrada de dados mudasse para _soma-2.in_? O desempenho ainda seria o mesmo?
* E se fosse o _soma-3.in_? Continuaria boa sua solução?

Maiores detalhes sobre Programação Paralela e OpenMP, vejam:

* __Programação Paralela e Distribuída__ _com MPI, OpenMP e OpenACC para computação de alto desempenho_, em [Casa do Código](https://www.casadocodigo.com.br/products/livro-programacao-paralela).

