# Insper

## Supercomputação - Avaliação Intermediária - 2º semestre de 2024

#### SEU NOME: Pedro Toledo Piza Civita

**Regras da prova**:

SOBRE HORÁRIOS:
- A prova estará liberada no Blackboard das 07h30 às 23h59 de 01/outubro/2024 (horário de Brasília);
- A prova tem duração aproximada de 03 horas (180 minutos);
- O aluno poderá realizar a prova ao longo do dia, no(s) horário(s) e espaço(s) de tempo que melhor lhe convier. Ao iniciar a prova você não precisará ficar 3 horas seguidas na sua realização;

SOBRE DÚVIDAS:
- O professor NÃO estará disponível fisicamente no Insper. O aluno que quiser tirar dúvidas, poderá fazê-lo via grupo de WhatsApp da prova. O link é: https://chat.whatsapp.com/IcnoFr2LkON1iYltj9SgDY

SOBRE SUBMISSÕES DA PROVA E DO PROJETO:
- A submissão da prova deve ser feita impreterivelmente até às 23h59 de 01/outubro/2024 (horário de Brasília). NÃO serão aceitas submissões após este horário;
- O aluno poderá fazer múltiplas submissões da prova. O sistema considerará a última submissão como oficial;
- A submissão da prova pode ser a resolução no jupyter notebook exportado no Colab ou ZIP com arquivos “.cpp” devidamente sinalizados (a qual questão se referenciam);

SOBRE A RESOLUÇÃO DA PROVA:
- A interpretação do enunciado faz parte da avaliação;
- É permitida a consulta ao material da disciplina (tudo o que estiver no repositório do Github da disciplina e no site https://liciascl.github.io/supercomp/. Isso também inclui suas próprias soluções aos exercícios de sala de aula, mas não inclui materiais não digitais, tampouco outros materiais além dos citados;
- É permitido consultar a documentação de C++ nos sites oficiais e links extras dos próprios enunciados;
- Seu pseudocódigo deve ser feito em Português, incluindo nomes de variáveis e comentários;


SOBRE QUESTÕES DE ÉTICA E PLÁGIO:
- A prova é individual. Qualquer consulta a outras pessoas durante a prova constitui violação do código de ética do Insper;
- Qualquer tentativa de fraude, como trechos idênticos ou muito similares, implicará em NOTA ZERO na prova a todos os envolvidos, sem prejuízo de outras sanções;
- Uso de Copilot ou ChatGPT ou correlatos para resolução pode implicar trechos similares entre alunos, caindo no item acima. Cuidado!

**_Boa prova!_**


# [2,0 pontos] Questão 01 - Problema do Subconjunto de Soma

**Contexto:**

O Problema do Subconjunto de Soma é um desafio clássico em ciência da computação e matemática, que se enquadra na categoria de problemas NP-Completo. Ele questiona se, dado um conjunto de números inteiros e um valor alvo, existe um subconjunto desses números cuja soma é igual ao valor alvo. Apesar de sua simplicidade conceitual, resolver este problema pode se tornar computacionalmente intensivo à medida que o tamanho do conjunto aumenta, tornando abordagens exaustivas impraticáveis para grandes conjuntos. Portanto, heurísticas e métodos aproximados se tornam ferramentas valiosas para encontrar soluções em tempo razoável.

**Questão:**

Considere um conjunto \( S = \{s_1, s_2, ..., s_n\} \) de números inteiros positivos e um valor alvo \( T \). Seu objetivo é desenvolver uma heurística para determinar se existe um subconjunto de \( S \) cuja soma é igual a \( T \). Sua solução não precisa ser ótima, mas deve ser capaz de encontrar uma resposta em um tempo razoável, mesmo para grandes valores de \( n \).

Para atingir este objetivo, você deve implementar o seguinte algoritmo heurístico em C++:

1. **Pré-processamento:** Ordene os números em \( S \) em ordem decrescente. Este passo visa a maximizar a eficiência da sua heurística, permitindo que grandes somas sejam alcançadas rapidamente, potencialmente aproximando-se de \( T \) mais rapidamente.

2. **Heurística de Aproximação:** Implemente uma função que percorra os números em \( S \) na ordem definida. Para cada número \( s_i \), decida se deve ou não incluí-lo no subconjunto candidato com base em uma regra heurística simples.

3. **Verificação e Saída:** Se, ao final do processo, a soma dos números no subconjunto candidato for igual a \( T \), sua função deve retornar `true`, indicando que uma solução foi encontrada. Caso contrário, retorne `false`.

**Pede-se**:
1. Implemente o algoritmo heurístico descrito acima em C++. (entregue o código)
2. Faça cenários de teste e comprove a corretude da sua solução.  
3. Discuta a eficácia da sua heurística. Em que cenários ela pode falhar em encontrar um subconjunto existente que some \( T \)? (entregue sua resposta justificada)


**DICA**:

Uma possível assinatura da sua função é:
```cpp
bool subsetSum(const vector<int>& set, int sum);
```


---

## Resposta  1 (Localizada na Pasta 'ex01')

O código a seguir implementa uma heurística para o Problema do Subconjunto de Soma:

1. **Função `encontrarSubconjunto`**:
   - Ordena o conjunto em ordem decrescente para priorizar a soma de números maiores.
   - Itera sobre os números, somando-os ao subconjunto candidato se não ultrapassarem o valor alvo.
   - Retorna `true` se a soma exata for encontrada ou `false` caso contrário.

2. **Função `gerarConjuntoAleatorio`**:
   - Gera um conjunto de números inteiros aleatórios de tamanho e valores máximos especificados pelo usuário, utilizado para testar a heurística.

3. **Função `main`**:
   - Recebe o tamanho do conjunto e o valor alvo do usuário.
   - Gera o conjunto aleatório e aplica a heurística `encontrarSubconjunto`.
   - Mede o tempo de execução da heurística com a biblioteca `chrono` e exibe o resultado, informando se o subconjunto foi encontrado e o tempo gasto.

A heurística é projetada para encontrar soluções aproximadas de forma eficiente, utilizando ordenação decrescente para acelerar a busca por subconjuntos que atingem o valor alvo. O uso de números aleatórios permite testar a solução em diferentes cenários.

```cpp
#include <iostream>
#include <vector>
#include <algorithm>
#include <chrono>
#include <cstdlib>
#include <ctime>

// Função que aplica a heurística para o Problema do Subconjunto de Soma
bool encontrarSubconjunto(const std::vector<int>& conjunto, int alvo) {
    // Faz uma cópia do conjunto original para ordenação
    std::vector<int> copiaConjunto = conjunto;
    
    // Ordenar em ordem decrescente
    std::sort(copiaConjunto.rbegin(), copiaConjunto.rend());

    int somaAtual = 0;

    // Itera pelos elementos do conjunto ordenado
    for (const auto& elem : copiaConjunto) {
        // Soma o elemento ao subconjunto se não ultrapassar o alvo
        if (somaAtual + elem <= alvo) {
            somaAtual += elem;
        }
        // Se a soma for igual ao alvo, retorna verdadeiro
        if (somaAtual == alvo) {
            return true;
        }
    }
    
    // Se não encontrar o subconjunto que atinge o alvo, retorna falso
    return false;
}

// Função para gerar um vetor de números aleatórios
std::vector<int> gerarConjuntoAleatorio(int tamanho, int valorMaximo) {
    std::vector<int> conjunto(tamanho);
    for (int& num : conjunto) {
        num = rand() % valorMaximo + 1;  // Gera números de 1 até valorMaximo
    }
    return conjunto;
}

int main() {
    srand(static_cast<unsigned>(time(0))); // Inicializa o gerador de números aleatórios com base no tempo atual

    // Entrada de dados
    int tamanhoConjunto, valorAlvo;
    
    std::cout << "Informe o tamanho do conjunto: ";
    std::cin >> tamanhoConjunto;
    
    std::cout << "Informe o valor alvo: ";
    std::cin >> valorAlvo;

    // Gera o conjunto de números aleatórios
    std::vector<int> conjunto = gerarConjuntoAleatorio(tamanhoConjunto, 100);

    // Mede o tempo de execução da heurística
    auto inicio = std::chrono::high_resolution_clock::now();
    bool encontrado = encontrarSubconjunto(conjunto, valorAlvo);
    auto fim = std::chrono::high_resolution_clock::now();
    std::chrono::duration<double> duracao = fim - inicio;

    // Exibe os resultados
    std::cout << "Conjunto (tamanho: " << conjunto.size() << "), Alvo: " << valorAlvo << ": "
              << (encontrado ? "Encontrado" : "Nao encontrado") << std::endl;
    std::cout << "Tempo de execucao: " << duracao.count() << " segundos" << std::endl;

    return 0;
}
```

### Discussão da Eficácia da Heurística

A heurística para o Problema do Subconjunto de Soma ordena o conjunto em ordem decrescente e seleciona os maiores números primeiro, mostrando eficiência em conjuntos grandes. O tempo de execução variou de milissegundos a segundos para conjuntos entre 1.200 e 3.000.000 elementos, o que demonstra sua capacidade de resolver o problema em tempo razoável.

#### Cenários de Teste:
1. **Tamanho: 1.200, Alvo: 8.292** 
   - Resultado: **Encontrado**, Tempo: 0.0001512 segundos
2. **Tamanho: 10.000, Alvo: 200.000** 
   - Resultado: **Encontrado**, Tempo: 0.0019696 segundos
3. **Tamanho: 999.999, Alvo: 72.802** 
   - Resultado: **Encontrado**, Tempo: 0.207558 segundos
4. **Tamanho: 19, Alvo: 19.000.001** 
   - Resultado: **Não encontrado**, Tempo: 9.8e-06 segundos
5. **Tamanho: 3.000.000, Alvo: 30.000.000** 
   - Resultado: **Encontrado**, Tempo: 0.615273 segundos

#### Eficiência e Falhas:

A heurística é eficiente, especialmente em conjuntos grandes, com tempos de execução baixos. No entanto, ela pode falhar em dois cenários principais:
1. **Combinações que exigem números pequenos.** A preferência por números grandes pode excluir combinações que envolvem números menores.
2. **Valores Alvo grandes em relação ao conjunto.** Quando o valor alvo é muito superior ao somatório do conjunto, a heurística não encontra a solução.

#### Conclusão:

A heurística é eficaz, mas pode falhar ao lidar com combinações que envolvem números pequenos ou valores alvo muito grandes em relação ao conjunto.

# [2,0 pontos] Questão 02 - Solução Ótima

A solução ótima do problema anterior é verificar todos os subconjuntos possíveis dos números de ( S ), calcular a soma de cada um deles e verificar se alguma destas soma é igual ao valor buscado. Essa solução, embora simples, pode não escalar bem para grandes entradas.


**Pede-se**:
1. Escreva o código da solução ótima em C++ (você pode usar recursão ou não)
;
2. Gere a solução para 10 entradas distintas em ordens de grandeza diferentes (algumas entradas pequenas, algumas médias, algumas grandes);
3. Compare o tempo de execução deste código nas 10 entradas. O comportamento está alinhado com o esperado? Justifique.




---

## Resposta 2 (Localizada na Pasta 'ex02')

### Código da Solução Ótima em C++


Este código implementa uma **solução exaustiva** para o problema do Subconjunto de Soma, utilizando recursão para explorar todas as combinações possíveis de elementos de um conjunto para determinar se existe um subconjunto cuja soma seja igual ao alvo. Aqui está uma breve explicação dos principais componentes:

1. **Função `subsetSumOptimal`**:
   - Essa função recursiva verifica todas as combinações de subconjuntos.
   - Retorna `true` se a soma de algum subconjunto é igual ao alvo, e `false` caso contrário.
   - A função considera dois casos em cada passo recursivo: incluir ou excluir o último elemento.

2. **Função `generateRandomSet`**:
   - Gera um vetor de inteiros aleatórios de tamanho e valores máximos definidos pelo usuário.

3. **Função `main`**:
   - Gera múltiplos conjuntos de tamanhos variáveis, ordenados em diferentes grandezas, e para cada conjunto, define um alvo.
   - Mede o tempo de execução para verificar se o subconjunto com a soma igual ao alvo existe, utilizando a função `subsetSumOptimal`.
   - Imprime o resultado e o tempo de execução para cada conjunto testado.

```cpp
#include <iostream>
#include <vector>
#include <algorithm>
#include <chrono>  // Biblioteca para medir o tempo de execução
#include <cstdlib> // Biblioteca para gerar números aleatórios
#include <ctime>   // Biblioteca para usar o tempo atual como semente

// Função que implementa a solução ótima usando recursão
bool subsetSumOptimal(const std::vector<int>& set, int n, int target) {
    // Caso base: se o alvo for 0, encontramos uma solução
    if (target == 0) {
        return true;
    }
    // Caso base: se não restam elementos e o alvo ainda não foi atingido
    if (n == 0 && target != 0) {
        return false;
    }
    // Se o último elemento é maior que o alvo, não o incluímos no subconjunto
    if (set[n - 1] > target) {
        return subsetSumOptimal(set, n - 1, target);
    }
    // Verifica se a soma pode ser encontrada incluindo ou excluindo o último elemento
    return subsetSumOptimal(set, n - 1, target) || subsetSumOptimal(set, n - 1, target - set[n - 1]);
}

// Função auxiliar para gerar um vetor aleatório de números inteiros grandes
std::vector<int> generateRandomSet(int size, int maxValue) {
    std::vector<int> set(size);
    for (int i = 0; i < size; i++) {
        set[i] = rand() % maxValue + 1;  // Gera números entre 1 e maxValue
    }
    return set;
}

int main() {
    srand(time(0)); // Inicializa a semente para geração de números aleatórios

    // Pequenas entradas (1ª ordem de grandeza)
    std::vector<int> smallSet1 = generateRandomSet(50, 10000);
    std::vector<int> smallSet2 = generateRandomSet(75, 10000);

    // Entradas médias (2ª ordem de grandeza)
    std::vector<int> mediumSet1 = generateRandomSet(100, 50000);
    std::vector<int> mediumSet2 = generateRandomSet(150, 50000);

    // Grandes entradas (3ª ordem de grandeza)
    std::vector<int> largeSet1 = generateRandomSet(200, 100000); // Reduzido de 400 para 200
    std::vector<int> largeSet2 = generateRandomSet(250, 100000); // Reduzido de 450 para 250

    // Entradas ainda maiores (4ª ordem de grandeza)
    std::vector<int> extraLargeSet1 = generateRandomSet(300, 500000); // Reduzido de 700 para 300
    std::vector<int> extraLargeSet2 = generateRandomSet(350, 500000); // Reduzido de 800 para 350

    // Entradas ainda maiores (5ª ordem de grandeza) - reduzido levemente
    std::vector<int> extraExtraLargeSet1 = generateRandomSet(400, 1000000); // Reduzido de 700 para 400
    std::vector<int> extraExtraLargeSet2 = generateRandomSet(450, 1000000); // Reduzido de 750 para 450

    // Alvos para cada conjunto
    std::vector<int> targets = {10000, 15000, 25000, 40000, 75000, 100000, 200000, 300000, 450000, 550000};

    // Vetores de teste para entradas pequenas, médias, grandes e muito grandes
    std::vector<std::vector<int>> testSets = {
        smallSet1, smallSet2,
        mediumSet1, mediumSet2,
        largeSet1, largeSet2,
        extraLargeSet1, extraLargeSet2,
        extraExtraLargeSet1, extraExtraLargeSet2
    };

    // Executar o algoritmo para as entradas geradas
    for (int i = 0; i < testSets.size(); i++) {
        auto start = std::chrono::high_resolution_clock::now();
        bool result = subsetSumOptimal(testSets[i], testSets[i].size(), targets[i]);
        auto end = std::chrono::high_resolution_clock::now();
        std::chrono::duration<double> duration = end - start;

        std::cout << "Conjunto " << i + 1 << " (tamanho: " << testSets[i].size() << "), Alvo " << targets[i]
                  << ": " << (result ? "Sim" : "Nao") << std::endl;
        std::cout << "Tempo de execucao: " << duration.count() << " segundos" << std::endl;
    }

    return 0;
}

```

### Geração de Soluções para 10 Entradas Distintas

Foram utilizados conjuntos com tamanhos variados e alvos correspondentes:

- **Pequenos**: 50, 75 elementos (alvos: 10.000, 15.000)
- **Médios**: 100, 150 elementos (alvos: 25.000, 40.000)
- **Grandes**: 200, 250 elementos (alvos: 75.000, 100.000)
- **Muito grandes**: 300, 350, 400, 450 elementos (alvos até 550.000)

### Comparação de Tempos de Execução

```
Conjunto 1 (tamanho: 50), Alvo 10000: Sim, Tempo: 2.48e-05 segundos
Conjunto 2 (tamanho: 75), Alvo 15000: Sim, Tempo: 0.0001109 segundos
Conjunto 3 (tamanho: 100), Alvo 25000: Sim, Tempo: 0.0003085 segundos
Conjunto 4 (tamanho: 150), Alvo 40000: Sim, Tempo: 0.0001879 segundos
Conjunto 5 (tamanho: 200), Alvo 75000: Sim, Tempo: 0.0003108 segundos
Conjunto 6 (tamanho: 250), Alvo 100000: Sim, Tempo: 4.2e-06 segundos
Conjunto 7 (tamanho: 300), Alvo 200000: Sim, Tempo: 0.001569 segundos
Conjunto 8 (tamanho: 350), Alvo 300000: Sim, Tempo: 0.0259928 segundos
Conjunto 9 (tamanho: 400), Alvo 450000: Sim, Tempo: 0.746099 segundos
Conjunto 10 (tamanho: 450), Alvo 550000: Sim, Tempo: 27.3396 segundos
```

### Análise do Comportamento

Os tempos de execução aumentam **exponencialmente** com o tamanho do conjunto, o que é esperado devido à complexidade **O(2^n)** da solução exaustiva. O problema do **Subset Sum** é **NP-completo**, e embora a solução funcione bem para conjuntos pequenos e médios, torna-se impraticável para conjuntos grandes devido à explosão combinatória.

- **Conjuntos pequenos**: Executam rapidamente em microssegundos.
- **Conjuntos médios e grandes**: O tempo de execução aumenta significativamente, chegando a segundos para conjuntos maiores.

Este comportamento está **alinhado com o esperado** para problemas exaustivos, onde o número de subconjuntos possíveis cresce exponencialmente com o tamanho do conjunto.

# [1,5 ponto] Questão 03 - Aleatorização

Em sala de aula, nós implementamos diversas estratégias para a mochila
binária. Explique a importância de buscar um balanço entre _exploration_ e _exploitation_. Dê um exemplo de como buscamos atingir _exploration_ e outro de como buscamos atingir _exploitation_ no Problema do Subconjunto de Soma. Elabore um pseudocódigo que combine tais estratégias e avalie criticamente sua efetividade.

---

## Resposta 3

Nos algoritmos de otimização combinatória, como no problema da mochila binária ou do subconjunto de soma, é fundamental equilibrar _exploration_ (exploração) e _exploitation_ (exploração intensiva).

### _Exploration_ (Exploração):
Exploração busca novas áreas do espaço de soluções, evitando que o algoritmo fique preso em máximos locais. No problema do subconjunto de soma, pode-se explorar aleatorizando a escolha de subconjuntos ou embaralhando a ordem dos itens, o que permite testar diferentes combinações.

### _Exploitation_ (Exploração Intensiva):
A exploração intensiva visa otimizar soluções já conhecidas, refinando a busca para melhorar a solução dentro de áreas promissoras. No subconjunto de soma, uma abordagem gananciosa que prioriza itens com maior valor para maximizar a soma é um exemplo de _exploitation_.

### Pseudocódigo Combinando _Exploration_ e _Exploitation_:

```pseudocode
function MochilaExplorationExploitation(itens, capacidade):
    melhor_valor = 0
    melhor_solucao = []
    
    for iteracao = 1 to MAX_ITER:
        # Exploration: Embaralha os itens para explorar novas soluções
        shuffle(itens)
        
        solucao_atual = []
        valor_atual = 0
        peso_atual = 0
        
        for item in itens:
            # Exploitation: Adiciona o item se ele couber na mochila
            if peso_atual + item.peso <= capacidade:
                solucao_atual.append(item)
                valor_atual += item.valor
                peso_atual += item.peso
        
        # Atualiza a melhor solução
        if valor_atual > melhor_valor:
            melhor_valor = valor_atual
            melhor_solucao = solucao_atual
    
    return melhor_valor, melhor_solucao
```

### Avaliação Crítica:
O pseudocódigo combina _exploration_ (embaralhamento) com _exploitation_ (ganância) para equilibrar a busca por novas soluções com a otimização das soluções encontradas. No entanto, a abordagem aleatória pode não garantir a solução ótima em todos os casos, e mais iterações podem ser necessárias para grandes problemas.

# [2,0  pontos] Questão 04 - GPU e Thrust

1.	Acesse o link abaixo e faça uma cópia no seu Google Drive: https://colab.research.google.com/drive/14_EZNglXn2VXe3kpDW3XgEsRkB6R1jjp?usp=sharing
2.	Complete o código seguindo a especificação. ATENÇÃO: você provavelmente precisará complementar os imports para o código rodar!
3.	Baixe sua cópia do notebook preenchido e executado, e disponibilize junto com sua solução.

_OBSERVAÇÃO_: recomendo o uso do Colab na realização da questão de GPU. Use implementação e teste local por conta e risco. =)


---

## Resposta 4 (Localizada na Pasta 'ex04')

O código foi completado no Google Colab e o arquivo .ipynb está disponibilizado na pasta 'ex04', conforme a especificação. O código completo e executado foi baixado e está disponível para análise.

### Código Implementado:

```cpp
// %%writefile gpu.cu
#include <thrust/device_vector.h>
#include <thrust/host_vector.h>
#include <thrust/transform.h>
#include <thrust/transform_reduce.h>
#include <thrust/functional.h>
#include <thrust/random.h>
#include <iostream>
#include <cmath>
#include <chrono>
#include <cuda_runtime.h>

// Functor para gerar valores aleatórios
struct GerarAleatorios {
    float min, max;

    __host__ __device__
    GerarAleatorios(float _min = 0.0f, float _max = 1.0f) : min(_min), max(_max) {}

    __host__ __device__
    float operator()(unsigned int n) const {
        thrust::default_random_engine engine;
        thrust::uniform_real_distribution<float> distrib(min, max);
        engine.discard(n); // Garante a variação na sequência de números
        return distrib(engine);
    }
};

// Functor para calcular o quadrado dos elementos
struct Quadrado {
    __host__ __device__
    float operator()(const float& x) const {
        return x * x;
    }
};

// Functor para normalizar o vetor
struct Normalizar {
    float norma;

    __host__ __device__
    Normalizar(float _norma) : norma(_norma) {}

    __host__ __device__
    float operator()(const float& x) const {
        return x / norma;
    }
};

int main() {
    const int N = 1000000;
    thrust::counting_iterator<unsigned int> contador(0);
    thrust::host_vector<float> vetor_host(N);

    // Preenchendo o vetor com valores aleatórios
    thrust::transform(contador, contador + N, vetor_host.begin(), GerarAleatorios(1.f, 2.f));

    // Verificar a memória antes da cópia para GPU
    size_t memoriaLivreAntes, memoriaTotal;
    cudaMemGetInfo(&memoriaLivreAntes, &memoriaTotal);

    // Medir tempo para a cópia do host para a GPU
    auto inicioCopia = std::chrono::high_resolution_clock::now();
    thrust::device_vector<float> vetor_dispositivo = vetor_host;
    auto fimCopia = std::chrono::high_resolution_clock::now();
    std::chrono::duration<double> duracaoCopia = fimCopia - inicioCopia;

    // Verificar memória após a cópia
    size_t memoriaLivreAposCopia;
    cudaMemGetInfo(&memoriaLivreAposCopia, &memoriaTotal);

    // Calcular a norma L2 do vetor
    auto inicioNorma = std::chrono::high_resolution_clock::now();
    float norma = std::sqrt(thrust::transform_reduce(vetor_dispositivo.begin(), vetor_dispositivo.end(), Quadrado(), 0.0f, thrust::plus<float>()));
    auto fimNorma = std::chrono::high_resolution_clock::now();
    std::chrono::duration<double> duracaoNorma = fimNorma - inicioNorma;

    std::cout << "Norma calculada: " << norma << std::endl;

    // Normalizar o vetor
    auto inicioNormalizar = std::chrono::high_resolution_clock::now();
    thrust::transform(vetor_dispositivo.begin(), vetor_dispositivo.end(), vetor_dispositivo.begin(), Normalizar(norma));
    auto fimNormalizar = std::chrono::high_resolution_clock::now();
    std::chrono::duration<double> duracaoNormalizar = fimNormalizar - inicioNormalizar;

    // Imprimir alguns elementos normalizados
    for (int i = 0; i < 40; ++i) {
        std::cout << "Elemento normalizado " << i << ": " << vetor_dispositivo[i] << std::endl;
    }

    // Verificar memória após normalização
    size_t memoriaLivreAposNormalizacao;
    cudaMemGetInfo(&memoriaLivreAposNormalizacao, &memoriaTotal);

    // Imprimir tempos de execução e uso de memória
    std::cout << "\n--- Resultados ---" << std::endl;
    std::cout << "Tempo de cópia para GPU: " << duracaoCopia.count() << " segundos" << std::endl;
    std::cout << "Tempo de cálculo da norma: " << duracaoNorma.count() << " segundos" << std::endl;
    std::cout << "Tempo de normalização: " << duracaoNormalizar.count() << " segundos" << std::endl;
    std::cout << "Memória total da GPU: " << memoriaTotal / (1024 * 1024) << " MB" << std::endl;
    std::cout << "Memória livre antes da cópia: " << memoriaLivreAntes / (1024 * 1024) << " MB" << std::endl;
    std::cout << "Memória livre após a cópia: " << memoriaLivreAposCopia / (1024 * 1024) << " MB" << std::endl;
    std::cout << "Memória livre após a normalização: " << memoriaLivreAposNormalizacao / (1024 * 1024) << " MB" << std::endl;

    return 0;
}
```

### Resultado Gerado:

```
Norma calculada: 1527.27

Elemento normalizado 0: 0.000654778
Elemento normalizado 1: 0.000710439
Elemento normalizado 2: 0.00104851
Elemento normalizado 3: 0.00123856
Elemento normalizado 4: 0.00128854
Elemento normalizado 5: 0.000778965
Elemento normalizado 6: 0.00099195
Elemento normalizado 7: 0.000915364
Elemento normalizado 8: 0.000826904
Elemento normalizado 9: 0.00114159
Elemento normalizado 10: 0.000713396
Elemento normalizado 11: 0.00102169
Elemento normalizado 12: 0.00103599
Elemento normalizado 13: 0.00118484
Elemento normalizado 14: 0.00104233
Elemento normalizado 15: 0.000989813
Elemento normalizado 16: 0.00122875
Elemento normalizado 17: 0.00130631
Elemento normalizado 18: 0.00113026
Elemento normalizado 19: 0.00128766
Elemento normalizado 20: 0.000849295
Elemento normalizado 21: 0.000933725
Elemento normalizado 22: 0.00124372
Elemento normalizado 23: 0.00108232
Elemento normalizado 24: 0.00124505
Elemento normalizado 25: 0.00128434
Elemento normalizado 26: 0.000762611
Elemento normalizado 27: 0.00121654
Elemento normalizado 28: 0.00124853
Elemento normalizado 29: 0.00084728
Elemento normalizado 30: 0.00126778
Elemento normalizado 31: 0.000926257
Elemento normalizado 32: 0.000856729
Elemento normalizado 33: 0.000991896
Elemento normalizado 34: 0.000913676
Elemento normalizado 35: 0.00117188
Elemento normalizado 36: 0.00110599
Elemento normalizado 37: 0.00101113
Elemento normalizado 38: 0.00104265
Elemento normalizado 39: 0.000716068

--- Resultados ---

Tempo de cópia para GPU: 0.00113469 segundos
Tempo de cálculo da norma: 0.000705254 segundos
Tempo de normalização: 7.8561e-05 segundos
Memória total da GPU: 15102 MB
Memória livre antes da cópia: 14999 MB
Memória livre após a cópia: 14995 MB
Memória livre após a normalização: 14993 MB
CPU times: user 9.39 ms, sys: 0 ns, total: 9.39 ms
Wall time: 705 ms
```

# [1,5 pontos] Questão 05 - Busca global

Um algoritmo de busca global, em termos gerais, é um algoritmo de otimização que procura encontrar a melhor solução possível para um problema dentro de um espaço de busca, considerando todas as possíveis soluções. Em outras palavras, ele tenta encontrar o máximo ou mínimo global de uma função objetivo em um domínio especificado.

Em alguns problemas a "busca global" não se trata de uma otimização, mas de encontrar a única resposta correta possível. Por exemplo, o cálculo de Fibonacci é algoritmo que dado um número `N`, o `fib(N)` assume apenas um valor correto.

Observe o código abaixo para cálculo do Fibonacci. Altere o programa para receber `N` como uma entrada, e rode o programa para alguns valores de N, tanto pequenos (abaixo de 30) quanto grandes (acima de 30 --- só não exagere!), comparando os tempos de execução.  

Código-fonte:

```cpp
#include <iostream>

int fib(int n) {
    if (n <= 1) {
        return n;
    } else {
        return fib(n - 1) + fib(n - 2);
    }
}

int main() {
    int n = 30; // Valor de n para calcular Fibonacci
    int result = fib(n);
    std::cout << "Fibonacci de " << n << " é " << result << std::endl;
    return 0;
}
```

Note que tempo de execução para esta implementação aumenta consideravelmente quando `N` cresce.

**Pede-se**: Implemente  uma otimização para esse algoritmo de modo que sua implementação seja pela abordagem de memorização (*memoization*), ou seja, salvar cálculos já realizados para reaproveitá-los. Apresente código-fonte, resultados e compare os resultados de tempo de execução obtidos.

---

## Resposta 5 (Localizada na Pasta 'ex05')

Este código compara o desempenho entre duas abordagens para calcular o número de Fibonacci: **recursão pura** e **memoization**.

### Abordagens:

1. **Recursão Pura**:
   - Implementa a sequência de Fibonacci de maneira direta, recalculando valores repetidamente, o que torna a abordagem ineficiente para valores grandes de `n`, devido à redundância. A complexidade é **O(2^n)**.

2. **Memoization**:
   - Armazena os resultados já calculados em um vetor (`memo`), evitando recalcular subproblemas. Isso transforma a complexidade para **O(n)**, otimizando o tempo de execução.

### Função `calcular_fibonacci(int n)`:
   - Compara as duas abordagens para valores de `n` que variam de 6 a 48, medindo o tempo de execução de cada uma com a biblioteca `chrono`.

```cpp
#include <iostream>
#include <vector>
#include <chrono> // Biblioteca para medir o tempo de execução

// Função de Fibonacci usando Recursão Pura
long long fib(int n) {
    if (n <= 1) {
        return n;
    } else {
        return fib(n - 1) + fib(n - 2);
    }
}

// Função de Fibonacci usando Memoization
long long fib_memo(int n, std::vector<long long>& memo) {
    if (n <= 1) {
        return n;
    }
    if (memo[n] != -1) {
        return memo[n];
    }
    memo[n] = fib_memo(n - 1, memo) + fib_memo(n - 2, memo);
    return memo[n];
}

// Função para calcular Fibonacci e medir os tempos de execução
void calcular_fibonacci(int n) {
    // Medir tempo para Recursão Pura
    auto start_pura = std::chrono::high_resolution_clock::now();
    long long result_pura = fib(n);
    auto end_pura = std::chrono::high_resolution_clock::now();
    std::chrono::duration<double> duration_pura = end_pura - start_pura;

    std::cout << "Fibonacci de " << n << " = " << result_pura << " (Recursao Pura)" << std::endl;
    std::cout << "Tempo de execucao (Recursao Pura): " << duration_pura.count() << " segundos" << std::endl;

    // Medir tempo para Memoization
    std::vector<long long> memo(n + 1, -1);
    auto start_memo = std::chrono::high_resolution_clock::now();
    long long result_memo = fib_memo(n, memo);
    auto end_memo = std::chrono::high_resolution_clock::now();
    std::chrono::duration<double> duration_memo = end_memo - start_memo;

    std::cout << "Fibonacci de " << n << " = " << result_memo << " (Memoization)" << std::endl;
    std::cout << "Tempo de execucao (Memoization): " << duration_memo.count() << " segundos" << std::endl;
    std::cout << "---------------------------------------------" << std::endl;
}

int main() {
    // Lista de valores fixos, começando em 6 e aumentando de 6 em 6 até 48
    std::vector<int> valores = {6, 12, 18, 24, 30, 36, 42, 48};

    // Para cada valor na lista, calcular o Fibonacci usando ambos os métodos
    for (int n : valores) {
        calcular_fibonacci(n);
    }

    return 0;
}
```

### Comparação dos Tempos de Execução:

Com base nos resultados:

```
Fibonacci de 6 = 8 (Recursão Pura)
Tempo de execução (Recursão Pura): 2e-07 segundos
Fibonacci de 6 = 8 (Memoization)
Tempo de execução (Memoization): 1e-07 segundos
---------------------------------------------
Fibonacci de 12 = 144 (Recursão Pura)
Tempo de execução (Recursão Pura): 9e-07 segundos
Fibonacci de 12 = 144 (Memoization)
Tempo de execução (Memoization): 3e-07 segundos
---------------------------------------------
Fibonacci de 18 = 2584 (Recursão Pura)
Tempo de execução (Recursão Pura): 1.43e-05 segundos
Fibonacci de 18 = 2584 (Memoization)
Tempo de execução (Memoization): 3e-07 segundos
---------------------------------------------
Fibonacci de 24 = 46368 (Recursão Pura)
Tempo de execução (Recursão Pura): 0.0001764 segundos
Fibonacci de 24 = 46368 (Memoization)
Tempo de execução (Memoization): 5e-07 segundos
---------------------------------------------
Fibonacci de 30 = 832040 (Recursão Pura)
Tempo de execução (Recursão Pura): 0.0045067 segundos
Fibonacci de 30 = 832040 (Memoization)
Tempo de execução (Memoization): 6e-07 segundos
---------------------------------------------
Fibonacci de 36 = 14930352 (Recursão Pura)
Tempo de execução (Recursão Pura): 0.0772693 segundos
Fibonacci de 36 = 14930352 (Memoization)
Tempo de execução (Memoization): 9e-07 segundos
---------------------------------------------
Fibonacci de 42 = 267914296 (Recursão Pura)
Tempo de execução (Recursão Pura): 1.26333 segundos
Fibonacci de 42 = 267914296 (Memoization)
Tempo de execução (Memoization): 7e-07 segundos
---------------------------------------------
Fibonacci de 48 = 4807526976 (Recursão Pura)
Tempo de execução (Recursão Pura): 21.7986 segundos
Fibonacci de 48 = 4807526976 (Memoization)
Tempo de execução (Memoization): 8e-07 segundos
---------------------------------------------
```

### Análise:

- Para valores pequenos de `n`, a diferença entre recursão pura e memoization é mínima. No entanto, à medida que `n` cresce, o tempo de execução da recursão pura aumenta exponencialmente, enquanto a memoization permanece rápida.
  
- Por exemplo, calcular `fib(48)` com recursão pura leva cerca de **21.7986 segundos**, enquanto a memoization faz o mesmo cálculo em **8e-07 segundos**.

### Conclusão:

Memoization evita o recalculo de subproblemas, resultando em uma solução muito mais eficiente, especialmente para valores grandes de `n`. Essa técnica transforma uma abordagem de complexidade exponencial em linear, sendo ideal para problemas que apresentam sobreposição de subproblemas, como o cálculo de Fibonacci.

# [1.0 ponto] Questão 06 - Uso de Cluster em Supercomputação

Esta disciplina estuda estratégias para resolver problemas complexos em tempo computacionalmente razoável.

**Pede-se**:
1. Qual é a importância de aliar estratégias de implementação (Software) com recursos computacionais disponíveis (Hardware) para melhor endereçamento do problema?
2. Defina o que é Slurm e sua importância na programação paralela em larga escala.
3. Considerando o job configurado pelo ".slurm" abaixo, descreva quais recursos computacionais estão sendo solicitados ao Cluster, as limitações e condições de execução.

```
#!/bin/bash
#SBATCH --job-name=job_paralelo
#SBATCH --nodes=4
#SBATCH --ntasks-per-node=8
#SBATCH --time=02:00:00
#SBATCH --partition=compute
#SBATCH --output=resultado.out
#SBATCH --error=erro.err

# Carregar módulos necessários
module load mpi

# Executar o programa paralelo
mpirun -np 32 ./meu_programa_paralelo
```



---

## Resposta 6

1. **Alinhamento de Software com Hardware:**
   A eficiência na resolução de problemas depende de como o software utiliza os recursos do hardware. Algoritmos otimizados podem aproveitar ao máximo a capacidade de processamento paralela, memória e GPUs, reduzindo o tempo de execução. Estratégias como paralelização e uso de bibliotecas especializadas são essenciais para maximizar o desempenho em clusters de supercomputação.

2. **O que é Slurm e sua Importância:**
   Slurm (Simple Linux Utility for Resource Management) é um sistema de gerenciamento de jobs para supercomputação. Ele organiza e distribui tarefas entre nós do cluster, otimizando o uso de recursos e permitindo que múltiplos usuários compartilhem o ambiente de forma escalável. Slurm controla o agendamento e execução de jobs em ambientes de larga escala.

3. **Recursos Solicitados no Arquivo `.slurm`:**
   - **Nós:** 4 nós do cluster (`--nodes=4`).
   - **Tarefas por nó:** 8 tarefas por nó, totalizando 32 tarefas (`--ntasks-per-node=8`).
   - **Tempo:** Limite de 2 horas para execução (`--time=02:00:00`).
   - **Partição:** Executado na partição `compute` (`--partition=compute`).
   - **Saída e Erros:** Resultados e erros são registrados em `resultado.out` e `erro.err`.

   O comando `mpirun -np 32 ./meu_programa_paralelo` executa o programa com 32 processos paralelos, distribuídos entre os 4 nós, aproveitando ao máximo os recursos do cluster.