# Relatório Parcial : Maratona de Filmes

Alunos: Bernardo Cunha Capoferri, Lívia Sayuri Makuta.



## Índice :
* [Objetivo do projeto](#first-bullet)
* [Heurística gulosa, aleatória e estratégias misturadas](#second-bullet)
* [Implementação e explicação da lógica utilizada no código](#third-bullet)
* [Considerações sobre o profiling](#fourth-bullet)
* [Comparação entre as heurísticas conforme muda o valor](#fifth-bullet)

# Objetivo do projeto <a class="anchor" id="first-bullet"></a>

O projeto parte do seguinte cenário: em um final de semana você quer assistir o máximo de filmes posssíveis. Entretanto, para que isso aconteça, existem algumas restrições de horário e de categorias. Isso implica nas seguintes situações: o usuário pode assistir apenas um filme durante um intervalo de tempo, e precisa atender a quantidade de filmes por categoria que são desejados. Isso em forma de dados equivaleria ao seguinte:

- Como entrada temos uma quantidade de filmes `n` inteiros disponíveis;
- Além disso, também temos uma quantidade `m` inteiros que representa o número máximo de filmes que podem ser assistidos em cada categoria (comédia, drama, ação, etc).
- Por fim, temos 'n' trios de inteiros que representam a hora de início, a hora de fim e a categoria do filmes: `H[i], F[i], C[i]`, respectivamente.


Dessa forma, o formato de dados de entrada seguiria o seguinte exemplo:

``` txt
10 4
1 3 1 2 
11 13 3
14 15 3
10 16 2
10 14 1
11 17 2
11 14 3
13 15 3
14 15 1
12 16 4
12 13 4
```

Sendo nesse caso:

- `n = 10`, ou seja, existem 10 filmes disponíveis para serem assitidos.
- `m = 1, 3, 1, 2`, ou seja, podem ser assistidos: 1 filme para a categoria 1, 3 filmes para a categoria 2, 1 filme para a categoria 3 e 2 filmes para a categoria 4.
- `(H[1], F[1], C[1]) = (11, 13, 3); (H[2], F[2], C[2]) = (14, 15, 3)` e assim por diante. Ou seja, o filme 1 começa às 11h, termina às 13h e pertence a categoria 3, enquanto o filme 2 começa às 14, termina às 15h e pertence a categoria 3.

Logo, o objetivo do projeto é conseguir agrupar o máximo de filmes que podem ser assistidos em um dia e seguindo as restrições impostas. assim, como saída de dados nosso programa deve retornar: um inteiro que representa o número máximo dos filmes e os filmes que podem ser assistidos. Exemplo:

```txt
Foram vistos 2 filmes.
12 13 4
14 15 1
```

# Heurística gulosa, aleatória e estratégias misturadas <a class="anchor" id="second-bullet"></a>

Neste tópico será explicado como as heurísticas foram implementadas no nosso código em C++. Mas antes, importante ressaltar que todos os dados de entrada e arquivos no formato `.txt`foram gerados pelo código de exemplo passado pelo professor no site da disciplina: https://insper.github.io/supercomp/projetos/ .

## Heurística gulosa

Antes de explicar como essa heurística foi implementada, primeiro começaremos explicando seu conceito e como ela funciona. Dessa forma, tem-se que a ideia principal da heurística gulosa (Greedy) é tentar encontrar uma solução  global ótima. E para fazer isso, seguimos a seguinte abordagem:


1) Primeiro escolhemos uma solução inicial. No caso, escolhemos ordenar os filmes em ordem crescente do horário de fim. Depois, com eles ordenados, escolhemos ordenar novamente apenas aqueles filmes cujos horários de fim são os mesmos. E para esses, aplicamos uma ordenção crescente em relação ao horário de início.

2) Depois, aplicamos as restrições e escolhemos o primeiro filme que as atendia de acordo com os horários de fim que estão organizado de maneira crescente.

Logo, como pode ser visto, o objetivo da heurística gulosa é encontrar a solução ótima em um problema de otimização. No entanto, nem sempre é possível garantir que a solução encontrada seja a melhor possível, pois pode haver soluções melhores que não foram consideradas devido à abordagem local do algoritmo.

Apesar disso, a heurística gulosa é muito utilizada em problemas de otimização, especialmente quando o tamanho do problema é grande e não é possível encontrar a solução ótima de forma eficiente. Além disso, o algoritmo pode ser modificado e combinado com outras técnicas - como faremos posteriormente - para melhorar a qualidade da solução encontrada.

## Aleatorização

Por sua vez, também existe a estratégia de aleatorização para construir algoritmos de busca local. Essa estratégia pode ser usada de maneira isolada ou em conjunto com outra estratégia. No geral, ela consiste na introdução de um elemento de aleatoriedade em um algoritmo para aumentar a capacidade de exploração do espaço de soluções e evitar que o algoritmo fique preso em máximos locais. Como ele é aleatório, ele não é consistente, e pode ser que essa variação possa nem sempre resultar em boas soluções, mas mesmo assim é uma estratégia a ser considerada e principalmente para ser utilizada de maneira conjunta com alguma outra heurística.


## Heurística gulosa e aleatorização


Por fim, uma última estratégia foi utilizar tanto a heurística gulosa quanto a aleatorização de maneira conjunta. Conforme descrito no enunciado do projeto, a ideia era modificar a heurística gulosa de modo que para selecionar um filme para ser assistido, exista 25% de chance de fazê-lo usando aleatoriedade e 75% de utilizar a heurística gulosa - lembrando que em qualquer uma dessas estratégias deve se respeitar as restrições estabelecidas no início do projeto. Isso fará com que a heurística possa ter um pouco mais de "exploration" e os resultados podem ser melhores - evitando também que o código fique em uma solução que é um máximo local. 


# Implementação e explicação da lógica utilizada no código <a class="anchor" id="third-bullet"></a>


Neste tópico, explicaremos como a lógica do código foi implementada para cada estratégia de solução. No final, o código resultante implementa a heurística gulosa e a aleatoridade juntas seguindo a proporção de aproximadamente 25% de chance de selecionar um filme com a estratégia aleatória e 75% de chance de selecionar um filme com a estratégia gulosa.


### Implementação do código: tratamento e limpeza dos dados

O primeiro passo para começar a implementação do código, seja para a heurística gulosa ou seguindo a aleatorização, foi limpar os dados de entrada e prepará-los para serem utilizados. Dessa maneira, foi criada uma struct Filmes para organizar melhor cada dado de entrada que representa um filme no seguinte formato: H[i], F[i], C[i]. Assim, essa struct `Filmes` foi construída recebendo o horário de início, o horário de fim e a categoria do filme, como pode ser visto abaixo:

``` cpp

struct Filme{
    int inicio;
    int fim;
    int categoria;
};

```

Feito isso, foram criadas as variáveis referentes à quantidade de filmes e categorias, bem como um vetor em que cada índice continha a quantidade de filmes que poderiam ser assistidos para cada categoria. **Detalhe importante:** essa última definição vai implicar no fato de que a categoria não corresponde diretamente ao índice do vetor, isso porque o índice do vetor começa em 0, enquanto a categoria de filmes começa em 1, logo, toda vez que quisermos acessar o número de filmes por categoria, devemos consultar o vetor em relação a uma categoria, precisaremos subtrair 1. 


O código correspondente ao que foi descrito foi implementado da seguinte maneira:

``` cpp

int qtd_filmes, qtd_categorias;
cin >> qtd_filmes >> qtd_categorias;

vector<int> filmes_por_categoria(qtd_categorias, 0);

```

O código utilizou a função `cin`, que pertence a biblioteca *iostream*, e que recebe o dado de entrada do arquivo na ordem em que ele é lido, sendo assim, como os inputs começam com `n` (número de filmes disponíveis) e `m` (número de categorias disponíveis), primeiro foi preenchida uma variável que chamamos de `qtd_filmes` e depois outra variável que chamamos de `qtd_categorias`. 

Além disso, note que o vetor `filmes_por_categoria` foi preenchido com zeros, e isso porque nós temos a informação de seu tamanho - que é a quantidade de categorias. Isso é melhor do que usar a função `push_back()` por dois motivos:

- Quando `push_back()` é utilizado para adicionar novos elementos ao vetor, o compilador precisa alocar memória dinamicamente, e isso pode levar mais tempo - já que o sistema operacional precisa localizar um espaço livre de memória para conseguir alocar o elemento. Por sua vez, quando o vetor já é alocado com zeros desde o início, o compilador já aloca toda a memória de uma vez.

- Toda vez que o `push_back()` é chamado, uma chamada de função é feita, e isso em termos de tempo de execução pode ser caro - principalmente se muitos elementos forem adicionados ao vetor. Em contrapartida, se desde o início ele for preenchido com zeros, não há a necessidade de chamar a função `push_back()` repetidamente.


Com o vetor de filmes por categoria criado e já preenchido com zeros, o próximo passo foi substituir esses zeros com os dados de cada categoria. Mais uma vez, levando em consideração os dados de entrada e a sequência em que foram apresentados, foi utilizada a função `cin`, como pode ser visto abaixo:

``` cpp

for (int i = 0; i < qtd_categorias; i++){
    cin >> filmes_por_categoria[i];
}

```

Feito isso, para que o acesso a todos os dados de entrada fosse concluído, criamos uma variável chamada `vetor_filmes`, que é um vetor de `Filmes` (struct). Da mesma forma que o vetor `filmes_por_categoria`, o `vetor_filmes` também já foi inicializado com filmes cuja struct foi preenchida com {0, 0, 0}. O código referente pode ser visto abaixo:

```cpp

Filme filme_vazio = {0, 0, 0};
vector<Filme> vetor_filmes (qtd_filmes, filme_vazio);

```

Com o vetor de filmes criado, nós substituímos todas as structs zeradas pelos dados dos filmes lidos do arquivo de entrada. Além disso, também foi feita uma limpeza e manipulação nesses dados. Isso porque:

- Os filmes que iniciavam ou terminavam às 24h, tinham o valor como 0h. Obviamente, em termos de significado é a mesma coisa, mas para os próximos passos é melhor trocar esse valor para 24h.
- Havia filmes cujos horários de início e fim eram inválidos: negativos, logo foi preciso deletar esses dados.

Dessa forma, a implementação foi feita da seguinte maneira:


``` cpp
for (int i = 0; i < qtd_filmes; i++){
    Filme filme;
    cin >> filme.inicio >> filme.fim >> filme.categoria;
    if (filme.inicio == 0){
        filme.inicio = 24;
    }
    if (filme.fim == 0){
        filme.fim = 24;
    }
    if (filme.inicio < 0){
        continue;
    }
    if (filme.fim < 0){
        continue;
    }
    vetor_filmes[i] = filme;
}

```

Tendo todos os dados básicos para resolver o problema, agora podemos começar a implementar a lógica para resolvê-lo. A começar com a ordenação dos filmes de maneira crescente em relação ao seu horário de término - e não em relação ao seu horário de início. Isso porque, se formos percorrer o vetor de filmes sem essa ordenação, podemos acabar selecionando um filme que comece bem cedo mas que termine bem tarde, ou seja, seu horário de duração será muito grande e, consequentemente, a quantidade de filmes a ser assistido será menor. Assim, para fazer isso, utilizamos a função `sort()` da biblioteca *algorithm* que ordena um intervalo de elementos em ordem crescente ou descrente desde que possua um iterador de início e  outro de fim. 

Interessante destacar que o algoritmo de ordenação utilizado pela função `sort()` é geralmente o Quicksort ou o Mergesort (depende da implementação), e ambos os algoritmos têm um desempenho médio de O(n log n), ou seja, o tempo de execução cresce em proporção logartímica com o tamanho do vetor.

O código referente a essa ordenação pode ser visto abaixo:

```cpp


void ordena_final(vector<Filme> &vetor_filmes){
    std::sort(vetor_filmes.begin(), vetor_filmes.end(), [] (Filme &a, Filme &b){
		return a.fim < b.fim;
	});

}


ordena_final(vetor_filmes);

```

Com essa ordenação feita, notamos que muitos filmes terminavam nos mesmos horários de fim, entretanto estavam desordenados em relação à ordem de início. E como o objetivo é preencher todos os horários possíveis ao longo do dia, e os filmes já estavam ordenados em relação ao seu horário de término, decidimos ordenar esses filmes com o mesmo horário de término de maneira crescente em relação ao seu horário de início. Isso foi feito com o seguinte código:

```cpp
void ordena_inicio(vector<Filme> &vetor_filmes){
    // Se e somente se o vetor tiver dois horários finais iguais, o que vem primeiro vai ser o vetor com o horário inicial menor.
    for (int i = 0; i < int(vetor_filmes.size()); i++){
        if (vetor_filmes[i].fim == vetor_filmes[i+1].fim){
            if (vetor_filmes[i].inicio > vetor_filmes[i+1].inicio){
                Filme aux = vetor_filmes[i];
                vetor_filmes[i] = vetor_filmes[i+1];
                vetor_filmes[i+1] = aux;
            }
        }
    }
}

ordena_inicio(vetor_filmes);

```

Nessa segunda ordenação, temos que o vetor de filmes é percorrido novamente e caso o horário de término do filme atual - aquele que está sendo iterado - seja igual ao do próximo, conferimos se o horário de início do atual é maior que o do próximo. Caso seja, trocamos os dois de posição, e fazemos isso até o loop terminar.

Por fim, antes de implementar as estratégias, um último passo foi feito para que os dados estivessem finalmente prontos para ser utilizados. Isso porque como descrito anteriormente, precisamos selecionar um filme com 25% de chance de ser feito com a estratégia aleatória e 75% de chance com a heurística gulosa. E para cada estratégia, temos a seguinte lógica:
- A heurística gulosa vai selecionar o primeiro filme que encontrar dentro do intervalo de filmes que terminem em um mesmo horário e que atendam as restrições estabelecidas. 
- A aleatorização vai sortear um filme que atenda as restrições e que está dentro do intervalo de filmes que terminem em um mesmo horário.

E como essa lógica exige saber quais filmes terminam no mesmo horário, é viável construir um dicionário em que as chaves sejam os horários de término e que os valores dessas chaves sejam vetores dos filmes que terminam naquele horário. O dicionário foi criado da seguinte maneira:

``` cpp
map<int, vector<Filme>> myDict;

for (int i = 0; i < qtd_filmes; i++){
    myDict[vetor_filmes[i].fim].push_back(vetor_filmes[i]);
}
```

Com os dados preparados, podemos implementar essa estratégia de misturar as estratégias utilizando a distribuição binomial, que é aplicada em casos de experimentos repetidos - isto é, uma sequência fixa de tentativas independentes - para quando existem dois resultados: sucesso ou fracasso, de tal forma que cada tentativa tem uma probabilidade de sucesso constante. Assim, com essa distribuição será gerado um número aleatório que retorna 1 com 75% de probabilidade e 0 com 25% de probabilidade. 

Dessa forma, foi feito um loop que percorre 24 horas e que para cada horário irá chamar a função que aplica a heurística gulosa caso o sorteio retorne 1, e que chame a função que aplica a estratégia aleatória caso contrário.

O código que representa essa descrição pode ser visto abaixo:

```cpp

    unsigned seed = std::chrono::system_clock::now().time_since_epoch().count();
 	std::default_random_engine generator(seed); 	
	std::binomial_distribution<int> distribution(1, 0.75);
  
    for (int i = 1; i <= 24; i++){
        int sorteio = distribution(generator)*abs(rand()%2);
        if (horarios_disponiveis == mascara_horarios){
            break;
        }
        if (sorteio == 1){
            heuristica_gulosa(myDict[i], filmes_por_categoria, horarios_disponiveis, vetor_filmes_vistos, filmes_vistos, qtd_filmes);
        } else
        {   
            aleatorizacao(myDict[i], filmes_por_categoria, horarios_disponiveis, vetor_filmes_vistos, filmes_vistos);
        }
    }

```

Algumas variáveis ainda não foram descritas, mas serão explicadas nos próximos tópicos em que a lógica das estratégias será abordada.


### Implementação do código: heurística gulosa

Para implementar a heurística gulosa, já temos os dados organizados que facilitaram bastante o processo, pois agora basta acessar os filmes que estão na chave do dicionário e selecionar o primeiro que atende as restrições. 

Como visto no último bloco de código, a função `heuristica_gulosa` recebe as seguintes variáveis:

- myDict[i] : que retorna o vetor com todos os filmes que terminam no horário `i`;
- filmes_por_categoria: o vetor já descrito que possui a quantidade de filmes que podem ser assistidos em cada categoria.
- vetor_filmes_vistos: o vetor de filmes vistos que no final retornará todos os filmes que poderão ser vistos em um dia, ou seja, a solução final.
- qtd_filmes: o tamanho desse vetor, que é o número de filmes que poderão ser vistos em um dia.
- horarios_disponiveis: um bitset de tamanho 24 que vai representar quais horários ainda estão disponíveis conforme o vetor `vetor_filmes_vistos` for preenchido.

Essa última variável descrita foi extremamente importante para o desenvolvimento do projeto, e evitou que fossem implementadas várias condições para conferir conflitos de horários. Isso porque o bitset


### Implementação do código: aleatorização



g++ -Wall -O3 -g projeto.cpp -o projeto
                           
https://www.inf.ufsc.br/~andre.zibetti/probabilidade/binomial.html 


In [None]:
Ano passado meu carro Honda Fit acabou sendo envolvido em um acidente em que outro carro bateu em sua traseira e a danificou completamente. O dono do outro carro acionou o seguro em meu favor e eu, buscando uma oficina de confiança, escolhi deixar o meu carro na concessionário Honda da Eusébio Matoso. A princípio me informaram que assim que as peças chegassem eu podia deixar o carro e em cerca de 15 dias úteis ele estaria pronto. Entretanto, conforme foram mexendo no carro, encontraram mais problemas e esses 15 dias úteis se estenderam para agora mais de 2 meses. Isso por conta de falta de peças da Honda : extensão comprida direita que faz parte da estrutura e revestimento direito do porta-mala. É inacreditável o descaso com o cliente. A primeira vez que liguei disseram que as peças chegariam naquela mesma semana, e não chegaram. Depois passaram para a concessionária que as peças chegariam dia 14/03/2023 e também não chegaram. Agora não possuem previsão de quando as peças vão chegar e enquanto isso eu estou sem carro com um marido idoso que depende totalmente do carro para se locomover.  Além disso, toda vez que ligo nos canais da Honda me dizem que vão verificar e depois me ligar avisando e nunca me ligaram. É sempre a mesma conversa, e sempre me dizem que devo aguardar uma ligação que nunca chega.

Já não sei mais o que fazer. Estou desde janeiro sem o carro e não tenho nenhuma previsão de quando vou poder retirá-lo da oficina. 