# Problema do clique máximo

![Exemplo Clique](https://upload.wikimedia.org/wikipedia/commons/thumb/d/d0/VR_complex.svg/1200px-VR_complex.svg.png)

## Índice
1. [Descrição do Problema](#Descrição-do-problema)
2. [Primeira Implementação: Versão Exaustiva Utilizando Recursão](#Primeira-implementação:-Versão-exaustiva-utilizando-recursão)
3. [Segunda Implementação: Heurística Gulosa](#Segunda-implementação:-Heurística-gulosa)
4. [Terceira Implementação: Heurística Gulosa com Aleatorização](#Terceira-implementação:-Heurística-gulosa-com-aleatorização)
5. [Quarta Implementação: Paralelização do Algoritmo Guloso com Aleatorização](#Quarta-implementação:-Paralelização-do-algoritmo-guloso-com-aleatorização)
6. [Conclusão](#Conclusão)

## Descrição do problema

### O que é um clique?
  
  - Um clique é um subconjunto de vértices de um grafo tal que todos os vértices são adjacentes entre si.

  - Formalmente, um clique é um subconjunto $C$ de vértices de um grafo $G = (V, E)$ tal que para todo par de vértices $u, v \in C$, $uv \in E$.
  
### O que é um clique máximo?

  - Um clique máximo é o maior clique de um grafo, ou seja, um clique que não é subconjunto de nenhum outro clique.

  - Formalmente, um clique $C$ é máximo se não existe um clique $C'$ tal que $|C'| > |C|$.

### Dificuldade do problema

  O problema é considerado NP-Hard e ao mesmo tempo NP-Completo, ou seja, não se sabe se existe um algoritmo polinomial para resolvê-lo, entretanto existem aproximações que podem ser feitas em tempo polinomial mas que não garantem a solução ótima. 

> Em `/implementations/example.cpp` está a implementação do código em C++ feito com o pseudo-código proposto no enunciado.

### Metodologia

Foram criados grafos de 25, 50, 75, 100, 125 e 150 vértices para a análise. Essas quantidades de vértices foram escolhidas por apresentarem resultados que não levam muito tempo para serem obtidos, de qualquer forma um grafo de 200 não seria possível ser executado devido ao fato do código disponibilizado para verificar se a solução está certa não conseguir executar. Serão usadas como métricas o tamanho do clique máximo encontrado e sua proximidade da solução ótima obtida com o código de exemplo (disponível em: `/python/verify_max_clique.py`), e o tempo de execução do algoritmo e seu **speedup**.

In [45]:
# Verificar clique máximo
# !python3 ./python/verify_max_clique.py

# ou

# !python ./python/verify_max_clique.py

## Primeira implementação: Versão exaustiva utilizando recursão

* **Descrição da implementação**

    Para a primeira implementação foi realizada uma versão exaustiva utilizando recursão. A ideia é que para cada vértice do grafo é feita é feita uma exploração e para encontrar o clique máximo que contém aquele vértice. No caso se um vértice já foi calculado ele não irá entrar nessa busca, por exemplo, se já foi encontrado clique máximo contém o vértice 2, ao procurar pelo clique máximo do vértice 3 ele não irá utilizar o vértice 2 e o vértice 1 por já terem sido encontrados, isso garante uma maior eficiência, não sendo necessário calcular novamente o que já foi calculado. Após encontrar o clique máximo de cada vértice irá ser verificado se é maior que o maior clique encontrado até o momento, caso seja ele será o maior, caso contrário será descartado.

> Essa implementação encontra a solução ótima global, portanto sua acurácia é de 100%

> O código comentado está localizado em `/implementations/exaustive.cpp`

In [46]:
# Para compilar:
# !g++ -O3 ./implementations/exaustive.cpp -o ./implementations/outputs/exaustive

In [47]:
# Para executar a implementação:
# !./implementations/outputs/exaustive 

In [61]:
# Biblioteca utilizada para plotar os gráficos
# %pip install plotly

In [48]:
import plotly.express as px

tamanho_grafos = [25, 50, 75, 100, 125, 150]
tempos_execucao_exaustiva = [0, 11, 210, 2581, 14806, 86927]

fig = px.line(x=tamanho_grafos, y=tempos_execucao_exaustiva, labels={'x': 'Tamanho do Grafo', 'y': 'Tempo de Execução (ms)'},
              title='Tempo de Execução x Tamanho do Grafo', template="presentation", markers=True )

fig.show()

Como é possível perceber no gráfico acima, o tempo cresce exponencialmente com a entrada do problema, portanto não é uma solução viável para grafos relativamente grandes. 

## Segunda implementação: Heurística gulosa

* **Descrição da implementação**

    A segunda implementação faz uso do degree dos vértices, um vetor com o indíce de todos os vértices é ordenado de maneira crescente de acordo com o degree, após isso é encontrado o clique máximo de cada vértice baseado no maior valor de degree, ou seja, ao selecionar um vértice para encontrar o clique máximo, o primeiro vértice a ser verificado será o que possui o maior degree e caso tenha uma aresta conectada ao vértice selecionado, ele será adicionado, caso contrário será descartado. Para o próximo vértice a ser verificado, será selecionado o vértice com o maior degree e caso ele tenha aresta com todos os vértices do clique atual, ele será adicionado, caso contrário será descartado. A cada verificação os vértices que não possuem aresta com o clique são descartados, isso garante uma maior eficiência, pois não é necessário verificar todos os vértices novamente. Após encontrar o clique máximo de cada vértice utilizando essa heurística é verificado se é maior que o maior clique encontrado até o momento, caso seja ele será o maior, caso contrário será descartado.

    Importante ressaltar que essa implementação não garante a solução ótima, entretanto melhora sua velocidade de execução mas diminui a sua acurácia.

    > O código comentado está localizado em `/implementations/greedy.cpp`

In [49]:
# Para compilar:
# !g++ -O3 ./implementations/exaustive.cpp -o ./implementations/outputs/exaustive

In [50]:
# Para executar a implementação:
# !./implementations/outputs/greedy

| Tam. Grafo | Clique máximo correto | Clique máximo obtido| Acurácia | Tempo exaus. (ms) | Tempo guloso (ms) | Speedup |
|:----------:|:---------------------:|:-------------------:|:--------:|:-----------------:|:-----------------:|:-------:|
| 25         | 9                     | 9                   | 100%     | 0                 | 0                 | -       |
| 50         | 11                    | 9                   | 81,81%   | 11                | 0                 | -       |
| 75         | 13                    | 11                  | 84,61%   | 210               | 2                 | 105     |
| 100        | 15                    | 12                  | 80%      | 2581              | 9                 | 286,78  |
| 125        | 15                    | 13                  | 86,67%   | 14806             | 13                | 1138,92 |
| 150        | 17                    | 13                  | 76,47%   | 86927             | 15                | 5795,13 |


Como era esperado, o tempo de execução do algoritmo guloso é muito menor que o tempo de execução do algoritmo exaustivo, devido o algoritmo exaustivo ter complexidade exponencial, enquanto o algoritmo guloso tem complexidade polinomial. Entretanto, como o algoritmo guloso não garante a solução ótima, sua acurácia é menor que 100% na maioria dos casos, sendo na maioria das vezes maior que 80%.

In [51]:
tamanho_grafos = [25, 50, 75, 100, 125, 150]
tempos_execucao_exaustiva = [0, 11, 210, 2581, 14806, 86927]
tempos_execucao_guloso = [0, 0, 2, 9, 13, 15]

tempos_execucao = {"Algoritmo Guloso": tempos_execucao_guloso,
                   "Algoritmo Exaustivo": tempos_execucao_exaustiva,
                   "Tamanho do Grafo": tamanho_grafos}

fig = px.line(tempos_execucao, x="Tamanho do Grafo", y=["Algoritmo Exaustivo", "Algoritmo Guloso"], labels={'x': 'Tamanho do Grafo'},
              title='Tempo de Execução x Tamanho do Grafo', template="presentation", markers=True)
fig.update_layout(legend_title_text='Algoritmos')

fig.update_yaxes(title_text = "Tempo de execução (ms)")

fig.show()

Como é possível observar no gráfico acima, enquanto o tempo de execução do algoritmo guloso cresce pouco, aparenta estar constante devido a escala imposta pelo algoritmo exaustivo, o algoritmo exaustivo cresce exponencialmente, algo que pode ser observado no speedup que cresce exponencialmente

In [52]:
tamanho_grafos = [25, 50, 75, 100, 125, 150]
speedup = [None, None, 105, 286, 1138, 5795]

tempos_execucao = {"Speedup": speedup,
                   "Tamanho do Grafo": tamanho_grafos}

fig = px.line(tempos_execucao, x="Tamanho do Grafo", y="Speedup", labels={'x': 'Tamanho do Grafo'},
              title='Speedup x Tamanho do Grafo', template="presentation", markers=True)
fig.update_yaxes(title_text = "Speedup")

fig.show()

## Terceira implementação: Heurística gulosa com aleatorização

* **Descrição da implementação**

    A terceira implementação é similar a primeira mas com uma diferença, após escolher o segundo vértice do clique, que no caso é aquele com maior degree no grafo inteiro e que possui uma aresta com o primeiro vértice, é feita uma aleatorização dos vértices posteriores adicionando exploration para aumentar a acurácia da solução sem ter grandes custos computacionais. Essa característica acaba por aumentar a acurácia devido a nem sempre o vértice com maior degree ser o que conseguiria conectar outros vértices que formariam o clique máximo, o que os eliminaria da solução. A desvantagem dela é que para a mesma entrada, a solução pode variar, podendo executar mais de uma vez para encontrar a melhor solução que seria a que possui o maior clique máximo.

    Novamente é importante ressaltar que essa solução não encontra uma solução ótima global, mas busca uma aproximação maior que a versão anterior sem ter uma perda grande em desempenho.

    > O código comentado está localizado em: `/implementations/greedy_random.cpp`

In [53]:
# Para compilar:
# !g++ -O3 ./implementations/exaustive.cpp -o ./implementations/outputs/exaustive

In [54]:
# Para executar a implementação:
# !./implementations/outputs/greedy_random

| Tam. Grafo | Clique máximo correto | Clique máximo obtido| Acurácia guloso|Acurácia guloso aleat.| Tempo exaus. (ms) | Tempo guloso (ms) |Tempo guloso aleat. (ms)| Speedup guloso | Speedup aleat. |
|:----------:|:---------------------:|:-------------------:|:--------------:|:--------------------:|:-----------------:|:-----------------:|:----------------------:|:--------------:|:--------------:|
| 25         | 9                     | 9                   | 100%           | 100%                 |0                  | 0                 |0                       | -              | -              |
| 50         | 11                    | 10                  | 81,81%         | 90,9%                |11                 | 0                 |2                       | -              | 5,5            |
| 75         | 13                    | 11                  | 84,61%         | 84,61%               |210                | 2                 |6                       | 105            | 35             |
| 100        | 15                    | 12                  | 80%            | 80%                  |2581               | 9                 |8                       | 286,78         | 322,625        |
| 125        | 15                    | 13                  | 86,67%         | 86,67%               |14806              | 13                |18                      | 1138,92        | 822,55         |
| 150        | 17                    | 16                  | 76,47%         | 94,11%               |86927              | 15                |20                      | 5795,13        | 4346,35        |

Ao medir a acurácia média é possível notar que para o algoritmo guloso com aleatorização foi de aproximadamente 89,38%, enquanto o algoritmo guloso foi de aproximadamente 84,93%, o que resultou em uma melhora de aproximadamente 4,45% na acurácia média, sendo que em nenhum momento a acurácia da versão aleatória foi menor que a versão sem aleatoriedade, inclusive no melhor caso a diferença foi de aproximadamente 17,64%, um ganho considerável. Ao analisar o tempo de execução é possível notar que permaneceram bem próximos um do outro, sendo que para o caso de 100 vértices a versão aleatória foi mais rápido. É possível também analisar o tempo de execução nos gráficos abaixo:

In [65]:
tamanho_grafos = [25, 50, 75, 100, 125, 150]
tempos_execucao_exaustiva = [0, 11, 210, 2581, 14806, 86927]
tempos_execucao_guloso = [0, 0, 2, 9, 13, 15]
tempos_execucao_guloso_aleat = [0, 2, 6, 8, 18, 20]

tempos_execucao = {"Algoritmo Guloso": tempos_execucao_guloso,
                   "Algoritmo Exaustivo": tempos_execucao_exaustiva,
                   "Algoritmo Guloso Aleatório": tempos_execucao_guloso_aleat,
                   "Tamanho do Grafo": tamanho_grafos}

fig = px.line(tempos_execucao, x="Tamanho do Grafo", y=["Algoritmo Exaustivo", "Algoritmo Guloso", "Algoritmo Guloso Aleatório"], labels={'x': 'Tamanho do Grafo'},
              title='Tempo de Execução x Tamanho do Grafo', template="presentation", markers=True)
fig.update_layout(legend_title_text='Algoritmos')

fig.update_yaxes(title_text = "Tempo de execução (ms)")

fig.show()

Novamente perto do algoritmo exaustivo os algoritmos gulosos parecem constantes mas ao ocultar o algoritmo exaustivo (clique no nome dele na legenda) é possível observar que o algoritmo guloso com aleatorização ficou bem próximo do algoritmo guloso, inclusive para um grafo de 100 vértices obteve um tempo até menor

In [63]:
tamanho_grafos = [25, 50, 75, 100, 125, 150]
speedup_guloso = [None, None, 105, 286, 1138, 5795]
speedup_guloso_aleat = [None, 5.5, 35, 322.625, 822.55, 4346.35]

tempos_execucao = {"Speedup Guloso": speedup_guloso,
                   "Speedup Guloso Aleatório": speedup_guloso_aleat,
                   "Tamanho do Grafo": tamanho_grafos}

fig = px.line(tempos_execucao, x="Tamanho do Grafo", y=["Speedup Guloso", "Speedup Guloso Aleatório"], labels={'x': 'Tamanho do Grafo'},
              title='Speedup x Tamanho do Grafo', template="presentation", markers=True)
fig.update_yaxes(title_text = "Speedup")
fig.update_layout(legend_title_text='Algoritmos')

fig.show()

Ao analisar o gráfico de speed up é possível observar uma análise de afastamento do algoritmo guloso para o algoritmo guloso com aleatorização, o que é esperado, devido a reordenação de vetores. O que pesa de maneira negativa para o algoritmo guloso com aleatorização é que para obter a maior acurácia que a solução pode oferecer é necessário executar mais de uma vez, o que irá aumentar seu tempo de execução, mas dado que o tempo de execução não cresce de maneira exponencial, pode ser uma boa troca para obter uma solução mais próxima da solução ótima.

## Quarta implementação: Paralelização do algoritmo guloso com aleatorização

* **Descrição do problema**

    A principal desvantagem do algoritmo guloso com aleatorização é o seu tempo que aumenta principalmente da necessidade de executá-lo várias vezes para obter a melhor solução que ele pode oferecer. Para resolver esse problema a quarta implementação é uma paralelização do algoritmo guloso com aleatorização, a ideia é que o `for` que percorre os vértices do grafo seja paralelizado, ou seja, cada thread irá executar uma parte do `for`, o que irá diminuir o tempo de execução do algoritmo, sendo o tempo de execução definido pela thread que demorar mais para executar. O algoritmo também possui uma etapa na qual somente uma thread irá executar, que é a etapa de verificar se o clique máximo encontrado é maior que o clique máximo encontrado até o momento, caso seja ele será o clique máximo, caso contrário será descartado.

    Outro ponto é que a acurácia será a mesma da solução gulosa com aleatorização, pois a paralelização não irá alterar a lógica do algoritmo, apenas irá diminuir o tempo de execução.

    E novamente é importante ressaltar que essa solução não encontra uma solução ótima global, mas busca uma aproximação maior que a versão anterior diminuindo a perda de desempenho.

    > O código comentado está localizado em: `/implementations/greedy_random_parallel.cpp`

In [57]:
# Para compilar:
# !g++ -fopenmp -O3 ./implementations/greedy_parallel.cpp -o ./implementations/outputs/greedy_parallel

In [58]:
# Para executar a implementação:
# !./implementations/outputs/greedy_parallel

| Tam. Grafo | Tempo exaus. (ms) | Tempo guloso (ms) |Tempo guloso aleat. (ms)| Tempo guloso aleat. paral. (ms) |Speedup guloso | Speedup aleat. | Speedup paralelo |
|:----------:|:-----------------:|:-----------------:|:----------------------:|:-------------------------------:|:-------------:|:--------------:|:----------------:|
| 25         | 0                 | 0                 | 0                      | 0                               | -             | -              | -                |
| 50         | 11                | 0                 | 2                      | 2                               | -             | 5,5            | 5,5              |
| 75         | 210               | 2                 | 6                      | 5                               | 105           | 35             | 42               |
| 100        | 2581              | 9                 | 8                      | 6                               | 286,78        | 322,625        | 430,166          |
| 125        | 14806             | 13                | 18                     | 14                              | 1138,92       | 822,55         | 1057,57          |
| 150        | 86927             | 15                | 20                     | 18                              | 5795,13       | 4346,35        | 4829,28          |

In [59]:
tamanho_grafos = [25, 50, 75, 100, 125, 150]
tempos_execucao_exaustiva = [0, 11, 210, 2581, 14806, 86927]
tempos_execucao_guloso = [0, 0, 2, 9, 13, 15]
tempos_execucao_guloso_aleat = [0, 2, 6, 8, 18, 20]
tempos_execucao_parallel = [0, 2, 5, 6, 14, 18]

tempos_execucao = {"Algoritmo Guloso": tempos_execucao_guloso,
                   "Algoritmo Exaustivo": tempos_execucao_exaustiva,
                   "Algoritmo Guloso Aleatório": tempos_execucao_guloso_aleat,
                   "Algoritmo Guloso Aleatório Paralelo": tempos_execucao_parallel,
                   "Tamanho do Grafo": tamanho_grafos}

fig = px.line(tempos_execucao, x="Tamanho do Grafo", y=["Algoritmo Exaustivo", "Algoritmo Guloso", "Algoritmo Guloso Aleatório", "Algoritmo Guloso Aleatório Paralelo"], labels={'x': 'Tamanho do Grafo'},
              title='Tempo de Execução x Tamanho do Grafo', template="presentation", markers=True)
fig.update_layout(legend_title_text='Algoritmos')

fig.update_yaxes(title_text = "Tempo de execução (ms)")

fig.show()

Como é possível notar no gráfico ao desabilitar o algoritmo exaustivo os tempos permaneceram próximos, entretanto é possível notar que o objetivo de reduzir o tempo de execução do algoritmo guloso com aleatorização foi alcançado com sucesso, sendo que em todos os pontos houve ou uma redução ou uma manutenção do tempo de execução.

In [62]:
tamanho_grafos = [25, 50, 75, 100, 125, 150]
speedup_guloso = [None, None, 105, 286, 1138, 5795]
speedup_guloso_aleat = [None, 5.5, 35, 322.625, 822.55, 4346.35]
speedup_guloso_aleat_paral = [None, 5.5, 42, 430.166, 1057.57, 4829.28]

tempos_execucao = {"Speedup Guloso": speedup_guloso,
                   "Speedup Guloso Aleatório": speedup_guloso_aleat,
                   "Speedup Guloso Aleatório OpenMP": speedup_guloso_aleat_paral,
                   "Tamanho do Grafo": tamanho_grafos}

fig = px.line(tempos_execucao, x="Tamanho do Grafo", y=["Speedup Guloso", "Speedup Guloso Aleatório", "Speedup Guloso Aleatório OpenMP"], labels={'x': 'Tamanho do Grafo'},
              title='Speedup x Tamanho do Grafo', template="presentation", markers=True)

fig.update_layout(legend_title_text='Algoritmos')
fig.update_yaxes(title_text = "Speedup")

fig.show()

Como é possível notar no gráfico de speedup a versão paralela do algoritmo guloso aleatório ficou melhor colocada que a versão sem paralelização, entretanto continuou abaixo da versão gulosa sem aleatorização, como é possível notar mesmo paralelizando a reordenação de vetores causada pela aleatorização teve um impacto no tempo de execução.

## Conclusão

Dadas as 4 implementações é possível concluir que caso não seja estritamente necessário encontrar o exato clique máximo, a utilização de heuristícas e outros métodos de otimização conseguem ter uma complexidade polinomial tornando a execução viável mesmo para grafos grandes, embora se perca um pouco da acurácia. A utilização de paralelismo também contribuiria para a redução do tempo de execução, como foi mostrado pela quarta implementação. Entretanto para encontrar a solução ótima global, como além de ser um problema NP-hard ele também é um problema NP-Completo, a menos que alguém prove que P=NP (se isso for verdade), continuará sendo necessário utilizar algoritmos exponenciais para encontrar a solução ótima global, o que torna a execução inviável para grafos grandes.

Por fim, a solução em MPI não foi implementada mas a expectativa é que não obteria um desempenho melhor do que a versão com OpenMP devido a limitação de hardware da máquina utilizada para os testes, que é um cluster virtual e não conseguiria obter um desempenho superior ao que rodasse na máquina diretamente, também por limitações criadas pelo VirtualBox que utilizaria o processamento da máquina para rodar o cluster virtual limitando ainda mais o desempenho. Entretanto caso a versão com OpenMP rodasse em um nó e depois fosse feito um teste com MPI rodando em vários nós, a expectativa é que o desempenho fosse melhor.