# Algorítimos de otimização em Matlab

<hr>

## Introdução

A otimização de sitemas que obedecem uma série de restrições é um cenário comum na indústria e na academia, assim, abordamos aqui uma breve introdução sobre o tema. Durante a segunda guerra mundial, com o surgimento da pesquisa operacional e do computador digital, foram desenvolvidos diverços algorítimos para satisfazer estes problemas os quais serão explorados aqui. Para isso é importante, primeiramente, introduzir alguns conceitos básicos.

### Modelagem matemática

A primeira etapa antes de otimizar as soluções de um problema é a modelagem matemática do sistema, nessa etapa é necessário levantar perguntas importantes como:

 - Quais são as variáveis que compõe o seu problema?
 - Como estas variáveis se relacionam?
 - Quais são as restrições que o seu sistema deve obedecer?
 - É possível obter um valor real (ou imaginário) destas variáveis ou ela está restrita a valores inteiros?
 - Existe algum tipo de incerteza relacionada a estas variáveis?

A resposta para estas perguntas tem grande influencia na escolha do modelo.

<hr>

##### Exemplo 1:

Uma fábrica produz porcas e parafusos. Cada lote de parafuso demora 2 horas para produzir, traz R\$1000,00 de lucro e usa meia tonelada de ferro. Cada lote de porcas demora 1 hora para produzir e traz R\$550,00 de lucro e usa 2 toneladas de ferro. A fábrica só pode operar por 8 horas no dia e tem disponível 10 toneladas de ferro para usar diáriamente. Porcas e parafusos não podem ser produzidos ao mesmo tempo por conta da disponibilidade das máquinas, porém o tempo para mudar a produção de porcas para parafusos é despresível.

Podemos começar a modelar este sistema encontrando as variáveis que o compõe, assim, temos:

- $x_1$ - Lotes de parafusos
- $x_2$ - Lotes de porcas

É possível dizer que as variáveis são independentes uma das outras, ou seja, a produção de $x_1$ não interfere na produção de $x_2$.

O problema está sujeito as seguintes restrições:

- $2x_1 + x_2 \le 8$ (Restrição de tempo)
- $0.5x_1 + 2x_2 \le 10$ (Restrição de recurso)
- $x_1, x_2 \ge 0$ (Não é possível produzir -1 lote)


Como um lote contém vários parafusos ou porcas é possível produzir um valor fracionário do lote, assim, pode-se considerar que $x_1$ e $x_2$ são números reais. A incerteza quanto a produção do lote é despresivel e pode ser considerada como inexistente.

<hr>

##### Exemplo 2:

Uma linha de ônibus tem demandas diferentes em diferentes horários as quais podem ser apresentada na tabela abaixo. Cada motorista dirige por 6 horas contínuas e depois para de dirigir.

| Hora do dia | 0-2 | 2-4 | 4-6 | 6-8 | 8-10 | 10-12 | 12-14 | 14-16 | 16-18 | 18-20 | 18-20 | 22-0 |
| ----------- | --- | --- | --- | --- | ---- | ----- | ----- | ----- | ----- | ----- | ----- | ---- |
|**Onibus necessários**|1|1|1|5|7|10|10|8|5|8|5|3|

As váriaveis que temos neste problema são os ônibus que começam a rodar em cada turno, assim, temos que:

- $x_1$ - Onibus que entram em circulação as 0h
- $x_2$ - Onibus que entram em circulação as 2h
- $x_3$ - Onibus que entram em circulação as 4h
- $x_4$ - Onibus que entram em circulação as 6h
- $x_5$ - Onibus que entram em circulação as 8h
- $x_6$ - Onibus que entram em circulação as 10h
- $x_7$ - Onibus que entram em circulação as 12h
- $x_8$ - Onibus que entram em circulação as 14h
- $x_9$ - Onibus que entram em circulação as 16h
- $x_{10}$ - Onibus que entram em circulação as 18h
- $x_{11}$ - Onibus que entram em circulação as 20h
- $x_{12}$ - Onibus que entram em circulação as 22h

Essas variáveis são independentes e estão sujeitas as seguintes restrições:

- $x_1 + x_2 + x_3 \ge 1$
- $x_2 + x_3 + x_4 \ge 5$
- $x_3 + x_4 + x_5 \ge 7$
- $x_4 + x_5 + x_6 \ge 10$
- $x_5 + x_6 + x_7 \ge 10$
- $x_6 + x_7 + x_8 \ge 8$
- $x_7 + x_8 + x_9 \ge 5$
- $x_8 + x_9 + x_{10} \ge 8$
- $x_9 + x_{10} + x_{11} \ge 5$
- $x_{10} + x_{11} + x_{12} \ge 3$
- $x_{11} + x_{12} + x_1 \ge 1$
- $x_{12} + x_1 + x_2 \ge 1$
- $x_n \ge 0,  n \in \{1, 2, \dots 12\}$


O onibus pode estar ou não em circulação, assim as variáveis assumem apenas valores discretos. Não existe nenhum tipo de incerteza associado as variáveis.

<hr>

### Soluções

As variáveis que compõe a resposta são conhecidas como variáveis de decisão. Ao escolher um ponto $(x_1, x_2, \dots, x_n)$ este ponto será uma solução para o problema. A solução é uma **solução viável** se satisfaz todas as restrições do problema, e uma **solução inviável** se pelo menos uma das restrições for violada. Uma solução é uma **solução ótima** se ela for uma solução viável e obtiver o melhor valor para a métrica em que está sendo avaliada, ou seja, a **função objetivo**. É possível que os problemas tenham mais de uma solução ótima ou não possuam nenhuma solução viável.


<hr>

##### Exemplo 3:

Considere o problema no **Exemplo 1**, é possível visualizar as sluções do problema na imagem a seguir. Os pontos na região vermelha satisfazem a restrição $2x_1 + x_2 \le 8$ e os pontos na região azul satisfazem a restrição $0.5x_1 + 2x_2 \le 10$. A região positiva onde as duas regiões se intecedem mostram todas as **soluções viáveis**, todos os pontos fora dessa região são **soluções inviáveis**.

![restricoes](restricoes_ex1.png)

<hr>

### Função objetivo

A função objetivo é uma métrica que avalia quão favorável é a sua solução. Problemas de otimização invlvem em maximizar ou minimizar a função objetivo. As funções objetivo podem ou ser linear o que pode alterar o algorítimo usado para otimiza-la. Por convenção a função objetivo é comumente representada pela letra $Z$

**Funções lineares** são caracterizadas por ser apenas uma combinação linear das variáveis de decisão, ou seja, são descritas pela equação 1 onde $a_i$ é o coeficiente relacionado a variável $x_i$. Em funções lineares, se existe um valor ótimo global, é possível encontrar este valor.

$$
Z = \sum a_ix_i
\tag{1}
$$

Alguns exemplos de funções lineares são:

- $Z = 3x_1 + 2x_2$
- $Z = x_1 + x_2 + x_3 - x_4$

Alguns exemplos de funções **não** lineares são:

- $Z = x_1 + x_2^2$
- $Z = x_1 + x_1x_2 + x_2$
- $Z = 3x_1 + 2x_2 + 1$
- $Z = 3x_1 + 2x_2\log(x_2)$


<hr>

##### Exemplo 4:

Para o problema do exemplo 1, se quisermos maximizar o lucro escrevemos a função objetiva linear na forma:

$$\max Z = 1000x_1 + 550x_2$$

Para o problema do exemplo 2, obtêm-se a função objetiva linear:

$$\min Z = x_1 + x_2 + x_3 + x_4 + x_5 + x_6 + x_7 + x_8 + x_9 + x_{10} + x_{11} + x_{12}$$

<hr>

**Funções não lineares** são todas aquelas que não podem sere representadas por uma combinação linear das variáves de decisão. Otimização de funções não lineares podem ser problemas **unimodais**, ou seja, apresenta apenas 1 valor ótimo local, ou **multimodais** ou seja, apresenta multiplos valores ótimos locais. Para problemas unimodais é possível encontrar a solução ótima global, se ela existir, para funções multimodais em contra partida é muito mais difícil de encontrar o valor ótimo global, assim nem sempre é possível garantir que a solução encontrada é a solução ótima.
 
Pode-se tomar como um problema de otimização unimodal o problema de minimizar a função objetivo $Z = x_1^2 + x_2^2$ apresentada a seguir. Note que a solução ótima local também é a solução ótima global para o problema.

![unimodal](obj_func2.png)

Um exemplo de problema de otimização multimodal é o problema de maximizar a função objetivo $Z = \frac{\sin(x_1^2 + x_2^2)}{(x_1^2 + x_2^2)}$ apresentado na figura a seguir. Note que, apesar de existir apenas 1 único ponto ótimo, o valor de $Z = 1$ em $(x_1, x_2) = (0, 0)$, o problema apresenta diversos pontos ótimos locais como em $|(x_1, x_2)| \approx 2,8$

![multimodal](obj_func1.png)

<hr>

## Algorítimos

Uma vez modelado o problema é possível determinar o algorítimo utilizado para encontrar a solução ótima do problema. A escolha do algorítimo é fortemente influenciada pela natureza do problema assim como a complexidade do algorítimo.

### Complexidade

A complexidade do algorítimo pode ser vista como uma estimativa de quão difícil é resolver um problema. A ciência da computação desenvolveu uma métrica para esta complexidade conhecida como notação assintótica. A explicação para este tipo de notação foge do escopo desse texto, uma boa explicação sobre o tema pode ser encontrada [aqui](https://pt.khanacademy.org/computing/computer-science/algorithms/asymptotic-notation/a/asymptotic-notation).

Alguns problemas podem ser resolvidos com algorítimos de complexidade relativamente baixa encontrando a solução ótima, em outros casos pode ser impossível de resolver o problema antes da morte por calor do universo com o poder computacional atual. Problemas de otimização discreta frequentemente crescem de forma fatorial com a entrada, sendo o [problema do caixeiro viajante](https://pt.wikipedia.org/wiki/Problema_do_caixeiro-viajante) um exemplo clássico da computação. Problemas assim podem ser resolvidos por meta-heurísticas as quais usam formas genéricas de resolução de problemas para encontrar uma boa solução para o problema, a solução encontrada porém não é garantida de ser ótima.

Outra forma de resolver problemas inviáveis é através de técnicas de relaxamento, ou seja, ao invés de otimizar o problema em questão, é resolvido uma versão mais simples do problema e a solução é comparada com o problema original. Tecnicas de relaxamento serão discutidas com mas detalhes posteriormente.

### Programação linear

A programação linear é um algorítimo clássico de otimização desenvolvido durante a segunda guerra mundial e que se mantém popular até hoje. O motivo dessa popularidade é justificado, a programação linear é um dos melhores, se não o melhor, algorítimo para os problemas que podém ser resolvidos por ele. A programação linear garante que a solução encontrada é a solução ótima, além de oferecer interpretabilidade sobre o problema.

Para que o problema possa ser resolvido através da programação linear porém, é necessário que ele satisfassa uma série de restrições:

- Todas as variáveis de decisão devem ser contínuas
- Todas as restrições devem ser lineares
- A função objetivo deve ser linear

Os problemas nos exemplos 1 e 2 são problemas que podem ser resolvidos por programação linear. A resolução de problemas de programação linear é feita através do algorítimo Simplex, a resolução deste algorítimo é extensa e pode ser encontrada facilmente em qualquer livro de pesquisa operacional, assim, é mais vantajoso focar aqui em como modelar e resolver o problema pelo Matlab.

Como forma de exemplificar a explicação resolveremos o problema posto no exemplo 1. Primeiramente é importante escrever o problema na forma canônica que é dada por:

$$
\begin{array}{ll}
\max & Z = \mathbf{c}^T \mathbf{x} \\
\text{Sujeito a} & \mathbf{A x} \le \mathbf{b} \\
&0 \le x_i
\end{array}
$$

Assim, escrevemos o problema na forma

$$
\begin{array}{ll}
\max & Z = 1000x_1 + 550x_2 \\
\text{Sujeito a} &  \\
& 2x_1 + x_2 \le 8 \\
& 0.5x_1 + 2x_2 \le 10 \\
& 0 \le x_i
\end{array}
$$

Soluções para problemas de programação linear no Matlab são encontrados através do comando ```linprog``` este comando porém só resolve problemas de minimização, portando caso deseje resolver um problema de maximização é necessário multiplicar os coeficientes por $-1$. Para o problema exemplificado, como estamos resolvendo um problema de maximização, reescrevemos a função objetivo como:

$$
\begin{array}{ll}
\min & Z = -1000x_1 - 550x_2 \\
\end{array}
$$

Os valores do coeficiente da função objetivo devem ser salvos em um vetor, que servirá como parâmetro para o comando futuramente, isso é feito pelo bloco de código a seguir:

In [None]:
f = [-1000 -550];

Agora é necessário criar uma matriz $A$ com os coeficientes do lado esquerdo das restrições. Note que todas as restrições devem ser de menor ou igual. Uma restrição de maior ou igual pode ser convertida a uma restrição de menor ou igual multiplicando-se por $-1$ (ex: $x \ge a \Leftarrow\Rightarrow -x \le -a$). O código para isso pode ser visto no bloco a seguir.

In [None]:
A = [
    2 1;
    0.5 2;
];

Também é preciso definir o vetor com os coeficientes do lado direito das restrições, assim:

In [None]:
b = [8 10];

Defini-se então as matrizes $A_{eq}$ e $b_{eq}$ para as restrições de igualdade. O problema em questão não possui restrições de igualdade, mas considere um problema com as seguintes restrições:

$$
\begin{array}{ll}
& x_1 + x_2 - x_3 = 8 \\
& 0.5x_1 - 2x_2 = 10 \\
\end{array}
$$

Pode-se escrever a matriz $A_{eq}$ na forma:

$$
A_{eq} = \left[\begin{array}{ccc}
1 & 1 & -1 \\
0.5 & -2 & 0 \\
\end{array}\right]
$$

e a matriz $b_{eq}$ na forma:

$$
A_{eq} = \left[\begin{array}{c}
8 \\
10 \\
\end{array}\right]
$$

Como o problema em questão não possui essas restrições, elas serão passadas conforme o código abaixo.

In [None]:
Aeq = [];
beq = [];

Por fim podemos chamar a o comando para orimização confome mostrado abaixo, onde ```x``` é a solução encontrada, ```fval``` é o valor da função objetivo e ```exitflag``` é uma variável que informa o motivo da busca ter parado. Se a ```exitflag``` for igual a $1$ o programa executou normalmente sem falhas, porém uma ```exitflag``` diferente de 1 significa que houve uma falha e a solução encontrada não é otima, é possível conferir os outros valores para a ```exitflag``` [aqui](https://www.mathworks.com/help/optim/ug/linprog.html#buusznx-exitflag). Lembre que, como estamos resolvendo um problema de maximização e multiplicamos a função objetivo por -1, o resultado real é -1 vezes o resultado apresentado pelo comando.

In [None]:
[x, fval, exitflag] = linprog(f, A, b, Aeq, beq)

Como podemos ver ao executar o algorítimo, foi encontrado a solução ótima de produzir 1.7143 lotes de parafusos e 4.5714 lotes de porcas com um lucro de R\$4228,60. Apesar do Matlab ser uma ferramenta excelente para programação e análise de dados, o comando ```linprog``` deixa a desejar quando se trata de interpretar o resuldado obtido com o algorítimo impossibilitando a [análise de sensibilidade](https://docs.ufpr.br/~volmir/PO_I_10_analise_de_sensibilidade.pdf), caso uma análise mais detalhada da solução seja necessária é possível utilizar outras ferramentas como o [Lindo](https://www.lindo.com/), [CPLEX](https://www.ibm.com/br-pt/analytics/cplex-optimizer) ou o [Excel](https://www.excel-easy.com/data-analysis/solver.html) para este objetivo.

### Programação linear inteira

Os problemas resolvidos pela programação linear inteira são similares aos problemas da programação linear convencional, ou seja, todas as restrições e a função objetivo são dadas por uma combinação linear das variáveis de decisão. A programação linear inteira porém acrescenta mais uma restrição onde as variáveis de decisão devem ser inteiras, ou seja, a programação linear inteira é um problema de otimização discreta.

Problemas de otimização discreta são notóriamente mais complexos que algorítimos de otimização contínua, assim, pode ser interessante resolver apenas a versão contínua do problema. O processo de remover restições e resolver uma versão mais simples do problema é conhecido como relaxamento e pode trazer informações importantes sobre a resolução do problema original. Para o problema da programação linear inteira sabe-se que a resolução do problema relaxado (considerando as variáveis como contínuas), é melhor ou igual a solução do problema original. A resolução do problema relaxado serve como ponto de partida para a resolução do algorítimo branch and bound, o qual é usado para a resolução desse tipo de problema. A explicação do algorítimo em si foge do escopo desse texto, porém uma boa explicação pode ser encontrada [aqui](https://www.youtube.com/watch?v=2bo5jtZ_0xA).

Problemas de programação linear inteira podem ser resolvidos no matlab através do comando ```intlinprog``` o qual é muito similar ao comando ```linprog```. Para exemplificar a explicação usaremos o problema descrito no exemplo 2 como não é possível alocar meio onibus para uma linha.

Assim como o comando ```linprog```, o comando ```ìntlinprog``` resolve apenas problemas de minimização. Como o nosso problema é um problema de minimização não precisamos nos preocupar com isso. Começamos o programa definindo um vetos com os coeficientes das variaveis na função objetivo, isso pode ser visto no bloco de código a seguir:

In [None]:
f = ones(1, 12);

É possível executar o algorítimo consderando que apenas algumas variáveis sejam discretas e outras contínuas, assim, o comando exige que lhe seja informado o indice das variáveis discretas, assim, define-se um vetor ```intcon``` com tais indices, ou seja, se $x_1, x_3$ e $x_4$ são discretas $intcon = [1, 3, 4]$. Como todas as nossas variáveis são discretas criamos um vetor com todos os inteiros de 1 a 12.

In [None]:
intcon = [1:1:12];

Seguindo definimos a matriz com os coeficientes das restrições, assim como no caso do comando ```linprog```, todas as restrições devem ser descritas por:

$$\mathbf{A\cdot x \le b}$$

Ou seja, restrições do tipo $\mathbf{c^T\cdot x} \ge b$ devem ser multiplicadas por -1 de forma que $-1 \cdot \mathbf{c^T\cdot x} \le -b$. No nosso problema todas as restrições são do tipo $\mathbf{c^T\cdot x} \ge b$ assim podemos multiplicar todas as restrições por $-1$ de forma que a matriz $\mathbf{A}$ se torna a matriz a seguir:

In [None]:
A = [
    -1,-1,-1, 0, 0, 0, 0, 0, 0, 0, 0, 0;
     0,-1,-1,-1, 0, 0, 0, 0, 0, 0, 0, 0;
     0, 0,-1,-1,-1, 0, 0, 0, 0, 0, 0, 0;
     0, 0, 0,-1,-1,-1, 0, 0, 0, 0, 0, 0;
     0, 0, 0, 0,-1,-1,-1, 0, 0, 0, 0, 0;
     0, 0, 0, 0, 0,-1,-1,-1, 0, 0, 0, 0;
     0, 0, 0, 0, 0, 0,-1,-1,-1, 0, 0, 0;
     0, 0, 0, 0, 0, 0, 0,-1,-1,-1, 0, 0;
     0, 0, 0, 0, 0, 0, 0, 0,-1,-1,-1, 0;
     0, 0, 0, 0, 0, 0, 0, 0, 0,-1,-1,-1;
    -1, 0, 0, 0, 0, 0, 0, 0, 0, 0,-1,-1;
    -1,-1, 0, 0, 0, 0, 0, 0, 0, 0, 0,-1;
];

Por fim, criamos um vetor $\mathbf{b}$ com as restrições os valores das restrições. Como multiplicamos todas as restrições por por $-1$ o vetor ficará conforme o código a seguir:

In [None]:
b = -1*[1, 5, 7, 10, 10, 8, 5, 8, 5, 3, 1, 1];

Assim temos todas as informações necessárias para executar o comando. Algumas informações a mais que podem ser dadas são restrições de igualdade e restrições quanto ao limite das variáveis. Assim, para resolver o problema executamos o comando a seguir:

In [None]:
[x, fval, exitflag] = intlinprog(f, intcon, A, b)

Com a execução do algorítimo, pode-se encontrar um número mínimo de 24 ônibus para atender a demanda requisitada alocados segundo as variáveis apresentadas no vetor $\mathbf{x}$

### Programação dinâmica

Uma forma de se garantir a melhor resposta para problemas de otimização discreta não lineares ou que são difíceis de expressar matematicamente. Para entender a programação dinâmica é primeiro preciso entender recursão, a resolução de problemas de forma recursiva se dá por modelar a resolução do problema através de uma versão mais fácil do mesmo problema, assim é possível reduzir o problema para uma forma trivial da qual pode-se resolver manualmente essa forma é conhecida como **caso base**.

<hr>

##### Exemplo 5

Ao subir uma escada é possível subir um degrau de cada vez ou pular um degrau subindo 2 degrais de uma vez só, dada uma escada com $n$ degrais, de quantas formas diferente é possível subir essa escada?

Considere que existe uma função $f(n)$ que diz de quantas formas é possível subir a escada. Por inspeção é fácil de ver que $f(1) = 1$ pois se a escada só tem um degrau só tem como você subir um degrau, também é facil ver que $f(2) = 2$ pois você pode subir 1 degrau de cada vez, ou dar um pulo e subir os dois logo de uma vez. Os casos de $f(1)$ e $f(2)$ são então considerados os **casos base** ou seja, são a versão do nosso problema que é tão simples que pode ser resolvida manualmente.

Para um $n$ qualquer então ainda precisamos chegar na resposta. Para chegar no n-ésimo degrau é possível chegar até o degrau $n-1$ e subir apenas um degrau, ou chegar até o degrau $n-2$ e subir dois degraus de uma vez. Existem $f(n-1)$ formas de chegar ao degrau $n-1$ e $f(n-2)$ formas de chegar ao degrau $n-2$, logo, existem $f(n-1) + f(n-2)$ formas de chegar ao n-ésimo degrau, ou seja, $f(n) = f(n-1) + f(n-2)$

Por exemplo:

$$
f(5) = f(4) + f(3) \\
f(4) = f(3) + f(2) \\
f(3) = f(2) + f(1) \\
f(3) = 2 + 1 = 3 \\
f(4) = 3 + 2 = 5 \\
f(5) = 5 + 3 = 8
$$

<hr>

Problemas recursivos apresentam um grande problema na execução do código. Considere o problema anterior, se a recursão for implementada simplesmente chamando as funções mais simples conforme o código a seguir:

```
function [out] = f(n)
    if n == 2
        out = 2;
    elseif n == 1
        out = 1;
    else
        out = f(n-1) + f(n-2);
    end
end
```

Se pensarmos na execussão desse código, ao chamar $f(5)$ por exemplo, essa função irá chamar $f(4)$ e $f(3)$, $f(4)$ irá chamar $f(4)$ e $f(3)$, e cada $f(3)$ irá chamar $f(2)$ e $f(1)$ conforme a imagem a seguir. É possível mostrar que o número de chamada de funções segue a sequência de fibonacci, assim, a complexidade desse código é dada por $\mathbf{O(}\phi^n\mathbf{)}$ onde $\phi = \frac{1 + \sqrt{5}}{2}$ ou seja, o tempo de execução cresce exponencialmente com a entrada. Problemas de [recorrência linear](https://brilliant.org/wiki/linear-recurrence-relations/) como o anterior podem ser resolvidos com uma formula fechada mas em geral isso é muito difícil de ser feito em problemas não lineares e problemas de otimização.

![Recurssão](recurssion.png)

Ao analizar mais a fundo o problema é possível notar que, $f(1), f(2), f(3)$ são chamados mais de uma vez, aliás esse padrão se repete, se chamarmos $f(8)$, $f(7)$ será chamado 1 vez, $f(6)$ será chamado 2 vezes, $f(5)$ será chamado 3 vezes, $f(4)$ será chamado 5 vezes, $f(3)$ será chamado 8 vezes e $f(2)$ será chamado 13 vezes. Um tempo considerável de processamento seria economizado se, ao invés de chamar as funções menores, uma vez calculado o valor, ao chamar a função novamente o valor fosse apenas retornado (ex: ao chamar $f(4)$ seria retornado 5 ao invés de chamar $f(3)$ e $f(2)$). A programação dinâmica consiste em armazenar o resultado da função para ser usado futuramente, isso é feito através de uma tabela de memorização. O código para o problema do exemplo 5 pode ser facilmente modificado para utilizar essa técnica dando origem ao código a seguir:

```
function [out] = f(n)
    persistent memo;
    memo(1) = 1;
    memo(2) = 2;

    if n > size(memo)
        memo(n) = f(n-1) + f(n-2);
    end
    
    out = memo(n);
end
```

Essa modificação pode parecer simples, mas ela muda o tempo de execução do algorítimo de exponencial para linear, consumindo apenas um pouco mais de memória.

A programação dinâmica é frequentemente usada para resolver problemas de otimização, para entender como ela seria aplicada veremos o uso dela em 3 problemas clássicos.

<hr>

##### Exemplo 6

Um caixa precisa dar o troco para o cliente, porém como não quer ficar sem troco ele precisa dar o mínimo de moedas possível para o cliente, acontece que a moeda do país só tem moedas de 1, 6 e 9 centavos. Uma forma comum de fazer isso é dando o máximo de moedas da maior denominação, completando com o máximo de moedas da denominação imediatamente menor, e assim por diante até completar o valor necessário. No caso de 16 centavos o troco seria 1 moeda de 9 centavos, 1 de 6 centavos e 1 de 1 centavo ou seja, 3 moedas o que é otimo. Considere agora o caso de dar 12 centavos de troco, esse algorítimo daria 1 moeda de 9 centavos, 0 moedas de 6 centavos e 3 moedas de 1 centavo totalizando 4 moedas ao contrário das 2 moedas que seriam dadas se fossem utilizadas entregando apenas 2 moedas de 6.

Esse problema é possível de ser resolvido pela programação dinâmica. Para isso primeiramente modala-se o problema de forma recursiva. Suponha que $f(n)$ é uma função que retorne a quantidade mínima de moedas necessárias para o troco. Suponha que para chegar a configuração mínima é preciso usar 1 moeda de 9 centavos, então $f(n) = f(n - 9) + 1$, suponha que ao invés de uma moeda de denominação 9 é preciso uma moeda de denominação 6, então, $f(n) = f(n - 6) + 1$. Assim, é possivel chegar na seguinte relação, onde $c_k$ é a k-ésima denominação de moeda:

$$
f(n) = \min f(n - c_k) + 1
$$

Precisamos também de um caso base, para este problema a forma mais trivial ele é para $n=0$ onde não é preciso nenhuma moeda.

Uma vez tendo essa relação é possivel programar o algorítimo guarndando os valores já calculados em um vetor, para valores ainda não calculados será utilizado o valor infinito. O código para a programação dinâmica pode ser visto na celula de código a seguir.

In [None]:
% Modifique n para calcular o troco para o valor desejado
% OBS: n deve ser inteiro
n = 12;

% Variaveis para a PD
moedas = [1, 6, 9];
memo = Inf*ones(1, n);

% Calculando o valor minimo
for ck = moedas
    for i = 1:n
        if ck < i
            memo(i) = min(memo(i), memo(i - ck) + 1);
        elseif ck == i
            memo(i) = 1;
        end
    end
end

% Imprimindo o valor minimo
disp(['O valor mínimo de moedas é ', num2str(memo(n))])


##### Exemplo 7


Dada duas strings A e B, a distância de Levenshtein entre A e B é a o número mínimo de operações que precisa ser feito para transformar a string A em B ou vice e versa sendo essas operações a incerção, remoção ou substituição de um caracter, , por exemplo, considere as palavras "pato" e "carro", podemos ver pela tabela a seguir que a distância de Levenshtein entre elas é 3, sendo que em todos os momentos em que há uma operação, os caracteres envolvidos são marcados em negrito.

||||||
|--|--|--|
|**C**|A|**R**|**R**|O|
|**P**|A|**T**|**-**|O|

Novamente, para resolver o problema utilizando programação dinâmica é preciso modela-lo de forma recursiva. Vamos definir uma função $f(n, m)$ que calcula a distância entre a substring do primeiro caracter até o n-ésimo caracter de A, e da substring do primeiro caracter ao m-ésimo caracter de B. Se o caracter $A_n$ for igual ao caracter $B_m$ então a distância $f(n, m)$ é a distância é a mesma distância calculada até o momento, ou seja, $f(n, m) = f(n-1, m-1)$. Se os caracteres porém forem diferentes é preciso fazer uma das 3 operações. Considere que a operação de deletar o caracter $A_n$ seja a operação otima a ser feita, então $f(n, m) = f(n-1, m) + 1$ pois $f(n-1, m)$ é a distância entre a substring obtida após deletar o caracter e a substring sendo comparada de B. Caso a inserção de um caracter em B seja a operação ótima, temos que $f(n, m) = f(n, m-1) + 1$ por um argumento similar ao apresentado anteriormente. Se, por fim, a substituição for a opção ótima, temos que $f(n, m) = f(n-1, m-1) + 1$. Essa modelagem leva a formula a baixo:

$$
f(n, m) = \left\{
\begin{array}[l r]
\space f(n-1, m-1) , & a_n = b_m \\
& \\
min \left\{
    \begin{array}[l]
        \space f(n-1, m-1) + 1 \\
        f(n, m-1) + 1 \\
        f(n-1, m) + 1 \\
     \end{array}\right., & a_n \ne b_m \\
\end{array}\right.
$$

Agora é preciso achar o caso base, para este problema o caso base é dado quando as duas strings são strings vazias, neste caso, assim, $f(0, 0) = 0$, aliás, a distância entre uma string de tamanho $n$ e uma string vazia é $n$, ou seja, $f(n, 0) = f(0, n) = n$. Com a formulação matemática e o caso base, é possivel usar a programação dinâmica para resolver este problema conforme o código abaixo

In [None]:
% Strings para calcular a distancia
str1 = 'carro';
str2 = 'pato';

% Matriz para memorização
memo = zeros(length(str1), length(str2));

% Programação dinâmica
for i = 1:length(str1)
    for j = 1:length(str2)
        if i == 1 || j == 1
            memo(i, j) = max([i, j]);
        else
            if str1(i) == str2(j)
                memo(i, j) = memo(i-1, j-1);
            else
                memo(i, j) = min([memo(i-1, j-1), memo(i-1, j), memo(i, j-1)]) + 1;
            end
        end
    end
end

% Resolução
disp(['A distância de Levenshtein é ', num2str(memo(length(str1), length(str2)))])

A programação dinâmica é uma técnica poderosa, porém é um tópico extenso e a modelagem por ela muitas vezes não é trivial, assim, recomendo que o leitos não se limite a esse texto, mas estude melhor a técnica e pratique o seu uso para poder reconhecer e modelar problemas por ela, segue a baixo uma lista de recursos para se aprofundar no tópico:

- [Geeks for geeks](https://www.geeksforgeeks.org/dynamic-programming/)
- [URI online judge](https://www.urionlinejudge.com.br/)
- [UVA online judge](https://onlinejudge.org/)
- [Hacker rank](https://www.hackerrank.com/)
- [Brilliant](https://brilliant.org/)

### Algorítimos gulosos o gradiente

Algorítimos gulosos são aqueles que tentam encontrar a ponto ótimo buscando pontos próximos ao ponto atual que sejam melhores do que o ponto atual. Este algorítimo não garante que seja encontrada solução ótima global, mas garante encontrar ótimos locais, assim serve de base para diversos algorítimos de otimização. Quando se encontra uma [substrutura ótima do problema](https://stackoverflow.com/questions/19903455/greedy-algorithms-and-optimal-substructure) é possível garantir que a solução encontrada é ótima, para outros casos, a programação dinâmica pode se mostrar uma alternativa interessante.

<hr>

##### Exemplo 8

Uma empresa deseja instalar os cabos de rede entre as salas de forma a conectar todas as salas. São quatro salas onde a distância entre elas é apresentada na imagem a seguir. Se a empresa não quer redundância no sistema, quantos metros de cabo no mínimo são necessários para conectar todas as salas?

![Salas](salas.png)

Uma forma de tentar minimizar o problema é escolher a menor aresta, em seguida escolher a segunda menor aresta e incluir ela se não formar nenhum loop, repetindo o processo até que todas as salas sejam conectadas. Ao fazer este algorítimo a conexão final é dada pela imagem a seguir. 

![Salas otimo](salas_otimo.png)

Este algorítimo é conhecido como [algorítimo de Kruskall](https://www.geeksforgeeks.org/kruskals-minimum-spanning-tree-algorithm-greedy-algo-2/) e é possivel provar que a solução encontrada por ele é otima.

<hr>

Uma das formas de se usar um algorítimo guloso é através do vetor gradiente de uma função. O gradiente aponta para o sentido em que a função mais cresce, assim, ao dar um passo no sentido do gradiente, você esta maximizando a função e um passo no sentido contrário ao gradiente minimiza a função. Essa idéia é base para diverços algoritimos de otimização, como a [decida do gradiente](https://en.wikipedia.org/wiki/Gradient_descent), o [generalized reduced gradient (GRG)](https://glossary.informs.org/ver2/mpgwiki/index.php/Generalized_reduced_gradient_method) e os algorítimos usados pelo comando [fmincon](https://www.mathworks.com/help/optim/ug/fmincon.html) do Matlab. Este método porém converge para um ponto ótimo local, assim, não é possivel garantir que o resultado encontrado é um ponto ótimo global.

### Descida do gradiente

Um algorítimo de minimização que se tornou muito popular por conta da popularidade das redes neurais é a descida do gradiente. Este algorítimo se baseia em computar o gradiente da função e dar um passo pré-definido no sentido contrário ao gradiente, esse processo é repetido por um numero pré-determinado.

<hr>

##### Exemplo 9

Para exemplificar o algorítimo vamos minimizar a função:

$$f(x) = \frac{e^x + x^2}{e^x}$$

Primeiro definimos o ponto inicial, neste caso usaremos $x=1$, a escolha do ponto inicial influencia qual mínimo será encontrado, entretanto, se não se tem nenhuma informação sobre a função, um ponto aleatório é tão bom quanto qualquer outro.
Definimos também que o método irá executar por 100000 iterações e que em cada iteração será dado um passo de 0,01 vezes o o gradiente. Estes parâmetros definidos aqui são conhecidos como hyperparâmetros e a escolha deles em si é também um problema de otimização.

Começaremos então definindo os hyperparâmetros e a função a ser otimizada.

In [None]:
% Hyperparametros
x0 = 1;
eta = 0.01;
n_iteracoes = 1000;

% Funcao
syms x;
f = (exp(x) + x^2)/exp(x);

Agora podemos achar o gradiente, nesse caso a derivada da função e buscar otimiza-la.

In [None]:
% Gradiente
df = diff(f, x);

% Descida do gradiente
res = x0;
for i = 1:n_iteracoes
    res = res - eta*eval(subs(df, x, res));
end

% Resposta
disp(['O ponto mínimo ocorre em x=', num2str(res), ' com o valor de f(x)=', num2str(eval(subs(f, x, res)))])

<hr>

Em geral a descida do gradiente pode ser descrita pela recorrência abaixo:

$$x_{n+1} = x_n - \eta*\nabla f(x_n)$$

A escolha dos hiperparâmetros neste algorítimo é extremamente importante para o resultado do algorítimo. A escolha de um valor de $\eta$ muito grande pode levar a resposta a oscilar ou divergir do resultado esperado, enquanto um valor muito pequeno pode fazer o algorítimo levar muito tempo para convergir. Tecnicas como Adaptive gradient (Adagrad) e o momento de Nesterov existem para remediar estas situações e podem ser vistos com mais detalhes [aqui](https://ruder.io/optimizing-gradient-descent/).

### Algorítimo do ponto interior

Uma outra forma de se resolver problemas de otimização não linear é através do algorítimo de ponto interior. Entender o funcionamento do algorítimo foge do escopo deste texto, porém, é possível encontrar uma boa explicação [aqui](https://www.youtube.com/watch?v=zm4mfr-QT1E) caso deseje entender melhor o seu funcionamento. Este algorítimo também usa do gradiente para encontrar soluções melhores a partir da solução inicial e é capaz de encontrar ótimos locais em problemas não lineares sendo ideal para problemas unimodais. É possível executar este algorítimo no Matlab através do comando ```fmincon```.

##### Exemplo 10

Uma siderúrgica produz pregos e parafusos. Por conta da econômia de escalas o lucro da empresa por lote de parafusos é dado pela função a seguir onde $x_1$ representa a quantidade de lotes de pregos e $x_2$ representa a quantidade de lotes de parafusos:

$$Z = 34\cdot x_1\cdot log(x_1) + 64\cdot x_2\cdot log(x_2)$$


Demora 3 horas para produzir 100 lotes de pregos e 2 horas para produsir 125 lotes de parafuso. A empresa tem disponível 40 horas semanais disponíveis para produzir seus produtos. Cada lote de pregos ou parafusos usa 10 kg de ferro, e a empresa  tem em estoque o suficiente para usar 10 toneladas de ferro por semana. Um cliente muito importante compra toda semana 30 lotes de pregos e 50 de parafusos. Qual é a produção ótima da empresa? 


Começamos o problema escrevendo o modelo:


$$
\begin{array}{ll}
\max & Z =  34\cdot x_1\cdot ln(x_1) + 64\cdot x_2\cdot ln(x_2) \\
\text{s.a.} &  \\
& \frac{3}{100}x_1 + \frac{2}{125}x_2 \le 40 \\
& 0.001x_1 + 0.001x_2 \le 1 \\
& x_1 \ge  30 \\
& x_2 \ge 50
\end{array}
$$

Seguindo escrevemos as matrizes com as restrições similar as usadas na programação linear, convertendo-as para a forma $A\vec{x} \le \vec{b}$:

In [7]:
% Matrizes da restricao
A = [
    3/100, 2/125;
    0.001, 0.001;
    -1, 0;
    0, -1
];
b = [40, 1, -30, -50];




Depois definimos a função objetivo, lembrando que o algorítimo só trabalha com minimização da função objetivo, assim, precisamos minimizar $-Z$.

In [8]:
% Funcao objetivo
z = @(x) -30*x(1)*log(x(1)) - 64*x(2)*log(x(2));




Agora podemos executar o algorítimo de otimização. Para a otimização não linear também é preciso fornecer um pinto inicial, como temos a restrição de que $x_1 \ge 30$ e $x_2 \ge 50$, começaremos com o ponto $(30, 50)$.

In [9]:
[x, fval] = fmincon(z, [30 50], A, b)
disp(['O lucro máximo é de ', num2str(-fval)])


Local minimum found that satisfies the constraints.

Optimization completed because the objective function is non-decreasing in 
feasible directions, to within the default value of the optimality tolerance,
and constraints are satisfied to within the default value of the constraint tolerance.




x =

   30.0000  970.0000


fval =

  -4.3000e+05

O lucro máximo é de 430003.617



Também é possível usar essa função com restrições não lineares, para isso  siga as instruções [neste link](https://www.mathworks.com/help/optim/ug/nonlinear-equality-and-inequality-constraints.html).

## Heurísticas

Hurísticas são métodos de tomada de decisão que seguem uma regra genérica para a resolução do problema tomando decisões predefinidas que são consideradas boas em um contexto geral e buscam assim trazer resultados satisfatórios. É importante notar que nem sempre a decisão tomada por uma heurística será a melhor, assim, a solução encontrada não é garantida de ser a solução ótima, mas metodos heurísticos podem trazer soluções satisfatórias para o problema das quais muitas vezes são a unica forma de encontra-las.

### Exploração vs Explotação

Um tema recorrente, ao lidar com o heurísticas é o tema de exploração vs explotação, ou seja, suponha que seja encontrado uma solução boa, vale a pena mudar para uma solução pior para tentar encontrar uma solução melhor futuramente, ou vale a pena melhorar em cima da solução já encontrada para chegar ao ótimo local a partir dessa solução. Por um lado ao insistir em otimizar a partir de uma solução dada pode se chegar apenas ao um valor ótimo local e perder um possível ótimo global, por outro lado ao partir de uma outra solução não é garantido alcançar um ponto ótimo global e pode ser que o ótimo local encontrado seja ainda pior do que caso não tivesse mudado. Cada algorítimo diferente apresenta essa escolha, e trata dos seus resultados de uma forma diferente.

##### Exemplo 11

Considere a função:

$$
y = x^2 + \sin(8x)
$$

Ao plotar esta função temos o gráfico a seguir.

In [None]:
x = -2:0.01:2;
y = x.^2 + sin(8*x);
plot(x, y)

Se quisermos minimizar esta função através da descida do gradiente por exemplo, começando em $x=-1$ achariamos o ponto ótimo em $x\approx -0.952$. Suponha agora que nós temos um algorítimo que escolhe de forma aleatória se vai seguir a descida em gradiente com probabilidade $p$ e com probabilidade $(1-p)$ o algorítimo simplismente escolhe um outro ponto inicial e repita o processo. Mesmo começando em um ponto que resultaria apenas em um ótimo local como em $x=-1$ é possivel que o algorítimo mude para a região onde convergiria para o mínimo global em $x\approx -0.19$. Ao escolher um valor baixo de $p$ o algoritimo irá sempre buscar um ponto aleatório, nunca chegando a um valor ótimo, se $p$ é muito alto o algorítimo não se diferencia da descida ao gradiente. A escolha do valor de $p$ exemplifica a troca entre exploração e explotação.

### Recozimento simulado

O recozimento simulado se baseia no recozimento de metais onde o metal é aquecido e logo resfriado, modificando a estrutura atômica, reduzindo os defeitos e minimizando a energia do sistema. Podemos pensar nos atomos como partículas seguindo um movimento Browniano e a temperatura como sendo velocidade das particulas nesse movimento. Em uma temperatura maior, as particulas movem mais rápido de forma aleatória, uma temperatura mais baixa as particulas se movem mais devagar.

O algorítimo de [recozimento simulado](https://brilliant.org/wiki/annealing/) começa com um ponto inicial $x_0$ e uma temperatura $T$. A partir de $x_0$ é calculado o valor da função objetivo $z_0$ naquele ponto e um novo ponto $p$ é escolhido na vizinhança de $x_0$. É calculado o valor $z_p$ da função objetivo em $p$, se $z_p$ for melhor do que $z_0$, o valor de $x_1$ passa a ser $p$, se ao invés disso $z_p$ for pior do que $z_0$, $x_1$ assumirá o valor de $p$ com uma probabilidade $\beta$, porém com uma probabilidade $1-\beta$ ele assumirá o valor de $x_0$. O valor de $\beta$ depende da temperatura do sistema, e em cada iteração a temeratura do sistema reduz. O algorítimo inicial com uma temperatura elevada e termina com uma temperatura baixa.

O efeito deste alorítimo é que inicialmente, com uma temperatura elevada, as soluções são praticamente aleatórias e a resolução se assemelha ao [método de Monte Carlo](https://brilliant.org/wiki/monte-carlo/), porém, conforme o sistema esfria, as soluções vão se aproxiamndo da solução ótima e o algorítimo se assemelha a descida do gradiente. A temperatura inicial e a velociade em que ela decai representam a troca entre exploração e explotação no sistema.

No Matlab, é possível executar o anelamento simulado através da toobox de otimização ou pelo comando ```simulannealbnd```.

##### Exemplo 12

Vamos encontra o máximo da equação:

$$
f(x) = \frac{\sin{x^2}}{x}
$$

Podemos ver o gráfico dessa função abaixo, como podemos ver no gráfico, essa função possui multiplos máximos locais.

In [None]:
x = -5:0.001:5;
f = sin(x.^2)./x;
hold on;
grid on;
plot(x, f)

Primeiro definimos a função objetivo, como o comando funciona apenas como um algorítimo de minimização, minimizaremos $Z = -f(x)$

In [None]:
Z = @(x) -sin(x^2)/x;

Podemos definir também os hiperparâmetros do método:

In [None]:
opt = optimoptions(@simulannealbnd,...
 'InitialTemperature', 10000);

Podemos agora otimizar a função, partiremos de $x_0=5$ este valor não é importante e foi escolhido arbitrariamente, a unica restrição que temos em relação a essa função é que $x\ne 0$. Uma forma de ajudar significamente o algorítimo é delimitar os limites da busca, no nosso caso foi buscada uma solução no intervalo $-10 \le x \le 10$.

In [None]:
[x, func] = simulannealbnd(Z, 5, -10, 10, opt);
disp(['A solução ótima é f(x)=', num2str(-func), ' em x=', num2str(x)])

### Algorítimos evolutivos

Algorítimos evolutivos são baseados na teoria da evolução de Charles Darwin. Neste algorítimo diverças soluções são geradas aleatoriamente, essas soluções são avaliadas segundo a sua função objetivo. As soluções com os melhores valores para a função são escolhidos e os outros descartadas. Feito isso novas soluções aleatórias são criadas baseadas nas soluções anteriores através das operações de **mutação** e **cross-over**.

As soluções em um algorítimo genético são descritas através de um cromossomo contendo um conjunto de genes e cada iteração do algorítimo é conhecido como uma geração, cada solução é conhecida como um indivíduo e um conjunto de indivíduos forma uma população. É muito comum em algorítimos evolutivos o uso de elitismo, ou seja, os melhores indíviduos de uma população sobrevivem para a próxima geração.

A cada geração, são selecionados os melhores indivíduos da geração anterior e os próximos indivíduos são gerados a partir deles. O processo de **cross-over** se da quando um novo indivíduo é gerado a partir do cromossomo de 2 indivíduos. Cada gene no cromossomo do novo indivíduo passa por um processo de Bernoulli onde há um probabilidade $p$ de haver uma **mutação** naquele gene, esta probabilidade é dada pela taxa de mutação do algorítimo. Em algorítimos evolutivos, a taxa de mutação controla a troca entre exploração e explotação.

Uma explicação mais detalhada do algorítimo pode ser encontrada [aqui](https://towardsdatascience.com/introduction-to-genetic-algorithms-including-example-code-e396e98d8bf3).

##### Exemplo 13

O Matlab permite usar algorítimos genéticos para resolução de problemas de otimização utilizando o comando ```ga``` O uso deste comando é muito similar ao uso de comandos como o ```fmincon``` assim, usaremos ele para otimizar o mesmo problema do exemplo 10.

Começamos definindo as matrizes de restrição de forma que $A\vec{x} \le \vec{b}$:

In [2]:
% Matrizes da restricao
A = [
    3/100, 2/125;
    0.001, 0.001;
    -1, 0;
    0, -1
];
b = [40, 1, -30, -50];




Definimos também a função objetivo

In [3]:
% Funcao objetivo
z = @(x) -30*x(1)*log(x(1)) - 64*x(2)*log(x(2));




Por fim executamos o comando. Para executar, é preciso informar o número de variáveis sendo utilizado.

In [6]:
[x fval] = ga(z,2,A,b)
disp(['O valor ótimo é f(x)=', num2str(-fval)])

Optimization terminated: average change in the fitness value less than options.FunctionTolerance.

x =

   30.0002  970.9998


fval =

  -4.3051e+05

O valor ótimo é f(x)=430507.7093



Apesar de funcionar em problemas unimodais, onde o algorítimo realmente se destaca é em problemas multimodais, para problemas unimodais existem algorítimos melhores como o método do ponto interior ou o generalized reduced gradient.

##### Exemplo 14

Neste exemplo vmos escrever um algorítimo evolutivo para resolver o problema do caixeiro viajante. O problema do caixeiro viajante é dado por, dado um conjunto de cidades com estradas entre elas de difererntes tamanhos, qual é o caminho mínimo para percorrer todas as cidades de forma que, cada cidade seja visitada uma única vez, ao visitar todas as cidades é preciso retornar a cidade inicial.

Começaremos descrevendo o código genético para este algorítimo e para isso usaremos um vetor com cada cidade a ser visitada em ordem, ou seja, o vetor $[1, 3, 2, 4, 5]$ significa que a cidade 1 será a primeira a ser visitada, em seguida a cidade 3, seguindo para as cidades 2, 4, 5 e retornando para a cidade 1 nesta ordem. A função objetivo é dada pela soma das distâncias entre as cidades, ou seja, se $dist(x, y)$ é a distância da cidade $x$ para a cidade $y$ então para o código descrito anteriormente, a função objetivo é dada por $Z = dist(1, 3) + dist(3, 2) + dist(2, 4) + dist(4, 5) + dist(5, 1)$.

As cidades e as estradas entre elas são representadas por uma matriz de adjacência, ou seja, a posição $a_{ij}$ da matriz significa que existe uma estrada de tamanho $a_{ij}$ que leva da cidade $i$ para a cidade $j$. Logo, na matriz a seguir indica que a distância entre a cidade 1 e a cidade 2 é 3, a distância entre a cidade 1 e 2 é 2 e assim por diante, note que a matriz não é simétrica, as estradas muitas vezes tem apenas 1 sentido, assim, a distância saindo da cidade 1 e indo para a cidade 2 não é igual a distância saindo da cidade 2 e indo para a cidade 1.

$$
\left[\begin{array}[c c c]
\space0 & 3 & 2 \\
1 & 0 & 7 \\
5 & 3 & 0 \\
\end{array}\right]
$$

A operação de **mutação** é feita trocando a ordem de 2 cidades, ou seja suponha que haja uma mutação no cromossomo $[1, 3, 2, 4, 5]$ na posição de $[4, 5]$, essa mutação transformaria o código em $[1, 3, 2, 5, 4]$.

A operação de **cross-over** é feita da seguinte forma. Começamos recebendo 2 cromossomos de indivíduos diferentes, por exemplo $[1, 3, 2, 4, 5]$ e $[2, 1, 5, 4, 3]$. São selecionados 2 posições aleatórias, por exemplo 1 e 3. Um novo individuo é inicializado com o código $[0, 0, 0, 0, 0]$ e o código do primeiro indivíduo é copiado nas posições selecionadas, no nosso exemplo obteriamos o código $[1, 3, 2, 0, 0]$ e por fim terminamos adicionando os genes do segundo indivíduo que ainda não foi adicionado ao indivíduo, neste exemplo, $[1, 3, 2, 5, 4]$.

**Infelizmente não é possível programar este código neste notebook, para conferir o código visite o link [aqui](https://github.com/JoaoAreias/Caixeiro-Viajante)!**

Apesar deste algorítimo não garantir a solução ótima é possível achar soluções boas para problemas relativamente grandes. O gráfico abaixo mostra a evolução da função objetivo para o problema com 100 cidades por 100 gerações que pode ser executado em um laptop qualquer. Para fins de comparação na data em que este notebook foi escrito o computador mais rápido do mundo é o Summit da IBM com 200 petaflops, ou seja cerca de $2*10^{17}$ instruções por segundo (esse é apenas uma aproximação já que a velocidade dele é medida em [flops](https://en.wikipedia.org/wiki/FLOPS) e não [IPS](https://en.wikipedia.org/wiki/Instructions_per_second)), se tentarmos resolver o problema por força bruta, um algorítimo de complexidade $O(n!)$ seriam necessárias cerca de $9*10^{157}$ instruções para resolver o problema (um pouco mais na verdade), ou seja, seriam necessários cerca de $10^{133}$ anos para executar o algorítimo.

![Caixeiro viajante](caixeiro_viajante.jpg)

### Colonia de formigas

O algorítimo de formigas se baseia no movimento feito pelas formigas para encontrar comida. Formigas deixam um rastro de feromônios ao sair do formigueiro, ao encontrar comida isso é sinalizado para as outras formigas pelo feromônio deixado ao voltar para o formigueiro. Quando as outras formigas detectam este feromônio essas seguem este caminho para buscar a comida, o feromônio evapora com o tempo e formigas também podem se desviar da rota, assim se uma formiga desvia da rota e encontra um caminho melhor, o feromônio sera mais forte naquele caminho pois ao voltar ele terá se evaporado tanto, assim, as formigas mudam de caminho e passam a seguir o caminho melhor.

Neste algorítimo uma série de agentes, conhecidos como formigas, seguem caminhos aleatórios até encontrar uma solução. Pode-se pensar no caminho até a solução como uma sequência de estados e ações tomadas nesses estados que levam do estado inicial até a solução, isso permite modelar o problema como uma série de tomadas de decisão ao invés de apenas um caminho físico em si.

Uma vez que a formiga encontra uma solução ela volta ao estado inicial deixando um rastro de feromônio. A cada estado as formigas escolhem um caminho aleatório para seguir, o caminho é escolhido com probabilidade dada pela formula a seguir:

$$
p_{ij} = \frac{\tau^\alpha_{ij} \cdot \eta^\beta_{ij}}{\sum_{z \in Z}\tau^\alpha_{iz} \cdot \eta^\beta_{iz}}
$$

Para entender essa formula vamos destrincha-la e entender cada pedaço. Começamos com $\tau_{ij}$ que indica a quantidade de feromônio associada a tranzição do estado $i$ para o estado $j$, $\eta$ representa o quão atrativo é ir do estado $i$ para o estado $j$. O valor de $\eta$ pode ser computado por uma heurística como por exemplo ao usar o algorítimo para resolver um labirinto, $\eta$ pode ser dado pela distância euclidiana da posição $j$ até a saída do labirinto. Os valores $\alpha$ e $\beta$ determinam o quão importante são os parâmetros $\tau$ e $\eta$ respectivamente. O produto $\tau^\alpha_{ij} \cdot \eta^\beta_{ij}$ atribui um peso a ir do estado $i$ ao estado $j$, o conjunto $Z$ é dado por todas as decisões possíveis de serem feitas dado que se está no estado $i$, assim, o somatório no denominador da formula é o somatório de todos os pesos associados a todas as possíveis tomadas de decisão partindo do estado $i$.

O valor de $\tau$ é atualizado conforme as formulas a seguir

$$
\tau_{ij} \leftarrow (1-\rho)\tau_{ij} + \sum_k \Delta\tau_{ij}^k
$$

Onde $\rho$ é a taxa de evaporação do feromônio e $\Delta\tau_{ij}^k$ é a quantidade de feromônio depositada pela k-ésima formiga. O valor de $\Delta\tau_{ij}^k$ é dado pela formula a seguir:

$$
\Delta\tau_{ij}^k = \left\{\begin{array}[c l]
\space\frac{Q}{L_k}, & \text{se a formiga usa o caminho de } i \text{ para } j \\
0, & \text{caso contrário}
\end{array}\right.
$$

Onde $L_k$ é o custo associado ao caminho da k-ésima formiga e $Q$ é uma constante.

### Enxame de partículas

O algorítimo de enxame de partículas é inspirado em alguns comportamentos bandos de passaros e cardumes. Para o algorítimo várias particulas começam com posição e velocidade aleatórias. A posição da particula é uma solução, cada particula grava a melhor solução até o momento que ela encontrou. A cada iteração do algorítimo a i-ésima tem sua posição alterada de acordo com as formulas dadas a seguir:

$$
\begin{array}[l]
\\
v_i \leftarrow w\cdot v_i + c_1\cdot r_1\cdot(\hat{x_i} - x_i) + c_2\cdot r_2\cdot(g - x_i) \\
x_i \leftarrow x_i + v_i
\end{array}
$$

Onde $v_i$ é a velocidade da particula, $c_1$ e $c_2$ são coeficientes relacionados a aceleração da particula, $w$ é a massa da particula, $x_i$ é a posição atual da particula, $\hat{x_i}$ é a solução ótima encontrada até o momento pela i-ésima particula, g é a melhor solução até o momento e $r_1$ e $r_2$ são valores aleatórios que definem o quanto ponderar de cada parcela do algoritimo. O processo se repete até que as particulas convergem para a solução ótima.

O valor de $w$ permite controlar a troca entre exploração e explotação, sendo que um valor maior de $w$ resulta em mais exploração das soluções. Uma variação muito comum do algorítimo envolve em variar o valor de $w$ começando com um peso elevado e decaindo gradativamente. O resultado disso é um algorítimo que se assemelha ao recozimento simulado onde o algorítimo começa explorando o espaço mas conforme o algorítimo vai chegando ao fim as particulas convergem mais e mais para a solução ótima encontrada.

Quando o problema exige restrições uma forma de satisfazer essa restrição é penalizando a função objetivo em soluções que infringem as restrições, a penalidade deve ser grande o bastante para que esta solução seja considerada subótima.


##### Exemplo 15

Para exemplificar o algorítimo vamos minimizar a função a seguir dentro do intervalo $-10 \le x_i \le 10$:

$$
Z = \sum_{i=1}^{10} x_i^2
$$

Começamos definindo os hiperparâmetros:

In [1]:
n_iteracoes = 500;
n_particulas = 10;
n_variaveis = 10;

wMax = 0.9; % Peso máximo
wMin = 0.2; % Peso minimo

% Aceleração
c1 = 2;
c2 = 2;

% Limites superior e inferior da busca

lb = -10*ones(1, n_variaveis);
ub =  10*ones(1, n_variaveis);




Agora definimos a função objetivo, incluindo a penalidade:

In [2]:
Z = @(x) sum(x.^2) + 1e30*sum(x > ub) + 1e30*sum(x < lb);




Agora, por fim, podemos escrever o algorítimo.

In [4]:
% Inicializa máximo global
Enxame.melhor_x = zeros(1, n_variaveis);
Enxame.melhor_z = inf;
% Inicializando as particulas
for i = 1:n_particulas
    Enxame.Particula(i).x = (ub - lb).*rand(1, n_variaveis) + lb;
    Enxame.Particula(i).v = zeros(1, n_variaveis);
    Enxame.Particula(i).melhor_x = zeros(1, n_variaveis);
    Enxame.Particula(i).melhor_z = Z(Enxame.Particula(i).x);
end

% Loop principal
for i = 1:n_iteracoes
    % Atualiza função objetivo das particulas
    for j = 1:n_particulas
        Enxame.Particula(j).z = Z(Enxame.Particula(j).x);
        % Se encontrou um valor melhor de Z atualiza o valor de melhor encontrado
        if Enxame.Particula(j).z < Enxame.Particula(j).melhor_z
            Enxame.Particula(j).melhor_x = Enxame.Particula(j).x;
            Enxame.Particula(j).melhor_z = Enxame.Particula(j).z;
            
            % Também atualiza se for o melhor global
            if Enxame.Particula(j).z < Enxame.melhor_z
                Enxame.melhor_x = Enxame.Particula(j).x;
                Enxame.melhor_z = Enxame.Particula(j).z;
            end
        end
    end
    
    % Atualiza o peso
    w = wMax - i*(wMax - wMin)/n_iteracoes;
    
    % Atualiza a velocidade e posição das particulas
    for j = 1:n_particulas
        Enxame.Particula(j).v = (...
            w*Enxame.Particula(j).v + ...
            c1*rand(1, n_variaveis).*(Enxame.Particula(j).melhor_x - Enxame.Particula(j).x) + ...
            c2*rand(1, n_variaveis).*(Enxame.melhor_x - Enxame.Particula(j).x));
        
        Enxame.Particula(j).x = Enxame.Particula(j).x + Enxame.Particula(j).v;
    end
end

disp(['Melhor resultado encontrado, Z=', num2str(Enxame.melhor_z)])

Melhor resultado encontrado, Z=5.2707e-08



## Relaxamento

Muitas vezes em problemas de otimização o problema é muito difícil  para ser resolvido em tempo hábil, quando isso acontece uma das melhores coisas a se fazer é relaxar. A tecnica de relaxamento vem de resolver uma versão mais simples do problema e ver como ela se compara ao problema original.

Talvez um dos problemas mais famosos da computação seja o [problema do caixeiro viajante](https://en.wikipedia.org/wiki/Travelling_salesman_problem). Este problema, para entradas relativamente pequenas, pode demora tanto tempo que mesmo um supercomputador não terminara de computar antes da morte térmica do universo. A solução desse problema também é muito importante para diverças areas fora da computação o que pode ser desanimador já que demora tanto para se resolver, mas nem tudo esta perdido. Apesar de heurísticas não garantirem a solução ótima é possível estimar o quão longe se esta da solução ótima. Considere o problema da [árvore geradora mínima](https://www.geeksforgeeks.org/kruskals-minimum-spanning-tree-algorithm-greedy-algo-2/), este problema é muito mais fácil de ser resolvido do que o problema do caixeiro viajante e serve como base [para aproximar o valor do menor caminho](https://www.cse.wustl.edu/~ychen/7102/Karp-TSP.pdf) uma vez que a arvore gerada será um limite inferior para a solução, assim, a solução encontrada pela heurística pode ser comparada com o valor da arvore. O problema do caixeiro viajante também pode ser resolvido facilmente se abrirmos mão da restrição de que cada caminho só pode ser [visitado uma unica vez](https://sites.cs.ucsb.edu/~teo/cs230.s18/tsp.pdf).

Paulo diz em Coríntios, "Tudo me é permitido mas nem tudo me convém", assim, uma forma muito comum de relaxamento é simplesmente remover restrições do problema e inserir  uma penalidade por infringir a restrição. Isso pode ser visto no exemplo 15 onde, para que as partículas não infringissem a restrição, foi dada uma penalidade para aquelas que a infrigissem.