# APS - otimiza√ß√£o por vetor gradiente

Bruno Zalcberg, Humberto Filho e Rafael Paves

Maio/2023

#### **1a etapa:** 

$$
f(x, y) = x^2 + xy + 4y^2 - x + 3y
$$

##### a) Construa o gr√°fico de ùëì no GeoGebra e observe que ùëì possui um √∫nico ponto de m√≠nimo e n√£o possui pontos de m√°ximo

![Gr√°fico no GeoGebra](etapa1.png)

##### b) Determine o vetor gradiente de ùëì em um ponto gen√©rico (ùë•, ùë¶)

As derivadas parciais dessa fun√ß√£o s√£o dadas por: 

$$\frac{\partial f}{\partial x} = 2x + y - 1$$
$$\frac{\partial f}{\partial y} = x + 8y + 3$$

Dessa forma, o vetor gradiente em um ponto gen√©rico $(x, y)$ √©:

$$\nabla f = \begin{bmatrix} 2x + y - 1 \\ x + 8y + 3 \end{bmatrix}$$

##### c) Usando as ideias desenvolvidas na p√°gina anterior, elabore um c√≥digo que permita determinar o ponto de m√≠nimo da fun√ß√£o ùëì. Utilize um passo fixo ùõº = 0,1 e a estimativa inicial (ùë•0, ùë¶0) = (0, 0). A precis√£o do c√°lculo dever√° ser de $10^{-5}$

In [42]:
import numpy as np

def gradiente(x, y):
    return np.array([2*x + y - 1, x + 8*y + 3])

alfa = [0.1, 0.15, 0.2, 0.3, 0.5]
precisao = 1e-5
p = np.array([0, 0])

for a in alfa:
    steps = 1
    while np.linalg.norm(gradiente(p[0], p[1])) > precisao:
        p = p - a * gradiente(p[0], p[1])
        steps += 1
    print(f"O m√≠nimo da fun√ß√£o ocorre em: x = {p[0]} e y = {p[1]}, sendo alfa = {a}. O n√∫mero de itera√ß√µes foi {steps}.")


O m√≠nimo da fun√ß√£o ocorre em: x = 0.7333283951859033 e y = -0.4666658653156561, sendo alfa = 0.1. O n√∫mero de itera√ß√µes foi 60.
O m√≠nimo da fun√ß√£o ocorre em: x = 0.7333283951859033 e y = -0.4666658653156561, sendo alfa = 0.15. O n√∫mero de itera√ß√µes foi 1.
O m√≠nimo da fun√ß√£o ocorre em: x = 0.7333283951859033 e y = -0.4666658653156561, sendo alfa = 0.2. O n√∫mero de itera√ß√µes foi 1.
O m√≠nimo da fun√ß√£o ocorre em: x = 0.7333283951859033 e y = -0.4666658653156561, sendo alfa = 0.3. O n√∫mero de itera√ß√µes foi 1.
O m√≠nimo da fun√ß√£o ocorre em: x = 0.7333283951859033 e y = -0.4666658653156561, sendo alfa = 0.5. O n√∫mero de itera√ß√µes foi 1.


#### **2a etapa:** 

$$
\sqrt{x^2 + y^2 + 2} + x^2 e^{-y^2} + (x - 3)^2
$$


In [50]:
import numpy as np

def g(x, y):
    return np.sqrt(x**2 + y**2 + 2) + x**2 * np.exp(-y**2) + (x - 3)**2

def gradiente(x, y):
    dfdx = x * ((1 / np.sqrt(x**2 + y**2 + 2)) + 2*np.exp(-y**2) + 2) - 6
    dfdy = y * ((1 / np.sqrt(x**2 + y**2 + 2)) - 2*x**2 * np.exp(-y**2))
    return np.array([dfdx, dfdy])

def algoritmo(p_inicial, alfa, precisao, max_iter=10000):
    iter = 0
    p = p_inicial
    while np.linalg.norm(gradiente(p[0], p[1])) > precisao:
        p = p - alfa * gradiente(p[0], p[1])
        iter += 1
        if iter > max_iter:
            break
    return p, iter

# Pontos iniciais
p_iniciais = [np.array([1, 1]), np.array([-1, -1])]

# Valores de alpha
alfas = [0.05, 0.1, 0.15, 0.2, 0.3, 0.5]

# Precis√£o
precisao = 1e-5

for i, p_inicial in enumerate(p_iniciais):
    for alfa in alfas:
        x_min, steps = algoritmo(p_inicial, alfa, precisao)
        if steps > 10000:
            print(f'Para o ponto inicial {p_inicial} e alpha = {alfa}, o algoritmo n√£o convergiu dentro de 10000 itera√ß√µes.')
        else:
            print(f'Para o ponto inicial {p_inicial} e alpha = {alfa}, o m√≠nimo da fun√ß√£o ocorre em: x = {x_min[0]}, y = {x_min[1]}, sendo o n√∫mero de itera√ß√µes {steps}.')



Para o ponto inicial [1 1] e alpha = 0.05, o m√≠nimo da fun√ß√£o ocorre em: x = 2.5804465538903987, y = 1.962744611296119, sendo o n√∫mero de itera√ß√µes 154.
Para o ponto inicial [1 1] e alpha = 0.1, o m√≠nimo da fun√ß√£o ocorre em: x = 2.580446695352475, y = 1.9627447633427892, sendo o n√∫mero de itera√ß√µes 74.
Para o ponto inicial [1 1] e alpha = 0.15, o m√≠nimo da fun√ß√£o ocorre em: x = 2.5804465575301108, y = 1.9627446141691034, sendo o n√∫mero de itera√ß√µes 47.
Para o ponto inicial [1 1] e alpha = 0.2, o m√≠nimo da fun√ß√£o ocorre em: x = 2.580447215246627, y = 1.9627453238051547, sendo o n√∫mero de itera√ß√µes 34.
Para o ponto inicial [1 1] e alpha = 0.3, o m√≠nimo da fun√ß√£o ocorre em: x = 2.5804467369018784, y = 1.9627448072107596, sendo o n√∫mero de itera√ß√µes 20.
Para o ponto inicial [1 1] e alpha = 0.5, o m√≠nimo da fun√ß√£o ocorre em: x = 2.5804547601803325, y = 1.9627508096263926, sendo o n√∫mero de itera√ß√µes 11.
Para o ponto inicial [-1 -1] e alpha = 0.05, o m√≠ni

Os dois pontos encontrados foram, aproximadamente: $(2,58044; 1,96274)$ e $(2,58044; -1,96274)$

Os dois pontos de m√≠nimo foram obtidos escolhendo diferentes pontos iniciais. O primeiro ponto inicial escolhido foi (1, 1) e o segundo ponto inicial foi (-1, -1). Ao executar o algoritmo a partir desses dois pontos, conseguimos convergir para dois diferentes m√≠nimos locais. A √∫nica modifica√ß√£o necess√°ria no c√≥digo para encontrar o segundo ponto de m√≠nimo foi a altera√ß√£o do ponto inicial. 

A execu√ß√£o do c√≥digo nos mostra um aspecto importante dessa t√©cnica: o ponto inicial pode afetar significativamente o resultado final. Dependendo de qual ponto escolhemos come√ßar, podemos acabar em diferentes m√≠nimos locais. Isso ocorre porque o algoritmo move-se na dire√ß√£o do m√≠nimo local mais pr√≥ximo. Por exemplo, se escolhermos o ponto inicial (0, 0), ou at√© mesmo o ponto (10, 0):



In [52]:
p_iniciais = [np.array([0, 0]), np.array([10, 0])]

for i, p_inicial in enumerate(p_iniciais):
    for alfa in alfas:
        x_min, steps = algoritmo(p_inicial, alfa, precisao)
        if steps > 10000:
            print(f'Para o ponto inicial {p_inicial} e alpha = {alfa}, o algoritmo n√£o convergiu dentro de 10000 itera√ß√µes.')
        else:
            print(f'Para o ponto inicial {p_inicial} e alpha = {alfa}, o m√≠nimo da fun√ß√£o ocorre em: x = {x_min[0]}, y = {x_min[1]}, sendo o n√∫mero de itera√ß√µes {steps}.')

Para o ponto inicial [0 0] e alpha = 0.05, o m√≠nimo da fun√ß√£o ocorre em: x = 1.3288079079856654, y = 0.0, sendo o n√∫mero de itera√ß√µes 55.
Para o ponto inicial [0 0] e alpha = 0.1, o m√≠nimo da fun√ß√£o ocorre em: x = 1.3288082866805682, y = 0.0, sendo o n√∫mero de itera√ß√µes 24.
Para o ponto inicial [0 0] e alpha = 0.15, o m√≠nimo da fun√ß√£o ocorre em: x = 1.3288082834822281, y = 0.0, sendo o n√∫mero de itera√ß√µes 13.
Para o ponto inicial [0 0] e alpha = 0.2, o m√≠nimo da fun√ß√£o ocorre em: x = 1.3288089864487462, y = 0.0, sendo o n√∫mero de itera√ß√µes 7.
Para o ponto inicial [0 0] e alpha = 0.3, o m√≠nimo da fun√ß√£o ocorre em: x = 1.3288115926383264, y = 0.0, sendo o n√∫mero de itera√ß√µes 11.
Para o ponto inicial [0 0] e alpha = 0.5, o algoritmo n√£o convergiu dentro de 10000 itera√ß√µes.
Para o ponto inicial [10  0] e alpha = 0.05, o m√≠nimo da fun√ß√£o ocorre em: x = 1.328812250814172, y = 0.0, sendo o n√∫mero de itera√ß√µes 64.
Para o ponto inicial [10  0] e alpha = 0.

Esse √© um caso muito interessante, pois o ponto (0, 0) se encontra numa posi√ß√£o que praticamente equidista dos dois m√≠nimos locais da fun√ß√£o. Dessa forma, o algoritmo falha, pois n√°o consegue deduzir com precis√£o para onde deve convergir. Veja:

![Equidist√¢ncia!](etapa2.png)

Nesse caso, para qualquer y = 0 o algoritmo falhar√°, pois se enxerga essa "equidist√¢ncia".

Al√©m disso, observamos que o tamanho do passo desempenha um papel importante. Usamos v√°rios valores para o tamanho do passo, sendo eles 0,05; 0,1; 0,15; 0,2; 0,3 e 0,5. Quando o tamanho do passo √© muito grande, o algoritmo pode falhar. Isso ocorre porque, com um passo grande, podemos acabar pulando o m√≠nimo e oscilando ao redor dele. Por outro lado, quando o tamanho do passo era muito pequeno, embora se mantenha uma maior precis√£o, o algoritmo convergia mais lentamente. Portanto, escolher um bom tamanho de passo √© essencial para o bom desempenho do c√≥digo.

Assim, podemos considerar que √© preciso ter cuidado ao escolher o ponto inicial e o tamanho do passo, j√° que ambos podem afetar significativamente a efic√°cia do algoritmo.