# <font face="Verdana" size=6 color='#6495ED'> AN√ÅLISE ESTAT√çSTICA DE DADOS
<font face="Verdana" size=3 color='#40E0D0'> Profs. Larissa Driemeier e Arturo Forner-Cordero

<center><img src='https://drive.google.com/uc?export=view&id=1nW_7p_LyFhbR0ipjSekPcAj6kDoyK73R' width="800"></center>

Este notebook faz parte da aula 05 do curso [IAD-001](https://alunoweb.net/moodle/pluginfile.php/140418/mod_resource/content/6/EST_04_Y2024.pdf).

# Importando bibliotecas

In [None]:
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib import cm, colors
from mpl_toolkits.mplot3d import Axes3D
import pandas as pd

# Normas

Normas s√£o caracter√≠sticas importantes que definem um vetor em um √∫nico valor. S√£o quaisquer fun√ß√µes, definidas por barras horizontais $\|\boldsymbol{u}\|$, que s√£o caracterizadas pelas seguintes propriedades:

1. Normas s√£o valores n√£o negativos. Se voc√™ pensar nas normas como um comprimento, ver√° facilmente por que n√£o pode ser negativo;

2. As normas s√£o $0$ se e somente se o vetor √© um vetor zero;

3. As normas respeitam a desigualdade $\|{\boldsymbol{u}+\boldsymbol{v}}\| \leq \|{\boldsymbol{u}}\|+\|{\boldsymbol{v}}\|$;

4. A norma de um vetor multiplicado por um escalar $\alpha$ √© igual ao valor absoluto desse escalar multiplicado pela norma do vetor, $\|\alpha \boldsymbol{u}\|= |\alpha| \|{\boldsymbol{u}}\|$.

De maneira geral,

$$
|| x ||_p = \left(\sum_i |x_i|^p\right)^{1/p}
$$


## Norma L1

Para $p=1$ tem-se a norma dita $L^1$:

$$
L_1 = || x ||_1 = \sum_i |x_i| = |x_1| + |x_2| + \ldots + |x_i|
$$

Em vetores e matrizes, ela mede a magnitude total considerando cada elemento individualmente. √â frequentemente usada em problemas de otimiza√ß√£o, como a regulariza√ß√£o LASSO, que promove a esparsidade.

## Norma L2

Para $p=2$ tem-se a norma dita $L^2$:

$$
L_2 = || x ||_2 = \sqrt{\left(\sum_i x_i^2\right)} = \sqrt{x_1^2 + x_2^2 + \ldots + x_i^2}
$$

Essa norma mede o "comprimento" ou "tamanho" do vetor de forma geom√©trica. Em muitos problemas de aprendizado de m√°quina, a norma L‚ÇÇ √© usada para regulariza√ß√£o (como no Ridge Regression), ajudando a evitar overfitting.

## Norma Linf

Para $p=\infty$ tem-se a norma dita $L^\infty$:

$$
L_\infty = \max_i|x_i|
$$

Reflete a maior discrep√¢ncia entre qualquer elemento e zero, sendo √∫til quando o foco √© o controle do maior erro ou valor em um vetor/matriz.

## Norma de Frobenius

A **norma de Frobenius** √© uma medida do "tamanho" de uma matriz, definida como a raiz quadrada da soma dos quadrados de todos os seus elementos.

#### Defini√ß√£o Matem√°tica

Para uma matriz $ A$ de dimens√£o $ m \times n$, a **norma de Frobenius** $ ||A||_F $ √© dada por:

$$
||A||_F = \sqrt{\sum_{i=1}^{m} \sum_{j=1}^{n} |A_{ij}|^2}
$$

Onde $ A_{ij} $ representa o elemento da matriz na posi√ß√£o $ i, j $.

A norma de Frobenius pode ser vista como uma generaliza√ß√£o da **norma Euclidiana** (L2) para matrizes. Para um vetor, a norma Euclidiana √© a raiz quadrada da soma dos quadrados dos seus elementos. Para uma matriz, a norma de Frobenius estende essa ideia a todos os seus elementos, tratada como se fosse um vetor "desdobrado".



## Exemplo

Dada a matriz:

$$
A = \begin{bmatrix} 1 & -2 & 3 \\ -4 & 5 & -6 \end{bmatrix}
$$

Vamos calcular as diferentes normas para esta matriz. Para o caso das normas $L_0,L_1, L_\infty$ suponha que os dados estavam em linhas.



### Matrizes e Normas por Linha

Dada a matriz:

$$
A = \begin{bmatrix} 1 & -2 & 3 \\ -4 & 5 & -6 \end{bmatrix}
$$

Vamos calcular as diferentes normas por linha para esta matriz.


### Norma $L_1$ (Soma dos Valores Absolutos dos Elementos por Linha)

A **norma $L_1$** por linha √© a soma dos valores absolutos dos elementos de cada linha.

- *Linha 1*:$ |1| + |-2| + |3| = 1 + 2 + 3 = 6 $
- *Linha 2*: $ |-4| + |5| + |-6| = 4 + 5 + 6 = 15 $

$$
||A||_1^{\text{linha 1}} = 6, \quad ||A||_1^{\text{linha 2}} = 15
$$

### Norma $L_2$ (Raiz Quadrada da Soma dos Quadrados dos Elementos por Linha)

- *Linha 1*: $ \sqrt{(-1)^2 + (-2)^2 + 3^2} = \sqrt{1 + 4 + 9} = \sqrt{14} \approx 3.74$
- *Linha 1*: $ \sqrt{(-4)^2 + 5^2 + (-6)^2} = \sqrt{16 + 25 + 36} = \sqrt{77} \approx 8.77$

$$
||A||_2^{\text{linha 1}} = 3.74, \quad ||A||_2^{\text{linha 2}} = 8.77
$$

### Norma $L_\infty$ (M√°xima Soma Absoluta por Linha)

A **norma $L_\infty$** por linha √© a soma dos valores absolutos dos elementos de cada linha, e escolhemos o valor m√°ximo entre as linhas.

- *Linha 1*:  $\max(|-1|, |-2|, |3|) = \max(1, 2, 3) = 3$
- *Linha 2*: $ \max(|-4|, |5|, |-6|) = \max(4, 5, 6) = 6$


$$
||A||_{\infty}^{\text{linha 1}} = 3, \quad ||A||_{\infty}^{\text{linha 2}} = 6
$$

### Norma de Frobenius (Raiz Quadrada da Soma dos Quadrados)

A **norma de Frobenius** √©:

$$
||A||_F = \sqrt{1^2 + (-2)^2 + 3^2 + (-4)^2 + 5^2 + (-6)^2}
$$

$$
= \sqrt{1 + 4 + 9 + 16 + 25 + 36} = \sqrt{91} \approx 9.54
$$


In [None]:
# Norma L1
A = np.array([[-1, -2, 3],[-4, 5,-6]])
print('L1 =',np.linalg.norm(A, 1, axis=0))

In [None]:
# Norma L2
A = np.array([[-1, -2, 3],[-4, 5,-6]])
print('L2 =', np.linalg.norm(A, 2, axis=0))
#

In [None]:
# Norma Linfty
A = np.array([[-1, -2, 3],[-4, 5,-6]])
print('Linf =',np.linalg.norm(A, np.inf, axis=0))

In [None]:
# Norma Frobenius
A = np.array([[-1, -2, 3],[-4, 5,-6]])
print('L Frobenius =',np.linalg.norm(A, 'fro'))

In [None]:
A = np.array([[2,9,8],[4,7,1],[8,1,5]])
print('L Frobenius =',np.linalg.norm(A, 'fro'))

Veja o c√°lculo da raiz quadrada do tra√ßo de $ A^T A$ da matriz
$$
A = \begin{bmatrix} -1 & -2 & 3 \\ -4 & 5 & -6 \end{bmatrix}
$$

Em partes:
$$
A^T = \begin{bmatrix} -1 & -4 \\ -2 & 5 \\ 3 & -6 \end{bmatrix}
$$

$$
A^T A = \begin{bmatrix} -1 & -4 \\ -2 & 5 \\ 3 & -6 \end{bmatrix} \begin{bmatrix} -1 & -2 & 3 \\ -4 & 5 & -6 \end{bmatrix}= \begin{bmatrix} 17 & -18 & 21 \\ -18 & 29 & -33 \\ 21 & -33 & 45 \end{bmatrix}
$$

$$
\text{tr}(A^T A) = 17 + 29 + 45 = 91
$$

Agora, a raiz quadrada do tra√ßo:

$$
\sqrt{\text{tr}(A^T A)} = \sqrt{91} \approx 9.53
$$

Calculamos anteriormente a *norma de Frobenius* de $ A $,
$$
||A||_F = \sqrt{1 + 4 + 9 + 16 + 25 + 36} = \sqrt{91} \approx 9.53
$$

Veja que a *raiz quadrada do tra√ßo* de $A^T A $ e a *norma de Frobenius* t√™m o mesmo valor de $\sqrt{91} \approx 9.53$.

Ou seja, **ambas as quantidades s√£o iguais** e refletem o mesmo valor para essa matriz $A $.



In [None]:
X,Y = np.meshgrid(np.arange(-2, 2, .01), np.arange(-2, 2, .01))
print('vetor X\n',X,'\n')
print('vetor Y\n',Y,'\n')

In [None]:
Z=[X,Y]
print(np.shape(Z))

In [None]:
plt.scatter(X, Y, marker='o',s=.01);

In [None]:
Z_L1 = np.linalg.norm(Z,1, axis=0) # np.abs(X)+np.abs(Y)
Z_L2 = np.linalg.norm(Z,2, axis=0) # np.sqrt(X**2+Y**2)
Z_L2_2 = np.square(np.linalg.norm(Z,2, axis=0)) # X**2+Y**2
Z_inf = np.linalg.norm(Z,np.inf, axis=0) # np.amax([np.absolute(X),np.absolute(Y)], axis=0)

In [None]:
def makeplot3D(position,angle1,angle2,rotation,alpha,Z,L=1):
    ax = fig.add_subplot(position,projection='3d')
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1,
                cmap='viridis', edgecolor='none', alpha = alpha)
    ax.view_init(angle1,angle2)
    ax.set_xlabel(r'$x_1$', fontsize=12, labelpad=10)
    ax.set_ylabel(r'$x_2$', fontsize=12, labelpad=10)
    ax.zaxis.set_rotate_label(False)
    if L ==1:
      ax.set_zlabel(r'$L^1$', rotation=rotation, fontsize=12, labelpad=0.2)
    elif L == 2:
      ax.set_zlabel(r'$L^2$', rotation=rotation, fontsize=12, labelpad=0.2)
    elif L == 3:
      ax.set_zlabel(r'$L^\infty$', rotation=rotation, fontsize=12, labelpad=0.2)
    else:
      ax.set_zlabel(r'$L$', rotation=rotation, fontsize=12, labelpad=0.2)
    return ax

In [None]:
def makeplot2D(x, y, z):
    plt.figure(figsize=(8, 6))
    scatter = plt.scatter(x, y, c=z, cmap='viridis')
    plt.colorbar(scatter, label='Valor de Z')
    plt.xlabel('X')
    plt.ylabel('Y')
    plt.title('Gr√°fico 2D para norma')
    plt.grid(True)
    plt.show()

In [None]:
fig = plt.figure(figsize=(40,8))
ax = makeplot3D(121,30,-120,90,0.95,Z_L1)
fig.colorbar(plt.cm.ScalarMappable(cmap='viridis'), ax = ax)
ax.set_box_aspect(aspect=None, zoom=0.95)
plt.show()

In [None]:
fig.get_size_inches()

In [None]:
makeplot2D(X.flatten(), Y.flatten(), Z_L1.flatten())

In [None]:
fig = plt.figure(figsize=(40,8))
ax1 = makeplot3D(121,30,-60,100,0.6,Z_L2, L=2)
fig.colorbar(plt.cm.ScalarMappable(cmap='viridis'), ax = ax1)
ax.set_box_aspect(aspect=None, zoom=0.95)
plt.show()
fig = plt.figure(figsize=(40,8))
ax2 = makeplot3D(122,30,-60,100,0.6,Z_L2_2, L=2)
fig.colorbar(plt.cm.ScalarMappable(cmap='viridis'), ax = ax2)
ax.set_box_aspect(aspect=None, zoom=0.95)
plt.show()

In [None]:
makeplot2D(X.flatten(), Y.flatten(), Z_L2.flatten())

In [None]:
fig = plt.figure(figsize=(40,8))
ax = makeplot3D(121,30,-60,100,0.6,Z_inf,L=3)
fig.colorbar(plt.cm.ScalarMappable(cmap='viridis'), ax = ax)
ax.set_box_aspect(aspect=None, zoom=0.95)
plt.show()

In [None]:
makeplot2D(X.flatten(), Y.flatten(), Z_inf.flatten())

## Visualizando os c√≠rculos da norma $p$

A norma L1 √© formalmente definida como a soma do valor absoluto das coordenadas de um vetor. __Ent√£o, por que o diamante?__

A norma L2 √© formalmente definida como o quadrado da diferen√ßa das coordenada de um vetor. __Ent√£o, por que o c√≠rculo?__

A norma L‚àû √© formalmente definida como a dimens√£o absoluta m√°xima das coordenada de um vetor. __Ent√£o, por que o quadrado?__

<center><img src='https://drive.google.com/uc?export=view&id=14CLkD07pBj77LrvOBENlGVuq5VDP54aE' width="120"></center>

In [None]:
Circulo =np.array([[1,0],[0,1],[np.cos(np.deg2rad(45)),np.sin(np.deg2rad(45))],[np.cos(np.deg2rad(60)),np.sin(np.deg2rad(60))]])
np.shape(Circulo)

In [None]:
C_L1 = np.array([[1,0],[0.75,0.25],[0.5,0.5],[0.25,0.75],[0,1]])
C_L2 = np.array([[1,0],[0,1],[np.cos(np.deg2rad(30)),np.sin(np.deg2rad(30))],[np.cos(np.deg2rad(45)),np.sin(np.deg2rad(45))],[np.cos(np.deg2rad(60)),np.sin(np.deg2rad(60))]])
C_Linf = np.array([[1,0],[1,0.5],[1,1],[0.5,1],[0,1]])
print(np.linalg.norm(C_L1,1, axis=1))
print(np.linalg.norm(C_L2,2, axis=1))
print(np.linalg.norm(C_Linf,np.inf, axis=1))

In [None]:
colormap = ('lightgreen', 'darkgreen','skyblue','navy','salmon','crimson','mistyrose','palevioletred')
#diamante
plt.plot(    [1, 0],
    [0, 1],
    color = colormap[0])
#c√≠rculo
angles = np.linspace(0 * np.pi, 2 * np.pi, 100 )
r = 1.
xs = r * np.cos(angles)
ys = r * np.sin(angles)
plt.plot(xs, ys , color = colormap[2])
#quadrado
plt.plot(
    [1, 1, 0],
    [0, 1, 1],
    color = colormap[4]
)

for j,a in enumerate([C_L1, C_L2, C_Linf]):
  plt.scatter( a[:,0], a[:,1],color = colormap[2*j+1])

plt.xlim(0, 1.1)
plt.ylim(0, 1.1)
plt.gca().set_aspect('equal')
plt.show()

# Derivada

A **primeira derivada** de uma fun√ß√£o $ f(x) $, denotada como $ f'(x) $, representa a *taxa de varia√ß√£o instant√¢nea da fun√ß√£o em rela√ß√£o a $ x $*. Se $ f'(x) > 0 $, a fun√ß√£o cresce; se $ f'(x) < 0 $, ela decresce. Quando $ f'(x) = 0 $, pode indicar um **m√°ximo, m√≠nimo ou ponto de inflex√£o**.

A **segunda derivada**, $ f''(x) $, indica a concavidade da fun√ß√£o:
- $ f''(x) > 0 $ ‚Üí **C√¥ncava para cima** ‚Üí poss√≠vel **m√≠nimo local**.
- $ f''(x) < 0 $ ‚Üí **C√¥ncava para baixo** ‚Üí poss√≠vel **m√°ximo local**.
- $ f''(x) = 0 $ ‚Üí pode ser um **ponto de inflex√£o** (teste adicional necess√°rio).

Portanto, as derivadas nos dizem como alterar as entradas de uma fun√ß√£o de maneira a aumentar ou diminuir sua sa√≠da, permitindo que nos aproximemos do m√≠nimo ou m√°ximo da fun√ß√£o. Essa an√°lise √© essencial para **otimiza√ß√£o**, ajudando a identificar extremos locais e compreender o comportamento da fun√ß√£o, sendo amplamente aplicada em aprendizado de m√°quinas.

Para otimizar uma fun√ß√£o, primeiro identificamos seus pontos cr√≠ticos resolvendo $ f'(x) = 0 $. Em seguida, utilizamos a segunda derivada para classificar esses pontos: se $ f''(x) > 0 $, temos um m√≠nimo local; se $ f''(x) < 0 $, um m√°ximo local; e se $ f''(x) = 0 $, √© necess√°rio verificar se h√° mudan√ßa de concavidade.

Por√©m, lembrar exatamente como diferenciar equa√ß√µes pode ser um desafio. Ou, talvez, voc√™ tenha uma equa√ß√£o longa e complicada que deva derivar. Dependendo da equa√ß√£o, voc√™ pode levar de 10 a 15 minutos para fazer isso manualmente.

Vamos conhecer, ent√£o, a biblioteca `SymPy` em Python, que pode fazer todo esse trabalho pesado para n√≥s. Ela tem tudo o que precisamos para derivar. Essa biblioteca tamb√©m integra, resolve sistema de equa√ß√µes, simplifica equa√ß√µes...  mas tudo isso est√° fora do nosso escopo aqui!

Como exemplo, suponha a fun√ß√£o:
$$
f(x,y)=xy+x^2+\sin{2y}
$$

Usando a biblioteca `SymPy`, encontre:
* a primeira derivada da fun√ß√£o $f(x,y)$ com respeito a $x$;
* a segunda derivada da fun√ß√£o $f(x,y)$ com respeito a $y$.


In [None]:
import sympy

In [None]:
x = sympy.Symbol('x')
y = sympy.Symbol('y')

In [None]:
# Criando a equa√ß√£o
f = x * y + x ** 2 + sympy.sin(2 * y)

In [None]:
# Primeira derivada com respeito a x
df_dx = sympy.diff(f, x)
print("A derivada de f(x,y) com respeito a x √©: " + str(df_dx))

In [None]:
# Segunda derivada comr espeito a y
d2f_dy2 = sympy.diff(f, y, 2)
print("A segunda derivada de f(x,y) com respeito a y √©: " + str(d2f_dy2))

In [None]:
def f1(x): return x**2
def f2(x): return -x**2
def f3(x): return x**2 + 3*x + 2

def df1(x): return 2*x
def df2(x): return -2*x
def df3(x): return 2*x + 3

x_values = np.linspace(-5, 5, 500)

functions = [(f1, df1, "x^2", -4, -1, 3),
             (f2, df2, "-x^2", -3, 1, 4),
             (f3, df3, "x^2 + 3x + 2", -4, 0, 4)]

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

for ax, (f, df, label, x1, x2, x3) in zip(axes, functions):
    y_values = f(x_values)
    ax.plot(x_values, y_values, label=label)

    points_x = [x1, x2, x3]  # Escolhe dois pontos ao redor do extremo
    points_y = [f(x) for x in points_x]
    derivatives = [df(x) for x in points_x]

    ax.scatter(points_x, points_y, color='red')

    for i in range(3):
        ax.text(points_x[i], points_y[i], f"f'({points_x[i]}) = {derivatives[i]:.2f}", fontsize=10, verticalalignment='bottom')

    ax.axhline(0, color='black', linewidth=0.5)
    ax.axvline(0, color='black', linewidth=0.5)
    ax.grid()
    ax.set_title(f"Fun√ß√£o {label}")

plt.tight_layout()
plt.show()

#Gradiente

O gradiente √© a generaliza√ß√£o da derivada para fun√ß√µes multivariadas. Ele captura a inclina√ß√£o local da fun√ß√£o, permitindo prever o efeito de dar um pequeno passo de um ponto em qualquer dire√ß√£o.

<center><img src='https://drive.google.com/uc?export=view&id=1xD6tvXQPF5WZW3dJUb9iJXNJeONBzgXA' width="800"></center>


## Mas, afina, qual a diferen√ßa entre Derivada e Gradiente

A __derivada__ e o __gradiente__ est√£o relacionados, mas t√™m diferen√ßas importantes dependendo do contexto matem√°tico. Vamos comparar os dois conceitos de forma clara.

### Derivada (para fun√ß√µes de uma vari√°vel)
A derivada de uma fun√ß√£o escalar $ f(x) $ de uma vari√°vel real mede a taxa de varia√ß√£o instant√¢nea da fun√ß√£o em um ponto. Em outras palavras, ela indica o quanto a fun√ß√£o muda √† medida que a vari√°vel $ x $ muda.

\begin{equation}
f'(x) = \lim_{h \to 0} \frac{f(x + h) - f(x)}{h}
\end{equation}

Por exemplo, se $ f(x) = x^2 $, ent√£o sua derivada √©:

\begin{equation}
f'(x) = 2x.
\end{equation}

Isso significa que a taxa de varia√ß√£o da fun√ß√£o $ f(x) $ em um ponto $ x $ √© dada por $ 2x $.

### Gradiente (para fun√ß√µes de m√∫ltiplas vari√°veis)
Se temos uma fun√ß√£o escalar que depende de m√∫ltiplas vari√°veis, como $ f(x, y) $, em vez de uma √∫nica derivada, temos um vetor chamado __gradiente__, que cont√©m as derivadas parciais em rela√ß√£o a cada vari√°vel:

\begin{equation}
\nabla f(x, y) = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right).
\end{equation}

O gradiente __n√£o √© um n√∫mero, mas um vetor__, e aponta na dire√ß√£o de crescimento m√°ximo da fun√ß√£o.

Por exemplo, para a fun√ß√£o $ f(x, y) = x^2 + 3y $, o gradiente √©:

\begin{equation}
\nabla f(x, y) = (2x, 3).
\end{equation}

Isso significa que: em $ x $, a fun√ß√£o varia com taxa $ 2x $; em $ y $, a fun√ß√£o varia constantemente com taxa $ 3 $.

Se estivermos no ponto $ (1,2) $, o gradiente √©:

\begin{equation}
\nabla f(1,2) = (2,3).
\end{equation}

Esse vetor aponta para a dire√ß√£o de maior crescimento da fun√ß√£o $ f(x, y) $.

Em resumo, a __derivada__ mede a taxa de varia√ß√£o de uma fun√ß√£o de uma vari√°vel e resulta em um n√∫mero. O __gradiente__ generaliza a derivada para fun√ß√µes de m√∫ltiplas vari√°veis e resulta em um vetor, apontando para a dire√ß√£o de crescimento m√°ximo da fun√ß√£o.

In [None]:
def makeplot(position,angle1,angle2,rotation,alpha=0.6):
    ax = fig.add_subplot(position,projection='3d')
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1,
                cmap='viridis', edgecolor='none', alpha = alpha)
    ax.view_init(angle1,angle2)
    ax.set_xlabel(r'$x_1$', fontsize=12)
    ax.set_ylabel(r'$x_2$', fontsize=12)
    ax.zaxis.set_rotate_label(False)
    ax.set_zlabel(r'$f(x_1,x_2)$', rotation=rotation, fontsize=12, labelpad=2)
    return ax

In [None]:
def f(x, y):
    return x*np.exp(-x**2 - y**2)

In [None]:
X,Y = np.meshgrid(np.arange(-2, 2, .1), np.arange(-2, 2, .1))
Z = f(X, Y)

In [None]:
fig = plt.figure(figsize=(20,10))
ax1 = makeplot(121,30,-120,90,0.95)
ax2 = makeplot(122,30,-60,100,0.6)

norm = colors.Normalize(np.min(Z), np.max(Z))
cbar_ax = fig.add_axes([0.5, 0.5, 0.01, 0.38])
fig.colorbar(plt.cm.ScalarMappable(norm=norm,cmap='viridis'), cax=cbar_ax, ax = ax2)

ax1.set_box_aspect(aspect=None, zoom=0.95)
ax2.set_box_aspect(aspect=None, zoom=0.95)
plt.show()

In [None]:
V,U = np.gradient(Z, .2, .1)
fig, ax = plt.subplots(figsize=(10,10))
cmap = plt.get_cmap()
q = ax.quiver(X,Y,U,V, Z, cmap = 'viridis')
plt.show();
fig, ax = plt.subplots(figsize=(10,10))
plt.imshow(Z, interpolation='bilinear');

Veja o exemplo dos slides,
$$
f(x_1,x_2)=x_1^2+x_2^2
$$

In [None]:
def f(x, y):
    return x**2 + y**2

In [None]:
X,Y = np.meshgrid(np.arange(-8, 8, .3), np.arange(-8, 8, .3))
Z = f(X, Y)

In [None]:
fig = plt.figure(figsize=(20,10))

ax1 = makeplot(121,30,60,95)
ax2 = makeplot(122,60,35,100)
norm = colors.Normalize(np.min(Z), np.max(Z))
cbar_ax = fig.add_axes([0.5, 0.5, 0.01, 0.38])
fig.colorbar(plt.cm.ScalarMappable(norm=norm,cmap='viridis'), cax=cbar_ax, ax = ax2);

In [None]:
V,U = np.gradient(Z, 1,1)
fig, ax = plt.subplots(figsize=(10,10))
cmap = plt.get_cmap()
q = ax.quiver(X,Y,U,V, Z, cmap = 'viridis')
plt.show();
fig, ax = plt.subplots(figsize=(10,10))
plt.imshow(Z, interpolation='bilinear');

In [None]:
fig = plt.figure(figsize=(20,10))

ax = plt.axes(projection='3d')
ax.contour3D(X, Y, Z, 50, cmap='binary')
x0,y0 = 2,3
z0=x0**2+y0**2
ax.scatter(x0, y0, z0, color='crimson', linewidth=0.5, s=50)
ax.set_box_aspect(aspect=None, zoom=0.95)
ax.set_xlabel(r'$x_1$', fontsize=12)
ax.set_ylabel(r'$x_2$', fontsize=12)
ax.set_zlabel(r'$f(x_1,x_2)$',fontsize=12);

In [None]:
fig = plt.figure(figsize=(20,10))

ax = plt.axes(projection='3d')
ax.contour3D(X, Y, Z, 50, cmap='binary')
x0,y0 = 2,3
z0=x0**2+y0**2
ax.scatter(x0, y0, z0, color='seagreen', linewidth=0.5)
ax.set_xlabel(r'$x_1$', fontsize=12)
ax.set_ylabel(r'$x_2$', fontsize=12)
ax.set_zlabel(r'$f(x_1,x_2)$',fontsize=12)
x0,y0 = 2,3
z0=x0**2+y0**2
x1,y1 = 2*x0,2*y0
z1 = x1**2+y1**2
u=(x1-x0)
v=(y1-y0)
w=(z1-z0)
N = np.sqrt(u**2+v**2+w**2)  #
uN,vN,wN = u/N,v/N,w/N
ax.scatter(x0, y0, z0, s=50, color = 'crimson', linewidth=0.5)
ax.set_box_aspect(aspect=None, zoom=0.95)

ax.quiver(
        x0,y0,z0, # <-- ponto inicial do vetor
        x1,y1,z1, # <-- ponto final do vetor
        length=0.3, linewidth = 4,
        color = 'navy', alpha = .8, arrow_length_ratio=0.1
    )

ax.scatter(x1, y1, z1, color = 'crimson', s=50, linewidth=0.5);


### Exemplo:  

Considere a fun√ß√£o que modela a temperatura em um ambiente bidimensional:  

\begin{equation}
f(x, y) = x^2 + 3y
\end{equation}

Estamos no ponto no ponto $ a = (1,2) $ e queremos saber QUANTO da temperatura varia na dire√ß√£o $ v = (1,1) $.

O gradiente de $ f(x, y) $ √© dado por:  

\begin{equation}
\nabla f(x, y) = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right)
\end{equation}

Calculamos as derivadas parciais:  

\begin{equation}
\frac{\partial f}{\partial x} = 2x, \quad \frac{\partial f}{\partial y} = 3
\end{equation}

Assim, temos:

\begin{equation}
\nabla f(x, y) = (2x, 3)
\end{equation}

No ponto $ a = (1,2) $, temos:

\begin{equation}
\nabla f(1,2) = (2(1), 3) = (2,3)
\end{equation}

Queremos saber como a temperatura varia na dire√ß√£o $ v = (1,1) $. O gradiente $ \nabla f(a) $ fornece a dire√ß√£o de maior crescimento da fun√ß√£o, e seu produto escalar com $ v $ indica como essa varia√ß√£o ocorre ao longo da dire√ß√£o escolhida. Portanto,

\begin{equation}
\nabla f(1,2) \cdot (1,1) = (2,3) \cdot (1,1) = (2 \times 1) + (3 \times 1) = 2 + 3 = 5
\end{equation}

__RESPOSTA:__ no ponto $ (1,2) $, a temperatura aumenta a uma taxa de 5 unidades na dire√ß√£o $ (1,1) $.  





In [None]:
# Fun√ß√£o que modela a superf√≠cie
def f(x, y):
    return x**2 + 3*y

# Fun√ß√£o para calcular o gradiente da superf√≠cie
def gradiente(x, y):
    df_dx = 2*x
    df_dy = 3
    return np.array([df_dx, df_dy])

# Gera√ß√£o da grade de pontos
X, Y = np.meshgrid(np.arange(-8, 8, 0.3), np.arange(-12, 12, 0.1))
Z = f(X, Y)

In [None]:
fig = plt.figure(figsize=(20,10))
ax = fig.add_subplot(121, projection='3d')  # Subplot 1 (gr√°fico 3D)
surf = ax.plot_surface(X, Y, Z, cmap='viridis', edgecolor='none', alpha=0.6)

# Normaliza√ß√£o para a barra de cores
norm = colors.Normalize(vmin=np.min(Z), vmax=np.max(Z))

#cbar_ax = fig.add_axes([0.91, 0.1, 0.02, 0.8])  # Ajuste da posi√ß√£o da barra de cores (fora do gr√°fico)
fig.colorbar(surf, cax=cbar_ax)

# Ponto a (1, 2, z)
x0, y0 = 1, 2
z0 = f(x0, y0)  # Calcula z0 no ponto (1, 2)
grad = gradiente(x0, y0)
z1 = f(x0 + grad[0], y0 + grad[1])  # Calculando z1 no ponto do gradiente


ax.scatter(x0, y0, z0, color='navy', s=50, label='Ponto (1, 2, z0)')
ax.quiver(x0, y0, z0, grad[0], grad[1], z1 - z0, length=1.0, color='r', linewidth=2, label='Gradiente no ponto (2, 3)')

ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')
ax.set_title('Superf√≠cie com Pontos e Gradiente')

# Configura√ß√£o da visualiza√ß√£o do gr√°fico 3D
#ax.view_init(elev=30, azim=60)  # Vis√£o padr√£o (lateral)

# Adicionar uma nova visualiza√ß√£o superior (top-down)
ax2 = fig.add_subplot(122, projection='3d')  # Subplot 2 (vista superior)
ax2.plot_surface(X, Y, Z, cmap='viridis', edgecolor='none', alpha=0.6)

# Barra de cores para a nova visualiza√ß√£o
fig.colorbar(surf, cax=cbar_ax)


ax2.scatter(x0, y0, z0, color='navy', s=50, label='Ponto (1, 2, z0)')
ax2.quiver(x0, y0, z0, grad[0], grad[1], z1 - z0, length=1.0, color='r', linewidth=2, label='Gradiente no ponto (2, 3)')

# Definindo a visualiza√ß√£o superior (top-down view)
ax2.view_init(elev=90, azim=-90)  # Vista superior (elev=90)
ax2.set_xlabel('X')
ax2.set_ylabel('Y')
ax2.set_zlabel('Z')
ax2.set_title('Vista Superior')


plt.show()

# Otimiza√ß√£o

Muitos algoritmos em aprendizado de m√°quina otimizam uma fun√ß√£o objetivo em rela√ß√£o a um conjunto de par√¢metros de modelo desejados que controlam qu√£o bem um modelo explica os dados. __Encontrar bons par√¢metros pode ser formulado como um problema de otimiza√ß√£o.__


In [None]:
def f(x, y):
    return np.sin(x)+x*np.cos(np.sqrt(2)*x)+y*np.sin(y)

In [None]:
X,Y = np.meshgrid(np.arange(-5, 5, .1), np.arange(-5, 5, .1))
Z = f(X, Y)

fig = plt.figure(figsize=(25,10))
ax1 = makeplot(121,20,-50,95,1)
ax2 = makeplot(122,20,-50,95,0.6)
plt.subplots_adjust(wspace = 0.001 )
cbar_ax = fig.add_axes([0.5, 0.5, 0.01, 0.38])
fig.colorbar(plt.cm.ScalarMappable(norm=norm,cmap='viridis'), cax=cbar_ax, ax = ax2)
ax.set_box_aspect(aspect=None, zoom=0.95)
plt.show()

In [None]:
colors = mpl.cm.jet(np.hypot(X,Y))
fig, ax = plt.subplots(figsize=(10,10))
ax.contourf(X,Y,Z, facecolors=colors);

In [None]:
fig = plt.figure()
ax = plt.axes()
ax.contour(X,Z, Y, [-4])

## Regress√£o multilinear

A regress√£o multi-linear trata da rela√ß√£o de uma vari√°vel dependente com *m√∫ltiplas* vari√°veis independentes.

\begin{equation}
y_i = \omega_0 + \omega_1 x_{i,1} + \omega_2 x_{i,2} +\ldots + w_m x_{i,m}
\end{equation}

seja

\begin{equation}
\boldsymbol{y} = \begin{bmatrix}y_1\\
y_2\\
\vdots\\
y_n\end{bmatrix}
\end{equation}

 um vetor com uma amostra do conjunto de vari√°veis independentes e

\begin{equation}
\boldsymbol{X} = \begin{bmatrix}1 & x_{1,1} & x_{1,2} & \ldots & x_{1,m} \\ 1 &
x_{2,1} & x_{2,2} & \ldots & x_{2,m} \\ 1 &
 \vdots & \vdots & \ddots & \vdots & \vdots\\ 1 &
x_{n,1} & x_{n,2} & \ldots & x_{n,m} \end{bmatrix}
\end{equation}

uma matriz $n \times (m+1)$ cuja  *primeira* coluna √© composta da constante $1$ e as $m$ pr√≥ximas colunas s√£o compostas por uma amostra de cada uma das $m$ vari√°veis independetes.

O modelo linear para o comportamento destas vari√°veis √© dado pela equa√ß√£o:

\begin{equation}
\boldsymbol{y} =  \boldsymbol{X \omega} \tag{1}
\end{equation}

Onde:

\begin{equation}
\boldsymbol{\omega} = \begin{bmatrix}
w_0\\
w_1\\
w_2\\
\vdots\\
w_m
\end{bmatrix}
\end{equation}

√© o vetor  de $(m+1)$ componentes dos coeficientes de cada uma das vari√°veis
independentes. Note que nessa nota√ß√£o o coeficiente $w_0$ √© o *primeiro* coeficiente (h√° nota√ß√µes distintas nas quais ele √© o √∫ltimo). $\boldsymbol{e}$ √© o vetor de *res√≠duos* (a diferen√ßa entre o modelo real e os dados realmente observados).

Em muitas situa√ß√µes, n√£o conseguiremos encontrar um vetor $\boldsymbol{y}$, tal que satisfa√ßa a equa√ß√£o (1). Ent√£o, em vez disso, nos contentaremos em encontrar um vetor $\boldsymbol{\omega}$ tal que $\boldsymbol{X\omega}$ seja o mais pr√≥ximo poss√≠vel $\boldsymbol{y}$, medido pelo quadrado da norma,

\begin{equation}
\|\boldsymbol{y}-\boldsymbol{X\omega}\|^2
\end{equation}

A solu√ß√£o √≥tima $\boldsymbol{\omega}^*$ foi desenvolvida em aula e pode ser escrita como:
\begin{equation}
\boldsymbol{\omega}^*=\left(\boldsymbol{X}^T \boldsymbol{X}\right)^{-1}\boldsymbol{X}^T\boldsymbol{y}
\end{equation}

e a matriz $\left(X^T X\right)^{-1}X^T$ √© dita a *pseudo-inversa* de $X$.

*Nota*: Em geral n√£o √© eficiente calcular explicitamente esta matriz.

## Exemplo do slide

<center><img src='https://drive.google.com/uc?export=view&id=1xo7HfEOAgttK7JlfZL6y2eH-YMLiB4Sz' width="600"></center>

Com dados extra√≠dos do [link](https://www.kaggle.com/datasets/yasserh/housing-prices-dataset), encontre os par√¢metros √≥timos para a previs√£o do pre√ßo de um im√≥vel. Primeiramente, considere apenas um par√¢metro ‚Äì dimens√£o ‚Äì depois, aumente e inclua os demais. Compare os resultados.



Veja a tabela completa...

In [None]:
from google.colab import files
import pandas as pd

uploaded = files.upload()

In [None]:
dados = pd.read_csv('Housing.csv',sep=',')
dados.head()

Mas vamos trabalhar com os poucos dados destacados na tabela abaixo, somente para ilustra√ß√£o.


Casa  | Dimens√£o $(m^2)$ |# quartos |# Banheiros |Idade (anos)| Pre√ßo $(US\$/10^6)$
------|------------------|----------|----------|------------|-------------------
01    | 689              | 4        | 2        |   3       | 13.300
02    | 832              | 4        | 4        |   4       | 12.250
03    | 613              | 4        | 2        |   2       | 9.100
04    | 557              | 3        | 2        |   3       | 6.650
04    | 370              | 2        | 2        |   1       | 3.150

In [None]:
X1=np.array([[1,689],[1,832],[1,613],[1,557],[1,370]])
X = np.array([[1,689,4,2,3],[1,832,4,4,4],[1,613,4,2,2],[1,557,3,2,3],[1,370,2,2,1]])
y=np.array([13.300,12.250,9.100,6.650,3.150])

In [None]:
# vetor w* considerando somente a dimens√£o da casa
w = np.dot(np.linalg.inv(np.dot(X1.T,X1)),np.dot(X1.T,y))
print("w0: " + str(w))

In [None]:
plt.scatter(X1[:,1],y, color = 'black')
area = np.linspace(300,800,2)
y_area = w[0]+w[1]*area
plt.plot(area,y_area, color = 'crimson',linewidth = 3)
plt.xlabel(r'area $[m^2]$', fontsize=11)
plt.ylabel(r'valor [$\times 1000$ Reais]', fontsize=11)
plt.show;

In [None]:
# vetor w* considerando todas as caracter√≠sticas
X = np.array([[1,689,4,2,3],[1,832,4,4,4],[1,613,4,2,2],[1,557,3,2,3],[1,370,2,2,1]])
y=np.array([13.300,12.250,9.100,6.650,3.150])

In [None]:
# vetor w* considerando somente a dimens√£o da casa
w = np.dot(np.linalg.inv(np.dot(X.T,X)),np.dot(X.T,y))
print("w0: " + str(w[0]) + " w1: " + str(w[1]) + " w2: " + str(w[2]) + "  w3: " + str(w[3])+ "  w4: " + str(w[4]))

Lembrando nossa tabela,

Casa  | Dimens√£o $(m^2)$ |# Quartos |# Banheiros |Idade (anos)| Pre√ßo $(US\$/10^6)$
------|------------------|----------|----------|------------|-------------------
01    | 689              | 4        | 2        |   3       | 13.300
02    | 832              | 4        | 4        |   4       | 12.250
03    | 613              | 4        | 2        |   2       | 9.100
04    | 557              | 3        | 2        |   3       | 6.650
04    | 370              | 2        | 2        |   1       | 3.150

Agora temos a seguinte express√£o para encontrar o valor de uma casa:
$$
Pre√ßo = w0 + w1 \times Dimens√£o +w2 \times Quartos + w3 \times Banheiros + w4 \times Idade
$$

Vamos testar os valores...

In [None]:
Preco = np.dot(X,w)
print(Preco)

<center><img src='https://drive.google.com/uc?export=view&id=1u9QRq9uYx1m0hhcG2twE5R-z4LAWov4F' width="200"></center>

S√©rio???

In [None]:
-4.694329896909746 + 0.11907216494844867*689 -9.067525773195257*4 -6.61391752577236 * 2 -4.84948453608218*3

# Gradiente descendente

Gradiente descendente √© o cora√ß√£o e a alma da maioria dos algoritmos aprendizado de m√°quina. √â longe a estrat√©gia de otimiza√ß√£o mais popular usada em aprendizado de m√°quina e aprendizado profundo no momento.

Ele √© usado no treinamento de modelos de dados, pode ser combinado com todos os algoritmos e √© f√°cil de entender e implementar. Todos que trabalham com aprendizado de m√°quina devem entender seu conceito.

O Gradiente Descendente (GD) √© um algoritmo utilizado para encontrar o m√≠nimo de uma fun√ß√£o de forma iterativa.

![Wall-E](https://drive.google.com/uc?export=view&id=1CYGNFXo5ZF3MkPHtDzjBm40D85TFXTsd)


Para entender como funciona o gradiente descendente, considere uma fun√ß√£o multivari√°vel $f(\boldsymbol{\omega})$, onde $\boldsymbol{\omega} = [\omega_1, \omega_2, \ldots, \omega_n]^T$. Para encontrar o $\boldsymbol{\omega}$ em que esta fun√ß√£o atinge um m√≠nimo, o m√©todo do gradiente descendente usa as seguintes etapas:

1. Escolha um valor aleat√≥rio inicial de $\boldsymbol{\omega}$;
2. Escolha o n√∫mero de itera√ß√µes m√°ximas $T$;
3. Escolha um valor para a taxa de aprendizado $\alpha$
4. Repita os seguintes passos at√© que $f$ n√£o mude mais ou at√© que as itera√ß√µes excedam $T$
 * Calcular: $\Delta \boldsymbol{\omega} = - \alpha \boldsymbol{J}_\boldsymbol{\omega}\left(f(\boldsymbol{\omega})\right) $
 * Atualizar: $\boldsymbol{\omega}\leftarrow \boldsymbol{\omega} + \Delta \boldsymbol{\omega}$

Aqui $\boldsymbol{J}_\boldsymbol{\omega} $ denota o Jacobiano de $f(\boldsymbol{\omega}) $ dado por:
$$
\boldsymbol{J}_\boldsymbol{\omega}\left(f(\boldsymbol{\omega})\right)  =
\begin{bmatrix}
\frac{\partial f(\boldsymbol{\omega})}{\partial \omega_1} \
\frac{\partial f(\boldsymbol{\omega})}{\partial \omega_2} \
\cdots\ \frac{\partial f(\boldsymbol{\omega})}{\partial \omega_n}
\end{bmatrix}
$$

Por exemplo, se considerarmos a seguinte fun√ß√£o:
$$
f(\omega_1,\omega_2) = \omega_1^2+\omega_2^2,
$$
a cada itera√ß√£o, o vetor $\boldsymbol{\omega}$ √© atualizado como:
$$
\begin {bmatrix}
\omega_1 \ \omega_2
\end {bmatrix} \leftarrow
\begin {bmatrix}
\omega_1 \ \omega_2
\end {bmatrix} - \alpha
\begin {bmatrix}
2\omega_1 \ 2\omega_2
\end {bmatrix}
$$

## Exerc√≠cio dos slides

Encontre os m√≠nimos locais da fun√ß√£o $f(\omega)=(\omega+5)^2$ come√ßando no ponto $\omega=3$.

In [None]:
fig = plt.figure()
w = np.linspace(-10, 0, 200)
y = (w+5)**2
plt.title(r'$f(\omega)=(\omega+5)^2$')
plt.xlabel(r'$\omega$')
plt.ylabel(r'$f(\omega)$')
plt.plot(w, y, color = 'forestgreen', linewidth = 2)
plt.show()

In [None]:
# Inicializa√ß√£o de par√¢metros
w0 = 3                 # valor inicial
alfa = 0.01            # taxa de aprendizado
T = 10000              # m√°ximo n√∫mero de itera√ß√µes
eps = 1e-6             # precisado
iters = 0              # contador de itera√ß√µes
f = lambda w: (w+5)**2 # gradiente da fun√ß√£o
df = lambda w: 2*(w+5) # gradiente da fun√ß√£o
step = 1e9             # valo

In [None]:
fw=[]
while step > eps and iters < T:
    w1 = w0 - alfa * df(w0)                        # Grad descendente
    step = abs(w1 - w0)                            # Passo de w
    iters = iters+1                                # Contador de itera√ß√µes
    print("Iter ",iters,"\nX valor ",w1)  # Print itera√ß√µes
    w0 = w1                                        # valor atual de w √© armazenado em valor pr√©vio de w
    fw.append([iters,w1,f(w1)])
fw = np.array(fw)
print("O m√≠nimo local ocorre em", w1)

Os gr√°ficos abaixo plotam a itera√ß√£o pelo valor de $f(\omega)$ e de $\omega$. Pode-se perceber que h√° converg√™ncia do m√©todo ap√≥s, aproximadamente, 300 itera√ß√µes. Por√©m, dado o alto valor de precis√£o que selecionamos

In [None]:
fig,ax = plt.subplots()

ax.plot(fw[:,0], fw[:,2], color='navy' )
ax.set_xlabel('N√∫mero da itera√ß√£o',fontsize=14)
ax.set_ylabel(r'$f(\omega)$',color='navy',fontsize=14)

ax2=ax.twinx()

ax2.plot(fw[:,0], fw[:,1], color='seagreen' )
ax2.set_ylabel(r'$\omega$',color='seagreen',fontsize=14)
plt.show()


A fun√ß√£o abaixo serve para ilustrar um dos problemas do Gradiente Descendente.

*A descida do gradiente √© um¬†M√©todo de Otimiza√ß√£o de Primeira Ordem. Leva em considera√ß√£o apenas as derivadas de primeira ordem da fun√ß√£o e despreza as de mais altas ordens. O que isso significa basicamente √© que o m√©todo n√£o tem id√©ia sobre a curvatura da fun√ß√£o. Ele pode dizer se a fun√ß√£o est√° diminuindo e qu√£o r√°pido, mas n√£o pode diferenciar se a curva √© um plano, uma curva para cima ou para baixo.*

In [None]:
def makeplot(position,angle1,angle2,rotation,alpha):
    ax = fig.add_subplot(position,projection='3d')
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1,
                cmap='viridis', edgecolor='none', alpha = alpha)
    ax.view_init(angle1,angle2)
    ax.set_xlabel(r'$x_1$', fontsize=15, labelpad=10)
    ax.set_ylabel(r'$x_2$', fontsize=15, labelpad=10)
    ax.zaxis.set_rotate_label(False)
    ax.set_zlabel(r'$L^1$', rotation=rotation, fontsize=16, labelpad=10)
    return ax

In [None]:
X,Y = np.meshgrid(np.arange(-2, 8, .1), np.arange(-2, 8, .1))
Z = np.sin(X)-Y/10

In [None]:
fig = plt.figure(figsize=(50,10))
ax = makeplot(121,30,80,90,0.95)
fig.colorbar(plt.cm.ScalarMappable(cmap='viridis'), ax = ax)
plt.show()

In [None]:
colors = mpl.cm.jet(np.hypot(X,Y))
fig, ax = plt.subplots(figsize=(10,10))
ax.contourf(X,Y,Z, facecolors=colors)

In [None]:
X,Y = np.meshgrid(np.arange(-2, 8, .3), np.arange(-2, 8, .3))
Z = np.sin(X)-Y/10
V,U = np.gradient(Z, .2, .1)
fig, ax = plt.subplots(figsize=(10,10))
cmap = plt.get_cmap()
q = ax.quiver(X,Y,U,V, Z, cmap = 'viridis')
plt.show()

# Gradiente descendente com Momentum

O Momentum prop√µe o seguinte ajuste para a descida gradiente.
$$
ùëö=\beta ùëö‚àí\alpha ùêΩ(\omega^{(j)})
$$
$$
\omega^{(j+1)} = \omega^{(j)} + ùëö
$$
onde $ùëö$ √© o gradiente que √© mantido nas itera√ß√µes anteriores. Este gradiente retido √© multiplicado por um valor denominado *Coeficiente de Momentum* $\beta$, que √© a porcentagem do gradiente retido a cada itera√ß√£o. Em geral, adota-se $\beta=0,9$.


In [None]:
# Inicializa√ß√£o de par√¢metros
w0 = 3                 # valor inicial
alfa = 0.01            # taxa de aprendizado
beta = 0.4             # coeficiente de momentum
T = 10000              # m√°ximo n√∫mero de itera√ß√µes
eps = 1e-6             # precisado
iters = 0              # contador de itera√ß√µes
f = lambda w: (w+5)**2 # gradiente da fun√ß√£o
df = lambda w: 2*(w+5) # gradiente da fun√ß√£o
step = 1e9

In [None]:
fw=[]
m = 0
while step > eps and iters < T:
    m = beta*m - alfa * df(w0)                     #m
    w1 = w0 + m                                      # Grad descendente
    step = abs(w1 - w0)                            # Passo de w
    iters = iters+1                                # Contador de itera√ß√µes
    print("Iter ",iters,"\nX valor ",w1)  # Print itera√ß√µes
    w0 = w1                                        # valor atual de w √© armazenado em valor pr√©vio de w
    fw.append([iters,w1,f(w1)])
fw = np.array(fw)
print("O m√≠nimo local ocorre em", w1)

In [None]:
fig,ax = plt.subplots()

ax.plot(fw[:,0], fw[:,2], color='navy' )
ax.set_xlabel('N√∫mero da itera√ß√£o',fontsize=14)
ax.set_ylabel(r'$f(\omega)$',color='navy',fontsize=14)

ax2=ax.twinx()

ax2.plot(fw[:,0], fw[:,1], color='seagreen' )
ax2.set_ylabel(r'$\omega$',color='seagreen',fontsize=14)
plt.show()

__FIM__