# <font face="Verdana" size=6 color='#6495ED'> ANÁLISE ESTATÍSTICA DE DADOS
<font face="Verdana" size=3 color='#40E0D0'> Profs. Larissa Driemeier e Arturo Forner-Cordero

<center><img src='https://drive.google.com/uc?export=view&id=1nW_7p_LyFhbR0ipjSekPcAj6kDoyK73R' width="800"></center>

Este notebook faz parte da aula 05 do curso [IAD-001](https://alunoweb.net/moodle/pluginfile.php/140418/mod_resource/content/6/EST_04_Y2024.pdf).

# Importando bibliotecas

In [1]:
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib import cm, colors
from mpl_toolkits.mplot3d import Axes3D
import pandas as pd

# Normas

Normas são características importantes que definem um vetor em um único valor. São quaisquer funções, definidas por barras horizontais $\|\boldsymbol{u}\|$, que são caracterizadas pelas seguintes propriedades:

1. Normas são valores não negativos. Se você pensar nas normas como um comprimento, verá facilmente por que não pode ser negativo;

2. As normas são $0$ se e somente se o vetor é um vetor zero;

3. As normas respeitam a desigualdade $\|{\boldsymbol{u}+\boldsymbol{v}}\| \leq \|{\boldsymbol{u}}\|+\|{\boldsymbol{v}}\|$;

4. A norma de um vetor multiplicado por um escalar $\alpha$ é igual ao valor absoluto desse escalar multiplicado pela norma do vetor, $\|\alpha \boldsymbol{u}\|= |\alpha| \|{\boldsymbol{u}}\|$.

De maneira geral,

$$
|| x ||_p = \left(\sum_i |x_i|^p\right)^{1/p}
$$


## Norma L1

Para $p=1$ tem-se a norma dita $L^1$:

$$
L^1 = || x ||_1 = \sum_i |x_i| = |x_1| + |x_2| + \ldots + |x_i|
$$

## Norma L2

Para $p=2$ tem-se a norma dita $L^2$:

$$
L^2 = || x ||_2 = \sqrt{\left(\sum_i x_i^2\right)} = \sqrt{x_1^2 + x_2^2 + \ldots + x_i^2}
$$


## Norma Linf

Para $p=\infty$ tem-se a norma dita $L^\infty$:

$$
L^\infty = \max_i|x_i|
$$

In [None]:
#Norma L1
v = np.array([-1, -2, 3, 4, 5])
np.linalg.norm(v,1)

In [None]:
# Norma L2
v = np.array([-1, -2, 3, 4, 5])
np.linalg.norm(v,2)
#

In [None]:
#Norma Linfty
v = np.array([-1, -2, 3, 4, 5])
np.linalg.norm(v,np.inf)

In [None]:
X,Y = np.meshgrid(np.arange(-2, 2, .1), np.arange(-2, 2, .1))
print('vetor X\n',X,'\n')
print('vetor Y\n',Y,'\n')

In [None]:
Z=[X,Y]
print(np.shape(Z))

In [None]:
plt.scatter(X, Y, marker='o');

In [None]:
Z_L1 = np.linalg.norm(Z,1, axis=0) # np.abs(X)+np.abs(Y)
Z_L2 = np.linalg.norm(Z,2, axis=0) # np.sqrt(X**2+Y**2)
Z_L2_2 = np.square(np.linalg.norm(Z,2, axis=0)) # X**2+Y**2
Z_inf = np.linalg.norm(Z,np.inf, axis=0) # np.amax([np.absolute(X),np.absolute(Y)], axis=0)

In [None]:
def makeplot(position,angle1,angle2,rotation,alpha,Z,L=1):
    ax = fig.add_subplot(position,projection='3d')
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1,
                cmap='viridis', edgecolor='none', alpha = alpha)
    ax.view_init(angle1,angle2)
    ax.set_xlabel(r'$x_1$', fontsize=12, labelpad=10)
    ax.set_ylabel(r'$x_2$', fontsize=12, labelpad=10)
    ax.zaxis.set_rotate_label(False)
    if L ==1:
      ax.set_zlabel(r'$L^1$', rotation=rotation, fontsize=12, labelpad=0.2)
    elif L == 2:
      ax.set_zlabel(r'$L^2$', rotation=rotation, fontsize=12, labelpad=0.2)
    elif L == 3:
      ax.set_zlabel(r'$L^\infty$', rotation=rotation, fontsize=12, labelpad=0.2)
    else:
      ax.set_zlabel(r'$L$', rotation=rotation, fontsize=12, labelpad=0.2)
    return ax

In [None]:
fig = plt.figure(figsize=(40,8))
ax = makeplot(121,30,-120,90,0.95,Z_L1)
fig.colorbar(plt.cm.ScalarMappable(cmap='viridis'), ax = ax)
ax.set_box_aspect(aspect=None, zoom=0.95)
plt.show()

In [None]:
fig.get_size_inches()

In [None]:
fig = plt.figure(figsize=(40,8))
ax1 = makeplot(121,30,-60,100,0.6,Z_L2, L=2)
fig.colorbar(plt.cm.ScalarMappable(cmap='viridis'), ax = ax1)
ax.set_box_aspect(aspect=None, zoom=0.95)
plt.show()
fig = plt.figure(figsize=(40,8))
ax2 = makeplot(122,30,-60,100,0.6,Z_L2_2, L=2)
fig.colorbar(plt.cm.ScalarMappable(cmap='viridis'), ax = ax2)
ax.set_box_aspect(aspect=None, zoom=0.95)
plt.show()

In [None]:
fig = plt.figure(figsize=(40,8))
ax = makeplot(121,30,-60,100,0.6,Z_inf,L=3)
fig.colorbar(plt.cm.ScalarMappable(cmap='viridis'), ax = ax)
ax.set_box_aspect(aspect=None, zoom=0.95)
plt.show()

## Vizualizando os círculos da norma $p$

A norma L1 é formalmente definida como a soma do valor absoluto das coordenadas de um vetor. __Então, por que o diamante?__

A norma L2 é formalmente definida como o quadrado da diferença das coordenada de um vetor. __Então, por que o círculo?__

A norma L∞ é formalmente definida como a dimensão absoluta máxima das coordenada de um vetor. __Então, por que o quadrado?__

<center><img src='https://drive.google.com/uc?export=view&id=14CLkD07pBj77LrvOBENlGVuq5VDP54aE' width="120"></center>

In [None]:
Circulo =np.array([[1,0],[0,1],[np.cos(np.deg2rad(45)),np.sin(np.deg2rad(45))],[np.cos(np.deg2rad(60)),np.sin(np.deg2rad(60))]])
np.shape(Circulo)

In [None]:
C_L1 = np.array([[1,0],[0.75,0.25],[0.5,0.5],[0.25,0.75],[0,1]])
C_L2 = np.array([[1,0],[0,1],[np.cos(np.deg2rad(30)),np.sin(np.deg2rad(30))],[np.cos(np.deg2rad(45)),np.sin(np.deg2rad(45))],[np.cos(np.deg2rad(60)),np.sin(np.deg2rad(60))]])
C_Linf = np.array([[1,0],[1,0.5],[1,1],[0.5,1],[0,1]])
print(np.linalg.norm(C_L1,1, axis=1))
print(np.linalg.norm(C_L2,2, axis=1))
print(np.linalg.norm(C_Linf,np.inf, axis=1))

In [None]:
colormap = ('lightgreen', 'darkgreen','skyblue','navy','salmon','crimson','mistyrose','palevioletred')
#diamante
plt.plot(    [1, 0],
    [0, 1],
    color = colormap[0])
#círculo
angles = np.linspace(0 * np.pi, 2 * np.pi, 100 )
r = 1.
xs = r * np.cos(angles)
ys = r * np.sin(angles)
plt.plot(xs, ys , color = colormap[2])
#quadrado
plt.plot(
    [1, 1, 0],
    [0, 1, 1],
    color = colormap[4]
)

for j,a in enumerate([C_L1, C_L2, C_Linf]):
  plt.scatter( a[:,0], a[:,1],color = colormap[2*j+1])

plt.xlim(0, 1.1)
plt.ylim(0, 1.1)
plt.gca().set_aspect('equal')
plt.show()

# Derivada

Derivadas são muito importantes em problemas de otimização. Elas nos dizem como alterar as entradas de uma função de maneira a aumentar ou diminuir sua saída da função, para que possamos nos aproximar do mínimo ou máximo da função.

Porém, lembrar exatamente como diferenciar equações pode ser um desafio. Ou, talvez, você tenha uma equação longa e complicada que deva derivar. Dependendo da equação, você pode levar de 10 a 15 minutos para fazer isso manualmente.

Vamos conhecer, então, a biblioteca `SymPy` em Python, que pode fazer todo esse trabalho pesado para nós. Ela tem tudo o que precisamos para derivar. Essa biblioteca também integra, resolve sistema de equações, simplifica equações...  mas tudo isso está fora do nosso escopo aqui!

Como exemplo, suponha a função:
$$
f(x,y)=xy+x^2+\sin{2y}
$$

Usando a biblioteca `SymPy`, encontre:
* a primeira derivada da função $f(x,y)$ com respeito a $x$;
* a segunda derivada da função $f(x,y)$ com respeito a $y$.


In [None]:
import sympy

In [None]:
x = sympy.Symbol('x')
y = sympy.Symbol('y')

In [None]:
# Criando a equação
f = x * y + x ** 2 + sympy.sin(2 * y)

In [None]:
# Primeira derivada com respeito a x
df_dx = sympy.diff(f, x)
print("A derivada de f(x,y) com respeito a x é: " + str(df_dx))

In [None]:
# Segunda derivada comr espeito a y
d2f_dy2 = sympy.diff(f, y, 2)
print("A segunda derivada de f(x,y) com respeito a y é: " + str(d2f_dy2))

#Gradiente

O gradiente é a generalização da derivada para funções multivariadas. Ele captura a inclinação local da função, permitindo prever o efeito de dar um pequeno passo de um ponto em qualquer direção.

<center><img src='https://drive.google.com/uc?export=view&id=1xD6tvXQPF5WZW3dJUb9iJXNJeONBzgXA' width="800"></center>


Ou seja, no caso de uma função univariada, é simplesmente a primeira derivada em um ponto selecionado.

No caso de uma função multivariada, é um vetor de derivadas em cada direção (ao longo dos eixos das variáveis).



In [None]:
def makeplot(position,angle1,angle2,rotation,alpha):
    ax = fig.add_subplot(position,projection='3d')
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1,
                cmap='viridis', edgecolor='none', alpha = alpha)
    ax.view_init(angle1,angle2)
    ax.set_xlabel(r'$x_1$', fontsize=12)
    ax.set_ylabel(r'$x_2$', fontsize=12)
    ax.zaxis.set_rotate_label(False)
    ax.set_zlabel(r'$f(x_1,x_2)$', rotation=rotation, fontsize=12, labelpad=2)
    return ax

In [None]:
def f(x, y):
    return x*np.exp(-x**2 - y**2)

In [None]:
X,Y = np.meshgrid(np.arange(-2, 2, .1), np.arange(-2, 2, .1))
Z = f(X, Y)

In [None]:
fig = plt.figure(figsize=(20,10))
ax1 = makeplot(121,30,-120,90,0.95)
ax2 = makeplot(122,30,-60,100,0.6)

norm = colors.Normalize(np.min(Z), np.max(Z))
cbar_ax = fig.add_axes([0.5, 0.5, 0.01, 0.38])
fig.colorbar(plt.cm.ScalarMappable(norm=norm,cmap='viridis'), cax=cbar_ax, ax = ax2)

ax1.set_box_aspect(aspect=None, zoom=0.95)
ax2.set_box_aspect(aspect=None, zoom=0.95)
plt.show()

In [None]:
V,U = np.gradient(Z, .2, .1)
fig, ax = plt.subplots(figsize=(10,10))
cmap = plt.get_cmap()
q = ax.quiver(X,Y,U,V, Z, cmap = 'viridis')
plt.show();
fig, ax = plt.subplots(figsize=(10,10))
plt.imshow(Z, interpolation='bilinear');

Veja o exemplo dos slides,
$$
f(x_1,x_2)=x_1^2+x_2^2
$$

In [None]:
def f(x, y):
    return x**2 + y**2

In [None]:
X,Y = np.meshgrid(np.arange(-8, 8, .3), np.arange(-8, 8, .3))
Z = f(X, Y)

In [None]:
fig = plt.figure(figsize=(20,10))

def makeplot(position,angle1,angle2,rotation):
    ax = fig.add_subplot(position,projection='3d')
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1,
                cmap='viridis', edgecolor='none', alpha = 0.6)
    ax.view_init(angle1,angle2)
    ax.set_xlabel(r'$x_1$', fontsize=12)
    ax.set_ylabel(r'$x_2$', fontsize=12)
    ax.zaxis.set_rotate_label(False)
    ax.set_zlabel(r'$f(x_1,x_2)$', rotation=rotation, fontsize=12, labelpad=2)
    return ax

ax1 = makeplot(121,30,60,95)
ax2 = makeplot(122,60,35,100)
norm = colors.Normalize(np.min(Z), np.max(Z))
cbar_ax = fig.add_axes([0.5, 0.5, 0.01, 0.38])
fig.colorbar(plt.cm.ScalarMappable(norm=norm,cmap='viridis'), cax=cbar_ax, ax = ax2)

In [None]:
V,U = np.gradient(Z, 1,1)
fig, ax = plt.subplots(figsize=(10,10))
cmap = plt.get_cmap()
q = ax.quiver(X,Y,U,V, Z, cmap = 'viridis')
plt.show();
fig, ax = plt.subplots(figsize=(10,10))
plt.imshow(Z, interpolation='bilinear');

In [None]:
fig = plt.figure(figsize=(20,10))

ax = plt.axes(projection='3d')
ax.contour3D(X, Y, Z, 50, cmap='binary')
x0,y0 = 2,3
z0=x0**2+y0**2
ax.scatter(x0, y0, z0, color='crimson', linewidth=0.5, s=50)
ax.set_box_aspect(aspect=None, zoom=0.95)
ax.set_xlabel(r'$x_1$', fontsize=12)
ax.set_ylabel(r'$x_2$', fontsize=12)
ax.set_zlabel(r'$f(x_1,x_2)$',fontsize=12);

In [None]:
fig = plt.figure(figsize=(20,10))

ax = plt.axes(projection='3d')
ax.contour3D(X, Y, Z, 50, cmap='binary')
x0,y0 = 2,3
z0=x0**2+y0**2
ax.scatter(x0, y0, z0, color='seagreen', linewidth=0.5)
ax.set_xlabel(r'$x_1$', fontsize=12)
ax.set_ylabel(r'$x_2$', fontsize=12)
ax.set_zlabel(r'$f(x_1,x_2)$',fontsize=12)
x0,y0 = 2,3
z0=x0**2+y0**2
x1,y1 = 2*x0,2*y0
z1 = x1**2+y1**2
u=(x1-x0)
v=(y1-y0)
w=(z1-z0)
N = np.sqrt(u**2+v**2+w**2)  # there may be a faster numpy "normalize" function
uN,vN,wN = u/N,v/N,w/N
ax.scatter(x0, y0, z0, s=50, color = 'crimson', linewidth=0.5)
ax.set_box_aspect(aspect=None, zoom=0.95)

ax.quiver(
        x0,y0,z0, # <-- starting point of vector
        x1,y1,z1, # <-- directions of vector
        length=0.3, linewidth = 4,
        color = 'navy', alpha = .8, arrow_length_ratio=0.1
    )

ax.scatter(x1, y1, z1, color = 'crimson', s=50, linewidth=0.5);


E um gráfico 4D? Ainda dá para ver....

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')

x = np.array(range(0, 50))
y = np.array(range(0, 50))
z = np.array(range(0, 50))
colors = np.random.standard_normal(len(x))
img = ax.scatter(x, y, z, c=colors, cmap='viridis')
fig.colorbar(img)
plt.show()

# Otimização

Muitos algoritmos em aprendizado de máquina otimizam uma função objetivo em relação a um conjunto de parâmetros de modelo desejados que controlam quão bem um modelo explica os dados. __Encontrar bons parâmetros pode ser formulado como um problema de otimização.__


In [None]:
def makeplot(position,angle1,angle2,rotation,alpha):
    ax = fig.add_subplot(position,projection='3d')
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1,
                cmap='viridis', edgecolor='none', alpha = alpha)
    ax.view_init(angle1,angle2)
    ax.set_xlabel(r'$\omega_0$', fontsize=12)
    ax.set_ylabel(r'$\omega_1$', fontsize=12)
    ax.zaxis.set_rotate_label(False)
    ax.set_zlabel(r'$f(\omega_0,\omega_1)$', rotation=rotation, fontsize=12, labelpad=2)
    return ax

In [None]:
def f(x, y):
    return np.sin(x)+x*np.cos(np.sqrt(2)*x)+y*np.sin(y)

In [None]:
X,Y = np.meshgrid(np.arange(-5, 5, .1), np.arange(-5, 5, .1))
Z = f(X, Y)

fig = plt.figure(figsize=(25,10))
ax1 = makeplot(121,20,-50,95,1)
ax2 = makeplot(122,20,-50,95,0.6)
plt.subplots_adjust(wspace = 0.001 )
cbar_ax = fig.add_axes([0.5, 0.5, 0.01, 0.38])
fig.colorbar(plt.cm.ScalarMappable(norm=norm,cmap='viridis'), cax=cbar_ax, ax = ax2)
ax.set_box_aspect(aspect=None, zoom=0.95)
plt.show()

In [None]:
colors = mpl.cm.jet(np.hypot(X,Y))
fig, ax = plt.subplots(figsize=(10,10))
ax.contourf(X,Y,Z, facecolors=colors);

In [None]:
fig = plt.figure()
ax = plt.axes()
ax.contour(X,Z, Y, [-4])

## Regressão multilinear

A regressão multi-linear trata da relação de uma variável dependente com *múltiplas* variáveis independentes.

\begin{equation}
y_i = \omega_0 + \omega_1 x_{i,1} + \omega_2 x_{i,2} +\ldots + w_m x_{i,m}
\end{equation}

seja

\begin{equation}
\boldsymbol{y} = \begin{bmatrix}y_1\\
y_2\\
\vdots\\
y_n\end{bmatrix}
\end{equation}

 um vetor com uma amostra do conjunto de variáveis independentes e

\begin{equation}
\boldsymbol{X} = \begin{bmatrix}1 & x_{1,1} & x_{1,2} & \ldots & x_{1,m} \\ 1 &
x_{2,1} & x_{2,2} & \ldots & x_{2,m} \\ 1 &
 \vdots & \vdots & \ddots & \vdots & \vdots\\ 1 &
x_{n,1} & x_{n,2} & \ldots & x_{n,m} \end{bmatrix}
\end{equation}

uma matriz $n \times (m+1)$ cuja  *primeira* coluna é composta da constante $1$ e as $m$ próximas colunas são compostas por uma amostra de cada uma das $m$ variáveis independetes.

O modelo linear para o comportamento destas variáveis é dado pela equação:

\begin{equation}
\boldsymbol{y} =  \boldsymbol{X \omega} \tag{1}
\end{equation}

Onde:

\begin{equation}
\boldsymbol{\omega} = \begin{bmatrix}
w_0\\
w_1\\
w_2\\
\vdots\\
w_m
\end{bmatrix}
\end{equation}

é o vetor  de $(m+1)$ componentes dos coeficientes de cada uma das variáveis
independentes. Note que nessa notação o coeficiente $w_0$ é o *primeiro* coeficiente (há notações distintas nas quais ele é o último). $\boldsymbol{e}$ é o vetor de *resíduos* (a diferença entre o modelo real e os dados realmente observados).

Em muitas situações, não conseguiremos encontrar um vetor $\boldsymbol{y}$, tal que satisfaça a equação (1). Então, em vez disso, nos contentaremos em encontrar um vetor $\boldsymbol{\omega}$ tal que $\boldsymbol{X\omega}$ seja o mais próximo possível $\boldsymbol{y}$, medido pelo quadrado da norma,

\begin{equation}
\|\boldsymbol{y}-\boldsymbol{X\omega}\|^2
\end{equation}

A solução ótima $\boldsymbol{\omega}^*$ foi desenvolvida em aula e pode ser escrita como:
\begin{equation}
\boldsymbol{\omega}^*=\left(\boldsymbol{X}^T \boldsymbol{X}\right)^{-1}\boldsymbol{X}^T\boldsymbol{y}
\end{equation}

e a matriz $\left(X^T X\right)^{-1}X^T$ é dita a *pseudo-inversa* de $X$.

*Nota*: Em geral não é eficiente calcular explicitamente esta matriz.

## Exemplo do slide

<center><img src='https://drive.google.com/uc?export=view&id=1xo7HfEOAgttK7JlfZL6y2eH-YMLiB4Sz' width="600"></center>

Com dados extraídos do [link](https://www.kaggle.com/datasets/yasserh/housing-prices-dataset), encontre os parâmetros ótimos para a previsão do preço de um imóvel. Primeiramente, considere apenas um parâmetro – dimensão – depois, aumente e inclua os demais. Compare os resultados.



Veja a tabela completa...

In [None]:
from google.colab import files
import pandas as pd

uploaded = files.upload()

In [None]:
dados = pd.read_csv('Housing.csv',sep=',')
dados.head()

Mas vamos trabalhar com os poucos dados destacados na tabela abaixo, somente para ilustração.


Casa  | Dimensão $(m^2)$ |# quartos |# Banheiros |Idade (anos)| Preço $(US\$/10^6)$
------|------------------|----------|----------|------------|-------------------
01    | 689              | 4        | 2        |   3       | 13.300
02    | 832              | 4        | 4        |   4       | 12.250
03    | 613              | 4        | 2        |   2       | 9.100
04    | 557              | 3        | 2        |   3       | 6.650
04    | 370              | 2        | 2        |   1       | 3.150

In [None]:
X1=np.array([[1,689],[1,832],[1,613],[1,557],[1,370]])
X = np.array([[1,689,4,2,3],[1,832,4,4,4],[1,613,4,2,2],[1,557,3,2,3],[1,370,2,2,1]])
y=np.array([13.300,12.250,9.100,6.650,3.150])

In [None]:
# vetor w* considerando somente a dimensão da casa
w = np.dot(np.linalg.inv(np.dot(X1.T,X1)),np.dot(X1.T,y))
print("w0: " + str(w))

In [None]:
plt.scatter(X1[:,1],y, color = 'black')
area = np.linspace(300,800,2)
y_area = w[0]+w[1]*area
plt.plot(area,y_area, color = 'crimson',linewidth = 3)
plt.xlabel(r'area $[m^2]$', fontsize=11)
plt.ylabel(r'valor [$\times 1000$ Reais]', fontsize=11)
plt.show;

In [None]:
# vetor w* considerando todas as características
X = np.array([[1,689,4,2,3],[1,832,4,4,4],[1,613,4,2,2],[1,557,3,2,3],[1,370,2,2,1]])
y=np.array([13.300,12.250,9.100,6.650,3.150])

In [None]:
# vetor w* considerando somente a dimensão da casa
w = np.dot(np.linalg.inv(np.dot(X.T,X)),np.dot(X.T,y))
print("w0: " + str(w[0]) + " w1: " + str(w[1]) + " w2: " + str(w[2]) + "  w3: " + str(w[3])+ "  w4: " + str(w[4]))

Lembrando nossa tabela,

Casa  | Dimensão $(m^2)$ |# Quartos |# Banheiros |Idade (anos)| Preço $(US\$/10^6)$
------|------------------|----------|----------|------------|-------------------
01    | 689              | 4        | 2        |   3       | 13.300
02    | 832              | 4        | 4        |   4       | 12.250
03    | 613              | 4        | 2        |   2       | 9.100
04    | 557              | 3        | 2        |   3       | 6.650
04    | 370              | 2        | 2        |   1       | 3.150

Agora temos a seguinte expressão para encontrar o valor de uma casa:
$$
Preço = w0 + w1 \times Dimensão +w2 \times Quartos + w3 \times Banheiros + w4 \times Idade
$$

Vamos testar os valores...

In [None]:
Preco = np.dot(X,w)
print(Preco)

<center><img src='https://drive.google.com/uc?export=view&id=1u9QRq9uYx1m0hhcG2twE5R-z4LAWov4F' width="200"></center>

Sério???

In [None]:
-4.694329896909746 + 0.11907216494844867*689 -9.067525773195257*4 -6.61391752577236 * 2 -4.84948453608218*3

# Gradiente descendente

Gradiente descendente é o coração e a alma da maioria dos algoritmos aprendizado de máquina. É longe a estratégia de otimização mais popular usada em aprendizado de máquina e aprendizado profundo no momento.

Ele é usado no treinamento de modelos de dados, pode ser combinado com todos os algoritmos e é fácil de entender e implementar. Todos que trabalham com aprendizado de máquina devem entender seu conceito.

O Gradiente Descendente (GD) é um algoritmo utilizado para encontrar o mínimo de uma função de forma iterativa.

![Wall-E](https://drive.google.com/uc?export=view&id=1CYGNFXo5ZF3MkPHtDzjBm40D85TFXTsd)


Para entender como funciona o gradiente descendente, considere uma função multivariável $f(\boldsymbol{\omega})$, onde $\boldsymbol{\omega} = [\omega_1, \omega_2, \ldots, \omega_n]^T$. Para encontrar o $\boldsymbol{\omega}$ em que esta função atinge um mínimo, o método do gradiente descendente usa as seguintes etapas:

1. Escolha um valor aleatório inicial de $\boldsymbol{\omega}$;
2. Escolha o número de iterações máximas $T$;
3. Escolha um valor para a taxa de aprendizado $\alpha$
4. Repita os seguintes passos até que $f$ não mude mais ou até que as iterações excedam $T$
 * Calcular: $\Delta \boldsymbol{\omega} = - \alpha \boldsymbol{J}_\boldsymbol{\omega}\left(f(\boldsymbol{\omega})\right) $
 * Atualizar: $\boldsymbol{\omega}\leftarrow \boldsymbol{\omega} + \Delta \boldsymbol{\omega}$

Aqui $\boldsymbol{J}_\boldsymbol{\omega} $ denota o Jacobiano de $f(\boldsymbol{\omega}) $ dado por:
$$
\boldsymbol{J}_\boldsymbol{\omega}\left(f(\boldsymbol{\omega})\right)  =
\begin{bmatrix}
\frac{\partial f(\boldsymbol{\omega})}{\partial \omega_1} \
\frac{\partial f(\boldsymbol{\omega})}{\partial \omega_2} \
\cdots\ \frac{\partial f(\boldsymbol{\omega})}{\partial \omega_n}
\end{bmatrix}
$$

Por exemplo, se considerarmos a seguinte função:
$$
f(\omega_1,\omega_2) = \omega_1^2+\omega_2^2,
$$
a cada iteração, o vetor $\boldsymbol{\omega}$ é atualizado como:
$$
\begin {bmatrix}
\omega_1 \ \omega_2
\end {bmatrix} \leftarrow
\begin {bmatrix}
\omega_1 \ \omega_2
\end {bmatrix} - \alpha
\begin {bmatrix}
2\omega_1 \ 2\omega_2
\end {bmatrix}
$$

## Exercício dos slides

Encontre os mínimos locais da função $f(\omega)=(\omega+5)^2$ começando no ponto $\omega=3$.

In [None]:
fig = plt.figure()
w = np.linspace(-10, 0, 200)
y = (w+5)**2
plt.title(r'$f(\omega)=(\omega+5)^2$')
plt.xlabel(r'$\omega$')
plt.ylabel(r'$f(\omega)$')
plt.plot(w, y, color = 'forestgreen', linewidth = 2)
plt.show()

In [None]:
# Inicialização de parâmetros
w0 = 3                 # valor inicial
alfa = 0.01            # taxa de aprendizado
T = 10000              # máximo número de iterações
eps = 1e-6             # precisado
iters = 0              # contador de iterações
f = lambda w: (w+5)**2 # gradiente da função
df = lambda w: 2*(w+5) # gradiente da função
step = 1e9             # valo

In [None]:
fw=[]
while step > eps and iters < T:
    w1 = w0 - alfa * df(w0)                        # Grad descendente
    step = abs(w1 - w0)                            # Passo de w
    iters = iters+1                                # Contador de iterações
    print("Iter ",iters,"\nX valor ",w1)  # Print iterações
    w0 = w1                                        # valor atual de w é armazenado em valor prévio de w
    fw.append([iters,w1,f(w1)])
fw = np.array(fw)
print("O mínimo local ocorre em", w1)

Os gráficos abaixo plotam a iteração pelo valor de $f(\omega)$ e de $\omega$. Pode-se perceber que há convergência do método após, aproximadamente, 300 iterações. Porém, dado o alto valor de precisão que selecionamos

In [None]:
fig,ax = plt.subplots()

ax.plot(fw[:,0], fw[:,2], color='navy' )
ax.set_xlabel('Número da iteração',fontsize=14)
ax.set_ylabel(r'$f(\omega)$',color='navy',fontsize=14)

ax2=ax.twinx()

ax2.plot(fw[:,0], fw[:,1], color='seagreen' )
ax2.set_ylabel(r'$\omega$',color='seagreen',fontsize=14)
plt.show()


A função abaixo serve para ilustrar um dos problemas do Gradiente Descendente.

*A descida do gradiente é um Método de Otimização de Primeira Ordem. Leva em consideração apenas as derivadas de primeira ordem da função e despreza as de mais altas ordens. O que isso significa basicamente é que o método não tem idéia sobre a curvatura da função. Ele pode dizer se a função está diminuindo e quão rápido, mas não pode diferenciar se a curva é um plano, uma curva para cima ou para baixo.*

In [None]:
def makeplot(position,angle1,angle2,rotation,alpha):
    ax = fig.add_subplot(position,projection='3d')
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1,
                cmap='viridis', edgecolor='none', alpha = alpha)
    ax.view_init(angle1,angle2)
    ax.set_xlabel(r'$x_1$', fontsize=15, labelpad=10)
    ax.set_ylabel(r'$x_2$', fontsize=15, labelpad=10)
    ax.zaxis.set_rotate_label(False)
    ax.set_zlabel(r'$L^1$', rotation=rotation, fontsize=16, labelpad=10)
    return ax

In [None]:
X,Y = np.meshgrid(np.arange(-2, 8, .1), np.arange(-2, 8, .1))
Z = np.sin(X)-Y/10

In [None]:
fig = plt.figure(figsize=(50,10))
ax = makeplot(121,30,80,90,0.95)
fig.colorbar(plt.cm.ScalarMappable(cmap='viridis'), ax = ax)
plt.show()

In [None]:
colors = mpl.cm.jet(np.hypot(X,Y))
fig, ax = plt.subplots(figsize=(10,10))
ax.contourf(X,Y,Z, facecolors=colors)

In [None]:
X,Y = np.meshgrid(np.arange(-2, 8, .3), np.arange(-2, 8, .3))
Z = np.sin(X)-Y/10
V,U = np.gradient(Z, .2, .1)
fig, ax = plt.subplots(figsize=(10,10))
cmap = plt.get_cmap()
q = ax.quiver(X,Y,U,V, Z, cmap = 'viridis')
plt.show()

# Gradiente descendente com Momentum

O Momentum propõe o seguinte ajuste para a descida gradiente.
$$
𝑚=\beta 𝑚−\alpha 𝐽(\omega^{(j)})
$$
$$
\omega^{(j+1)} = \omega^{(j)} + 𝑚
$$
onde $𝑚$ é o gradiente que é mantido nas iterações anteriores. Este gradiente retido é multiplicado por um valor denominado *Coeficiente de Momentum* $\beta$, que é a porcentagem do gradiente retido a cada iteração. Em geral, adota-se $\beta=0,9$.


In [None]:
# Inicialização de parâmetros
w0 = 3                 # valor inicial
alfa = 0.01            # taxa de aprendizado
beta = 0.4             # coeficiente de momentum
T = 10000              # máximo número de iterações
eps = 1e-6             # precisado
iters = 0              # contador de iterações
f = lambda w: (w+5)**2 # gradiente da função
df = lambda w: 2*(w+5) # gradiente da função
step = 1e9

In [None]:
fw=[]
m = 0
while step > eps and iters < T:
    m = beta*m - alfa * df(w0)                     #m
    w1 = w0 + m                                      # Grad descendente
    step = abs(w1 - w0)                            # Passo de w
    iters = iters+1                                # Contador de iterações
    print("Iter ",iters,"\nX valor ",w1)  # Print iterações
    w0 = w1                                        # valor atual de w é armazenado em valor prévio de w
    fw.append([iters,w1,f(w1)])
fw = np.array(fw)
print("O mínimo local ocorre em", w1)

In [None]:
fig,ax = plt.subplots()

ax.plot(fw[:,0], fw[:,2], color='navy' )
ax.set_xlabel('Número da iteração',fontsize=14)
ax.set_ylabel(r'$f(\omega)$',color='navy',fontsize=14)

ax2=ax.twinx()

ax2.plot(fw[:,0], fw[:,1], color='seagreen' )
ax2.set_ylabel(r'$\omega$',color='seagreen',fontsize=14)
plt.show()

# Lição de casa

Use o Gradiente descendente com momentum e ache o vetor $\mathbf \omega$ para a regressão linear do conjunto de dados da tabela abaixo. Na equação,
$$
y = \omega_0 + \omega_1\times x_1 + w_2 \times x_2
$$
$𝑦$ é a taxa de gordura no sangue, $\omega_i$ são os pesos e $x_i$ os dados de entrada.

Índice  | Peso $(Kg)$  |Idade (anos)| Taxa de Gordura no sangue
--------|--------------|------------|--------------------------
 1  |  84 | 46 | 354
 2  |  73 | 20 | 190
 3  |  65 | 52 | 405
 4  |  70 | 30 | 263
 5  |  76 | 57 | 451
 6  |  69 | 25 | 302
 7  |  63 | 28 | 288
 8  |  72 | 36 | 385
 9  |  79 | 57 | 402
10  |  75 | 44 | 365
11  |  27 | 24 | 209
12  |  89 | 31 | 290
13  |  65 | 52 | 346
14  |  57 | 23 | 254
15  |  59 | 60 | 395
16  |  69 | 48 | 434
17  |  60 | 34 | 220
18  |  79 | 51 | 374
19  |  75 | 50 | 308
20  |  82 | 34 | 220
21  |  59 | 46 | 311
22  |  67 | 23 | 181
23  |  85 | 37 | 274
24  |  55 | 40 | 303
25  |  63 | 30 | 244


## GABARITO

### Parte 1

__Input:__ Dados de treinamento $(\mathbf{X}, \mathbf{y})$ para onde:
$\mathbf{X}$ é uma matriz $m \times n$,
$$
\mathbf{X} = \begin{bmatrix}
x_{11} & x_{12} & \cdots & x_{1n} \\
x_{21} & x_{22} & \cdots & x_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
x_{m1} & x_{m2} & \cdots & x_{mn}
\end{bmatrix} = \begin{bmatrix}
\mathbf{x}^{1} & \mathbf{x}^{2} & \cdots & \mathbf{x}^{n}
\end{bmatrix}
$$
onde $m$ é o número de dados para treinamento e $n$ o número de características. Cada característica $j = 1, \cdots n$ está armazenada no vetor $\mathbf{x}^{j}$, de dimensão $m$. $\mathbf{y}$ é um vetor de dimensão $m$, contendo a saída.

In [None]:
from google.colab import files
uploaded = files.upload()

In [None]:
import io
data = pd.read_csv(io.StringIO(uploaded['LicaoCasa.csv'].decode('utf-8')),sep=',',index_col=False)
data.head()

In [4]:
X = data[['Peso', 'Idade']].to_numpy()
y = data[['Taxa de Gordura']].to_numpy()

### Parte 2
Veja a classe `LinearRegression` definida abaixo.

O método construtor `__init__` define as dimensões $m$ (número de linhas e, portanto, número de dados) e $n$ (número de colunas e, portanto, número de características). O método também inicializa as variáveis randomicamente  $\omega_0, \omega_1$ e $\omega_2$. A taxa de aprendizado $\alpha$ e o número de iterações são valores definidos dentro da classe. Os demais métodos apenas retornam os valores dos dados de entrada $\mathbf{X}$, saída $\mathbf{y}$ e dos pesos $\boldsymbol{\omega}$


In [5]:
class LinearRegression:
    def __init__(self,X,Y):
        ones=np.ones((X.shape[0],1))
        X=np.append(ones,X,axis=1)
        self.X=X
        self.Y=Y[:,0]
        self.m=X.shape[0]
        self.n=X.shape[1]
        self.w=np.random.randn(X.shape[1])
        self.alpha = 0.001
        self.num_of_iter = 10000

    def returnW(self):
        return self.w

    def returnX(self):
        return self.X

    def returnY(self):
        return self.Y

In [6]:
lr=LinearRegression(X,y)

In [None]:
w=lr.returnW()
print('Valores aleatórios iniciais:\n',
      'w0:{:4.4f}\n w1{:4.4f} \n w2: {:4.4f}'.format(w[0],w[1],w[2]))

### Parte 3

Nessa parte, os demais métodos são desenvolvidos. Particularmente, os métodos `GradientDescent` e `NormalEquation` encontram a solução de forma iterativa e direta, respectivamente.

O métodos `CostFunction` calcula o erro da aproximação e o método `Predict` faz uma predição a partir do modelo aproximado encontrado.

Veja abaixo o algoritmo implementado no método `GradientDescent`.

__For__ $iter=1$ to $iters$:

* Calcule as previsões: $h_\omega(x^{1}_i,x^{2}_i) = \omega_0 + \omega_1 x^{1}_i + + \omega_2 x^{2}_i$
* Calcule o custo: $J(\omega_0, \omega_1) = \frac{1}{2N} \sum_{i=1}^{N} (h_\omega(x_i) - y_i)^2$
* Atualize os parâmetros:
     * $\omega_0 := \omega_0 - \alpha \frac{1}{m} \sum_{i=1}^{m} (h_\omega(x^{1}_i,x^{2}_i) - y_i)$
     * $\omega_1 := \omega_1 - \alpha \frac{1}{m} \sum_{i=1}^{m} (h_\omega(x^{1}_i,x^{2}_i) - y_i) \cdot x^1_i$
     * $\omega_2 := \omega_2 - \alpha \frac{1}{m} \sum_{i=1}^{m} (h_\omega(x^{1}_i,x^{2}_i) - y_i) \cdot x^2_i$

__EndFor__

__Output:__ Parâmetros $\omega_0, \omega_1$ e $\omega_2$ que minimizam a função de custo

In [25]:
class LinearRegression:
    def __init__(self,X,Y):
        ones=np.ones((X.shape[0],1))
        X=np.append(ones,X,axis=1)
        self.X=X
        self.Y=Y[:,0]
        self.m=X.shape[0]
        self.n=X.shape[1]
        self.w=np.random.randn(X.shape[1])
        self.alpha = 0.0003
        self.num_of_iter = 600000

    def CostFunction(self):
        h=np.matmul(self.X,self.w)
        self.J=(1/(2*self.m))*np.sum((h-self.Y)**2)
        return self.J

    def GradientDescent(self):
        self.Cost_history=[]
        self.w_history=[]
        num_prints = round(self.num_of_iter/min(self.num_of_iter,10000))
        step = self.num_of_iter / num_prints
        boundaries = [round(step * i) for i in range(num_prints + 1)]
        h=np.matmul(self.X,self.w)
        J=self.CostFunction()
        for i,x in enumerate(range(self.num_of_iter)):
            h=np.matmul(self.X,self.w)
            J=self.CostFunction()
            self.Cost_history.append(J)
            self.w_history.append(self.w)
            temp = h-self.Y
            value = self.alpha/self.m
            self.w=self.w - value*np.matmul(temp,self.X)
            divisible_numbers = []
            if i>100:
              if i in boundaries:
                plt.scatter(i, J)
                display.display(plt.gcf())
                display.clear_output(wait=True)
            else:
              plt.scatter(i, J)
              display.display(plt.gcf())
              display.clear_output(wait=True)
        plt.show()
        return self.w,self.Cost_history,self.w_history

    def PredictSurface(self,X1,X2):
        X0 = np.ones((X1.shape[0],1))
        y_pred = self.w[0] * X0 + self.w[1] * X1 + self.w[2] * X2
        return y_pred

    def NormalEquation(self):
        self.w = np.matmul(np.linalg.inv(np.matmul(self.X.T,self.X)),np.matmul(self.X.T,self.Y))
        y_pred=np.matmul(self.X,self.w)
        return y_pred,(abs(self.Y-y_pred)/self.Y)*100

    def returnW(self):
        return self.w

    def returnX(self):
        return self.X

    def returnY(self):
        return self.Y

In [None]:
lr=LinearRegression(X,y)
y_pred_normal,error_percentage=lr.NormalEquation()
w = lr.returnW()
print('Valores aleatórios iniciais:\n',
      'w0: {:4.4f}\n w1: {:4.4f} \n w2: {:4.4f}'.format(w[0],w[1],w[2]))

In [None]:
lr=LinearRegression(X,y)
w,Cost_history,w_history = lr.GradientDescent()
print('Valores finais dos pesos:\n',
      'w0:{:4.4f}\n w1: {:4.4f} \n w2: {:4.4f}'.format(w[0],w[1],w[2]))

O gráfico plotado durante o _treinamento_ é um pequeno spolier do que estudaremos no próximo ciclo - os 100 primeiros valores são plotados, e depois, somente a cada aprox. 20mil iterações. Veja que o erro cai bastante no início e depois fica praticamente constante - isto é, quase não melhoramos nossa resposta aumentando o número de iterações. Se quisermos um resultado melhor, devemos tentar diferentes estratégias...

Porém, repare a diferença entre os resultados de 400mil e 600mil épocas.

Para isso você deve analisar a saída `w_history` do treinamento. Veja que o histórico dos pesos $\omega_i$ e do custo $J$ são armazenados:


```
w,Cost_history,w_history = lr.GradientDescent()
```



In [None]:
print('Valores dos pesos na iteração:\n',
      'w0:{:4.4f}\n w1: {:4.4f} \n w2: {:4.4f}'.format(w_history[399999][0],w_history[399999][1],w_history[399999][2]))

Abaixo, a superfície encontrada é plotada junto com os pontos de treinamento. Obviamente, temos muito poucos pontos para analisar.

In [None]:
ax = plt.axes(projection='3d')


x1data = lr.returnX()[:,1]
x2data = lr.returnX()[:,2]
ydata = lr.returnY()

# Superfície
x1_range = np.arange(x1data.min(), x1data.max())
x2_range = np.arange(x2data.min(), x2data.max())

X1, X2 = np.meshgrid(x1_range, x2_range)
Y = lr.PredictSurface(X1,X2)
ax.plot_surface(X1,X2,Y, rstride=1, cstride=1, alpha = 0.2)

# Pontos experimentais
ax.scatter3D(x1data, x2data, ydata, c=ydata, cmap='Greens');

ax.view_init(10, 120)
ax.set_xlabel(r'$x^1$');
ax.set_ylabel(r'$x^2$');
ax.set_zlabel('y');