In [1]:
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from matplotlib import cm

# para figuras interativas usar 'notebook' ao inves de 'inline'.
%matplotlib notebook

In [2]:
# Always reset the pseudo-random numbers generator to a known value so that your results are always the same.
np.random.seed(1234)

### Gerando a função observável.

In [3]:
N = 1000

# Atributos (Gaussiana normal padrão).
x1 = np.random.randn(N,1)
x2 = np.random.randn(N,1)

# Ruído.
w = np.random.randn(N,1)

# Função objetivo.
y = x1 + x2

# Função observável (ruidosa)
y_noisy = y + w

### Comparando a função observável com a objetivo.

In [4]:
# Plot cost-function surface.
fig = plt.figure()
plt.subplot(projection='3d')
ax = fig.gca()

ax.scatter(x1, x2, y, label='Função objetivo')
ax.scatter(x1, x2, y_noisy, label='Função observável')
ax.set_xlabel('$x_1$')
ax.set_ylabel('$x_2$')
ax.set_zlabel('$y$')
plt.show()

<IPython.core.display.Javascript object>

### Encontrando a solução ótima com a equação normal.

A função hipótese utilizada neste exemplo é dada por

$$\hat{y} = \hat{a}_1 x_1 + \hat{a}_2 x_2 = X\hat{\textbf{a}}.$$

**OBS**.: percebam que não temos o peso de bias, $\hat{a}_0$.

In [5]:
# Concatenando os 2 vetores de atributos para criar a matriz de atributos com dimensão N x K.
X = np.c_[x1, x2]

# Equação normal.
a_opt = np.linalg.pinv(np.transpose(X).dot(X)).dot(np.transpose(X).dot(y_noisy))

# Imprimindo os valores encontrados para os pesos, a1 e a2.
print('peso a1:', a_opt[0][0])
print('peso a2:', a_opt[1][0])

# Realizando a predição com a função hipótese: yhat = a1*x1 + a2*x2.
# Perceba que a função hipótese está em sua forma matricial.
yhat = X.dot(a_opt)

# Calculando o erro quadrático médio.
Joptimum = (1.0/N)*np.sum(np.power((y_noisy - yhat), 2))

# Imprimindo o valor do erro.
print('Erro:', Joptimum)

peso a1: 1.0373518580863197
peso a2: 1.0549021717423768
Erro: 0.9809577522249409


### Definição da função que calcula a superfície de erro.

+ O erro é calculado variando-se $a_1$ e $a_2$ na equação do erro quadrático médio (EQM).
+ Essa variação é feita com as funções `linspace` e `meshgrid` da biblioteca **numpy**.
+ A função `meshgrid` cria uma *malha* de valores:

```python
a1 = np.linspace(0,4,5)
a2 = np.linspace(0,4,5)

A1, A2 = np.meshgrid(a1, a2)

A1 =  0 1 2 3 4        A2 =  0 0 0 0 0
      0 1 2 3 4              1 1 1 1 1
      0 1 2 3 4              2 2 2 2 2
      0 1 2 3 4              3 3 3 3 3
      0 1 2 3 4              4 4 4 4 4
        
plt.plot(A1, A2, marker='o', color='k')
```

<img src="../../figures/meshgrid.png" width="400px">

In [6]:
def calculateErrorSurface(y, x1, x2):
    """
    Generate data points for plotting the error surface.
    """
    # Generate values for parameter space.
    N = 200
    a1 = np.linspace(-2.0, 4.0, N)
    a2 = np.linspace(-2.0, 4.0, N)

    A1, A2 = np.meshgrid(a1, a2)

    # Generate points for plotting the cost-function surface.
    J = np.zeros((N,N))
    for iter1 in range(0, N):
        for iter2 in range(0, N):
            yhat = A1[iter1][iter2]*x1 + A2[iter1][iter2]*x2
            J[iter1][iter2] = (1.0/len(y))*np.sum(np.square(y - yhat));            
            
    return J, A1, A2

### Plotando a superfície de erro.

+ Observem que a superfície de erro é **convexa** e, consequentemente, temos apenas um ponto de mínimo.

In [7]:
# Call function used to plot the error surface.
J, A1, A2 = calculateErrorSurface(y_noisy, x1, x2)

# Plot cost-function surface.
fig = plt.figure(figsize=(5,5))
plt.subplot(projection='3d')
ax = fig.gca()
surf = ax.plot_surface(A1, A2, J, cmap=cm.coolwarm, linewidth=0, antialiased=False)
ax.plot([a_opt[0,0]], [a_opt[1,0]], [Joptimum], c='r', marker='*', markersize=10)
ax.set_xlabel('$a_1$')
ax.set_ylabel('$a_2$')
ax.set_zlabel('$J_e$')
plt.title('Superfície da função de erro')
ax.view_init(20, 45)
#Show the plot.
plt.show()

<IPython.core.display.Javascript object>

### Plotando a superfície de contorno.

+ Uma linha de contorno de uma função de duas variáveis é uma curva ao longo da qual a função tem um valor constante.
+ Equivale a olhar a superfície de erro por traçar e cortar um plano em um dado valor de erro.
+ Cada uma das linhas indica curvas que têm o mesmo erro.
+ Vejam que o erro e o raio dos círculos diminuem conforme nos aproximamos do ponto de mínimo, indicando que o erro esta diminuindo.

In [8]:
fig = plt.figure(figsize=(5,5))

cp = plt.contour(A1, A2, J)
plt.clabel(cp, inline=1, fontsize=10)
plt.xlabel('$a_1$')
plt.ylabel('$a_2$')
plt.title('Superfíce de contorno')

plt.plot(a_opt[0], a_opt[1], c='r', marker='*', markersize=10)

plt.xticks(np.arange(-2, 4, step=1.0))
plt.yticks(np.arange(-2, 4, step=1.0))

plt.savefig("contour_surface_example2.png", dpi=600)

plt.show()

<IPython.core.display.Javascript object>

### Plotando a função observável juntamente com o hiperplano encontrado com a equação normal.

In [9]:
# Plot cost-function surface.
fig = plt.figure(figsize=(5,5))
plt.subplot(projection='3d')
ax = fig.gca()

N = 10
x1_ = np.linspace(-3.0, 4.0, N)
x2_ = np.linspace(-3.0, 4.0, N)
X1, X2 = np.meshgrid(x1_, x2_)
Y = a_opt[0]*X1 + a_opt[1]*X2

ax.scatter(x1, x2, y, label='Função objetivo')
ax.scatter(x1, x2, y_noisy, label='Função observável')
ax.plot_wireframe(X1, X2, Y, color="black", label='Função Hipótese')
ax.set_xlabel('$x_1$')
ax.set_ylabel('$x_2$')
ax.set_zlabel('$y$')
plt.legend()
plt.show()

<IPython.core.display.Javascript object>