# Tarefa de programação 1: Regressão Linear

## Introdução

Neste exercício, nós implementaremos a técnica de regressão linear e observaremos os seus resultados. 

Todas as informações para resolver este problema estão contidas neste ambiente.

Antes de iniciarmos o exercício, nós precisamos que algumas bibliotecas já estejam disponíveis. São elas:

- Numpy: (http://www.numpy.org/) para todas as operações matriciais;
- Matplotlib: (https://matplotlib.org/) para a plotagem dos gráficos.

Caso este notebook esteja funcionando através do Anaconda, as bibliotecas já estarão disponíveis automaticamente. Caso contrário, será necessário baixar e instalar essas duas bibliotecas no ambiente escolhido.

In [None]:
# used for manipulating directory paths
import os

# Scientific and vector computation for python
import numpy as np

# Plotting library
from matplotlib import pyplot
from mpl_toolkits.mplot3d import Axes3D  # needed to plot 3-D surfaces

# tells matplotlib to embed plots within the notebook
%matplotlib inline

<a id="section1"></a>
## 1 Função simples de python e numpy

A primeira parte será para familiarização com o ambiente. Na próxima célula, faça uma função que gere uma matriz identidade 5x5, utilizando a linha:

```python
A = np.eye(5)
```
<a id="warmUpExercise"></a>

In [None]:
def warmUpExercise():
    """
    Example function in Python which computes the identity matrix.
    
    Returns
    -------
    A : array_like
        The 5x5 identity matrix.
    
    Instructions
    ------------
    Return the 5x5 identity matrix.
    """    
    # ======== YOUR CODE HERE ======
    A = []   # modify this line
    
    # ==============================
    return A

Na última célula, nós definimos a função `warmUpExercise` que agora poderá ser executada. O seu resultado deve ser igual a:

```python
array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])
```

In [None]:
warmUpExercise()

## 2 Regressão Linear de uma variável

Agora nós iremos implementar a regressão linear para uma variável para tentar prever os lucros de um food truck. Suponha que você é o CEO de uma franquia de food trucks e está considerando diferentes cidades para abrir uma nova filial. A franquia já possui outros trucks em várias cidades e você possui os dados de rentabilidade de cada um deles, além da população de cada um desses municípios. Você planeja utilizar esses dados para escolher qual será a cidade escolhida para abrir o próximo truck.

O documento `Data/ex1data1.txt` contém um dataset para o nosso problema de regressão. A primeira coluna é a população da cidade (em 10 mil habitantes) e a segunda coluna é o lucro do food truck nesta cidade (em 10 mil dólares). Um valor negativo para o lucro, significa um prejuízo.

Nós já fornecemos o código para carregar esses dados. O dataset será carregado e guardado nas variáveis `X` e `y`:

In [None]:
# Read comma separated data
data = np.loadtxt(os.path.join('Data', 'ex1data1.txt'), delimiter=',')
X, y = data[:, 0], data[:, 1]

m = y.size  # number of training examples

### 2.1 Plotando os dados

Antes de iniciarmos qualquer tarefa, é interessante que nós visualizemos os dados. Para este dataset, nós podemos usar um gráfico de dispersão (scatter plot) para visualizar os dados, desde que eles só possuam duas features (lucro e população). 

Neste curso, nós usaremos apenas o `matplotlib` para as plotagens. O `pyplot` é um módulo desta biblioteca que disponibiliza uma interface simplificada para as plotagens mais usadas do `matplotlib`, imitando a interface de plotagem do MATLAB. 

Na próxima etapa, a primeira tarefa será completar a função `plotData` a seguir. Modifique-a e preencha-a com o seguinte código:

```python
    pyplot.plot(x, y, 'ro', ms=10, mec='k')
    pyplot.ylabel('Lucro em $10,000')
    pyplot.xlabel('População da cidade em 10,000s')
```

In [None]:
def plotData(x, y):
    """
    Plots the data points x and y into a new figure. Plots the data 
    points and gives the figure axes labels of population and profit.
    
    Parameters
    ----------
    x : array_like
        Data point values for x-axis.

    y : array_like
        Data point values for y-axis. Note x and y should have the same size.
    
    Instructions
    ------------
    Plot the training data into a figure using the "figure" and "plot"
    functions. Set the axes labels using the "xlabel" and "ylabel" functions.
    Assume the population and revenue data have been passed in as the x
    and y arguments of this function.    
    
    Hint
    ----
    You can use the 'ro' option with plot to have the markers
    appear as red circles. Furthermore, you can make the markers larger by
    using plot(..., 'ro', ms=10), where `ms` refers to marker size. You 
    can also set the marker edge color using the `mec` property.
    """
    fig = pyplot.figure()  # open a new figure
    
    # ====================== YOUR CODE HERE ======================= 
    
    # =============================================================


Agora vamos rodar a função com os dados carregados para visualizá-los. O resultado final deve ser igual a figura seguinte:

![](Figures/dataset1.png)

Execute a próxima célula para visualizar os dados


In [None]:
plotData(X, y)

Para aprender mais sobre a função plot da biblioteca `matplotlib` e quais argumentos podem ser inseridos nela, nós podemos digitar `?pyplot.plot` em uma célula do jupyter notebook. Isso abrirá uma página separada mostrando a documentação da função.

Para selecionar os marcadores como círculos vermelhos, nós utilizamos a opção `'or'` na função `plot`.

In [None]:
?pyplot.plot

<a id="section2"></a>
### 2.2 Gradient Descent

Nesta parte, nós iremos preencher os parâmetros $\theta$ da regressão linear do nosso dataset utilizando a técnica do gradient descent.

#### 2.2.1 Atualização das equações

O objetivo da regressão linear é minimizar a função de custo

$$ J(\theta) = \frac{1}{2m} \sum_{i=1}^m \left( h_{\theta}(x^{(i)}) - y^{(i)}\right)^2$$

em que a hipótese $h_\theta(x)$ é dada pelo modelo linear

$$ h_\theta(x) = \theta^Tx = \theta_0 + \theta_1 x_1$$

Repare que os parâmetros do nosso modelo são os valores de $\theta_j$. Esses valores devem ser ajustados para minimizar a função de custo $J(\theta)$. Uma forma de fazer isso é usar o gradient descent em batches. Nesta técnica, cada iteração realiza uma atualização

$$ \theta_j = \theta_j - \alpha \frac{1}{m} \sum_{i=1}^m \left( h_\theta(x^{(i)}) - y^{(i)}\right)x_j^{(i)} \qquad \text{atualização simultânea de } \theta_j \text{ para todo } j$$

Em cada iteração do gradient descent, o parâmetro $\theta_j$ se aproxima dos valores ótimos, ou seja, aqueles nos quais a função de custo J($\theta$) será minimizada.

<div class="alert alert-block alert-warning">
**Nota de implementação:** Nós guardamos cada exemplo em uma linha da matriz $X$ em Python `numpy`. Para levar em conta o termo de interceptação ($\theta_0$), nós adicionaremos uma primeira coluna adicional em $X$, em que todos elementos serão iguais a '1'. Isso permitirá tratar $\theta_0$ como outra simples feature.    
</div>


#### 2.2.2 Implementação

Nós já possuímos os dados para a regressão linear. Na próxima célula, nós adicionaremos outra dimensão aos nossos dados para acomodar os termos de interceptação $\theta_0$. NÃO execute essa célular mais de uma vez.

In [None]:
# Add a column of ones to X. The numpy function stack joins arrays along a given axis. 
# The first axis (axis=0) refers to rows (training examples) 
# and second axis (axis=1) refers to columns (features).
X = np.stack([np.ones(m), X], axis=1)

<a id="section2"></a>
#### 2.2.3 Cálculo do custo $J(\theta)$

Quando nós utilizamos o gradient descent para aprender a minimizar a função de custo $J(\theta)$, é interessante monitorar a convergência do cálculo desse custo. Nesta seção, nós implementaremos a função que calculará $J(\theta)$, permitindo o acompanhamento da convergência da nossa implementação do gradiente descendente.

A próxima tarefa é completar o código da função `computeCost` que calcula $J(\theta)$. Relembre que $X$ e $y$ não são valores escalares. $X$ é uma matriz cujas linhas representam exemplos do dados de treinamento (training set) e $y$ é um vetor em que cada elemento representa a saída de cada um desses exemplos de treinamento de $X$.
<a id="computeCost"></a>

In [None]:
def computeCost(X, y, theta):
    """
    Compute cost for linear regression. Computes the cost of using theta as the
    parameter for linear regression to fit the data points in X and y.
    
    Parameters
    ----------
    X : array_like
        The input dataset of shape (m x n+1), where m is the number of examples,
        and n is the number of features. We assume a vector of one's already 
        appended to the features so we have n+1 columns.
    
    y : array_like
        The values of the function at each data point. This is a vector of
        shape (m, ).
    
    theta : array_like
        The parameters for the regression function. This is a vector of 
        shape (n+1, ).
    
    Returns
    -------
    J : float
        The value of the regression cost function.
    
    Instructions
    ------------
    Compute the cost of a particular choice of theta. 
    You should set J to the cost.
    """
    
    # initialize some useful values
    m = y.size  # number of training examples
    
    # You need to return the following variables correctly
    J = 0
    
    # ====================== YOUR CODE HERE =====================

    
    # ===========================================================
    return J

Uma vez que a função esteja completa, o próximo passo é rodar `computeCost` duas vezes utilizando duas diferentes inicializações de $\theta$. Você terá o custo printado na sua tela. 

In [None]:
J = computeCost(X, y, theta=np.array([0.0, 0.0]))
print('Com theta = [0, 0] \nCusto calculado = %.2f' % J)
print('Valor de custo esperado (aproximado) 32.07\n')

# further testing of the cost function
J = computeCost(X, y, theta=np.array([-1, 2]))
print('Com theta = [-1, 2]\nCusto calculado = %.2f' % J)
print('Valor de custo esperado (aproximado) 54.24')

<a id="section3"></a>
#### 2.2.4 Gradient Descent

A seguir, nós completaremos a função que implementa o gradient descent. A estrutura do loop já foi escrita para você. O que ainda deve ser feito é fornecer as atualização de $\theta$ em cada iteração.

Enquanto você programa, se certifique que você está entendendo o que está sendo otimizado e o que você está fazendo para otimizar isto. Tenha em mente que o custo $J(\theta)$ é parametrizado pelo vetor $\theta$, e não por $X$ e $y$. Isto é, nós minimizaremos o valor de $J(\theta)$ através das mudanças nos valores de $\theta$, e não pelas mudanças nos valores de $X$ or $y$.

[Retorne às equações deste notebook](#section2) e nos vídeos se você ainda está inseguro. Uma boa maneira de verificar se o gradient descent está funcionando corretamente é monitorar o valor de $J(\theta)$ e checar se ele decresce a cada iteração.

O início da função `gradientDescent` chama `computeCost` em cada iteração e salva o custo em uma lista `python`. Assumindo que nós implementamos o gradiente descendente e `computeCost` corretamente, o nosso valor para $J(\theta)$ não deve aumentar nunca, convergindo para um valor fixo ao final do algoritmo.

In [None]:
def gradientDescent(X, y, theta, alpha, num_iters):
    """
    Performs gradient descent to learn `theta`. Updates theta by taking `num_iters`
    gradient steps with learning rate `alpha`.
    
    Parameters
    ----------
    X : array_like
        The input dataset of shape (m x n+1).
    
    y : array_like
        Value at given features. A vector of shape (m, ).
    
    theta : array_like
        Initial values for the linear regression parameters. 
        A vector of shape (n+1, ).
    
    alpha : float
        The learning rate.
    
    num_iters : int
        The number of iterations for gradient descent. 
    
    Returns
    -------
    theta : array_like
        The learned linear regression parameters. A vector of shape (n+1, ).
    
    J_history : list
        A python list for the values of the cost function after each iteration.
    
    Instructions
    ------------
    Peform a single gradient step on the parameter vector theta.

    While debugging, it can be useful to print out the values of 
    the cost function (computeCost) and gradient here.
    """
    # Initialize some useful values
    m = y.shape[0]  # number of training examples
    
    # make a copy of theta, to avoid changing the original array, since numpy arrays
    # are passed by reference to functions
    theta = theta.copy()
    
    J_history = [] # Use a python list to save cost in every iteration
    
    for i in range(num_iters):
        # ==================== YOUR CODE HERE =================================
        

        # =====================================================================
        
        # save the cost J in every iteration
        J_history.append(computeCost(X, y, theta))
    
    return theta, J_history

Depois de finalizar, nós chamaremos a função implementada `gradientDescent` e vamos printar o $\theta$ calculado. Nós inicializaremos os parâmetros $\theta$ como 0 e a taxa de aprendizado (learning rate) $\alpha$ como 0,01. Execute a próxima célula para conferir o código.

In [None]:
# initialize fitting parameters
theta = np.zeros(2)

# some gradient descent settings
iterations = 1500
alpha = 0.01

theta, J_history = gradientDescent(X ,y, theta, alpha, iterations)
print('Theta encontrado com o gradient descent: {:.4f}, {:.4f}'.format(*theta))
print('Valores esperados de theta (aproximado): [-3.6303, 1.1664]')

Nós utilizaremos os parâmetros obtidos como saída da função `gradientDescent` para plotar a regressão linear. Os resultados devem ser parecidos com a figura seguinte.

![](Figures/regression_result.png)

In [None]:
# plot the linear fit
plotData(X[:, 1], y)
pyplot.plot(X[:, 1], np.dot(X, theta), '-')
pyplot.legend(['Dados de treinamento', 'Regressão linear']);

Nossos valores finais de $\theta$ também serão usados para fazer previsões dos lucros em áreas de 35 e 70 mil habitantes.

<div class="alert alert-block alert-success">
Note que as linhas de código seguintes utilizam produto entre matrizes, ao invés de somas em loops, para calcular as previsões. Isto é um exemplo de vetorização de código em `numpy`.
</div>

<div class="alert alert-block alert-success">
Note que o primeiro argumento da função `np.dot` é uma lista python. A biblioteca `numpy` pode converter internamente listas python em `numpy arrays` quando explicitado nos argumentos das funções `numpy`.
</div>


In [None]:
# Predict values for population sizes of 35,000 and 70,000
predict1 = np.dot([1, 3.5], theta)
print('Para população = 35,000, nós prevemos um lucro de {:.2f}\n'.format(predict1*10000))

predict2 = np.dot([1, 7], theta)
print('Para população = 70,000, nós prevemos um lucro de {:.2f}\n'.format(predict2*10000))

### 2.4 Visualizando $J(\theta)$

Para entender melhor a função de custo $J(\theta)$, nós iremos agora plotar o custo através de um gráfico tridimensional, com o custo no eixo z em função de $\theta_0$ e $\theta_1$. Você não precisará escrever nada de novo nesta parte, mas deve entender o código que já foi escrito para criar as imagens.

Na próxima célula, o código está construído para calcular $J(\theta)$ utilizando a função `computeCost` que você escreveu. Depois de executar a próxima célula, você terá uma matriz 2-D com os valores de $J(\theta)$. Então, esses valores serão usados para produzir a superfície e o contorno de $J(\theta)$ que serão plotados usando as funções `plot_surface` e `contourf` do matplotlib. Essas plotagens devem se parecer com as imagens a seguir.

![](Figures/cost_function.png)

O propósito desses gráficos é mostrar como $J(\theta)$ varia com as mudanças de $\theta_0$ e $\theta_1$. A função de custo $J(\theta)$ possui um mínimo global. Isto é mais fácil de ser visualizado no gráfico de contorno d que no gráfico 3-D. Este mínimo é o ponto ótimo para $\theta_0$ e $\theta_1$, e cada iteração do gradient descent move esses parâmetros para mais próximo deste ponto.

In [None]:
# grid over which we will calculate J
theta0_vals = np.linspace(-10, 10, 100)
theta1_vals = np.linspace(-1, 4, 100)

# initialize J_vals to a matrix of 0's
J_vals = np.zeros((theta0_vals.shape[0], theta1_vals.shape[0]))

# Fill out J_vals
for i, theta0 in enumerate(theta0_vals):
    for j, theta1 in enumerate(theta1_vals):
        J_vals[i, j] = computeCost(X, y, [theta0, theta1])
        
# Because of the way meshgrids work in the surf command, we need to
# transpose J_vals before calling surf, or else the axes will be flipped
J_vals = J_vals.T

# surface plot
fig = pyplot.figure(figsize=(12, 5))
ax = fig.add_subplot(121, projection='3d')
ax.plot_surface(theta0_vals, theta1_vals, J_vals, cmap='viridis')
pyplot.xlabel('theta0')
pyplot.ylabel('theta1')
pyplot.title('Superfície')

# contour plot
# Plot J_vals as 15 contours spaced logarithmically between 0.01 and 100
ax = pyplot.subplot(122)
pyplot.contour(theta0_vals, theta1_vals, J_vals, linewidths=2, cmap='viridis', levels=np.logspace(-2, 3, 20))
pyplot.xlabel('theta0')
pyplot.ylabel('theta1')
pyplot.plot(theta[0], theta[1], 'ro', ms=10, lw=2)
pyplot.title('Contorno, mostrando o minimo')
pass