# Projeto 2 - MC886

## Alunos: 
&emsp;&emsp;&emsp;&emsp;Felipe Escórcio de Sousa - RA:171043\
&emsp;&emsp;&emsp;&emsp;Miguel Augusto S Guida&nbsp;&nbsp;&nbsp;- RA:174847

## Objetivo
&emsp;Este projeto tem como objetivo aplicar métodos de aprendizado para resolver tarefas de regressão e classificação. O projeto será dividido em duas partes:
<li>
    <ul>Parte 1: Tarefa de Regressão</ul>
    <ul>Parte 2: Tarefa de Classificação</ul>
</li>

## Parte 1 - Tarefa de Regressão
&emsp;Considerando que somos um robô goleiro em uma partida de futebol de robôs, recebemos o início de duas trajetórias de chutes diferentes, e vamos analisar se somos capazes de prever a trajetória completa da bola e também se conseguimos defender o chute.\
&emsp;\
&emsp;Esta tarefa consiste em implementar uma regressão linear e uma regressão polinomial, e analisar quais modelos são melhores em prever a trajetória dos chutes.



## Implementação Regressão Linear
&emsp;Some text

### Imports
&emsp;Utilizaremos as bibliotecas numpy para os cálculos necessários, e também a biblioteca matplotlib para plotar os gráficos 3D e o gráfico da função de cust.

In [200]:
import numpy as np
import matplotlib.pyplot as plt
import sys
from mpl_toolkits.mplot3d import Axes3D

%matplotlib notebook

### Importação dos datasets

In [201]:
def import_dataset(filename):
    with open(filename) as binary_file:
        data = []
        x = []
        y = []
        z = []
        for d in binary_file:
            string = d.split()
            x.append(float(string[0]))
            y.append(float(string[1]))
            z.append(float(string[2]))
            
    array = np.ndarray(shape=(len(x), 3), dtype=float)

    for i in range(len(x)):
        array[i][0] = x[i]
        array[i][1] = y[i]
        array[i][2] = z[i]

    return array

### Modelo  $h_W$
&emsp;Para calcular nosso modelo de regressão (linear e polinomial), utilizamos um cálculo vetorial entre a matriz de pesos $W$ (sem o elemento $W_0$) e a matriz de features $X$ transposta. Somamos o resultado desta operação com o peso $W_0$ para obter o resultado final.\
&emsp;Nossa fórmula é definida da seguinte forma: $ h_W = (W \times X^T) + W_0$

In [202]:
def calc_h(W, X):
    m = X.shape[0]
    h = np.dot(W[0,1:],X.T).reshape((m, 1))+W[0,0]
    return h

### Função de custo
&emsp;Utilizamos a função de custo MSE para calcular o custo das nossas predições.\
&emsp;A fórmula utilizada foi: $ \dfrac{1}{2*m}*\sum_{\substack{0 < i < m \\}}(h_W^i - y^i)^2 $

In [203]:
def cost(h, Y):
    m = Y.shape[0]
    j = (1/(2*m))*np.sum((h-Y)**2)
    return j

### Função Gradiente Descendente
&emsp;Implementamos a função gradiente descendente "from scratch". Ela realiza uma iteração completa pela base de dados (Batch Gradient Descent).\
&emsp;A função recebe como parâmetros:\
&emsp;&emsp;> **W**: Matriz linha com os pesos das features;\
&emsp;&emsp;> **X**: Matriz de features com *m* exemplos;\
&emsp;&emsp;> **Y**: Matriz de referência, com *m* exemplos;\
&emsp;&emsp;> **m**: Número de exemplos;\
&emsp;&emsp;> **n**: Número de features;\
&emsp;&emsp;> **learning_rate**: Taxa de aprendizagem;\
&emsp;&emsp;\
&emsp;Inicialmente, calculamos o valor de $h_W$ com oa parâmetros fornecidos, e utilizamos este dado para calcular a função de custo e atualizar os parâmetros.\
&emsp;Construímos o dicionário **grads** para guardar o gradiente de cada peso, e calculamos os gradientes através da fórmula: $$ \dfrac{1}{m}*\sum_{\substack{0 < i < m}}(h_W^i - y^i)*X^i $$
&emsp;Com os gradientes calculados, atualizamos os valores dos pesos com a fórmula:
$$ W_j = W_j - \alpha *dW_j $$


In [204]:
def gradient_desc(W,X,Y,m,n,learning_rate):
    h = calc_h(W,X)
    # print(h.shape)
    # print(h)
    j = cost(h, Y)
#     print("cost: ",j)

    grads = {}
    grads["dw0"] = (1/m)*np.sum((h-Y))
    for i in range(1,n+1):
        grads["dw"+str(i)] = (1/m)*np.sum((h-Y)*X[:,i-1])
    # print(grads)
    for i in range(0,n+1):
        W[0,i] = W[0,i] - learning_rate*grads["dw"+str(i)]
    # print(W)
    return W,j


### Função de Regressão Linear
&emsp;Função que recebe os parâmetros iniciais e chama a porra toda kkkk

In [205]:
def regressaoLinear(X, Y, iterations, learning_rate, W_scale = 0.05, kick='kick1'):
    print(X.shape)
    n = X.shape[1]
    m = X.shape[0]

    W = np.random.rand(1,n+1)*W_scale 
    print("Init W: ", W)           
    
    costs = []
    for it in range(0,iterations):
        W, j = gradient_desc(W,X,Y,m,n,learning_rate)
        costs.append(j)
    
    plotGrafico(W,X,Y,costs,iterations,kick)
    plotCosts(iterations, costs)

### Função para plotar gráfico 3D e Gráfico de Custo

In [206]:
def plotGrafico(W,X,Y,costs,iterations,kick):
    h = calc_h(W, X)
    fig = plt.figure()

    ax = fig.add_subplot(111, projection='3d')
    ax.scatter(X[:,0], X[:,1], Y[:]) 
    ax.scatter(X[:,0], X[:,1], h)

    i = 2
    if kick=='kick1':
        y = 1.109 - 0.050
        x = -1.192 - 0.050        
        predX1 = []
        predX2 = []
        predH = []
        while y > 0:
            y = 1.109 - i*0.050
            x = -1.192 - i*0.050
            h = calc_h(W,np.asarray([[x, y]]))
            predX1.append(x)
            predX2.append(y)
            predH.append(h)
            i+=1
    else:
        y = 1.109 - 0.050
        x = -0.596 - 0.030
        z = 0.11  - 0.01
        predX1 = []
        predX2 = []
        predH = []
        while y > 0:
            y = 1.109 - i*0.050
            x = -0.596 - i*0.030
            h = calc_h(W,np.asarray([[x, y]]))
            predX1.append(x)
            predX2.append(y)

            predH.append(h)
            i+=1

    ax.scatter(predX1[:], predX2[:], predH[:]) 
    plt.show()

def plotCosts(iterations, costs):
    fig = plt.figure()
    plt.plot(range(0,iterations),costs[:])
    print(costs[-1])
    plt.show()

### Chamada da função linear

## Implementação Regressão Polinomial
&emsp;Usaremos as mesmas funções de h_theta, custo e gradiente utilizadas na regressão linear.\
&emsp;...

### Modelo Plotar Gráfico Polinomial

In [207]:
def plotPolinomialRegression(W,X,Y,h,iterations,costs, X_original,kick):
    fig = plt.figure()
    
    ax = fig.add_subplot(111, projection='3d')
    ax.scatter(X_original[:,0], X_original[:,1], Y[:]) 
    ax.scatter(X_original[:,0], X_original[:,1], h) 

    i = 2
    if kick == 'kick2':
        y = 1.109 - 0.050
        x = -0.596 - 0.030
        z = 0.11  - 0.01
        predX1 = []
        predX2 = []
        predH = []
        while y > 0:
            y = 1.109 - i*0.050
            x = -0.596 - i*0.030
            x2 = x**2
            y2 = y **2
            h = calc_h(W,np.asarray([[x, y, y2]]))
            predX1.append(x)
            predX2.append(y)

            predH.append(h)
            i+=1
    else:
        y = 1.109 - 0.050
        x = -1.192 - 0.050        
        predX1 = []
        predX2 = []
        predH = []
        while y > 0:
            y = 1.109 - i*0.050
            x = -1.192 - i*0.050
            x2 = x**2
            y2 = y **2
            h = calc_h(W,np.asarray([[x, y, y2]]))
            predX1.append(x)
            predX2.append(y)
            predH.append(h)
            i+=1

    ax.scatter(predX1[:], predX2[:], predH[:]) 
    plt.show()


### Função para Regressão Polinomial

In [208]:
def regressaoPolinomial(X_original, Y, iterations, learning_rate, W_scale, kick='kick2'):
    print(X_original.shape)
    
    # X = np.array(X_original, copy=True)
    Y2 = X_original[:,1]**2
    X = np.hstack((X_original, Y2.reshape((X_original.shape[0],1))))
    
    n = X.shape[1]
    m = X.shape[0]
    W = np.random.rand(1,n+1)*W_scale 
    print("Init W: ", W)           
    
    costs = []

    for it in range(0,iterations):
        W, j = gradient_desc(W,X,Y,m,n,learning_rate)
        costs.append(j)
    
    h = calc_h(W, X)
    plotPolinomialRegression(W,X,Y,h,iterations,costs, X_original,kick)
    plotCosts(iterations, costs)

### Chamada da função de regressão polinomial

## Análises
&emsp;OK - Define linear and polynomial regressions to learn your models, derive the equations, and implement a gradient
descent method from scratch\

&emsp;Train a linear and polynomial regression in each dataset\

&emsp;Evaluate the impact of the model complexity in the results (degree of the model)\

avaliar o impacto da complexidade do modelo nos resultados (grau do modelo).

Construimos um modelo de Complexidade linear e outro com complexidade polinomial de grau 2. Percebemos que nosso modelo linear se comportou bem no dataset 1, já que este apresenta uma distribuição linear dos dados. Porém, o modelo linear não entregou um bom resultado para o treinamento do dataset 2, já que este apresenta uma distribuição quadrática dos dados (parábola). 
Nosso modelo polinomial de grau 2 entregou um resultado satisfatório para o dataset 1, porém se saiu melhor no treinamento com o dataset 2, conseguindo se localizar nos dados e descrever a trajetória da bola como uma parábola.

Percebemos que o modelo polinomial se comporta melhor em dados lineares que o modelo linear em dados polinomiais. 

&emsp;Evaluate the impact of the learning rate (test at least 3 values) in the process\
Modelo Linear:
    Encontramos que o valor ideal para a ataxa de aprendizado é em torno de 0.009. A partir de 0.02 o algoritmo de gradiente descendente estoura, e para valores em torno de 0.0005 o algoritmo demora para convergir.


Modelo Polinomial:
    Encontramos valores diferentes para a taxa de aprendizado entre o treinamento dos dois datasets. Observamos que durante o treinamento do dataset 1, para valores em torno de 0.009 a função de custo fica "serrilhada", e o melhor valor para a taxa de aprendizado neste caso seria 0.0009. 
    Durante o treinamento do dataset 2, observamos que para valores acima de 0.01, nosso algoritmo "explode", e o melhor valor para a taxa de aprendizado seria 0.009. Para valores menores, a curva não consegue se encaixar nos dados, e uma aproximação precisa de muitar iterações.
    
A taxa de aprendizado é um hiperparametro muito sensível, e pequenas alterações têm grandes reflexos no modelo, e podendo levar a curva a extremos.   
 
Utilizamos 3 hiperparametros (taxa de aprendizado, número de iterações e o fator de multiplicação dos pesos) para fazer nosso modelo convergir e minimizar nossa função de custo. Observa-se que muito rapidamente os custos atingem valores mínimos.
Quando a taxa de aprendizado é menor, são necessárias mais iterações para que os modelos convirjam. Também observou-se que mesmo tendo atingido valores mínimos, precisamos de mais iterações para atualizar os pesos, de forma que a curva predita represente melhor a curva dos dados.


&emsp;Plot the models learned to predict the trajectory (like Figure 2.1) along with the metrics used to evaluate them, discussing the results.

In [209]:
kick1 = import_dataset('kick1.dat')
kick2 = import_dataset('kick2.dat')

m1 = kick1.shape[0]
m2 = kick2.shape[0]

In [210]:
# Linear kick 1
learning_rate = 0.001
iterations = 100
W_scale = 0.01
regressaoLinear(kick1[:,:2], kick1[:,2].reshape(m1,1), iterations, learning_rate, W_scale)

(20, 2)
Init W:  [[0.00497038 0.00564335 0.00588049]]


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

0.00014026722774139358


In [276]:
# Linear kick 2
learning_rate = 0.0001
iterations = 700
W_scale = 0.9
regressaoLinear(kick2[:,:2], kick2[:,2].reshape(m2,1), iterations, learning_rate, W_scale, 'kick2')

(20, 2)
Init W:  [[0.69452172 0.12697566 0.69095996]]


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

0.001573677613157175


In [288]:
# Polinomial kick1

learning_rate_pol = 0.001
iterations_pol = 30
W_scale_pol=0.03
regressaoPolinomial(kick1[:,:2], kick1[:,2].reshape(m1,1), iterations_pol, learning_rate_pol, W_scale_pol, 'kick1')

(20, 2)
Init W:  [[0.00732344 0.0051379  0.01036728 0.00413919]]


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

0.0005161980044131166


In [313]:
# Polinomial kick2

learning_rate_pol = 0.00008
iterations_pol = 400
W_scale_pol=0.825625
regressaoPolinomial(kick2[:,:2], kick2[:,2].reshape(m2,1), iterations_pol, learning_rate_pol, W_scale_pol)

(20, 2)
Init W:  [[0.38824936 0.17629787 0.55117521 0.19000193]]


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

0.00043682105248420556
