<img src="unicamp.png" width="150" height="150">

## MO444/MC886 - Aprendizado de Máquina e Reconhecimento de Padrões

Esse trabalho foi feito pelos seguintes membros:

- Lucas Zanco Ladeira - 188951
- Rafael Scherer - 204990 

O código original deste projeto está disponível no [repositório do Github](https://github.com/lucaslzl/mo444_p2_supervised). 

## Modelos Supervisionados

## Part I - Tarefa de Regressão

<b>Declaração do problema</b> <br>"Considere que você é um goleiro em uma partida de futebol robótico na RoboCup Teen Size League. Seu oponente vai chutar uma bola contra você. Seu objetivo é prever a posição da bola para interceptá-la, ou seja, defender seu gol!"

### Descrição dos Dados

Para este projeto foram utilizadas 2 bases de dados, sendo: <i>kick1.dat</i> e <i>kick2.dat</i>. Os dados compreendem a posição (x, y, z) da bola a cada 1/3 frames com uma frequência de 60 frames por segundo de um mesmo chute. A variável <i>x</i> compreende a posição da bola em relação a extensão do gol. A variável <i>y<i/> compreende a distância da bola até o gol. A variável <i>z</i> compreende a distância da bola em relação ao solo. Os valores das variáveis se estendem sendo <i>x = -3 até +3</i>, <i>y = 0 até 2,1</i>, <i>z = 0 até 0,3</i>. Para facilitar a busca pela posição final da bola (y = 0) o valor de y é "negativado". Sendo assim, ele cresce de um valor negativo até 0. É importante descrever os dados, de forma que seja possível observar a variação em cada base de dados.

In [1]:
import pandas as pd

df = pd.read_csv('./datasets/kick1.dat', sep=' ')

df.describe()

Unnamed: 0,x,y,z
count,20.0,20.0,20.0
mean,-0.7277,1.57665,0.1196
std,0.294473,0.295319,0.014605
min,-1.192,1.109,0.103
25%,-0.974,1.32875,0.1095
50%,-0.7425,1.5895,0.114
75%,-0.519,1.8155,0.12825
max,-0.21,2.048,0.149


In [2]:
df = pd.read_csv('./datasets/kick2.dat', sep=' ')

df.describe()

Unnamed: 0,x,y,z
count,20.0,20.0,20.0
mean,-0.3632,1.57665,0.2378
std,0.146036,0.295319,0.047159
min,-0.596,1.109,0.145
25%,-0.4915,1.32875,0.20775
50%,-0.361,1.5895,0.247
75%,-0.257,1.8155,0.28025
max,-0.105,2.048,0.296


Podemos ver que ambos os chutes começam na esquerda do goleiro, pois tem valor mínimo negativo. Além disso, para a primeira base de dados a altura máxima atingida até o momento com distância <i>y</i> de 1,1 do gol é de metade da altura máxima (1,5). Na segunda base de dados, a altura atingida é de quase máxima (2,9) até a distância de 1,1 do gol.

### Metodologia

Os experimentos foram executados com 1000 iterações. A configuração dos experimentos varia de acordo com o dataset utilizado, o valor de <i>alpha</i>, e o grau da função de otimização. Sendo assim, os valores utilizados em ordem compreendem:

- Dataset
    - kick1.dat
    - kick2.dat
    
- Alpha ($\alpha$)
    - 0,01
    - 0,05
    - 0,001
    
- Grau da função
    - Linear
    - Polinomial
    
- Cálculo do erro:
    - Mean Squared Error (MSE)
    
São executadas todas as possíveis combinações as quais geram um grande número de resultados distintos, portanto, serão apenas descritos resultados selecionados de forma para apresentar o funcionamento do que foi implementado.

A função linear se refere a: $$y = \theta_0 \cdot x_0 + \theta_1 \cdot x_1 + \theta_2$$

Já a função polinomial se refere a: $$y = \theta_0 \cdot x^2_0 + \theta_1 \cdot x^2_1 + \theta_2$$ 

É necessário mencionar que o algoritmo foi implementado de forma a aceitar uma lista de valores $x$, os quais geram $\theta$s aleatórios, e buscam esses $x$s na base de dados de entrada. 

Considerando as variáveis $x$, $y$ e $z$ como descritas no enunciado do trabalho, para o cálculo do valor de $x$ foi utilizada, em ambas as funções, apenas o $y$. O mesmo vale para o $z$. Sendo assim, apenas é considerado o $y$ para calcular $x$ e $z$ separadamente.

### Código Fonte

O código fonte de ambas as implementações (Linear e Polinomial) tem o mesmo conjunto de métodos, sendo eles:

- function<br>
Faz o cálculo da função desejada.
<br>
- mse<br>
Faz o cálculo do MSE considerando a multiplicação pela variável ao lado de $\theta$ caso exista.
<br>

- update_theta<br>
Faz a chamada para o cálculo do MSE e atualiza o $\theta$ de acordo com o $\alpha$.
<br>

- fit<br>
Chama a atualização dos $\theta$s uma quantidade fixa de vezes.
<br>

- get_thetas<br>
Retorna os valores de $\theta$s ao chamar.
<br>

- predict<br>
Calcula o resultado da função.
<br>

- get_mse<br>
Retorna todos os valores obtidos durante o cálculo do MSE para cada $\theta$.

#### LinearGradient

In [None]:
class LinearGradient:
    """
        Linear Gradient Descent
        y = theta_0*1 + theta_1*x_1 + theta_2*x_2
    """


    def __init__(self, data: pd.DataFrame, x: list, y: str, alpha=0.01):
        
        self.data = data
        self.x = x
        self.y = y
        self.alpha = alpha
        np.random.seed(42)
        self.thetas = np.random.rand(len(x)+1)

        # Add theta_0 column
        self.data['joker'] = [1] * self.data.shape[0]
        self.x.append('joker')

        self.calculated_mse = []


    def function(self, row):
        
        ys = [row[c]*self.thetas[i] for i, c in enumerate(self.x)]
        ys = np.sum(ys)
        return (ys - row[self.y])


    def mse(self, i):
        
        summ = 0

        for indx, row in self.data.iterrows():
            summ += self.function(row) * row[self.x[i]]

        result = summ / self.data.shape[0]

        self.calculated_mse.append(result)

        return result


    def update_theta(self):
        
        tmp_thetas = []

        for i, theta in enumerate(self.thetas):

            tmp_theta = theta - self.alpha * self.mse(i)
            tmp_thetas.append(tmp_theta)

        self.thetas = tmp_thetas


    def fit(self, data):

        for steps in tqdm(range(1000)):
            self.update_theta()


    def get_thetas(self):
        return self.thetas

    
    def predict(self, values: list):

        values.append(1)

        res = 0
        for i, theta in enumerate(self.thetas):
            res += theta * values[i]

        return res
    
    
    def get_mse(self):
        return self.calculated_mse

#### PolynomialGradient

In [None]:
class PolynomialGradient:
    """
        Polinomial Gradient Descent
        y = theta_0*1 + theta_1*(x_1**2) + theta_2*(x_1)
    """


    def __init__(self, data: pd.DataFrame, x: list, y: str, alpha=0.01):
        
        self.data = data
        self.x = x
        self.y = y
        self.alpha = alpha
        self.thetas = np.random.rand(len(x)+1)

        # Add theta_0 column
        self.data['joker'] = [1] * self.data.shape[0]
        self.x.append('joker')

        self.calculated_mse = []


    def function(self, row):
        
        ys = [self.thetas[i]*(row[c]**2) for i, c in enumerate(self.x)]
        ys = np.sum(ys)
        return (ys - row[self.y])


    def mse(self, i):
        
        summ = 0

        for indx, row in self.data.iterrows():
            summ += self.function(row) * row[self.x[i]]**2

        result = summ / self.data.shape[0]

        self.calculated_mse.append(result)

        return result


    def update_theta(self):
        
        tmp_thetas = []

        for i, theta in enumerate(self.thetas):

            tmp_theta = theta - self.alpha * self.mse(i)
            tmp_thetas.append(tmp_theta)

        self.thetas = tmp_thetas


    def fit(self, data):

        for steps in tqdm(range(1000)):
            self.update_theta()


    def get_thetas(self):
        return self.thetas


    def predict(self, values: list):

        values.append(1)

        res = 0
        for i, theta in enumerate(self.thetas):
            res += theta * (values[i]**2)

        return res

    
    def get_mse(self):
        return self.calculated_mse

### Resultados

Os resultados compreendem comparações entre as funções obtidas e os dados de entrada. Como também, comparações entre os diferentes parâmetros iniciais e o MSE obtido.

<b>Modelos Obtidos</b>

Nas figuras a seguir é possível observar as seguintes características: os dados de cada base de dados, representados por círculos; a reta ou parábola gerada pelas funções linear e polinomial respectivamente; um desenho do campo igual ao encontrado no enunciado do trabalho; a trave; e por fim, um retângulo azul claro que representa a área que o goleiro consegue defender. Para a última foi considerado um alcance em $x$ de 1 metro para cada lado. <b>As funções apresentadas nesta seção utilizam as variáveis do enunciado para facilitar o entendimento</b>.

Primeiramente serão apresentados os resultados da base de dados kick1, com função linear, para todos os valores de $\alpha$. Os valores resultantes aproximados para cada $\theta$ compreendem:

- $\alpha = 0.01$
    - $ z = y \cdot 0.374 + 0.724$
    - $ x = y \cdot 0.457 + 0.047$

- $\alpha = 0.05$
    - $ z = y \cdot 0.141 + 0.347$
    - $ x = y \cdot -0.423 - 1.373$
    
- $\alpha = 0.001$
    - $ z = y \cdot 0.461 + 0.871$
    - $ x = y \cdot 0.782 + 0.603$
    
Podemos observar que para os valores de $\alpha$ iguais a 0,01 e 0,001, a trajetória da bola passa por cima do trave e do goleiro. Já para $\alpha$ igual a 0,05 quase foi gol, sendo fora do alcance do goleiro mas ainda acima da altura da trave. Além disso, a reta descreve o comportamento dos dados para os eixos $x$ e $y$. Vemos uma diferença mais clara nos valores preditos de $z$ pela variação da altitude observada nos dados de entrada.

<table><tr><td><img src='plots/kick1.dat_LinearGradient_0.01.png'></td><td><img src='plots/kick1.dat_LinearGradient_0.05.png'></td><td><img src='plots/kick1.dat_LinearGradient_0.001.png'></td></tr></table>

Agora serão apresentados os resultados da base de dados kick1, com função polinomial, para todos os valores de $\alpha$. Os valores resultantes aproximados para cada $\theta$ compreendem:

- $\alpha = 0.01$
    - $ z = y \cdot -0.023 + 0.187$
    - $ x = y \cdot 0.112 - 0.959$

- $\alpha = 0.05$
    - $ z = y \cdot 0.002 + 0.112$
    - $ x = y \cdot 0.309 - 1.522$
    
- $\alpha = 0.001$
    - $ z = y \cdot -0.062 + 0.298$
    - $ x = y \cdot -0.179 - 0.126$
    
Podemos observar que para os valores de $\alpha$ iguais a 0,01 e 0,001 o goleiro conseguiu defender, sendo que, a bola iria entrar no gol. Já para $\alpha$ igual a 0,05 foi gol, passando fora do alcance do goleiro.

<table><tr><td><img src='plots/kick1.dat_PolinomialGradient_0.01.png'></td><td><img src='plots/kick1.dat_PolinomialGradient_0.05.png'></td><td><img src='plots/kick1.dat_PolinomialGradient_0.001.png'></td></tr></table>

Serão apresentados os resultados da base de dados kick2, com função linear, para todos os valores de $\alpha$. Os valores resultantes aproximados para cada $\theta$ compreendem:

- $\alpha = 0.01$
    - $ z = y \cdot 0.367 + 0.825$
    - $ x = y \cdot 0.438 + 0.363$

- $\alpha = 0.05$
    - $ z = y \cdot0.234 + 0.61$
    - $ x = y \cdot -0.126 - 0.548$
    
- $\alpha = 0.001$
    - $ z = y \cdot 0.417 + 0.909$
    - $ x = y \cdot 0.647 + 0.72$
    
Podemos observar que para todos os valores de $\alpha$ a trajetória da bola passa por cima do trave e do goleiro.

<table><tr><td><img src='plots/kick2.dat_LinearGradient_0.01.png'></td><td><img src='plots/kick2.dat_LinearGradient_0.05.png'></td><td><img src='plots/kick2.dat_LinearGradient_0.001.png'></td></tr></table>

Serão apresentados os resultados da base de dados kick2, com função polinomial, para todos os valores de $\alpha$. Os valores resultantes aproximados para cada $\theta$ compreendem:

- $\alpha = 0.01$
    - $ z = y \cdot -0.043 + 0.348$
    - $ x = y \cdot 0.049 - 0.46$

- $\alpha = 0.05$
    - $ z = y \cdot -0.047 + 0.36$
    - $ x = y \cdot 0.153 - 0.756$
    
- $\alpha = 0.001$
    - $ z = y \cdot -0.037 + 0.332$
    - $ x = y \cdot -0.103 - 0.022$
    
Podemos observar que para todos os valores de $\alpha$ o goleiro conseguiu defender a bola, mesmo que, a trajetória predita iria para fora do gol.

<table><tr><td><img src='plots/kick2.dat_PolinomialGradient_0.01.png'></td><td><img src='plots/kick2.dat_PolinomialGradient_0.05.png'></td><td><img src='plots/kick2.dat_PolinomialGradient_0.001.png'></td></tr></table>

<b>Variação dos valores de $\alpha$</b>

A figura a seguir apresenta os resultados obtidos pelo cálculo de MSE para a primeira base de dados com o método gradiente descendente para a variável $x$ do enunciado. Como os resultados são bem próximos para ambas as bases, como também, para a variável $z$ do enunciado, não serão descritos no relatório. No entanto, é possível verificar na pasta "plots" esses resultados. Como no eixo x estão apresentados todos os valores de $\theta$, então com 2 $\theta$s na equação e com 1000 iterações temos 2000 valores de MSE.

<table><tr><td><img src='plots/mses_kick1.dat_LinearGradient.png'></td><td><img src='plots/mses_kick1.dat_PolinomialGradient.png'></td></tr></table>

Na figura da função linear, podemos observar que para $\alpha = 0,01$ o modelo demora várias iterações para chegar a um valor próximo de 0. Aproximadamente este valor de $\alpha$ leva 800 iterações para chegar no valor mínimo de erro. Já para $\alpha = 0,05$ foi possível chegar ao valor mínimo com cerca de 250 iterações. Por fim, com $\alpha = 0,001$ foi possível chegar ao valor mínimo de erro com cerca de 100 iterações. O mesmo comportamento pode ser observado para a função polinomial, sendo que, ambas as funções utilizam o valor da variável, ao quadrado ou não, multiplicado por $\theta_0$ e somado com um $\theta_1$.

<b>Considerações Finais</b>

## Part II - Classification Task

<b>Problem statement</b><br>
"You should solve a classification task using supervised learning methods. For this task, you can use libraries that implement the methods you want to use. For this task, we will employ the Pen-Based Recognition of Handwritten Digits Data Set. It is a simple and well-known image bank for image recognition. It consists of 8-by-8-pixel gray-scale images divided into 10 classes of digits."

## Contribuições
<br>
O membro do grupo <b>Lucas Zanco Ladeira</b> contribuiu com toda a implementação, validação e escrita da parte I deste trabalho.

O membro do grupo <b>Rafael Scherer</b> contribuiu com toda a implementação, validação e escrita da parte II deste trabalho.