In [None]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Algoritmo del perceptrón

Para este ejercicio crearemos un modelo que determine si una moneda es de \$1 o de \$5 utilizando su peso y su tamaño. Los datos se encuentran en `coins.csv`

In [None]:
dataset = pd.read_csv('../data/coins.csv')
dataset.head(5)

In [None]:
fig = plt.figure(figsize=(8,8))
ax = fig.add_subplot(111)
ax = dataset[dataset.type == '$1'].plot.scatter('size', 'weight', c='blue', ax=ax)
dataset[dataset.type == '$5'].plot.scatter('size', 'weight', c='red', ax=ax)
ax.legend(['$1', '$5'])
ax.set_title('Medidas de tamaño y peso de diferentes monedas.');

# El conjunto de hipotesis para el perceptrón
$$ h(\mathbf{x}) =  \mathrm{sign}(\mathbf{w}^\intercal\mathbf{x}_n) $$

Escriba una función que represente el conjunto de hipotesis para el perceptrón. Es decir, dado $\mathrm(w)$ y un $\mathrm{umbral}$ determine si es una moneda de \$1 o de \$5

In [None]:
w = np.random.rand(3)
w

In [None]:
def model(row, w):
    return '$1' if row.values.dot(w) > 0 else '$5'

In [None]:
train_data = dataset[['size', 'weight']]
train_data['x0'] = 1

def guess(w):
    dataset['guess'] = train_data.apply(lambda row: model(row,w), axis=1)
    return dataset

In [None]:
guess(w).head(5)

## El algoritmo de aprendizaje del perceptrón
1. Escoger un punto __mal clasificado__:
$$ h(\mathbf{x}) \neq y_n$$
2. Actualizar el vector de pesos:
$$\mathbf{w} = \mathbf{w} + y_n\mathbf{x}_n $$

In [None]:
w = np.random.rand(3)

In [None]:
def get_missclasified(dataset):
    missclasified = dataset[dataset.type != dataset.guess]
    if len(missclasified) > 0:
        return len(missclasified), missclasified.iloc[0]
    return 0, None

errors = []
while True:
    dataset = guess(w)
    n_miss, miss = get_missclasified(dataset)
    errors.append(n_miss/len(dataset))
    if miss is None:
        break
    update = (1 if miss.type == '$1' else -1) * \
              np.array([miss['size'], miss.weight, 1])
    w = w + update

## Grafique como varia el error en la muestra durante el entrenamiento

In [None]:
print(w)
#guess(w)

In [None]:
pd.Series(errors).plot()

## Dibuje la linea que divide la clasificación
$$\mathbf{w}^\intercal\mathbf{x}_n = 0$$

In [None]:
fig = plt.figure(figsize=(8,8))
ax = fig.add_subplot(111)
ax = dataset[dataset.type == '$1'].plot.scatter('size', 'weight', c='blue', ax=ax)
dataset[dataset.type == '$5'].plot.scatter('size', 'weight', c='red', ax=ax)
ax.legend(['$1', '$5'])
ax.set_title('Medidas de tamaño y peso de diferentes monedas.');

#ax.plot([0, -w[2]/w[1]], [-w[2]/w[0], 0], 'k-')

ax.plot([1, -w[2]/w[1] - w[0]/w[1]], [-w[2]/w[0] - w[1]/w[0], 1])