<a href="https://colab.research.google.com/github/jmbarrios/THC-Python/blob/main/20211028_perceptron2D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Bibliotecas

In [1]:
!pip install rich

Collecting rich
  Downloading rich-10.12.0-py3-none-any.whl (212 kB)
[K     |████████████████████████████████| 212 kB 5.1 MB/s 
[?25hCollecting commonmark<0.10.0,>=0.9.0
  Downloading commonmark-0.9.1-py2.py3-none-any.whl (51 kB)
[K     |████████████████████████████████| 51 kB 6.3 MB/s 
Collecting colorama<0.5.0,>=0.4.0
  Downloading colorama-0.4.4-py2.py3-none-any.whl (16 kB)
Installing collected packages: commonmark, colorama, rich
Successfully installed colorama-0.4.4 commonmark-0.9.1 rich-10.12.0


In [2]:
from rich import (print,
                  inspect)
import pickle

# Implementando el perceptron en 2D

## Importando los datos

In [3]:
from google.colab import drive
drive.mount('/gdrive')

Mounted at /gdrive


In [4]:
with open('/gdrive/My Drive/ColabData/penguin_data.pkl', 'rb') as f:
    my_data = pickle.load(f)

## Preparando los datos

In [5]:
print(my_data[:3])

In [6]:
# Solo elegir los pingüinos de las especies 'Gentoo' y 'Adelie'
data = [elemento for elemento in my_data 
        if elemento['species'] in ['Gentoo', 'Adelie']
        and elemento['bill_length_mm'] != None]
print(data)

In [7]:
# En clase primero hicimos la partición de los datos y después codifique los 
# valores de los pingüinos pero es mejor hacerlo antes de la partición.
for record in data:
    if record['species'] == 'Gentoo':
        record['label'] = -1
    elif record['species'] == 'Adelie':
        record['label'] = 1

print(data[:3])

In [8]:
import random

In [9]:
# Normalmente se toma un 80% de los datos para entrenar tu modelo y un 20% para probarlo
print(len(data)*.8)

In [10]:
# Voy a tomar 219 datos para entrenar y el restante para evaluar
train_data = random.sample(data, 219)
test_data = [d for d in data if d not in train_data]

In [11]:
print('# datos en train:', len(train_data))
print('# datos en test:', len(test_data))
print('-'*80)
print(train_data[:3])

In [12]:
train_dataset = {
    'data': [ [d['bill_length_mm'], d['bill_depth_mm']] for d in train_data],
    'labels': [ d['label'] for d in train_data ]
}

test_dataset = {
    'data': [ [ d['bill_length_mm'], d['bill_depth_mm'] ] for d in test_data],
    'labels': [ d['label'] for d in test_data ]
}

print(test_dataset)

## Algoritmo del perceptron

In [13]:
# Clase para revisar que un valor es un número
from numbers import Number

In [17]:
def dot(v1, v2):
    ''' calcula el producto punto

    Parameters
    ----------
    v1: List[Number]
        vector de dimensión d
    v2: List[Number]
        vector de dimensión d

    Returns
    -------
    Number
        regresa el producto punto entre los vectores v1 y v2

    Raises
    ------
    ValueError
        si los vectores no son de la misma longitud
    ValueError
        si los vectores no tienen todas sus entradas numéricas
    '''
    if len(v1) != len(v2):
        raise ValueError('Los vectores deben de ser de la misma longitud')
    if not all([isinstance(e1, Number) for e1 in v1]):
        raise ValueError('Las entradas del vector deben de ser numéricas', v1)
    if not all([isinstance(e2, Number) for e2 in v2]):
        raise ValueError('Las entradas del vector deben de ser numéricas', v2) 
    
    return sum([e1*e2 for e1, e2 in zip(v1, v2)])

In [18]:
print(dot([1, 2], [4, 6]))

In [19]:
print(dot([1, 2], [4, 6, 5]))

ValueError: ignored



---




In [23]:
def vec_sum(v1, v2):
    ''' suma vectorial

    Parameters
    ----------
    v1: List[Number]
        vector de dimensión d
    v2: List[Number]
        vector de dimensión d

    Returns
    -------
    List[Number]
        regresa la suma vectorial entre los vectores v1 y v2, la longitud de la 
        lista es igual a la longitud del vector v1

    Raises
    ------
    ValueError
        si los vectores no son de la misma longitud
    ValueError
        si los vectores no tienen todas sus entradas numéricas
    '''
    if len(v1) != len(v2):
        raise ValueError('Los vectores deben de ser de la misma longitud')
    if not all([isinstance(e1, Number) for e1 in v1]):
        raise ValueError('Las entradas del vector deben de ser numéricas', v1)
    if not all([isinstance(e2, Number) for e2 in v2]):
        raise ValueError('Las entradas del vector deben de ser numéricas', v2) 
    
    return [e1+e2 for e1, e2 in zip(v1, v2)]

In [22]:
print(vec_sum([1, 2], [4, 6]))

---

In [24]:
def scalar_mul(alfa, v):
    ''' multiplicación de escalar con vector

    Parameters
    ----------
    alpha: Number
        escalar
    v: List[Number]
        vector de dimensión d

    Returns
    -------
    List[Number]
        vector multiplicado por el escalar de la dimesión del vector v
    
    Raises
    ------
    ValueError
        si el valor de alfa no es numérico
    ValueError
        si el vector no tiene todas sus entradas numéricas
    '''
    if not isinstance(alfa, Number):
        raise ValueError('El valor de alfa debe de ser un número')
    if not all([isinstance(e, Number) for e in v]):
        raise ValueError('Las entradas del vector deben de ser numéricas', v)
    
    return [float(alfa)*e for e in v]

In [25]:
print(scalar_mul(3, [3, 4]))

---

In [26]:
def classify(data, weights, bias):
    ''' clasifica un dato usando la recta dada por weight y bias

    Parameters
    ----------
    data: List[Number]
        vector de dimensión d para ser clasificado
    weights: List[Number]
        vector de dimensión d de pesos para la recta
    bias: Number
        escalar de sesgo
    
    Returns
    -------
    int
        regresa el valor 1 para datos sobre la línea y -1 para los de abajo
    '''
    value = dot(weights, data) + bias
    if value >= 0:
        return 1
    elif value < 0:
        return -1

---

In [34]:
def train_perceptron(data, labels, max_iter=1000):
    ''' ejecuta el algoritmo del perceptron para los datos y sus etiquetas

    Parameters
    ----------
    data: List[List[Number]]
        datos de entrenamiento, lista de vetcores de dimensión 2
    labels: List[{-1, 1}]
        etiqueta de los datos, la entrada i corresponde a la etiqueta del dato i
    max_iter: int
        número máximo de iteraciones del algoritmo

    Returns
    -------
    Tuple(List[Number], Number)
        tupla con los valores para los pesos y el sesgo después del 
        entrenamiento

    Raises
    ------
    ValueError
        si el valor de max_iter no es entero positivo
    '''
    if not isinstance(max_iter, int) or max_iter <= 0:
        raise ValueError('max_iter debe ser entero positivo', max_iter)

    # Inicialiazacion
    gamma = random.random()
    weights = [ random.random() for _ in range(2) ]
    iter_ctn = 0
    pred_labels = [ classify(d, weights, gamma) for d in data ]
    missclassified = [
        [tl, data] for pl, tl, data in zip(pred_labels, labels, data)
            if pl != tl
    ]
    if len(missclassified) == 0:
        return (weights, gamma)
    
    # entrenamiento
    while len(missclassified) > 0:
        l_star, data_star = random.choice(missclassified)
        gamma = gamma + l_star
        weights = vec_sum(weights, scalar_mul(l_star, data_star))
        pred_labels = [ classify(d, weights, gamma) for d in data ]
        missclassified = [
            [tl, data] for pl, tl, data in zip(pred_labels, labels, data)
                if pl != tl
        ]

        iter_ctn = iter_ctn + 1
        if iter_ctn >= max_iter:
            break # esta palabra hace que salgas de cualquier ciclo
    
    return (weights, gamma)

---

In [29]:
w, b = train_perceptron(train_dataset['data'], train_dataset['labels'])

In [30]:
print(w)
print(b)

In [31]:
# Clasificación sobre el conjunto de entrenamiento
pred_labels = [ classify(d, w, b) for d in test_dataset['data'] ]

In [32]:
verificacion_clasificacion = [pl == tl for pl, tl in zip(pred_labels, test_dataset['labels'])]
print('Número de datos correctamente clasificados:', sum(verificacion_clasificacion))

In [33]:
for pl, tl in zip(pred_labels, test_dataset['labels']):
    print('Etiqueta predecida:', pl, 'Etiqueta correcta:', tl)
    print('Predicción correcta:', tl == pl)

# Cosas importantes sobre esta clase

- Se uso `while` para controlar el número de veces que se ejecutan un conjunto de instrucciones, esto hasta que cierta condición se cumpla. En este caso fue que todos los datos estuvieran corrrectamente clasificados.
- La palabra `break` para salir de un ciclo no importando si ya se acabó de el número de veces que se tenía que ejecutar un conjunto de instrucciones.
- Hay manera de hacer que una función tenga un parámetro por _default_, como 
pasa con el parámetro `max_iter` en la función `train_perceptron`.

Además en el extra de clase, pueden ver una buena práctica al escribir funciones que es documentar qué hacen, qué parámetros reciben y qué valores regresan.