<a href="https://colab.research.google.com/github/carbotton/taller-deep-learning/blob/main/02/Clase02_Perceptron_letra.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Mi primera red neuronal 🚀

En esta notebook, vamos a explorar la implementación de una red neuronal simple conocida como perceptrón. Un perceptrón es una unidad básica de una red neuronal que puede utilizarse para resolver problemas de clasificación binaria, como las funciones lógicas.

## Objetivos de Aprendizaje

Al final de esta notebook, serás capaz de:

1. Implementar un perceptrón simple en con las funciones lógicas (AND, OR, XOR) vistas en clase de dos formas diferentes:
    - Utilizando multiplicación de matrices ($sgn\left( X \, W \right)$).
    - Utilizando el sesgo ($sgn\left( X \, W + b \right)$).
2. [Opcional] Implementar el resto de las funciones lógicas (NAND, NOR, XNOR) utilizando perceptrones.
3. Implementar una Perceptrón Multicapa (MLP) para resolver el problema XOR.
4. [Opcional] Implementar un MLP para resolver las todas las funciones lógicas al mismo tiempo (AND, OR, XOR).


## Implementación de un Perceptrón

Un perceptrón es una unidad básica de una red neuronal que puede utilizarse para resolver problemas de clasificación binaria.

$$
\mathcal{P}(x; w) = sgn(x\, w) = sgn\left( \sum_i x_i w_i \right)
\quad x, w \in \mathbb{R}^m
$$
con
$$
 sgn(u) =
  \begin{cases}
   +1 & \text{if } u \geq 0 \\
   -1 & \text{if } u < 0
  \end{cases}
$$

En forma vectorial

$$\mathcal{P}(X; W) = sgn\left( X \, W \right) \quad X \in \mathbb{R}^{(n,m)}, \, W \in \mathbb{R}^{(m,1)}$$


### AND

La función lógica AND es una función que toma dos entradas binarias y devuelve 1 si ambas entradas son 1, y 0 en cualquier otro caso.

| $x_1$ | $x_2$ | $y$ |
|-------|-------|-----|
| 0     | 0     | 0   |
| 0     | 1     | 0   |
| 1     | 0     | 0   |
| 1     | 1     | 1   |


#### Implementación con multiplicación de matrices

$$
X = \begin{pmatrix}
  0 & 0 & 1 \\
  0 & 1 & 1 \\
  1 & 0 & 1 \\
  1 & 1 & 1 \\
 \end{pmatrix}
\qquad
\textbf{AND}\left( X \right) =
 \begin{pmatrix}
  -1 \\
  -1 \\
  -1 \\
  1  \\
 \end{pmatrix}
\qquad
n = 4
$$

> Notar que los valores esperados son -1 y 1 en lugar de 0 y 1.

$$
\textbf{AND}\left(X \right) = sgn\left( X \,   
    \begin{pmatrix}
      .5 \\
      .5 \\
      -1 \\
    \end{pmatrix} \right)
    \quad
    m = 3
$$

In [1]:
# Vamos a trabajar con PyTorch (tensores) para las operaciones matriciales
import torch

Definimos la función `sgn` que aplica la función signo a un número.

> Nota: pytorch tiene una función `torch.sign` pero difiere cuando la entrada es 0. En este caso, `torch.sign` devuelve 0 y `sgn` devuelve 1.
Más información en: https://pytorch.org/docs/stable/generated/torch.sign.html


In [2]:
def sgn(x):
    return torch.where(x >= 0, 1.0, -1.0)

Definimos `X` y `W` como tensores de pytorch, es importante definir el tipo de dato como `torch.float32` para que las operaciones matriciales se realicen correctamente.

In [3]:
X = torch.tensor([[0, 0, 1], [0, 1, 1], [1, 0, 1], [1, 1, 1]], dtype=torch.float32)

# TODO
W_and = torch.tensor([[.5], [.5], [-1]])  # con el . ya inferi que es un float32 a diferencia del de arriba

torch.matmul(X, W_and)

tensor([[-1.0000],
        [-0.5000],
        [-0.5000],
        [ 0.0000]])

Por último, calculamos el resultado de la función AND.

In [4]:
def AND(Input):
    # TODO
    return  sgn(torch.matmul(Input, W_and))

print(f"{AND(X) = }")

AND(X) = tensor([[-1.],
        [-1.],
        [-1.],
        [ 1.]])


Vemos que el resultado es el esperado.

$$
\textbf{AND}\left( X \right) =
 \begin{pmatrix}
  -1 \\
  -1 \\
  -1 \\
  1  \\
 \end{pmatrix}
\qquad
$$

In [5]:
res = AND(torch.tensor([1, 0, 1], dtype=torch.float32))
print(f"{res = }")

res = tensor([-1.])


#### Implementación con sesgo (X W + b)

Ahora vamos a implementar la función AND utilizando un sesgo, es decir agregando un término adicional a la multiplicación de matrices.

Por lo cual nuestro X ahora es de la forma:

$$
X = \begin{pmatrix}
  0 & 0 \\
  0 & 1 \\
  1 & 0 \\
  1 & 1 \\
 \end{pmatrix}
$$

Y nuestro W y b son:

$$
W = \begin{pmatrix}
  .5 \\
  .5 \\
  \end{pmatrix}
\qquad
b = -1
$$

In [6]:
X = torch.tensor([[0, 0], [0, 1], [1, 0], [1, 1]], dtype=torch.float32)

# TODO
W_and = torch.tensor([[.5], [.5]])
b = -1

In [7]:
def AND(Input):
    # TODO
    return sgn(torch.matmul(Input, W_and) + b)

print(f"{AND(X) = }")

AND(X) = tensor([[-1.],
        [-1.],
        [-1.],
        [ 1.]])


Notar `b` hace brodcasting, ya que es un escalar y `X` es una matriz.

Más información en:
- https://numpy.org/doc/stable/user/basics.broadcasting.html
- https://pytorch.org/docs/stable/notes/broadcasting.html

In [8]:
AND(X)

tensor([[-1.],
        [-1.],
        [-1.],
        [ 1.]])

### OR

La función lógica OR es una función que toma dos entradas binarias y devuelve 1 si al menos una de las entradas es 1, y 0 en cualquier otro caso.

| $x_1$ | $x_2$ | $y$ |
|-------|-------|-----|
| 0     | 0     | 0   |
| 0     | 1     | 1   |
| 1     | 0     | 1   |
| 1     | 1     | 1   |


#### Implementación con multiplicación de matrices

$$
X = \begin{pmatrix}
  0 & 0 & 1 \\
  0 & 1 & 1 \\
  1 & 0 & 1 \\
  1 & 1 & 1 \\
 \end{pmatrix}
\qquad
\textbf{OR}\left( X \right) =
 \begin{pmatrix}
  -1 \\
  1 \\
  1 \\
  1  \\
 \end{pmatrix}
\qquad
n = 4
$$


$$
\textbf{OR}\left(X \right) = sgn\left( X \,   
    \begin{pmatrix}
      ? \\
      ? \\
      ? \\
    \end{pmatrix} \right)
    \quad
    m = 3
$$

In [9]:
X = torch.tensor([[0, 0, 1], [0, 1, 1], [1, 0, 1], [1, 1, 1]], dtype=torch.float32)

# TODO
W_nor = torch.tensor([[1], [1], [-1]], dtype=torch.float32)

def OR(Input):
    # TODO
    return sgn(torch.matmul(Input, W_nor))


print(f"{OR(X) = }")

OR(X) = tensor([[-1.],
        [ 1.],
        [ 1.],
        [ 1.]])


#### Implementación con sesgo (X W + b)

$$
X = \begin{pmatrix}
  0 & 0 \\
  0 & 1 \\
  1 & 0 \\
  1 & 1 \\
 \end{pmatrix}
$$

Y nuestro W y b son:

$$
W = \begin{pmatrix}
  ? \\
  ? \\
  \end{pmatrix}
\qquad
b = ?
$$

In [10]:
# TODO...
X = torch.tensor([[0, 0], [0, 1], [1, 0], [1, 1]], dtype=torch.float32)
W_or = torch.tensor([[1], [1]], dtype=torch.float32)
b = torch.tensor(-1)

def OR(Input):
    # TODO
    return sgn(torch.matmul(Input, W_or) + b)


print(f"{OR(X) = }")

OR(X) = tensor([[-1.],
        [ 1.],
        [ 1.],
        [ 1.]])


### XOR

La función lógica XOR es una función que toma dos entradas binarias y devuelve 1 si las entradas son diferentes, y 0 si son iguales.

| $x_1$ | $x_2$ | $y$ |
|-------|-------|-----|
| 0     | 0     | 0   |
| 0     | 1     | 1   |
| 1     | 0     | 1   |
| 1     | 1     | 0   |

#### Implementación con multiplicación de matrices

$$
X = \begin{pmatrix}
  0 & 0 & 1 \\
  0 & 1 & 1 \\
  1 & 0 & 1 \\
  1 & 1 & 1 \\
 \end{pmatrix}
\qquad
\textbf{XOR}\left( X \right) =
 \begin{pmatrix}
  -1 \\
  1 \\
  1 \\
  -1  \\
 \end{pmatrix}
\qquad
n = 4
$$

$$
\textbf{XOR}\left(X \right) = sgn\left( X \,   
    \begin{pmatrix}
      ? \\
      ? \\
      ? \\
    \end{pmatrix} \right)
    \quad
    m = 3
$$

In [11]:
# TODO...
X = torch.tensor([[0, 0, 1], [0, 1, 1], [1, 0, 1], [1, 1, 1]], dtype=torch.float32)
W_xor = torch.tensor([[-1], [1], [-1]], dtype=torch.float32)

def XOR(Input):
    # TODO
    return sgn(torch.matmul(Input, W_xor))


print(f"{XOR(X) = }")

#### NO SE PUEDE c:

XOR(X) = tensor([[-1.],
        [ 1.],
        [-1.],
        [-1.]])


### [Opcional] Implementar el resto de las funciones lógicas (NAND, NOR, XNOR) utilizando perceptrones.

#### NAND

| $x_1$ | $x_2$ | $y$ |
|-------|-------|-----|
| 0     | 0     | 1   |
| 0     | 1     | 1   |
| 1     | 0     | 1   |
| 1     | 1     | 0   |


In [12]:
# TODO...
X = torch.tensor([[0, 0, 1], [0, 1, 1], [1, 0, 1], [1, 1, 1]], dtype=torch.float32)
W_NAND = torch.tensor([[-1], [-1], [1]], dtype=torch.float32)
#result (1, 1, 1, 0)

def NAND(Input):
    # TODO
    return sgn(torch.matmul(Input, W_NAND))


print(f"{NAND(X) = }")

# esta bien, para nosotros el -1 es el 0


NAND(X) = tensor([[ 1.],
        [ 1.],
        [ 1.],
        [-1.]])


#### NOR

| $x_1$ | $x_2$ | $y$ |
|-------|-------|-----|
| 0     | 0     | 1   |
| 0     | 1     | 0   |
| 1     | 0     | 0   |
| 1     | 1     | 0   |

In [13]:
# TODO...

X = torch.tensor([[0, 0, 1], [0, 1, 1], [1, 0, 1], [1, 1, 1]], dtype=torch.float32)
W_NOR = torch.tensor([[-1], [-1], [0]], dtype=torch.float32)
#result (1, 0, 0, 0) ~ (1, -1, -1, -1)

def NOR(Input):
    # TODO
    return sgn(torch.matmul(Input, W_NOR))


print(f"{NOR(X) = }")


NOR(X) = tensor([[ 1.],
        [-1.],
        [-1.],
        [-1.]])


#### NXOR

| $x_1$ | $x_2$ | $y$ |
|-------|-------|-----|
| 0     | 0     | 1   |
| 0     | 1     | 0   |
| 1     | 0     | 0   |
| 1     | 1     | 1   |


In [14]:
# TODO...

X = torch.tensor([[0, 0, 1], [0, 1, 1], [1, 0, 1], [1, 1, 1]], dtype=torch.float32)
W_NXOR = torch.tensor([[-1], [-2], [0]], dtype=torch.float32)
#result (1, 0, 0, 1) ~ (1, -1, -1, 1)

def NXOR(Input):
    # TODO
    return sgn(torch.matmul(Input, W_NXOR))


print(f"{NXOR(X) = }")

NXOR(X) = tensor([[ 1.],
        [-1.],
        [-1.],
        [-1.]])


## XOR con Perceptrón Multicapa (MLP)

Para resolver el problema XOR, necesitamos una red neuronal más compleja, como una Perceptrón Multicapa (MLP).

In [15]:
import torch.nn as nn
import torch.optim as optim

# De la tabla de verdad
# Entradas
X = torch.tensor([[0, 0], [0, 1], [1, 0], [1, 1]], dtype=torch.float32)
# Salidas esperadas
y = torch.tensor([[0], [1], [1], [0]], dtype=torch.float32)

In [16]:
# Definimos el modelo

class XORNet(nn.Module):
    def __init__(self):
        super(XORNet, self).__init__()
        self.input = nn.Linear(2, 2) # 2 neuronas
        self.output = nn.Linear(2, 1) # tomo las 2 anteriores y saco 1 resultado

    def forward(self, x):
        # funcion de activacion para desdibujar linealidad
        x = torch.sigmoid(self.input(x))
        x = torch.sigmoid(self.output(x))
        return x

# Aternativa pipeline ; equivalente a lo que hicimos en forward()
xor_seq = torch.nn.Sequential(
    nn.Linear(2, 2),
    nn.Sigmoid(),
    nn.Linear(2, 1),
    nn.Sigmoid()
)

In [17]:
# Instanciamos
model = XORNet()  # o en la alternativa: model = xor_seq
criterion = nn.BCELoss()  # Binary Cross Entropy
optimizer = optim.SGD(model.parameters(), lr=0.5) # actualiza los pesos

In [18]:
# training loop
epochs = 10_000

for epoch in range(epochs):
    model.train()  # training mode

    output = model(X) # aplica lo que definimos en el forward
    loss = criterion(output, y)

    optimizer.zero_grad()  # reseteamos los gradientes
    loss.backward()
    optimizer.step()

    if (epoch + 1) % 1_000 == 0:
        print(f"Epoch [{(epoch + 1)}/epochs], Loss: {loss.item():.4f}")

Epoch [1000/epochs], Loss: 0.6927
Epoch [2000/epochs], Loss: 0.1890
Epoch [3000/epochs], Loss: 0.0190
Epoch [4000/epochs], Loss: 0.0096
Epoch [5000/epochs], Loss: 0.0064
Epoch [6000/epochs], Loss: 0.0048
Epoch [7000/epochs], Loss: 0.0038
Epoch [8000/epochs], Loss: 0.0032
Epoch [9000/epochs], Loss: 0.0027
Epoch [10000/epochs], Loss: 0.0024


In [19]:
# evaluando el modelo
model.eval()

with torch.no_grad():
    output = model(X)
    print(output) # tiene que dar cerca de (0, 1, 1, 0) (xor)
    output = torch.where(output < 0.5, 0, 1)
    print(output)

tensor([[0.0028],
        [0.9979],
        [0.9979],
        [0.0024]])
tensor([[0],
        [1],
        [1],
        [0]])


## [Opcional] Implementar una MLP para resolver todas las funciones lógicas al mismo tiempo (AND, OR y XOR).


| $x_1$ | $x_2$ | $y_{AND}$ | $y_{OR}$ | $y_{XOR}$ |
|-------|-------|-----------|----------|-----------|
| 0     | 0     | 0         | 0        | 0         |
| 0     | 1     | 0         | 1        | 1         |
| 1     | 0     | 0         | 1        | 1         |
| 1     | 1     | 1         | 1        | 0         |


In [20]:
# Entradas
X = torch.tensor([[0, 0], [0, 1], [1, 0], [1, 1]], dtype=torch.float32)
# Salidas esperadas
y = torch.tensor([[0, 0, 0], [0, 1, 1], [0, 1, 1], [1, 1, 0]], dtype=torch.float32)

# TODO...

# Definimos el modelo
and_or_xor_seq = torch.nn.Sequential(
    nn.Linear(2, 2),
    nn.Sigmoid(),
    nn.Linear(2, 3),
    nn.Sigmoid()
)

In [21]:
# Instanciamos
model = and_or_xor_seq
criterion = nn.BCELoss()  # Binary Cross Entropy
optimizer = optim.SGD(model.parameters(), lr=1) # actualiza los pesos

In [22]:
# training loop
epochs = 10_000

for epoch in range(epochs):
    model.train()  # training mode

    output = model(X) # aplica lo que definimos en el forward
    loss = criterion(output, y)

    optimizer.zero_grad()  # reseteamos los gradientes
    loss.backward()
    optimizer.step()

    if (epoch + 1) % 1_000 == 0:
        print(f"Epoch [{(epoch + 1)}/epochs], Loss: {loss.item():.4f}")

Epoch [1000/epochs], Loss: 0.0715
Epoch [2000/epochs], Loss: 0.0210
Epoch [3000/epochs], Loss: 0.0119
Epoch [4000/epochs], Loss: 0.0083
Epoch [5000/epochs], Loss: 0.0063
Epoch [6000/epochs], Loss: 0.0051
Epoch [7000/epochs], Loss: 0.0043
Epoch [8000/epochs], Loss: 0.0037
Epoch [9000/epochs], Loss: 0.0032
Epoch [10000/epochs], Loss: 0.0029


In [23]:
# evaluando el modelo
model.eval()

with torch.no_grad():
    output = model(X)
    print(output) # tiene que dar cerca de (0, 1, 1, 0) (xor)
    output = torch.where(output < 0.5, 0, 1)
    print(output)

tensor([[5.0181e-06, 3.1031e-03, 6.6862e-03],
        [1.2291e-03, 9.9872e-01, 9.9512e-01],
        [1.2291e-03, 9.9872e-01, 9.9512e-01],
        [9.9698e-01, 1.0000e+00, 6.9469e-03]])
tensor([[0, 0, 0],
        [0, 1, 1],
        [0, 1, 1],
        [1, 1, 0]])
