# Perceptrón: Introducción y Fundamentos

El **perceptrón** es uno de los modelos más sencillos y fundamentales en el campo del aprendizaje automático y redes neuronales artificiales. Fue propuesto por **Frank Rosenblatt en 1958**, inspirado en el modelo de neuronas de **McCulloch y Pitts** (1943), quienes intentaron modelar computacionalmente el comportamiento de las neuronas biológicas.



## ¿Qué es el perceptrón?

Es un modelo matemático de una **neurona artificial** que recibe múltiples entradas (features), las **pesa**, las **suma**, y pasa el resultado por una **función de activación** (normalmente una función escalón). El resultado es una salida binaria, $0$ o $1$.

<div align="center">
  <img src="https://github.com/gbdiazc/Diseno-experimental/raw/main/Images/neurona.png" alt="Neurona" width="400">
</div>


Se utiliza principalmente para **clasificación binaria**, en problemas donde las clases pueden separarse con una línea recta (2D), un plano (3D) o un hiperplano (más dimensiones). 




## Motivación

El perceptrón intenta **emular el proceso de decisión de una neurona biológica**, donde las entradas (señales sinápticas) se combinan para decidir si la neurona dispara o no. En su versión computacional:

<table>
  <tr>
    <th>Nombre</th>
    <th>Símbolo</th>
    <th>Descripción</th>
  </tr>
  <tr>
    <td>Entradas</td>
    <td>$\mathbf{x}$</td>
    <td>Representan las características de los datos</td>
  </tr>
  <tr>
    <td>Pesos</td>
    <td>$\mathbf{w}$</td>
    <td>Determinan la importancia de cada entrada</td>
  </tr>
  <tr>
    <td>Suma ponderada + sesgo</td>
    <td>$z$</td>
    <td>Resultado de la combinación lineal de entradas y pesos más un sesgo</td>
  </tr>
  <tr>
    <td>Función de activación</td>
    <td>$\phi(z)$</td>
    <td>Decide si la neurona “dispara” o no, aplicando una regla de decisión</td>
  </tr>
  <tr>
    <td>Resultado binario</td>
    <td>$\hat{y}$</td>
    <td>Salida del perceptrón; indica la clase predicha (0 o 1)</td>
  </tr>
</table>

<div align="center">
<img src="https://github.com/gbdiazc/Diseno-experimental/raw/main/Images/perceptron.png" alt="Perceptron" width="400">
</div>

El perceptrón es un **modelo lineal de clasificación**: traza un hiperplano en el espacio de características para separar dos clases. Funciona bien **solo cuando los datos son linealmente separables**. Su simplicidad lo hace un buen punto de partida para introducir redes neuronales más complejas.

El entrenamiento del perceptrón consiste en **ajustar los pesos** automáticamente a partir de ejemplos etiquetados, corrigiendo los errores de predicción mediante un algoritmo iterativo.

## Formulación matemática

Dado un vector de entrada $\mathbf{x} = (x_1, x_2, \dots, x_n)$ y un vector de pesos $\mathbf{w} = (w_1, w_2, \dots, w_n)$, el perceptrón calcula:

### Suma ponderada:
$$
z = \mathbf{w} \cdot \mathbf{x} + b = \sum_{i=1}^{n} w_i x_i + b
$$

### Función de activación (escalón):
La función de activación $\phi(z)$ convierte la salida continua $z$ en una predicción discreta. En el perceptrón clásico, se utiliza una función escalón (o función umbral):

$$
\phi(z) = 
\begin{cases}
1 & \text{si } z > 0 \\
0 & \text{si } z \leq 0
\end{cases}
$$

El resultado final es:
$$
\hat{y} = \phi(z)
$$
donde $\hat{y}$ es la clase predicha (0 o 1).).


## Algoritmo de entrenamiento del perceptrón (Regla de Rosenblatt)

El objetivo del **algoritmo de entrenamiento del perceptrón** es ajustar los pesos del modelo para que pueda clasificar correctamente las muestras del conjunto de entrenamiento. Este procedimiento es un ejemplo de **aprendizaje supervisado**, ya que el modelo aprende comparando su salida con la etiqueta verdadera de cada muestra.

El objetivo del entrenamiento es encontrar un vector de pesos $\mathbf{w}$ y un sesgo $b$ que permitan al perceptrón clasificar correctamente los datos de entrenamiento. Se trata de un algoritmo **supervisado** porque usa ejemplos con sus etiquetas verdaderas.

El aprendizaje se basa en actualizar los pesos **cuando la predicción es incorrecta**, es decir, cuando $\hat{y} \ne y$.


### Función de activación

El perceptrón utiliza una función de activación **escalón** (también llamada función signum) que transforma la salida continua de la combinación lineal en una clase binaria. En su forma más común:

$$
\phi(z) = 
\begin{cases}
1 & \text{si } \mathbf{w} \cdot \mathbf{x} + b > \theta \\
0 \; \text{o } -1 & \text{si } \mathbf{w} \cdot \mathbf{x} + b \leq \theta
\end{cases}
$$

Para fines prácticos, se suele usar $\theta = 0$ y representar la salida con $1$ o $-1$:

$$
\hat{y} = \text{sign}(\mathbf{w} \cdot \mathbf{x} + b) = 
\begin{cases}
1 & \text{si } \mathbf{w} \cdot \mathbf{x} + b > 0 \\
-1 & \text{si } \mathbf{w} \cdot \mathbf{x} + b \leq 0
\end{cases}
$$



### Regla de actualización de pesos

Cuando hay un error ($e \ne 0$), se actualizan los pesos y el sesgo usando:

$$
w_j \leftarrow w_j + \eta \cdot e \cdot x_j, \quad \text{para cada } j = 1, 2, \dots, n
$$

$$
b \leftarrow b + \eta \cdot e
$$

$$
w_j^{(i+1)}  = w_j^{(i)} + \eta \cdot e \cdot x_j, \quad \text{para cada } j = 1, 2, \dots, n
$$

$$
b^{(i+1)} = b^{(i)} + \eta \cdot e
$$

Esta regla mueve el hiperplano de decisión en la dirección que reduce el error.


### Algoritmo 

1. **Inicialización**:  
   Asignar valores pequeños (por ejemplo, aleatorios o ceros) a los pesos $\mathbf{w}$ y al sesgo $b$.

2. **Para cada época** (recorrido completo por los datos):  
   Para cada muestra $(\mathbf{x}, y)$ del conjunto de entrenamiento:

   a. Calcular la salida lineal:
   $$
   z = \mathbf{w} \cdot \mathbf{x} + b
   $$

   b. Aplicar la función de activación:
   $$
   \hat{y} = \phi(z) = 
   \begin{cases}
   1 & \text{si } z > 0 \\
   0 & \text{si } z \leq 0
   \end{cases}
   $$

   c. Calcular el error:
   $$
   e = y - \hat{y}
   $$

   d. Actualizar pesos y sesgo (solo si $e \ne 0$):
   $$
   w_j^{(i+1)}  = w_j^{(i)} + \eta \cdot e \cdot x_j, \quad \text{para cada } j = 1, 2, \dots, n
   $$

   $$
   b^{(i+1)} = b^{(i)} + \eta \cdot e
   $$

3. **Repetir** el paso 2 hasta que no haya errores o se alcance el número máximo de épocas.

## Ejemplo

Se tienen los siguientes datos (1-4) dados por $(x_1,x_2)$, con sus respectivas clasificaciones ${y}$:

| Dato | $x_1$ | $x_2$ | ${y}$ |
|------|------|------|-----|
| 1    | 0    | 0    | 1   |
| 2    | 0    | 1    | 1   |
| 3    | 1    | 0    | 1   |
| 4    | 1    | 1    | 0   |


Es decir, tenemos:

$$ $$ $$  x_{1} = \begin{bmatrix} x_{11}\\x_{21}\\x_{31}\\x_{41} \end{bmatrix} = \begin{bmatrix} 0\\0\\1\\1 \end{bmatrix}, \quad x_{2} = \begin{bmatrix} x_{12}\\x_{22}\\x_{32}\\x_{42} \end{bmatrix} = \begin{bmatrix} 0\\1\\0\\1 \end{bmatrix}, \quad  \hat{y} = \begin{bmatrix} \hat{y}_{1}\\\hat{y}_{2}\\\hat{y}_{3}\\\hat{y}_{4} \end{bmatrix} = \begin{bmatrix} 1\\1\\1\\0 \end{bmatrix},  $$

Tomamos como vector inicial $x_0$ .

$$
\quad  x_0 = \begin{bmatrix} x_{10}\\x_{20}\\x_{30}\\x_{40} \end{bmatrix} = \begin{bmatrix} 1\\1\\1\\1 \end{bmatrix}.$$


a siguiente muestra de entrenamiento $i$.

## Algoritmo de entrenamiento

## Iteración 1 (Epoch 1)

## Paso 1: Inicialización

- Pesos iniciales:

$$
\mathbf{w}^0 = \begin{bmatrix} w_0^0 \\ w_1^0 \\ w_2^0 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ 0 \end{bmatrix}
$$

- Umbral (theta): $\theta = 0$

- Tasa de aprendizaje: $\eta = 0.1$

- Conjunto de entrenamiento:

| Patrón $x_i$ | $\mathbf{x}_i$         | $y_i$ |
|--------------|------------------------|-------|
| $x_1$        | $\begin{bmatrix}1 \\ 0 \\ 0\end{bmatrix}$ | 1     |
| $x_2$        | $\begin{bmatrix}1 \\ 0 \\ 1\end{bmatrix}$ | 1     |
| $x_3$        | $\begin{bmatrix}1 \\ 1 \\ 0\end{bmatrix}$ | 1     |
| $x_4$        | $\begin{bmatrix}1 \\ 1 \\ 1\end{bmatrix}$ | 0     |

## Paso 2: Salida lineal $z_i = \mathbf{w} \cdot \mathbf{x}_i$

### Cálculo vectorial explícito:

### Para $x_1 = \begin{bmatrix}1 \\ 0 \\ 0\end{bmatrix}$:

$$
z_1 = \mathbf{w}^0 \cdot \mathbf{x}_1 = 
\begin{bmatrix}0 & 0 & 0\end{bmatrix} \cdot \begin{bmatrix}1 \\ 0 \\ 0\end{bmatrix} = 0 \times 1 + 0 \times 0 + 0 \times 0 = 0
$$

### Para $x_2 = \begin{bmatrix}1 \\ 0 \\ 1\end{bmatrix}$:

$$
z_2 = \mathbf{w}^0 \cdot \mathbf{x}_2 = 
\begin{bmatrix}0 & 0 & 0\end{bmatrix} \cdot \begin{bmatrix}1 \\ 0 \\ 1\end{bmatrix} = 0 \times 1 + 0 \times 0 + 0 \times 1 = 0
$$

### Para $x_3 = \begin{bmatrix}1 \\ 1 \\ 0\end{bmatrix}$:

$$
z_3 = \mathbf{w}^0 \cdot \mathbf{x}_3 = 
\begin{bmatrix}0 & 0 & 0\end{bmatrix} \cdot \begin{bmatrix}1 \\ 1 \\ 0\end{bmatrix} = 0 \times 1 + 0 \times 1 + 0 \times 0 = 0
$$

### Para $x_4 = \begin{bmatrix}1 \\ 1 \\ 1\end{bmatrix}$:

$$
z_4 = \mathbf{w}^0 \cdot \mathbf{x}_4 = 
\begin{bmatrix}0 & 0 & 0\end{bmatrix} \cdot \begin{bmatrix}1 \\ 1 \\ 1\end{bmatrix} = 0 \times 1 + 0 \times 1 + 0 \times 1 = 0
$$

## Paso 3: Aplicar función de activación

Función escalón:

$$
\hat{y}_i = \phi(z_i) = \begin{cases}
1 & \text{si } z_i > \theta \\
0 & \text{si } z_i \leq \theta
\end{cases}
$$

Dado que todos los $z_i = 0$ y $\theta = 0$, entonces:

- $\hat{y}_1 = 0$
- $\hat{y}_2 = 0$
- $\hat{y}_3 = 0$
- $\hat{y}_4 = 0$

## Paso 4: Comparar salida predicha vs esperada

| Patrón $x_i$ | $y_i$ (esperado) | $\hat{y}_i$ (predicho) | Error $e_i = y_i - \hat{y}_i$ |
|--------------|------------------|--------------------------|------------------------------|
| $x_1$        | 1                | 0                        | 1                            |
| $x_2$        | 1                | 0                        | 1                            |
| $x_3$        | 1                | 0                        | 1                            |
| $x_4$        | 0                | 0                        | 0                            |

## Paso 5: Actualización de pesos (por cada patrón con error)

Vamos a actualizar los pesos para cada patrón con error, secuencialmente.

### Para $x_1$ con $e_1 = 1$:

$$
w_j^{1} = w_j^{0} + \eta \cdot e_1 \cdot x_{1j}
$$

- $w_0^{1} = 0 + 0.1 \times 1 \times 1 = 0.1$
- $w_1^{1} = 0 + 0.1 \times 1 \times 0 = 0$
- $w_2^{1} = 0 + 0.1 \times 1 \times 0 = 0$

Pesos actualizados:

$$
\mathbf{w}^1 = \begin{bmatrix} 0.1 \\ 0 \\ 0 \end{bmatrix}
$$

### Para $x_2$ con $e_2 = 1$:

$$
w_j^{2} = w_j^{1} + \eta \cdot e_2 \cdot x_{2j}
$$

- $w_0^{2} = 0.1 + 0.1 \times 1 \times 1 = 0.2$
- $w_1^{2} = 0 + 0.1 \times 1 \times 0 = 0$
- $w_2^{2} = 0 + 0.1 \times 1 \times 1 = 0.1$

Pesos actualizados:

$$
\mathbf{w}^2 = \begin{bmatrix} 0.2 \\ 0 \\ 0.1 \end{bmatrix}
$$

### Para $x_3$ con $e_3 = 1$:

$$
w_j^{3} = w_j^{2} + \eta \cdot e_3 \cdot x_{3j}
$$

- $w_0^{3} = 0.2 + 0.1 \times 1 \times 1 = 0.3$
- $w_1^{3} = 0 + 0.1 \times 1 \times 1 = 0.1$
- $w_2^{3} = 0.1 + 0.1 \times 1 \times 0 = 0.1$

Pesos actualizados:

$$
\mathbf{w}^3 = \begin{bmatrix} 0.3 \\ 0.1 \\ 0.1 \end{bmatrix}
$$

### Para $x_4$ con $e_4 = 0$ no se actualiza.

## Resumen de la Iteración 1

| Paso       | $\mathbf{w}^0$    Inicial            | $\hat{\mathbf{y}}$      | $\mathbf{y}$       | Error           | $\mathbf{w}^3$    Final| 
|------------|--------------------------------------|-------------------------|--------------------|-----------------|------------------------|
|            | $\begin{bmatrix} 0 \\ 0 \\ 0 \end{bmatrix}$ | $[0,\ 0,\ 0,\ 0]$         | $[1,\ 1,\ 1,\ 0]$  | $[1,\ 1,\ 1,\ 0]$ |$\begin{bmatrix} 0.3 \\ 0.1 \\ 0.1 \end{bmatrix}$ |

$$
ECM = \frac{1}{4} (1^2 + 1^2 + 1^2 + 0^2) = \frac{3}{4} = 0.75
$$


## Iteración 2 (Epoch 2)


### Paso 1: Pesos iniciales para esta iteración

$$
\mathbf{w}^1 = \begin{bmatrix} 0.0 \\ 0.0 \\ 0.0 \end{bmatrix}
$$


### Paso 2: Cálculo de la salida lineal $z_i = \mathbf{w}^1 \cdot \mathbf{x}_i$

Para cada patrón $\mathbf{x}_i$:

- Para $\mathbf{x}_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix}$:

$$
z_1 = \begin{bmatrix} 0 & 0 & 0 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix} = 0
$$

- Para $\mathbf{x}_2 = \begin{bmatrix} 1 \\ 0 \\ 1 \end{bmatrix}$:

$$
z_2 = \begin{bmatrix} 0 & 0 & 0 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 0 \\ 1 \end{bmatrix} = 0
$$

- Para $\mathbf{x}_3 = \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix}$:

$$
z_3 = \begin{bmatrix} 0 & 0 & 0 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix} = 0
$$

- Para $\mathbf{x}_4 = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}$:

$$
z_4 = \begin{bmatrix} 0 & 0 & 0 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} = 0
$$



### Paso 3: Aplicar función escalón con umbral $\theta = 0$

La función de activación es:

$$
\hat{y}_i = \phi(z_i) = \begin{cases}
1 & \text{si } z_i > 0 \\
0 & \text{si } z_i \leq 0
\end{cases}
$$

Como todos los $z_i = 0$, entonces:

$$
\hat{y}_1 = 0, \quad \hat{y}_2 = 0, \quad \hat{y}_3 = 0, \quad \hat{y}_4 = 0
$$


### Paso 4: Comparación de salida predicha vs esperada

| Patrón $\mathbf{x}_i$ | Salida esperada $y_i$ | Salida predicha $\hat{y}_i$ | Error $e_i = y_i - \hat{y}_i$ |
|-----------------------|-----------------------|-----------------------------|-------------------------------|
| $\mathbf{x}_1$         | 1                     | 0                           | 1                             |
| $\mathbf{x}_2$         | 1                     | 0                           | 1                             |
| $\mathbf{x}_3$         | 1                     | 0                           | 1                             |
| $\mathbf{x}_4$         | 0                     | 0                           | 0                             |


### Paso 5: Actualización de pesos

La regla de actualización es:

$$
\mathbf{w}^{(t+1)} = \mathbf{w}^{(t)} + \eta \, e_i \, \mathbf{x}_i
$$

con tasa de aprendizaje $\eta = 0.1$.



Actualizamos los pesos para los patrones con error distinto de cero:

- Para $\mathbf{x}_1$ (error = 1):

$$
\mathbf{w}^1 = \begin{bmatrix}0 \\ 0 \\ 0\end{bmatrix} + 0.1 \times 1 \times \begin{bmatrix}1 \\ 0 \\ 0\end{bmatrix} = \begin{bmatrix}0.1 \\ 0 \\ 0\end{bmatrix}
$$

- Para $\mathbf{x}_2$ (error = 1):

$$
\mathbf{w}^1 = \begin{bmatrix}0.1 \\ 0 \\ 0\end{bmatrix} + 0.1 \times 1 \times \begin{bmatrix}1 \\ 0 \\ 1\end{bmatrix} = \begin{bmatrix}0.2 \\ 0 \\ 0.1\end{bmatrix}
$$

- Para $\mathbf{x}_3$ (error = 1):

$$
\mathbf{w}^1 = \begin{bmatrix}0.2 \\ 0 \\ 0.1\end{bmatrix} + 0.1 \times 1 \times \begin{bmatrix}1 \\ 1 \\ 0\end{bmatrix} = \begin{bmatrix}0.3 \\ 0.1 \\ 0.1\end{bmatrix}
$$



## Resumen de la Iteración 2

| Paso       | $\mathbf{w}^1$ Inicial            | $\hat{\mathbf{y}}$      | $\mathbf{y}$       | Error           | $\mathbf{w}^2$ Final           | 
|------------|----------------------------------|-------------------------|--------------------|-----------------|-------------------------------|
|            | $\begin{bmatrix} 0 \\ 0 \\ 0 \end{bmatrix}$ | $[0,\ 0,\ 0,\ 0]$         | $[1,\ 1,\ 1,\ 0]$  | $[1,\ 1,\ 1,\ 0]$ | $\begin{bmatrix} 0.3 \\ 0.1 \\ 0.1 \end{bmatrix}$ |

2

$$
ECM = \frac{1}{4} (0^2 + 0^2 + 0^2 + (-1)^2) = \frac{1}{4} = 0.25
$$$$

## Iteración 3 (Epoch 3)


### Paso 1: Pesos iniciales para esta iteración

$$
\mathbf{w}^2 = \begin{bmatrix} 0.3 \\ 0.1 \\ 0.1 \end{bmatrix}
$$



### Paso 2: Cálculo de la salida lineal $z_i = \mathbf{w}^2 \cdot \mathbf{x}_i$

Para cada patrón $\mathbf{x}_i$:

- Para $\mathbf{x}_1 = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix}$:

$$
z_1 = \begin{bmatrix} 0.3 & 0.1 & 0.1 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix} = 0.3
$$

- Para $\mathbf{x}_2 = \begin{bmatrix} 1 \\ 0 \\ 1 \end{bmatrix}$:

$$
z_2 = \begin{bmatrix} 0.3 & 0.1 & 0.1 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 0 \\ 1 \end{bmatrix} = 0.3 + 0 + 0.1 = 0.4
$$

- Para $\\mathbf{x}_3 = \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix}$:

$$
z_3 = \begin{bmatrix} 0.3 & 0.1 & 0.1 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 1 \\ 0 \end{bmatrix} = 0.3 + 0.1 + 0 = 0.4
$$

- Para $\mathbf{x}_4 = \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix}$:

$$
z_4 = \begin{bmatrix} 0.3 & 0.1 & 0.1 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} = 0.3 + 0.1 + 0.1 = 0.5
$$



### Paso 3: Aplicar función escalón con umbral $\theta = 0$

$$
\hat{y}_i = \phi(z_i) = \begin{cases}
1 & \text{si } z_i > 0 \\
0 & \text{si } z_i \leq 0
\end{cases}
$$

Dado que todos los $z_i > 0$:

$$
\hat{y}_1 = 1, \quad \hat{y}_2 = 1, \quad \hat{y}_3 = 1, \quad \hat{y}_4 = 1
$$



### Paso 4: Comparación de salida predicha vs esperada

| Patrón $\mathbf{x}_i$ | Salida esperada $y_i$ | Salida predicha $\hat{y}_i$ | Error $e_i = y_i - \hat{y}_i$ |
|-----------------------|-----------------------|-----------------------------|-------------------------------|
| $\mathbf{x}_1$         | 1                     | 1                           | 0                             |
| $\mathbf{x}_2$         | 1                     | 1                           | 0                             |
| $\\mathbf{x}_3$        | 1                     | 1                           | 0                             |
| $\mathbf{x}_4$         | 0                     | 1                           | -1                            |


### Paso 5: Actualización de pesos

Sólo hay error en $\mathbf{x}_4$ con $e_4 = -1$:

$$
\mathbf{w}^3 = \mathbf{w}^2 + \eta \, e_4 \, \mathbf{x}_4 = \begin{bmatrix} 0.3 \\ 0.1 \\ 0.1 \end{bmatrix} + 0.1 \times (-1) \times \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix} = \begin{bmatrix} 0.2 \\ 0.0 \\ 0.0 \end{bmatrix}
$$



## Resumen de la Iteración 3

| Paso       | $\mathbf{w}^2$ Inicial           | $\hat{\mathbf{y}}$      | $\mathbf{y}$       | Error           | $\mathbf{w}^3$ Final           | 
|------------|---------------------------------|-------------------------|--------------------|-----------------|-------------------------------|
|            | $\begin{bmatrix} 0.3 \\ 0.1 \\ 0.1 \end{bmatrix}$ | $[1,\ 1,\ 1,\ 1]$         | $[1,\ 1,\ 1,\ 0]$  | $[0,\ 0,\ 0,\ -1]$ | $\begin{bmatrix} 0.2 \\ 0.0 \\ 0.0 \end{bmatrix}$ |



### Error cuadrático medio (ECM) 

$$
ECM = \frac{1}{n} \sum_{i=1}^{n} e_i^2 = \frac{1}{4} (0^2 + 0^2 + 0^2 + (-1)^2) = \frac{1}{4} (1) = 0.25
$$


## Frontera de decisión del Perceptrón

En el algoritmo del perceptrón, la frontera de decisión se define por la ecuación:

$$
z = w_0 + w_1 x_1 + w_2 x_2 = 0
$$

Si despejamos $x_2 $, obtenemos una línea recta en el plano $ (x_1, x_2) $:

$$
x_2 = -\frac{w_1}{w_2} x_1 - \frac{w_0}{w_2}
$$

Esta frontera separa las clases predichas por el perceptrón. A medida que el algoritmo entrena, esta frontera se va ajustando según los errores cometidos.

A continuación se grafican los datos de entrada (con sus respectivas clases) y las fronteras de decisión para cada iteración.


In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Datos con bias (x0=1)
X = np.array([
    [1, 0, 0],  # x0 (bias), x1, x2
    [1, 0, 1],
    [1, 1, 0],
    [1, 1, 1]
])
y = np.array([0, 0, 0, 1])  # Salidas esperadas

# Parámetros
eta = 0.1
epochs = 30
plot_epochs = [1, 2, 3, 4, 5]  # Solo iteraciones 1 y 2 para graficar
w = np.array([0, 0, 0])  # Pesos iniciales
weights_history = [w.copy()]
errors = []
mse_list = []  # Lista para guardar ECM por época

# Entrenamiento (guardamos pesos y errores por época)
for epoch in range(epochs):
    total_error = 0
    for i in range(len(X)):
        z = np.dot(w, X[i])
        y_hat = 1 if z > 0 else 0
        e = y[i] - y_hat
        if e != 0:
            total_error += 1
            w = w + eta * e * X[i]
    weights_history.append(w.copy())
    errors.append(total_error)

    # Calcular predicciones para todo el dataset con los pesos actuales
    y_pred = np.array([1 if np.dot(w, X[j]) > 0 else 0 for j in range(len(X))])
    # Calcular ECM (MSE)
    mse = np.mean((y - y_pred) ** 2)
    mse_list.append(mse)

# Mostrar ECM para iteraciones 1 y 2
for ep in plot_epochs:
    print(f"Época {ep}: ECM = {mse_list[ep - 1]}")

# --- Gráfica del error por época ---
plt.figure(figsize=(8, 4))
plt.plot(range(1, epochs + 1), errors, marker='o', color='red', label='Errores de clasificación')
plt.plot(range(1, epochs + 1), mse_list, marker='x', color='blue', label='ECM')
plt.title('Errores y ECM por Época durante el Entrenamiento')
plt.xlabel('Época')
plt.ylabel('Valor')
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

# --- Graficar la evolución de la frontera de decisión en épocas seleccionadas ---
filtered_weights = [weights_history[ep] for ep in plot_epochs]
fig, axs = plt.subplots(1, len(plot_epochs), figsize=(6 * len(plot_epochs), 5))
x_vals = np.array([-0.5, 1.5])

for i, ep in enumerate(plot_epochs):
    w_i = filtered_weights[i]
    ax = axs[i] if len(plot_epochs) > 1 else axs

    # Dibujar frontera de decisión si es posible
    if w_i[2] != 0:
        y_vals = - (w_i[1] / w_i[2]) * x_vals - (w_i[0] / w_i[2])
        ax.plot(x_vals, y_vals, label=f'Frontera Epoch {ep}', color='blue')
    elif w_i[1] != 0:
        x_line = -w_i[0] / w_i[1]
        ax.axvline(x_line, label=f'Frontera Epoch {ep}', color='blue')
    else:
        ax.text(0.1, 0.1, 'Frontera no definida', color='red')

    # Dibujar puntos con diferentes marcadores según clase
    for j in range(len(X)):
        x1, x2 = X[j, 1], X[j, 2]
        marker = 'o' if y[j] == 1 else 'x'
        ax.scatter(x1, x2, marker=marker, c='black', s=100)

    ax.set_title(f'Época {ep}')
    ax.set_xlabel('$x_1$')
    ax.set_ylabel('$x_2$')
    ax.grid(True)
    ax.set_xlim(-0.5, 1.5)
    ax.set_ylim(-0.5, 1.5)
    ax.legend()

plt.tight_layout()
plt.show()


## Propiedades del perceptrón

- **Aprendizaje lineal**: solo puede aprender si los datos son **linealmente separables**
- **Convergencia garantizada** (Teorema de convergencia del perceptrón) solo en ese caso
- **Rápido y simple**, pero limitado en capacidad
- Es el **bloque base** de redes neuronales más complejas



## Limitaciones

- No puede resolver problemas **no lineales**, como el clásico caso del **XOR** (exclusiva lógica)
- Solo produce **salidas binarias**
- No da probabilidades ni confianza en la predicción

Por estas razones, se generalizó más tarde en modelos más poderosos, como el **Perceptrón Multicapa (MLP)**, que puede aprender representaciones no lineales gracias a la incorporación de **capas ocultas** y **funciones de activación no lineales** como la **sigmoide**, **tangente hiperbólica**, o **ReLU**.



## Ejemplo de aplicación

- Clasificar correos electrónicos como *spam* o *no spam*
- Determinar si una imagen contiene un gato (sí/no)
- Detección de fraudes simples
- Clasificación de opiniones como *positiva* o *negativa*

# Ejercicio: Entrenamiento de un Perceptrón Lineal con Pérdida Cuadrática

Vamos a trabajar con un modelo simple de perceptrón lineal sin función de activación. Este modelo realiza una predicción lineal a partir de una entrada $\mathbf{x} = (x_1, x_2)$, y ajusta sus pesos $w_1$ y $w_2$ para que la salida se aproxime a una etiqueta deseada $y$.

La función de pérdida utilizada es la **pérdida cuadrática**:

$$
f(w_1, w_2) = \frac{1}{2}(w_1 x_1 + w_2 x_2 - y)^2
$$



## Datos Iniciales

- Conjunto de entradas: 

$$
X = \begin{bmatrix}
1 & 2 \\
2 & 3 \\
3 & 5 \\
5 & 2 \\
6 & 1 \\
7 & 3
\end{bmatrix}
$$

- Etiquetas deseadas:

$$
y = \begin{bmatrix} 0, 0, 0, 1, 1, 1 \end{bmatrix}
$$

- Pesos iniciales:
  $$
  w_1^{(0)} = 0, \quad w_2^{(0)} = 0
  $$

- Tasa de aprendizaje: 
  $$
  \eta = 0.01
  $$

- Número de iteraciones: 100


## Objetivo

Implementar el entrenamiento del perceptrón con descenso por gradiente para minimizar la pérdida cuadrática y actualizar los pesos iterativamente, usando todos los datos del conjunto.



## Pasos a Seguir en Cada Iteración

Para cada iteración, realiza lo siguiente:

1. Para cada dato $x_i = (x_{i1}, x_{i2})$ y etiqueta $y_i$:

   - **Predicción del modelo:**

   $$
   \hat{y}_i = w_1 \cdot x_{i1} + w_2 \cdot x_{i2}
   $$

   - **Cálculo del error:**

   $$
   e_i = \hat{y}_i - y_i
   $$

   - **Cálculo de la pérdida para este dato:**

   $$
   f_i = \frac{1}{2} e_i^2
   $$

   - **Cálculo del gradiente:**

   $$
   \frac{\partial f_i}{\partial w_1} = e_i \cdot x_{i1}, \quad \frac{\partial f_i}{\partial w_2} = e_i \cdot x_{i2}
   $$

   - **Actualización de los pesos:**

   $$
   w_1 = w_1 - \eta \cdot \frac{\partial f_i}{\partial w_1}
   $$

   $$
   w_2 = w_2 - \eta \cdot \frac{\partial f_i}{\partial w_2}
   $$

2. Al finalizar la iteración, calcula el error cuadrático medio (ECM):

$$
ECM = \frac{1}{N} \sum_{i=1}^N e_i^2
$$

y guarda su valor para analizar la evolución del entrenamiento.



## Espacio para Respuestas (ejemplo para la primera iteración con el primer dato)

- Predicción $\hat{y}_1 = \_\_\_\_$
- Error $e_1 = \_\_\_\_$
- Pérdida $f_1 = \_\_\_\_$
- Gradientes:
  $$
  \frac{\partial f_1}{\partial w_1} = \_\_\_\_, \quad \frac{\partial f_1}{\partial w_2} = \_\_\_\_
  $$
- Pesos actualizados:
  $$
  w_1 = \_\_\_\_, \quad w_2 = \_\_\_\_
  $$




- ¿Cómo cambia el ECM a lo largo de las iteraciones?
- ¿Qué observas en la evolución de los pesos?
- ¿Cómo afecta la tasa de aprendizaje $\eta$ al proceso de entrenamiento?
- ¿Crees que el perceptrón podrá separar correctamente las dos clases con esta función de pérdida?
