Alan Andree Rodríguez Levario - 222791133

# Hands on 1

## 1.1 Fundamentos de la técnica

El Perceptrón es uno de los algoritmos de aprendizaje supervisado más antiguos y simples, inventado por Frank Rosenblatt en 1957. Es un clasificador binario lineal, lo que significa que toma varias entradas, las combina linealmente y, si la suma supera un cierto umbral, emite una señal (generalmente '1'), y si no, emite otra (generalmente '0' o '-1').

Es el precursor de las redes neuronales artificiales, ya que se inspira en el funcionamiento de una neurona biológica: recibe señales, las pondera y se "activa" si el estímulo total es suficiente.

La limitación principal del Perceptrón simple es que solo puede aprender y clasificar problemas que son linealmente separables. Es decir, problemas donde se puede trazar una sola línea (o un hiperplano en más dimensiones) para separar perfectamente las dos clases.

## 1.2 Modelo matemático del perceptron

El modelo matemático del Perceptrón se define en dos partes: la función de entrada neta y la función de activación.
1. Entrada Neta (z):
  La entrada neta se calcula como la suma ponderada de las características de entrada (vector $x$) más un término de sesgo (bias, $b$).

  $$z = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b$$
  
  De forma vectorial, esto se expresa como:$$z = \mathbf{w} \cdot \mathbf{x} + b$$Donde:$\mathbf{w}$ es el vector de pesos.$\mathbf{x}$ es el vector de características de entrada.$b$ es el sesgo (o bias).

2. Función de Activación (predicción $\hat{y}$): La predicción ($\hat{y}$) se obtiene aplicando una función de activación escalón (o función escalón de Heaviside) a la entrada neta $z$.$$\hat{y} = \phi(z) = \begin{cases}
1 & \text{si } z > \theta \\
0 & \text{si } z \le \theta
\end{cases}$$Comúnmente, el umbral ($\theta$) se incorpora al modelo como el sesgo (bias), moviéndolo al otro lado de la ecuación, lo que simplifica la función de activación a:$$\hat{y} = \phi(z) = \begin{cases}
1 & \text{si } z > 0 \\
0 & \text{si } z \le 0
\end{cases}$$

3. Regla de Aprendizaje del Perceptrón:El entrenamiento consiste en ajustar los pesos ($w$) y el sesgo ($b$) para minimizar los errores. La regla de actualización es:$$w_i(\text{nuevo}) = w_i(\text{antiguo}) + \eta (y - \hat{y}) x_i$$$$b(\text{nuevo}) = b(\text{antiguo}) + \eta (y - \hat{y})$$Donde: $\eta$ (eta) es la tasa de aprendizaje (un valor pequeño, ej. 0.1). $y$ es la etiqueta verdadera. $\hat{y}$ es la predicción del modelo. Esta actualización solo ocurre cuando hay un error ($y \neq \hat{y}$). Si la predicción es correcta, los pesos no cambian.

## 1.3 Descripción de las librerías

Para esta implementación, utilizaremos la librería Scikit-learn (sklearn), que es el estándar de la industria para el aprendizaje automático en Python.

* **Librería:** sklearn.linear_model

  * **Clase:** Perceptron
  * **Descripción:** Esta es la clase que implementa el
  algoritmo del Perceptrón. No necesitamos programar la regla de aprendizaje manualmente, ya que sklearn se encarga de ello.
  * Parámetros clave al instanciar:
    * eta0: Es la tasa de aprendizaje ($\eta$).
    * max_iter: El número máximo de épocas (pasadas por los datos de entrenamiento).
    * random_state: Semilla para la inicialización aleatoria de pesos, lo que permite resultados reproducibles.

* Librería: sklearn.datasets

  * Función: load_iris

  * Descripción: Esta función carga el dataset "Iris", que viene incluido en scikit-learn. Nos devuelve un objeto que contiene las características (datos) y las etiquetas (target).

* Librería: sklearn.model_selection

  * Función: train_test_split

  * Descripción: A diferencia del ejemplo de la compuerta AND, el dataset Iris tiene muchos datos (150 muestras). La práctica correcta es dividir los datos en un conjunto de entrenamiento (para que el modelo aprenda) y un conjunto de prueba (para evaluarlo con datos que nunca ha visto).

* Librería: sklearn.preprocessing

  * Clase: StandardScaler

  * Descripción: El Perceptrón funciona mejor cuando todas las características tienen una escala similar (ej. media 0 y desviación estándar 1). Esta clase nos ayuda a estandarizar nuestros datos antes de entrenar.

* Librería: sklearn.metrics
  * Función: accuracy_score
  * Descripción: Se utiliza en la etapa de evaluación. Compara las etiquetas verdaderas ($y$) con las predicciones del modelo ($\hat{y}$) y calcula el porcentaje de aciertos (Accuracy).
  
* Librería: numpy
  * Descripción: Aunque no es parte de sklearn, numpy es fundamental. Scikit-learn espera que los datos de entrada (features y etiquetas) estén en formato de arreglos de NumPy.

## 1.4 Pipeline de Implementación

In [3]:
# Celda de importación de librerías
import numpy as np
from sklearn.linear_model import Perceptron
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris  # <-- Dataset
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

### 1.4.1 Feature Engineering

**Descripción de las variables:**

* Variables de Entrada (Features): Usaremos las 4 características del dataset Iris:

  1. Largo del Sépalo (cm)

  2. Ancho del Sépalo (cm)

  3. Largo del Pétalo (cm)

  4. Ancho del Pétalo (cm)

* Variable de Salida (Target): El dataset original tiene 3 clases (0: Setosa, 1: Versicolor, 2: Virginica). Modificaremos esto para crear un problema binario:

  * Clase 0: Setosa
  * Clase 1: No-Setosa (cualquier flor que sea Versicolor o Virginica)

**Pasos:**

  1. Cargar los datos.
  2. Crear la etiqueta binaria y.
  3. Dividir los datos en entrenamiento (70%) y prueba (30%).
  4. Estandarizar (escalar) las características.

In [4]:
# 1. Cargar los datos
iris = load_iris()
X = iris.data
y_original = iris.target

# 2. Crear la etiqueta binaria (Clase 0 = Setosa, Clase 1 = No-Setosa)
# (y_original > 0) es Falso (0) para Setosa y Verdadero (1) para las otras dos
y = (y_original > 0).astype(int)

# 3. Dividir los datos en entrenamiento y prueba
# random_state = 42 asegura que la división sea siempre la misma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 4. Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

# Aplicamos la misma transformación (transform) a los datos de prueba
X_test_scaled = scaler.transform(X_test)

### 1.4.2 Model Section

Razones para emplear un clasificador lineal:

Se ha seleccionado el Perceptrón porque el problema que hemos definido (Setosa vs. No-Setosa) es linealmente separable.

La clase Setosa es morfológicamente muy distinta de las otras dos especies (Versicolor y Virginica), especialmente en las dimensiones de sus pétalos. Esto permite que un hiperplano (una "línea" en 4 dimensiones) separe casi perfectamente las muestras de la Clase 0 (Setosa) de las de la Clase 1 (No-Setosa).

Dado que el problema es linealmente separable, el Teorema de Convergencia del Perceptrón garantiza que el algoritmo encontrará una solución.

### 1.4.3 Model Training
Entrenamos el modelo Perceptron usando nuestro conjunto de entrenamiento escalado (X_train_scaled e y_train).

In [5]:
# 1. Instanciar el modelo
perceptron_model = Perceptron(eta0=0.1, max_iter=1000, random_state=42)

# 2. Entrenar el modelo (Ajustar w y b)
# Usamos los datos de entrenamiento escalados
perceptron_model.fit(X_train_scaled, y_train)

print("¡Modelo entrenado exitosamente con el dataset Iris!")

# Pesos (w) y el sesgo (b) aprendidos
print(f"Pesos (w): {perceptron_model.coef_}")
print(f"Sesgo (b): {perceptron_model.intercept_}")

¡Modelo entrenado exitosamente con el dataset Iris!
Pesos (w): [[ 0.00689027 -0.00228438  0.07177026  0.07588896]]
Sesgo (b): [0.1]


### 1.4.4 Prediction

Ahora que el modelo está entrenado, creamos una función para probar que clasifica correctamente cada patrón de entrada.

La usaremos para probar el rendimiento del modelo sobre el conjunto de prueba, que el modelo nunca ha visto durante el entrenamiento.

In [8]:
def probar_patrones(model, X_data, y_data):

    # Obtener todas las predicciones de una vez
    predicciones = model.predict(X_data)

    # Mostramos solo los primeros 10 para no saturar la pantalla
    for i in range(min(len(X_data), 10)):
        patron = X_data[i]
        etiqueta_real = y_data[i]
        prediccion = predicciones[i]

        resultado = "CORRECTO" if prediccion == etiqueta_real else "INCORRECTO"

        patron_str = [f"{p:.2f}" for p in patron]

        print(f"Entrada: {patron_str} -> Pred: {prediccion} (Real: {etiqueta_real}) - {resultado}")

# Probamos la función con nuestro modelo y los datos de prueba escalados
probar_patrones(perceptron_model, X_test_scaled, y_test)

Entrada: ['0.31', '-0.50', '0.48', '-0.05'] -> Pred: 1 (Real: 1) - CORRECTO
Entrada: ['-0.17', '1.90', '-1.27', '-1.27'] -> Pred: 0 (Real: 0) - CORRECTO
Entrada: ['2.24', '-0.98', '1.77', '1.44'] -> Pred: 1 (Real: 1) - CORRECTO
Entrada: ['0.19', '-0.26', '0.37', '0.35'] -> Pred: 1 (Real: 1) - CORRECTO
Entrada: ['1.15', '-0.50', '0.54', '0.22'] -> Pred: 1 (Real: 1) - CORRECTO
Entrada: ['-0.53', '0.94', '-1.38', '-1.14'] -> Pred: 0 (Real: 0) - CORRECTO
Entrada: ['-0.29', '-0.26', '-0.16', '0.08'] -> Pred: 1 (Real: 1) - CORRECTO
Entrada: ['1.27', '0.22', '0.72', '1.44'] -> Pred: 1 (Real: 1) - CORRECTO
Entrada: ['0.43', '-1.94', '0.37', '0.35'] -> Pred: 1 (Real: 1) - CORRECTO
Entrada: ['-0.05', '-0.74', '0.02', '-0.05'] -> Pred: 1 (Real: 1) - CORRECTO


### 1.4.5 Model Evaluation

Finalmente, calculamos la métrica de Accuracy (Exactitud) para evaluar el rendimiento general del modelo sobre el conjunto de datos de entrenamiento.

El Accuracy se define como:

$$\text{Accuracy} = \frac{\text{Número de Predicciones Correctas}}{\text{Número Total de Predicciones}}$$

In [9]:
# 1. Obtener predicciones para todo el conjunto de prueba
y_pred = perceptron_model.predict(X_test_scaled)

# 2. Calcular el Accuracy comparando las predicciones (y_pred) con las reales (y_test)
accuracy = accuracy_score(y_test, y_pred)

print(f"Predicciones: {y_pred}")
print(f"Etiquetas reales:    {y_test}")
print(f"Accuracy (Exactitud) sobre datos de prueba: {accuracy * 100:.2f}%")

Predicciones: [1 0 1 1 1 0 1 1 1 1 1 0 0 0 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 0 0 0 1 0 0 1 1
 0 0 0 1 1 1 0 0]
Etiquetas reales:    [1 0 1 1 1 0 1 1 1 1 1 0 0 0 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 0 0 0 1 0 0 1 1
 0 0 0 1 1 1 0 0]
Accuracy (Exactitud) sobre datos de prueba: 100.00%


## Referencias Bibliográficas

Documentación oficial de Scikit-learn sobre sklearn.linear_model.Perceptron. (Consultado en https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html)

Daniel. (2023, 30 octubre). Perceptrón: ¿qué es y para qué sirve? DataScientest. https://datascientest.com/es/perceptron-que-es-y-para-que-sirve