# ACD 4


Esta actividad tiene como objetivo entender el funcionamiento del perceptrón y su uso para problemas de clasificación lineares

## Importación de librerías

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

## Creación de datos de entrenamiento


Haciendo uso de la función ```make_blobs``` de la librería de sci-kit learn, que permite generar clústeres de datos con sus respectivas etiquetas.

In [None]:
X, y = make_blobs(
    n_samples=200,
    n_features=2,
    centers=2,
    cluster_std=2,
    random_state=42
)

### Visualización de los datos

In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(X[y == 0, 0], X[y == 0, 1], color='blue', label='Clase 0')
plt.scatter(X[y == 1, 0], X[y == 1, 1], color='red', label='Clase 1')
plt.title('Conjunto de datos linealmente separable')
plt.xlabel('Característica 1')
plt.ylabel('Característica 2')
plt.legend()
plt.grid(True)
plt.show()

## División de datos de entrenamiento y de prueba

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [None]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### Normalización de los datos

In [None]:
scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)
x_test_scaled = scaler.transform(x_test)

## Usando la clase `Perceptron` de Sci-Kit Learn

In [None]:
from sklearn.linear_model import Perceptron

### Configuración del modelo


En este caso se usa un máximo de 1000 épocas (```max_iter```), el criterio de parada del entrenamiento (```tol```) y el random state

In [None]:
model = Perceptron(max_iter=1000, tol=0.1, random_state=42)

### Entrenamiento del modelo

In [None]:
model.fit(x_train_scaled, y_train)

### Predicciones

In [None]:
y_pred = model.predict(x_test_scaled)

### Evaluación del modelo

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix

#### Precisión

In [None]:
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión del modelo: {accuracy:.2f}')

#### Matriz de Confusión

In [None]:
conf_matrix = confusion_matrix(y_test, y_pred)

sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues')
plt.ylabel('True label')
plt.xlabel('Predicted label')
plt.title('Confusion Matrix')
plt.show()

### Visualización de las predicciones del modelo

In [None]:
plt.scatter(x_test[y_pred == 0, 0], x_test[y_pred == 0, 1], color='blue', label='Clase 0')
plt.scatter(x_test[y_pred == 1, 0], x_test[y_pred == 1, 1], color='red', label='Clase 1')
plt.title('Clasificación del conjunto de prueba')
plt.xlabel('Característica 1')
plt.ylabel('Característica 2')
plt.legend()
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(X[y == 0, 0], X[y == 0, 1], color='blue', label='Clase 0')
plt.scatter(X[y == 1, 0], X[y == 1, 1], color='red', label='Clase 1')

w = model.coef_[0]
b = model.intercept_[0]

# Calcular la línea de decisión (w0*x0 + w1*x1 + b = 0)
x_values = np.linspace(X[:, 0].min() - 1, X[:, 0].max() + 1, 100)
y_values = -(w[0] * x_values + b) / w[1]

boundary_segment = scaler.inverse_transform(np.column_stack((
    x_values,
    y_values,
)))
boundary_x_segment = boundary_segment[:, 0]
boundary_y_segment = boundary_segment[:, 1]


plt.plot(boundary_x_segment, boundary_y_segment, 'k-', label='Frontera de decisión')

plt.title('Conjunto de datos linealmente separable')
plt.xlabel('Característica 1')
plt.ylabel('Característica 2')
plt.xlim(-10, 10)
plt.ylim(-2, 20)
plt.legend()
plt.grid(True)

plt.show()

## Implementación del perceptrón desde cero


Se implementará el perceptrón desde cero usando la función de activación escalón

### Configuración del modelo

In [None]:
class Perceptron:
    
    def __init__(self, learning_rate=0.01, n_iterations=1000):
        self.learning_rate = learning_rate
        self.n_iterations = n_iterations
        self.weights = None
        self.intercept = None
        
        
    def fit(self, X, y):
        n_samples, n_features = X.shape
        self.weights = np.zeros(n_features)
        self.intercept = 0
        
        for i in range(self.n_iterations):
            for idx, x_i in enumerate(X):
                linear_output = np.dot(x_i, self.weights) + self.intercept
                y_predicted = self._activation_function(linear_output)
                
                update = self.learning_rate * (y[idx] - y_predicted)
                self.weights += update * x_i
                self.intercept += update
            
            print(f"Epoch {i+1}/{self.n_iterations} completed.")    
                
    def predict(self, X):
        linear_output = np.dot(X, self.weights) + self.intercept
        y_predicted = self._activation_function(linear_output)
        return y_predicted
    
    def _activation_function(self, x):
        return np.where(x >= 0, 1, 0)

In [None]:
own_perceptron = Perceptron(learning_rate=0.1, n_iterations=1000)

### Entrenamiento

In [None]:
own_perceptron.fit(x_train_scaled, y_train)

### Predicciones

In [None]:
y_pred_own = own_perceptron.predict(x_test_scaled)

### Evaluación del modelo

In [None]:
accuracy = accuracy_score(y_test, y_pred_own)
print(f'Precisión del modelo: {accuracy:.2f}')

In [None]:
conf_matrix = confusion_matrix(y_test, y_pred_own)

sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues')
plt.ylabel('True label')
plt.xlabel('Predicted label')
plt.title('Confusion Matrix')
plt.show()

### Visualización de las predicciones

In [None]:
plt.scatter(x_test[y_pred_own == 0, 0], x_test[y_pred_own == 0, 1], color='blue', label='Clase 0')
plt.scatter(x_test[y_pred_own == 1, 0], x_test[y_pred_own == 1, 1], color='red', label='Clase 1')
plt.title('Clasificación del conjunto de prueba')
plt.xlabel('Característica 1')
plt.ylabel('Característica 2')
plt.legend()
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(X[y == 0, 0], X[y == 0, 1], color='blue', label='Clase 0')
plt.scatter(X[y == 1, 0], X[y == 1, 1], color='red', label='Clase 1')

w = own_perceptron.weights
b = own_perceptron.intercept

x_values = np.linspace(X[:, 0].min() - 1, X[:, 0].max() + 1, 100)
y_values = -(w[0] * x_values + b) / w[1]

boundary_segment = scaler.inverse_transform(np.column_stack((
    x_values,
    y_values,
)))
boundary_x_segment = boundary_segment[:, 0]
boundary_y_segment = boundary_segment[:, 1]


plt.plot(boundary_x_segment, boundary_y_segment, 'k-', label='Frontera de decisión')

plt.title('Conjunto de datos linealmente separable')
plt.xlabel('Característica 1')
plt.ylabel('Característica 2')
plt.xlim(-10, 10)
plt.ylim(-2, 20)
plt.legend()
plt.grid(True)

plt.show()

## Preguntas de Análisis

### 1. ¿Qué representa la función de activación en el perceptrón?

La función de activación en el perceptrón introduce no-linealidad en la salida del modelo. En su forma básica, utiliza una función escalón (step function) que mapea la suma ponderada de las entradas a un valor binario (típicamente 0 o 1). Esta función decide si el perceptrón "dispara" (activa su salida) basándose en si la combinación lineal de entradas supera un umbral determinado. Matemáticamente, se expresa como:

$$
F(z) = 
\begin{cases} 
0 & \text{si } z < 0 \\
1 & \text{si } z \geq 0 
\end{cases}
$$


## 2. ¿Qué significa que los datos sean linealmente separables?

Un conjunto de datos es linealmente separable cuando existe al menos un hiperplano (en 2D, una línea recta) que puede dividir las muestras de diferentes clases sin error. Formalmente, para dos clases $C_0$ y $C_1$, existe un vector de pesos $\mathbf{w}$ y un sesgo $b$ tal que:


$$

\mathbf{w} \cdot \mathbf{x} + b > 0 \quad \forall \mathbf{x} \in C_0 

$$  

$$

\mathbf{w} \cdot \mathbf{x} + b < 0 \quad \forall \mathbf{x} \in C_1 

$$ 


En el contexto del perceptrón, esto garantiza que el algoritmo convergerá a una solución óptima en un número finito de pasos.

## 3. ¿Cómo afecta la tasa de aprendizaje al entrenamiento?

La tasa de aprendizaje `eta` controla la magnitud de los ajustes en los pesos durante el entrenamiento. Un valor alto acelera la convergencia pero puede causar oscilaciones o sobrepasar soluciones óptimas. Un valor bajo mejora la precisión en la convergencia pero ralentiza el proceso. En el perceptrón de scikit-learn, esta tasa está normalizada internamente, pero en implementaciones manuales como la hecha en la actividad, suele fijarse entre 0.01 y 0.1 para equilibrar velocidad y estabilidad.

## 4. ¿Qué ocurre si aumentamos el número de épocas?

El número de épocas (iteraciones sobre el conjunto de entrenamiento) impacta directamente en la convergencia del modelo. Para datos linealmente separables, aumentar épocas asegura que el perceptrón encuentre la solución óptima (si la tasa de aprendizaje es adecuada). Sin embargo, si los datos no son separables, un exceso de épocas puede llevar a ciclos infinitos de ajustes sin convergencia. En scikit-learn, el parámetro `max_iter` limita este comportamiento deteniendo el entrenamiento tras un número fijo de iteraciones.