<H1>Marco Teórico</H1>



### 1. K-Nearest Neighbors (K-NN) para Clasificación

#### Definición y Procedimiento

K-Nearest Neighbors (K-NN) es un algoritmo de clasificación que clasifica una muestra de prueba en función de la mayoría de las etiquetas de sus K vecinos más cercanos en el espacio de características. El proceso incluye:

1. **Calcular Distancias**: Se mide la distancia entre la muestra de prueba y cada muestra en el conjunto de entrenamiento.
2. **Seleccionar K Vecinos**: Se identifican los K vecinos más cercanos en base a la distancia calculada.
3. **Asignar Etiqueta**: La muestra de prueba se clasifica según la etiqueta más frecuente entre estos K vecinos.

#### Cálculo de la Distancia

Las distancias comunes utilizadas en K-NN incluyen:

- **Distancia Euclidiana**:
  $
  d(\mathbf{x}_i, \mathbf{x}_j) = \sqrt{\sum_{k=1}^n (x_{ik} - x_{jk})^2}
  $
  
- **Distancia de Manhattan**:
  $
  d(\mathbf{x}_i, \mathbf{x}_j) = \sum_{k=1}^n |x_{ik} - x_{jk}|
  $

- **Distancia de Minkowski**:
  $
  d(\mathbf{x}_i, \mathbf{x}_j) = \left( \sum_{k=1}^n |x_{ik} - x_{jk}|^p \right)^{1/p}
  $

#### Hiperparámetros en K-NN

1. **Número de Vecinos $K$**:
   - **Descripción**: $K$ determina el número de vecinos más cercanos considerados para clasificar una muestra.
   - **Influencia**:
     - **Bajo Valor de $K$**: Puede llevar a alta varianza y sobreajuste (overfitting), ya que el modelo puede ser sensible a los datos de entrenamiento.
     - **Alto Valor de $K$**: Puede llevar a subajuste (underfitting), ya que el modelo puede suavizar demasiado la frontera de decisión.
   - **Optimización**: Se busca el valor de $K$ que maximiza el rendimiento del modelo mediante técnicas como validación cruzada.

2. **Métrica de Distancia**:
   - **Descripción**: La métrica de distancia determina cómo se mide la similitud entre puntos.
   - **Influencia**:
     - **Euclidiana**: Adecuada para datos en la misma escala.
     - **Manhattan**: Útil para datos dispersos con características en diferentes escalas.
     - **Minkowski**: Permite ajustar el parámetro $p$ para adaptarse a diferentes distribuciones de datos.
   - **Optimización**: Se selecciona la métrica que mejor refleja la similitud entre muestras para mejorar el rendimiento del modelo.

#### Influencia en las Métricas de Evaluación

- **Precisión, Recall y F1-Score**: La elección de $K$ y la métrica de distancia afecta la capacidad del modelo para clasificar correctamente las muestras. Un valor de $K$ inapropiado o una métrica de distancia inadecuada pueden reducir la precisión y el recall, afectando el F1-Score.
  
- **Exactitud**: La exactitud puede verse afectada si la selección de vecinos no refleja correctamente la distribución de las clases en los datos.

### 2. Soporte Vector Machines (SVM) para Clasificación

#### Definición y Procedimiento

Support Vector Machines (SVM) busca el hiperplano óptimo que maximiza el margen entre las clases. El margen es la distancia entre el hiperplano y los vectores de soporte, que son los puntos más cercanos a este hiperplano.

##### **Definición del Hiperplano**

El hiperplano se define como:
$
\mathbf{w}^\top \mathbf{x} + b = 0
$
donde $\mathbf{w}$ es el vector normal al hiperplano y $b$ es el sesgo.

##### **Maximización del Margen**

El margen se define como:

$
\text{Margen} = \frac{2}{\|\mathbf{w}\|}
$

y el problema de optimización para maximizar el margen se formula como:

$
\min_{\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2
$

sujeto a:

$
y_i (\mathbf{w}^\top \mathbf{x}_i + b) \geq 1 \quad \text{para todo } i
$

##### **SVM con Núcleo**

Para datos no linealmente separables, SVM usa funciones núcleo para transformar los datos a un espacio de mayor dimensión.

El núcleo RBF (Radial Basis Function) se define como:

$
K(\mathbf{x}_i, \mathbf{x}_j) = \exp \left( -\frac{\|\mathbf{x}_i - \mathbf{x}_j\|^2}{2\sigma^2} \right)
$
donde $\sigma$ es el parámetro del núcleo.

#### Hiperparámetros en SVM

1. **Parámetro de Penalización $C$**:
   - **Descripción**: $C$ controla el equilibrio entre maximizar el margen y minimizar los errores de clasificación.
   - **Influencia**:
     - **Bajo Valor de $C$**: Permite más errores en la clasificación, lo cual puede resultar en un margen más amplio pero menos ajustado (subajuste).
     - **Alto Valor de $C$**: Reduce los errores en la clasificación, lo cual puede llevar a un margen más estrecho y ajustar demasiado el modelo a los datos (sobreajuste).
   - **Optimización**: Se busca un valor de $C$ que balancee el margen y el error de clasificación para mejorar el rendimiento del modelo.

2. **Parámetro del Núcleo $\sigma$**:
   - **Descripción**: $\sigma$ controla la amplitud de la función de núcleo en el caso del núcleo RBF. También se puede ajustar el parámetro $\gamma$ que es inversamente proporcional a $\sigma^2$:
   
    $\gamma = \frac{1}{2\sigma^2}$.
   
   - **Influencia**:
     - **Bajo Valor de $\sigma$**: El núcleo tiene un alcance más amplio, lo cual puede resultar en un modelo que no captura bien la complejidad de los datos (subajuste).
     - **Alto Valor de $\sigma$**: El núcleo tiene un alcance más estrecho, lo cual puede llevar a un ajuste excesivo a los datos de entrenamiento (sobreajuste).
   - **Optimización**: Se selecciona $\sigma$ que permite al modelo captar la estructura de los datos sin sobreajustar.

#### Búsqueda de Hiperparámetros con `param_grid`

Para optimizar los hiperparámetros, se utiliza un proceso de búsqueda que implica definir un `param_grid`, que es una rejilla de valores posibles para los hiperparámetros:

- **Grid Search**: Evalúa todas las combinaciones posibles de los valores de hiperparámetros definidos en el `param_grid` mediante validación cruzada. El mejor conjunto de hiperparámetros se selecciona basándose en la métrica de evaluación (precisión, recall, F1-Score, etc.).

  **Para K-NN**:
  - **Parámetros**: `n_neighbors` (número de vecinos) y `metric` (métrica de distancia).

  **Para SVM**:
  - **Parámetros**: `C` (parámetro de penalización), `kernel` (tipo de núcleo) y `gamma` (parámetro del núcleo RBF).

- **Influencia en las Métricas de Evaluación**: La selección óptima de hiperparámetros mejora el rendimiento del modelo al equilibrar sesgo y varianza. Las métricas de evaluación (precisión, recall, F1-Score, exactitud) se optimizan ajustando los hiperparámetros para reflejar mejor la estructura de los datos.

<H1>Algoritmos de Clasificación (K-NN y SVM).</H1>

**Conceptos clave:**

K-Nearest Neighbors (K-NN) para clasificación.
                                         
Soporte Vector Machines (SVM) para clasificación.
Selección de hiperparámetros y validación cruzada.


Proyecto: Clasificación de dígitos manuscritos.
Utilizar el dataset MNIST de dígitos manuscritos y aplicar K-NN y SVM para realizar la clasificación. Evaluar y comparar ambos modelos.

**Paso 1: Importar Librerías y Dataset**

Primero, necesitamos importar las librerías necesarias y el dataset MNIST. Utilizaremos la biblioteca scikit-learn, que incluye herramientas para manejar el dataset MNIST y aplicar los algoritmos de clasificación.

In [1]:
# Importar librerías necesarias
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import GridSearchCV

# Cargar el dataset MNIST
mnist = datasets.fetch_openml('mnist_784', version=1)
X, y = mnist.data, mnist.target

# Mostrar las dimensiones del dataset
print(f"Dimensiones de X: {X.shape}")
print(f"Dimensiones de y: {y.shape}")

Dimensiones de X: (70000, 784)
Dimensiones de y: (70000,)


In [2]:
mnist

{'data':        pixel1  pixel2  pixel3  pixel4  pixel5  pixel6  pixel7  pixel8  pixel9  \
 0           0       0       0       0       0       0       0       0       0   
 1           0       0       0       0       0       0       0       0       0   
 2           0       0       0       0       0       0       0       0       0   
 3           0       0       0       0       0       0       0       0       0   
 4           0       0       0       0       0       0       0       0       0   
 ...       ...     ...     ...     ...     ...     ...     ...     ...     ...   
 69995       0       0       0       0       0       0       0       0       0   
 69996       0       0       0       0       0       0       0       0       0   
 69997       0       0       0       0       0       0       0       0       0   
 69998       0       0       0       0       0       0       0       0       0   
 69999       0       0       0       0       0       0       0       0       0   
 
      

**Paso 2: Preparar los Datos**

Dividimos el dataset en conjuntos de entrenamiento y prueba, y escalamos las características para que todos los atributos tengan la misma escala, lo cual es importante para los modelos de clasificación.

In [3]:
# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

**Paso 3: Implementar y Evaluar el Modelo K-Nearest Neighbors (K-NN)**

Entrenamos el modelo K-NN y evaluamos su rendimiento.

In [4]:
# Entrenar el modelo K-NN
knn = KNeighborsClassifier()
knn.fit(X_train_scaled, y_train)

# Hacer predicciones
y_pred_knn = knn.predict(X_test_scaled)

# Evaluar el modelo K-NN
accuracy_knn = accuracy_score(y_test, y_pred_knn)

In [5]:
print(f"Precisión del modelo K-NN: {accuracy_knn:.4f}")
print("Reporte de clasificación del modelo K-NN:")
print(classification_report(y_test, y_pred_knn))

Precisión del modelo K-NN: 0.9430
Reporte de clasificación del modelo K-NN:
              precision    recall  f1-score   support

           0       0.96      0.98      0.97      2058
           1       0.95      0.99      0.97      2364
           2       0.95      0.93      0.94      2133
           3       0.93      0.94      0.94      2176
           4       0.94      0.93      0.93      1936
           5       0.94      0.93      0.93      1915
           6       0.96      0.97      0.97      2088
           7       0.94      0.93      0.93      2248
           8       0.97      0.89      0.93      1992
           9       0.91      0.92      0.91      2090

    accuracy                           0.94     21000
   macro avg       0.94      0.94      0.94     21000
weighted avg       0.94      0.94      0.94     21000



**Paso 4: Implementar y Evaluar el Modelo Support Vector Machines (SVM)**

Entrenamos el modelo SVM y evaluamos su rendimiento.

In [6]:
# Entrenar el modelo SVM
svm = SVC()
svm.fit(X_train_scaled, y_train)

In [7]:
# Hacer predicciones
y_pred_svm = svm.predict(X_test_scaled)

In [8]:
# Evaluar el modelo SVM
accuracy_svm = accuracy_score(y_test, y_pred_svm)
print(f"Precisión del modelo SVM: {accuracy_svm:.4f}")
print("Reporte de clasificación del modelo SVM:")
print(classification_report(y_test, y_pred_svm))

Precisión del modelo SVM: 0.9623
Reporte de clasificación del modelo SVM:
              precision    recall  f1-score   support

           0       0.99      0.98      0.98      2058
           1       0.98      0.99      0.98      2364
           2       0.95      0.96      0.96      2133
           3       0.96      0.95      0.96      2176
           4       0.96      0.96      0.96      1936
           5       0.97      0.95      0.96      1915
           6       0.97      0.98      0.97      2088
           7       0.92      0.97      0.94      2248
           8       0.97      0.95      0.96      1992
           9       0.96      0.93      0.95      2090

    accuracy                           0.96     21000
   macro avg       0.96      0.96      0.96     21000
weighted avg       0.96      0.96      0.96     21000



**Paso 5: Optimización de Hiperparámetros**

Para obtener el mejor rendimiento de nuestros modelos, realizamos una búsqueda en cuadrícula (Grid Search) para ajustar los hiperparámetros.

**Para K-NN:**

In [9]:
# Definir los parámetros para Grid Search
param_grid_knn = {'n_neighbors': [5, 7, 10]}

# Realizar Grid Search
grid_search_knn = GridSearchCV(KNeighborsClassifier(), param_grid_knn, cv=3, n_jobs=-1)

In [10]:
grid_search_knn.fit(X_train_scaled, y_train)

In [12]:
# Mejor parámetro y precisión
print("Mejores parámetros para K-NN:", grid_search_knn.best_params_)
print("Mejor precisión para K-NN:", grid_search_knn.best_score_)

Mejores parámetros para K-NN: {'n_neighbors': 5}
Mejor precisión para K-NN: 0.9378163656283703


**Para SVM:**

In [15]:
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# Definir un conjunto reducido de parámetros para Grid Search
param_grid_svm = {
    'C': [0.1, 1],           # Valores de C reducidos para limitar la búsqueda
    'kernel': ['linear']     # Solo el kernel lineal para reducir el espacio de búsqueda
}

# Configurar Grid Search con una configuración más ligera
grid_search_svm = GridSearchCV(
    SVC(),
    param_grid_svm,
    cv=3,                    # Menor número de pliegues para reducir el uso de memoria
    n_jobs=1,                # Usar solo un núcleo para evitar sobrecargar la memoria
    verbose=1                # Imprimir información durante el ajuste para monitorear el progreso
)

In [16]:
# Ajustar Grid Search al conjunto de datos reducido (si se utiliza uno)
grid_search_svm.fit(X_train_scaled, y_train)  # Si usas el dataset completo, asegúrate de que tu sistema tiene suficiente memoria

Fitting 3 folds for each of 2 candidates, totalling 6 fits


In [17]:
# Mejor parámetro y precisión
print("Mejores parámetros para SVM:", grid_search_svm.best_params_)
print("Mejor precisión para SVM:", grid_search_svm.best_score_)

Mejores parámetros para SVM: {'C': 0.1, 'kernel': 'linear'}
Mejor precisión para SVM: 0.926979619680381


**Paso 6: Comparación y Conclusiones**

Finalmente, comparamos el rendimiento de los modelos antes y después de la optimización de hiperparámetros y discutimos los resultados.

In [18]:
print(f"\nComparación de Modelos:")
print(f"Precisión del K-NN (antes de la optimización): {accuracy_knn:.4f}")
print(f"Precisión del SVM (antes de la optimización): {accuracy_svm:.4f}")


Comparación de Modelos:
Precisión del K-NN (antes de la optimización): 0.9430
Precisión del SVM (antes de la optimización): 0.9623


In [19]:
# Evaluar los modelos optimizados
y_pred_knn_opt = grid_search_knn.best_estimator_.predict(X_test_scaled)
y_pred_svm_opt = grid_search_svm.best_estimator_.predict(X_test_scaled)

In [20]:
# Precisión de los modelos optimizados
accuracy_knn_opt = accuracy_score(y_test, y_pred_knn_opt)
accuracy_svm_opt = accuracy_score(y_test, y_pred_svm_opt)

In [21]:
print(f"Precisión del K-NN (después de la optimización): {accuracy_knn_opt:.4f}")
print(f"Precisión del SVM (después de la optimización): {accuracy_svm_opt:.4f}")

Precisión del K-NN (después de la optimización): 0.9430
Precisión del SVM (después de la optimización): 0.9314
