# 8. Algoritmos de clasificación de ajuste fino

Este capítulo lo ayudará a optimizar el análisis predictivo mediante la clasificación algoritmos como máquinas de vectores de soporte, árboles de decisión y bosques aleatorios, que son algunos de los algoritmos de clasificación más comunes de la biblioteca de aprendizaje automático de scikit-learn. 

Además, aprenderá a implementar modelos de clasificación basados en árboles, que ha utilizado anteriormente para la regresión. A continuación, aprenderá a elegir las métricas de rendimiento adecuadas para evaluar el rendimiento de un modelo de clasificación. Finalmente, utilizará todas estas habilidades para resolver un problema de predicción de abandono de clientes en el que optimizará y evaluará el mejor algoritmo de clasificación para predecir si un cliente determinado abandonará o no.



Intro

Considere un escenario en el que usted es el líder de ML en una empresa de análisis de marketing. Su empresa se hizo cargo de un proyecto de Amazon para predecir si un usuario comprará o no un producto durante las campañas de venta de temporada festiva. Se le han proporcionado datos anónimos sobre la actividad del cliente en el sitio web de Amazon: la cantidad de productos comprados, sus precios, categorías de productos y más. En tales escenarios, donde la variable objetivo es un valor discreto, por ejemplo, el cliente comprará el producto o no, este tipo se denominan problemas de clasificación. 

Hay una gran cantidad de algoritmos de clasificación disponibles ahora para resolver tales problemas y elegir el correcto es una tarea crucial. Entonces, primero comenzará a explorar el conjunto de datos para obtener algunas observaciones al respecto. A continuación,
- probará diferentes algoritmos de clasificación y evaluará las métricas de rendimiento de cada modelo de clasificación para comprender si el modelo es lo suficientemente bueno para ser utilizado por la compañía. 
- Finalmente, obtendrá el mejor algoritmo de clasificación de todo el grupo de modelos que entrenó, y este modelo se utilizará para predecir si un usuario comprará un producto durante la venta.

## Máquinas de soporte de vectores 
Cuando se trata de datos que son linealmente separables, el objetivo del algoritmo de aprendizaje de la Máquina de vectores de soporte (SVM) es encontrar el límite entre las clases para que haya menos errores de clasificación. Sin embargo, el problema es que puede haber varios límites de decisión (B1, B2), como se puede ver en la siguiente figura:

https://blog.bismart.com/la-clasificaci%C3%B3n-y-la-clusterizaci%C3%B3n-una-explicaci%C3%B3n-pr%C3%A1ctica


<figure>
<center><img src='https://drive.google.com/uc?export=view&id=18K3T0JH4UUWzev9QK6tuudPqrwqutwVg' width="300" />
<figcaption>

Figura 8.1: Límite de decisión múltiple</figcaption></center>
</figure>

Como resultado, surge la pregunta de cuál de los límites es mejor y cómo definir mejor. La solución es utilizar un margen como objetivo de optimización. Un margen se puede describir como la distancia entre el límite y dos puntos (de diferentes clases) que se encuentran más cerca del límite. La Figura 8.2 da una buena definición visual del margen.

El objetivo del algoritmo SVM es maximizar el margen. Repasará la intuición detrás de maximizar el margen en la siguiente sección. Por ahora, debe comprender que el objetivo de un clasificador lineal SVM es aumentar el ancho del límite antes de llegar a un punto de datos. El algoritmo primero averigua el ancho del hiperplano y luego maximiza el margen. Elige el límite de decisión que tiene el margen máximo.


Si bien puede parecer demasiado desalentador al principio, no necesita preocuparse por esto, ya que el algoritmo llevará a cabo internamente todas estas tareas y podrá brindarle la clase objetivo para un punto de datos determinado. Por ejemplo, en la figura anterior, elige $B1$ porque tenía un margen mayor en comparación con $B2$. Puede consultar los márgenes de los límites de decisión de $B1$ y $B2$ en la Figura 8.2:

<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1hVGQlaWkek-DKg_kypCgJuZ_5BuR5dY3' width="300" />
<figcaption>

Figura 8.2: Límite de decisión con un ancho/margen diferente</figcaption></center>
</figure>



Ventajas
- Las SVM son efectivas cuando se trata de datos de alta dimensión, donde el número de dimensiones es mayor que el número de muestras de entrenamiento.
- Las SVM son conocidas por su uso de la función kernel, lo que la convierte en un algoritmo muy versátil.

Nota: Los métodos kernel son funciones matemáticas que se utilizan para convertir datos de un espacio de menor dimensión a un espacio de mayor dimensión, o viceversa.

Desventajas:
- Las SVM no calculan la probabilidad directamente y, en su lugar, utilizan una validación cruzada quíntuple para calcular la probabilidad, lo que puede hacer que el algoritmo sea considerablemente lento.
- Con datos de alta dimensión, es importante elegir la función kernel y el término de regularización, lo que puede hacer que el proceso sea muy lento.

## La intuición detrás del Máximo Margen

<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1cPt_hg1uBUukelapwldLZyvRvEwP-yMT' width="300" />
<figcaption>

Figura 8.3: Interpretación geométrica del margen máximo</figcaption></center>
</figure>


La lógica detrás de tener márgenes grandes en el caso de una SVM es que tienen un 
- error de generalización más bajo 

en comparación con los márgenes pequeños, lo que puede resultar en datos sobreajustados.

Considere la Figura 8.3, donde tiene puntos de datos de dos clases: cuadrados y círculos. Los puntos de datos que están más cerca del límite se denominan 
- vectores de soporte, 

ya que se utilizan para calcular el margen. El margen del lado izquierdo del límite se 
- denomina hiperplano negativo 
- y el margen del lado derecho del límite se denomina hiperplano positivo.



Consideremos el hiperplano positivo y negativo de la siguiente manera:
<h1><center>

$w^{t}x_{pos} + b_0 = 1$ 

$w^{t}x_{neg} + b_0 = -1$

Ecuación de hiperplano positivo y negativo
</center></h1>

En las ecuaciones anteriores:
- $w$ se refiere a la pendiente del hiperplano.
- $b0$ y $b1$ se refieren a las intersecciones de los hiperplanos.
- $T$ se refiere a la transpuesta.
- $x_pos$ y $x_neg$ se refieren a los puntos por los que pasan los hiperplanos positivo y negativo, respectivamente.

Las ecuaciones anteriores también se pueden considerar como una ecuación de una línea:

$y = mx + c$, donde $m$ es la pendiente y $c$ es la intersección. Debido a esta similitud, SVM se denomina clasificador lineal SVM.

Restando las dos ecuaciones anteriores, se obtiene lo siguiente:

<h1><center>

$w^{t}(x_{pos}- x_{neg}) = 2$ 


Figura 8.5: Ecuación combinada de dos hiperplanos separados
</center></h1>

Normalizando la ecuación por el vector $w$, se obtiene lo siguiente, donde $m$ se refiere a los puntos de datos que tienes e $i$ se refiere al $i$-ésimo punto de datos:

<h1><center>

$ \big||w|\big| = 	\sqrt{ \sum_{i=1}^{m} w_{i^2}}$

Figura 8.6: Ecuación normalizada

</center></h1>

La ecuación anterior se reduce de la siguiente manera:

<center>
$ margin = \frac{ w^{t}(x_{pos}- x_{neg})}{\big||w|\big|}$ 
$  = \frac{2}{\big||w|\big|}$

Figura 8.7: Ecuación para margen $m$

</center>

Ahora, la función objetivo se obtiene maximizando el margen dentro de la restricción de que el límite de decisión debería clasificar todos los puntos correctamente.

Ahora, una vez que tenga listo el límite de decisión, puede usar la siguiente ecuación para clasificar los puntos según el lado del límite de decisión en el que se encuentran:

Figura 8.8: Ecuación para separar los puntos de datos en un hiperplano
Para implementar un clasificador basado en SVM, puede usar el módulo scikit-learn de la siguiente manera:

<h1><center>

$w^{t}x_{i} + b_0 \geq 1 $   $ if y_i = 1$ 

$w^{t}x_{i} + b_0 \leq -1 $   $ if y_i = -1$ 

Figura 8.8: Ecuación para separar los puntos de datos en un hiperplano
</center></h1>

Para implementar un clasificador basado en SVM, puede usar el módulo scikit-learn de la siguiente manera:

1. Importar svm desde scikit-learn:

```
 from sklearn import svm
```

2. Cree una instancia del modelo SVM que luego se usará para entrenar en el conjunto de datos:

   model = svm.SVC()

  En la función anterior, también puede especificar el tipo de núcleo (lineal, sigmoide, rbf, etc.), el parámetro de regularización C, el valor gamma del núcleo, etc. Puede leer la lista completa de parámetros disponibles junto con sus valores predeterminados: https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC.

3. Una vez que tenga la instancia del modelo, puede usar `model.fit(X_train, y_train)` para entrenar el modelo y `model.predict(X)` para obtener la predicción.

Hasta ahora ha estado lidiando con el margen duro, que no deja espacio para errores. En otras palabras, todas las instancias de una clase deben estar en un lado del margen. Sin embargo, este comportamiento rígido puede afectar la generalización del modelo. Para resolver esto, puede usar un clasificador de 
- margen suave.

## Casos linealmente inseparables

Con casos linealmente inseparables, como el que se ilustra en la siguiente figura, no puede usar un clasificador de margen rígido. La solución es introducir un nuevo tipo de clasificador, conocido como clasificador de margen suave, utilizando la variable de holgura ξ. La variable de holgura convierte las ecuaciones discutidas en la sección anterior en desigualdades al permitir algunos errores, como se muestra en la Figura 8.9:

<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1tacYCJHi8q-avC6oYJNygpfGuF-7MsgJ' width="300" />
<figcaption>

Figura 8.9: Puntos de datos linealmente inseparables</figcaption></center>
</figure>




Una SVM de margen suave funciona haciendo lo siguiente:
1. Introducción a la variable de holgura
2. Relajación de las restricciones
3. Penalizar la relajación

<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1mXt5qPxnxNihjAyo_7MSO7umYAvK3Di0' width="300" />
<figcaption>

Figura 8.10: Uso de la variable de holgura ξ para datos linealmente inseparables</figcaption></center>
</figure>


Las restricciones lineales se pueden cambiar agregando la variable de holgura a la ecuación en la Figura 8.5 de la siguiente manera:

<h1><center>

$w^{t}x_{i} + b_0 \geq 1 -\xi_i$   $ if y_i = 1$ 

$w^{t}x_{i} + b_0 \leq -1 + \xi_i $   $ if y_i = -1$ 

Figure 8.11: Linear constraints for maximizing margin with slack variable $\xi$
</center></h1>



La función objetivo para puntos de datos linealmente inseparables se obtiene minimizando lo siguiente:

<center>
$ \frac{1}{2}\big||w|\big|^2 +c \big(\sum_{i} \xi_i\big)$

Figura 8.12: Función objetivo a minimizar

</center>


Aquí, $C$ es el parámetro del costo de la penalización (regularización). Este parámetro $C$ se puede especificar como un parámetro al llamar a la función `svm.SVC()`, como se explicó en la sección anterior.



## Casos linealmente inseparables usando el kernel
En el ejemplo anterior, vio cómo puede usar una SVM de margen suave para clasificar conjuntos de datos usando la variable de holgura. Sin embargo, puede haber escenarios en los que sea bastante difícil separar los datos. Por ejemplo, en la siguiente figura, sería imposible tener un límite de decisión utilizando la variable de holgura y un hiperplano lineal:



<figure>
<center><img src='https://drive.google.com/uc?export=view&id=17q78lYjS99MWSpqkFq5lKWc8JuPHeS--' width="300" />
<figcaption>


Figura 8.13: Puntos de datos linealmente inseparables</figcaption></center>
</figure>

En este escenario, puede utilizar el concepto de núcleo, que crea una combinación no lineal de características originales (X1, X2) para proyectar a un espacio de mayor dimensión a través de una función de mapeo, φ, para hacerlo linealmente separable:


<figure>
<center><img src='https://drive.google.com/uc?export=view&id=1DxNzquMAQ9k5xHynhLqDsYJ5TEg6Etde' width="500" />
<figcaption>


Figura 8.14: Interpretación geométrica y ecuación para proyección de una dimensión baja a una alta</figcaption></center>
</figure>

El problema con este mapeo explícito de funciones es que la dimensionalidad de la función puede ser muy alta, lo que dificulta su representación explícita en la memoria. Esto se mitiga usando el truco del núcleo. El truco del kernel básicamente reemplaza el producto escalar xiT xj con un kernel φ xiTφ(xj), que se puede definir de la siguiente manera:

<center>
$ \frac{1}{2}\big||w|\big|^2 +c \big(\sum_{i} \xi_i\big)$

Figura 8.15: Función del núcleo

</center>