
# El proceso de clasificación lineal

La clasificación es una subcategoría del aprendizaje supervisado donde el objetivo es
predecir las etiquetas de clase de nuevas instancias basadas en observaciones pasadas (aprendizaje).
Esas etiquetas de clase son valores discretos y desordenados que pueden entenderse como
membresías grupales de las instancias.



1. Clasificadores lineales.
2. Métricas de clasificación.
3. Máquinas de vectores de soporte (SVM)
4. Clasificación multiclase en clasificadores binarios.


## 1. Clasificadores lineales

### 1.1 Perceptrón

Fué propuesto por F. Rosenblatt, 1958 - Basado en el modelo neuronal propuesto por McCulloch-Pitts. Es un algoritmo
que **aprende de forma óptima los coeficientes de los pesos** de la neurona que una vez multiplicados por las características
de entrada permite determinar si la neurona se activa o no.

**Teoría básica**

Este problema permite moldear una tarea de clasificación binaria donde tenemos 2 clases ( 1 y 0) en la que definimos
una función de activación $\phi(z)$ que se calcula como una combinación lineal de un vector de características
$\mathbf{x}$ y un vector de pesos $\mathbf{w}$. Donde $z = w_1x_1 + \ldots + w_mx_m$.

Entonces, dado un ejemplo $x^{(i)}$, si la salida de $\phi(z)$ es mayor que un determinado valor ( _threshold_ )
$\theta$ podemos predecir que este pertenece a la clase 1 y en de lo contrario diremos que pertenece a la clase -1.
esto se conoce como función escalón (en inglés _step function_ ).

$\phi(z) = \begin{cases}
 1 & \text{if z} >= 0, \\
 0 & \text{en caso contrario}
\end{cases}$

Uso del perceptrón en scikit:

In [None]:
from sklearn.linear_model import Perceptron
X,y = ... # nuestros datos
clf = Perceptron(tol=1e-3, random_state=0)
clf.fit(X, y)
clf.predict(X)

### 1.2 Regresión Logística
Aunque el método del perceptrón ofrece una introducción sencilla a los algoritmos de aprendizaje automático
para la tarea de clasificación, su mayor desventaja es que nunca converge si las clases no son perfectamente linealmente
separables.

La regresión logística es un modelo de clasificación que sencillo de usar pero que funciona muy bien en clases
linealmente separables. Es uno de los algoritmos de clasificación más utilizados en la industria. Hay que tener clara
la idea que la regresión logística es un **modelo probabilístico**.

In [None]:
from sklearn.linear_model import LogisticRegression
X,y = ... # nuestros datos
clf = LogisticRegression(random_state=0)
clf.fit(X, y)
clf.predict(X) # predict_proba

## 2. Métricas
Una vez que hemos entrenado nuestro modelo, tenemos la necesidad de evaluar los resultados obtenidos con alguna
medida que sea objetiva. Las medidas que explicaremos en esta sección se calculan a partir de una matriz de
confusión que nos permite guardar cuatro medidas básicas a partir de considerar que una de las clases es positiva
y la otra es la negativa.

- _True Positives_ (TP): El algoritmo clasifica una muestra de la clase positiva como miembro de la clase
positiva.
- _True Negatives_ (TN): El algoritmo clasifica una muestra de la clase negativa como miembro de la clase
negativa.
- _False Positives_ (FP): El algoritmo clasifica una muestra de la clase negativa como miembro de la clase
positiva.
- _False Negatives_ (FN): El algoritmo clasifica una muestra de la clase positiva como miembro de la clase
negativa.

Podemos observar la matriz de confusión en el siguiente esquema:

![image](img/confusion_matrix.png "fuente: Python Machine Learning")

Esta matriz se puede obtener de forma sencilla usando la función `confusion_matrix` de la librería [scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html?highlight=confusion%20matrix#sklearn-metrics-confusion-matrix)
y se puede visualizar con la función [ConfusionMatrixDisplay](https://scikit-learn
.org/stable/modules/generated/sklearn.metrics.ConfusionMatrixDisplay.html?highlight=confusion%20matrix#sklearn-metrics-confusionmatrixdisplay)

A partir de estas medidas de primer orden podemos obtener algunas otras más completas:

$$ Error = \frac{FP+FN}{FP+FN+TP+TN}$$
<br>
$$ Exactitud = \frac{TP+TN}{FP+FN+TP+TN} = 1 - Error$$, también conocido como _Accuracy_.

Por otro lado tenemos las medidas Ratio de Verdaderos Positivos (True Positive Rate, TPR) y el Ratio de Falsos Positivos
(False Positive Rate, FPR) que están diseñadas para problemas en los que hay una clase con más muestras que la otra:

$$ FPR = \frac{FP}{N} = \frac{FP}{FP + TN} $$
<br>
$$ TPR = \frac{TP}{P} = \frac{TP}{FN+TP} $$

Por último hablaremos de precisión (_precision_) y la sensibilidad (_recall_) relacionadas con los ratios de verdaderos
positivos y verdaderos negativos:

$$ Precisión = \frac{TP}{TP+FP}$$
<br>
$$Sensibilidad = TPR = \frac{TP}{FN+TP} $$

Tenemos una medida que engloba estas dos medidas anteriores:

$$ F1 = 2 \frac{Precision \times Sensibilidad}{Precision + Sensibiliad}$$

Por suerte, en scikit-learn tenemos un módulo llamado _metrics_ donde están todas estas (y otras) métricas ya
implementadas.

## 3. Máquinas de vectores de soporte (SVM)

Esta es una de las técnicas más usadas en la actualidad. A diferencia del perceptron donde intentamos minimizar las
clasificaciones erróneas, en esta caso el objetivo de optimización es maximizar el margen entre las clases. El margen
se define como la distancia entre el hiperplano de separación (límite de decisión) y las muestras de entrenamiento
más cercanas a este hiperplano, que son los llamados **vectores de soporte**.


Este método tiene un parámetro, `C`, que sirve como valor de regularización. Este parámetro es útil para permitir que el algoritmo pueda converger en situaciones de errores en la clasificación cuando el conjunto de datos no es
linealmente separable. Usando el hiperparámetro `C` podemos controlar la penalización por realizar una clasificación errónea. 

- Los **valores grandes** de `C` corresponden a penalizaciones de error grandes. 

- Si elegimos **valores más pequeños** para `C` somos menos estrictos con los errores de clasificación errónea. 

Podemos usar el parámetro`C` para controlar el ancho del margen de clasificación y, por lo tanto, ajustar la compensación de sesgo-varianza.

Uso en scikit:

In [None]:
from sklearn.svm import LinearSVC
from sklearn.preprocessing import StandardScaler
X, y = ... # Nuestros datos
scaler = StandardScaler()
scaler.fit(X)
X_scaled = scaler.transform(X)

clf = LinearSVC(C=1.0, random_state=0)
clf.fit(X_scaled, y)




## 4. Clasificación multiclase

Los algoritmos que hemos trabajado en esta sesión, están diseñados para problemas de clasificación binaria. Como tales, no se pueden utilizar para tareas de clasificación de múltiples clases, al menos no directamente.

En su lugar, se pueden utilizar métodos heurísticos para dividir un problema de clasificación de múltiples clases en varios conjuntos de datos de clasificación binaria y entrenar un modelo de clasificación binaria para cada uno.

En particular en scikit siempre tendremos disponible la opción OVR:

### One-vs-rest

Este método implica dividir el conjunto de datos de múltiples clases en varios problemas de clasificación binaria.
Luego, se entrena un clasificador binario para cada uno de los problemas de clasificación binaria creados y se hacen
predicciones utilizando el modelo más confiable.

Por ejemplo, dado un problema de clasificación con múltiples clases con ejemplos para cada clase "rojo", "azul" y
"verde". Esto podría dividirse en tres conjuntos de datos de clasificación binaria de la siguiente manera:

- Problema de clasificación binaria 1: rojo frente a [azul, verde]
- Problema de clasificación binaria 2: azul frente a [rojo, verde]
- Problema de clasificación binaria 3: verde frente a [rojo, azul]

Una posible desventaja de este enfoque es que requiere la creación de un modelo para cada clase. Por ejemplo, tres
clases requieren tres modelos. Esto podría ser un problema para grandes conjuntos de datos, modelos que requieren
grandes tiempos para entrenar o que tienen un gran número de clases.
