# Modelos de clasificación

### Información del curso:
- **Nombre del curso**: Introducción al aprendizaje automático
- **Profesor**: Dr. Jesús Emmanuel Solís Pérez
- **Email**: jsolisp@unam.mx
- **Semestre**: 2025-1
- **Fecha**: Diciembre 09, 2024
- **Enlace del curso**: [https://jesolisp.github.io/Curso-Introduccion-Aprendizaje-Automatico](https://jesolisp.github.io/Curso-Introduccion-Aprendizaje-Automatico/docs/home.html)

---

### Información del Notebook:
- **Título del Notebook**: Modelos de clasificación
- **Versión**: 1.0
- **Última modificación**: November 17, 2024
- **Descripción**: Este cuaderno tiene como finalidad dar a conocer las aplicaciones y tipos de aprendizaje automático.

---

### Instrucciones:
1. **Orden de ejecución de celdas**: Ejecute las celdas en el orden presentado para garantizar que las dependencias se manejen adecuadamente.
2. **Envío**: Guarde y envíe este cuaderno como un archivo `.ipynb` antes de la fecha de vencimiento.
3. **Comentarios y documentación**: asegúrese de agregar comentarios y documentación adecuados a su código.

---

### Licencia:
- Este cuaderno se proporciona únicamente con fines educativos. Todos los derechos reservados © 2024 ENES Juriquilla.

---

## Evaluación de modelos de clasificación

En un clasificador binario sólo se evalúan dos clases: clase $0$ y clase $1$. Por ejemplo, para una base de datos de cáncer tenemos:

* _Casos negativos_: Clase $1$ (masas malignas)
* _Casos positivos_: Clase $0$ (masas benignas)

De lo anterior, tenemos 4 tipos de observaciones:

* **True Positives (TP)**. Masas malignas que se clasifican como malignas.
* **False Positives (FP)**. Masas benignas que se clasifican como malignas.
* **True Negatives (TN)**. Masas malignas que se clasifican como malignas.
* **False Negatives (FN)**. Masas malignas que se clasifican como benignas.

```{figure} images/TP-FP-FN-TN.png
 ---
 width: 340px
 height: 180px
 name: fig:TP-FP-FN-TN.png
 ---
 Imagen recuperada de {cite:t}`olson2015best`.
```

### Ratios de clasificación

Para poder utilizar los siguientes ratios, es necesaria la siguiente instrucción: `from sklearn import metrics`

* Accuracy (Exactitud)

Mide la cantidad de casos que se han clasificado correctamente a partir de la siguiente ecuación

$$
 ACC = \frac{TP + TN}{TP + TN + FP + FN} = \frac{\text{Número de observaciones correctamente clasificadas}}{\text{Número de observaciones totales}}.
$$

`metrics.accuracy_score(real_classes, predictions)`

* Precission (Precisión)

Mide la habilidad del modelo para clasificar los casos positivos como positivos

$$
 PRE = \frac{TP}{TP + FP} = \frac{\text{Número de observaciones positivas correctamente clasificadas}}{\text{Número de observaciones clasificadas como positivas}}.
$$

`metrics.average_precision_score(real_classes, predictions)`

* Sensitivity (Sensibilidad)

Mide la habilidad del modelo para encontrar todos los casos positivos

$$
 SEN = \frac{TP}{TP + FN} = \frac{\text{Número de observaciones positivas clasificadas como positivas}}{\text{Número de observaciones positivas totales}}
$$

`metrics.recall_score(real_classes, predictions)`

* Matriz de confusión

Una alternativa y sencilla de comparar cómo el modelo ha clasificado cada observación

`from sklearn.metrics import confusion_matrix`

`confusion_matrix(real_classes, predictions)`

* F1 score

Es una medida ponderada entre SEN y ACC:

$$
 F_{1} = 2\cdot \frac{1}{\frac{1}{ACC} + \frac{1}{SEN}} = 2\cdot \frac{ACC\cdot SEN}{ACC + SEN}.
$$

`metrics.f1_score(real_classes, predictions)`

* False Positive Ratio

Es una medida de las probabilidades del modelo para asignar una clase positiva a un caso negativo:

$$
 FPR = \frac{FP}{FP + TN} = \frac{\text{Número de observaciones negativas clasificadas como positivas}}{\text{Número de observaciones negativas}}.
$$

`fpr(real_classes, predictions)`

* Area Under the Curve (ROC-AUC)

Permite encontrar un modelo que optimice la compensación entre FP y TP. El área debajo de la curva nos permite hacer la elección del modelo. Por ejemplo, si el área se encuentra al 100% entonces el modelo es capaz de distinguir entre resultados negativos y positivos la mayor parte del tiempo. Cuanto menor sea el área, peor será la clasificación.

```{figure} images/ROC.png
 ---
 width: 340px
 height: 180px
 name: fig:ROC.png
 ---
```

`metrics.roc_auc_score(real_classes, predictions)`

## Regresión logística

Los modelos lineales suelen utilizarse para la clasificación. Para ello, consideramos una clasificación binaria utilizando la siguiente ecuación

$$
 \hat{y} = \beta_{0}\cdot x_{1} + \beta_{1}\cdot x_{2} + \cdots + \beta_{p}\cdot x_{p} + b > 0.
$$

Como podemos observar, se parece mucho a la ecuación de un OLS con la diferencia de que establecemos el umbral del valor predicho en cero. Si la ecuación anterior es menor que cero, predecimos la clase $-1$; si es mayor que cero entonces la clase $+1$.

| Modelo              | Variable objetivo  | Rango variable       |
|:-------------------:|:------------------:|:--------------------:|
| Regresión lineal    | Variable numérica  | (-$\infty$,$\infty$) |
| Regresión logística | Probabilidad clase | $[0,1]$              |

Un clasificador binario separa dos clases utilizando una línea, un plano o un hiperplano. Los dos algoritmos de clasificación lineal más utilizados son: **regresión logística** `linear_model.LogisticRegression` y **máquinas de soporte vectorial lineal** `svm.LinearSVC`.

Al generar una línea, se puede caer en el error de obtener valores distintos de $0$ y $1$. Esto conlleva a que no se estaría cumpliendo la condición de la probabilidad debe estar en el intervalo $[0,1]$.

Para evitar este problema, la regresión logística (Cox, 1958) transforma el valor obtenido por OLS con una función cuyo rango $\in(0,1)$. En la literatura podemos encontrar diversas funciones que cumplen con lo anterior. La más utilizada es la **función logística** o **sigmoide**:

$$
 \varphi(\eta) = \frac{1}{1 + \exp(-\eta)}.
$$

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-3,3,100)

logsig = lambda n: 1/(1 + np.exp(-n)) # <--

#def logsig(n):
#    return 1/(1 + np.exp(-n))

plt.figure()
plt.plot(x,logsig(x))
plt.grid('on')
plt.show()

Sustituyendo la ecuación del modelo lineal en la ecuación anterior para obtener:

$$
 P(y=1|X = x) = \frac{\beta_{0}\cdot x_{0} + \beta_{1}\cdot x_{1} + \cdots + \beta_{p}\cdot x_{p} + b}{1 + \exp\left( \beta_{0}\cdot x_{0} + \beta_{1}\cdot x_{1} + \cdots + \beta_{p}\cdot x_{p} + b \right)},
$$

donde $P(y=1|X = x)$ se interpreta como la probabilidad de que $y$ adquiera el valor de $1$, dados los predictores $x_{0},x_{1},\dots,x_{p}$.

Ahora bien, `sklearn` permite trabajar con un modelo de regresión logística con un parámetro de compensación que rige la fuerza de la regularización llamado **C**. Aquí: 

* Si $C\gg$, entonces el modelo intenta ajustarse al conjunto de entrenamiento lo mejor posible.
* Si $C\ll$, entonces el modelo intenta encontrar un vector de coeficientes $\beta$ cercano a cero.

Además, el parámetro C influye de la siguiente manera:

* Si $C<$, entonces los algoritmos intenten ajustarse a la mayor cantidad de datos.
* Si $C>$, entonces los algoritmos tratan de que se clasifiquen correctamente.

```{note}
 Entiendase que $<$ denota un valor 'bajo' (pequeño) y $>$ denota un valor 'alto' (grande).
```

El valor por default en `linear_model.LogisticRegression` es $C = 1$ que proporciona un rendimiento bastante aceptable, con una precisión del 95% tanto en el conjunto de entrenamiento como en el de prueba.

---
### Ejemplo 1
Para trabajar el modelo de regresión logística, vamos a utilizar la base de datos Cáncer de mama Wisconsin (diagnóstico) {cite}`BreastCancerWisconsin`

En esta base de datos, las características se calculan a partir de una imagen digitalizada de una masa mamaria. 

**Información de los atributos**
1. Número de identificación
2. Diagnóstico (M = maligno, B = benigno)
3-32)

Se calculan diez características de valor real para cada núcleo celular:

* radio (media de las distancias desde el centro hasta los puntos del perímetro)
* textura (desviación estándar de los valores de la escala de grises)
* perímetro
* área
* suavidad (variación local en longitudes de radio)
* compacidad (perímetro ^ 2 / área - 1.0)
* concavidad (severidad de las porciones cóncavas del contorno)
* puntos cóncavos (número de porciones cóncavas del contorno)
* simetría
* dimensión fractal ("aproximación de la línea costera" - 1)

La media, el error estándar y "peor" o mayor (media de los tres valores más grandes) de estas características se calcularon para cada imagen, resultando en 30 funciones. Por ejemplo, el campo 3 es Radio medio, campo 13 es Radio SE, el campo 23 es Peor radio (Dua y Graff, 2019).

Todos los valores de las funciones se recodifican con cuatro dígitos significativos.

Faltan valores de atributo: ninguno

Distribución de clases: 357 benignas, 212 malignas

Una de las imágenes digitalizadas que conforman la base de datos es la siguiente:

<img src="pictures/dataset-card.jpg" width=340 height=180 />


## _K_ vecinos más cercanos.
## Árboles de decisión.
## Máquinas de soporte vectorial.