# CAPÍTULO 5: 
* Naive Bayes 
* Por qué la Clasificación Bayesiana Exacta es Impráctica 
* La Solución Ingenua 
* Variables Predictoras Numéricas 
* Lecturas Adicionales 
* Análisis Discriminante 
* Matriz de Covarianza 
* Discriminante Lineal de Fisher 
* Un Ejemplo Sencillo 
* Lecturas Adicionales 
* Regresión Logística
* Función de Respuesta Logística y Logit     
* Regresión Logística y el Modelo Lineal Generalizado (GLM)       
* Modelos Lineales Generalizados 
* Valores Predichos de la Regresión Logística 
* Interpretación de los Coeficientes y Razones de Probabilidades (Odds Ratios) 
* Similitudes y Diferencias entre Regresión Lineal y Logística 
* Evaluación del Modelo 
* Lecturas Adicionales 
* Evaluación de Modelos de Clasificación 
* Matriz de Confusión 
* El Problema de Clases Raras 
* Precisión, Sensibilidad (Recall), y Especificidad 
* Curva ROC 
* AUC 
* Lift 
* Lecturas Adicionales
* Estrategias para Datos Desbalanceados
* Submuestreo (Undersampling)
* Sobremuestreo y Pesos para Arriba/Abajo (Oversampling and Up/Down Weighting)
* Generación de Datos
* Clasificación Basada en Costos
* Exploración de las Predicciones
* Lecturas Adicionales
* Resumen

# Clasificación

Los científicos de datos a menudo tienen la tarea de automatizar decisiones para problemas empresariales. ¿Es un correo electrónico un intento de phishing? ¿Es probable que un cliente se dé de baja? ¿Es probable que el usuario web haga clic en un anuncio? Estos son todos problemas de clasificación, una forma de aprendizaje supervisado en la que primero entrenamos un modelo con datos donde el resultado es conocido y luego aplicamos el modelo a datos donde el resultado no es conocido. La clasificación es quizás la forma más importante de predicción: el objetivo es predecir si un registro es un 1 o un 0 (phishing/no phishing, clic/no clic, baja/no baja), o en algunos casos, una de varias categorías (por ejemplo, la clasificación de la bandeja de entrada de Gmail en "principal", "social", "promocional" o "foros").

A menudo, necesitamos más que una simple clasificación binaria: queremos conocer la probabilidad pronosticada de que un caso pertenezca a una clase. En lugar de que un modelo simplemente asigne una clasificación binaria, la mayoría de los algoritmos pueden devolver un puntaje de probabilidad (propensión) de pertenecer a la clase de interés. De hecho, con la regresión logística, la salida predeterminada en R está en la escala de logaritmos de probabilidades, y esto debe transformarse a una propensión. En scikit-learn de Python, la regresión logística, al igual que la mayoría de los métodos de clasificación, proporciona dos métodos de predicción: predict (que devuelve la clase) y predict_proba (que devuelve probabilidades para cada clase). Luego, se puede utilizar un umbral deslizante para convertir el puntaje de propensión en una decisión. El enfoque general es el siguiente:

1. Establecer un umbral de probabilidad para la clase de interés, por encima del cual consideramos que un registro pertenece a esa clase.
2. Estimar (con cualquier modelo) la probabilidad de que un registro pertenezca a la clase de interés.
3. Si esa probabilidad está por encima del umbral establecido, asignar el nuevo registro a la clase de interés.

Cuanto mayor sea el umbral, menos registros se predicción como 1, es decir, como pertenecientes a la clase de interés. Cuanto menor sea el umbral, más registros se predicen como 1. Este capítulo aborda varias técnicas clave para la clasificación y la estimación de propensiones; se describen métodos adicionales que pueden utilizarse tanto para la clasificación como para la predicción numérica en el siguiente capítulo.

gorías.

# ¿Más de dos categorías?
La gran mayoría de los problemas involucran una respuesta binaria. Sin embargo, algunos problemas de clasificación implican una respuesta con más de dos resultados posibles. Por ejemplo, en el aniversario del contrato de suscripción de un cliente, podría haber tres resultados: el cliente se va o "se da de baja" $(Y = 2)$, pasa a un contrato mensual $(Y = 1)$ o firma un nuevo contrato a largo plazo $(Y = 0)$. El objetivo es predecir $Y = j$ para $j = 0$, $1$ o $2$. La mayoría de los métodos de clasificación en este capítulo se pueden aplicar, ya sea directamente o con adaptaciones modestas, a respuestas que tienen más de dos resultados.

Incluso en el caso de más de dos resultados, el problema a menudo se puede reformular como una serie de problemas binarios utilizando probabilidades condicionales. Por ejemplo, para predecir el resultado del contrato, puedes resolver dos problemas de predicción binaria:
- Predecir si $Y = 0 o Y > 0$.
- Dado que $Y > 0$, predecir si $Y = 1$  o  $Y = 2$.

En este caso, tiene sentido dividir el problema en dos casos: (1) si el cliente se da de baja y (2) si no se da de baja, qué tipo de contrato elegirá. Desde el punto de vista del ajuste del modelo, a menudo es ventajoso convertir el problema de clasificación múltiple en una serie de problemas binarios. Esto es especialmente cierto cuando una categoría es mucho más común que las otras categorías.

# Naive Bayes

Naive Bayes es un algoritmo que utiliza la probabilidad de observar valores predictores, dados un resultado, para estimar lo que realmente interesa: la probabilidad de observar el resultado Y = i, dados un conjunto de valores predictores.

**Nota:**

Esta y las secciones siguientes en este capítulo © 2020 Datastats, LLC, Peter Bruce, Andrew Bruce y Peter Gedeck; se utilizan con permiso.

### Términos Clave para Naive Bayes:
1. **Probabilidad Condicional**
   - La probabilidad de observar algún evento (digamos, $X = i$) dado algún otro evento (digamos, $Y = i$), escrita como $P(X_i | Y_i)$.

2. **Probabilidad Posterior**
   - La probabilidad de un resultado después de que la información del predictor ha sido incorporada (en contraste con la probabilidad anterior de los resultados, sin tener en cuenta la información del predictor).

Para entender la clasificación ingenua bayesiana, podemos comenzar imaginando una clasificación bayesiana completa o exacta. Para cada registro que se va a clasificar:

1. Encuentra todos los demás registros con el mismo perfil de predictor (es decir, donde los valores del predictor son iguales).
2. Determina a qué clases pertenecen esos registros y cuál es la clase más prevalente (es decir, la más probable).
3. Asigna esa clase al nuevo registro.

El enfoque anterior implica encontrar todos los registros en la muestra que son exactamente como el nuevo registro que se va a clasificar, en el sentido de que todos los valores del predictor son idénticos.

**Nota:**

En el algoritmo estándar de Naive Bayes, las variables predictoras deben ser variables categóricas (factor). Consulta "Numeric Predictor Variables" en la página 200 para ver dos soluciones alternativas para utilizar variables continuas.

# Por qué la Clasificación Bayesiana Exacta es Impráctica

La clasificación bayesiana exacta se vuelve impráctica cuando el número de variables predictoras supera un puñado. Muchos de los registros que se deben clasificar no tendrán coincidencias exactas. Considera un modelo para predecir el voto basado en variables demográficas. Incluso una muestra considerable puede no contener ni siquiera una coincidencia para un nuevo registro que sea un hombre hispano con alto ingreso del Medio Oeste de los Estados Unidos, que votó en la última elección, no votó en la elección anterior, tiene tres hijas y un hijo, y está divorciado. Y esto es con solo ocho variables, un número pequeño para la mayoría de los problemas de clasificación. La adición de una sola nueva variable con cinco categorías igualmente frecuentes reduce la probabilidad de una coincidencia por un factor de 5.

# The Naive Solution "La Solución Ingenua

En la solución ingenua de Bayes, ya no restringimos el cálculo de probabilidades a aquellos registros que coinciden con el registro que se va a clasificar. En cambio, utilizamos todo el conjunto de datos. La modificación ingenua de Bayes es la siguiente:

1. Para una respuesta binaria $Y = i (i = 0$ o $1)$, estima las probabilidades condicionales individuales para cada predictor $P(Xj | Y = i)$; estas son las probabilidades de que el valor del predictor esté en el registro cuando observamos $Y = i$. Esta probabilidad se estima mediante la proporción de valores de $Xj$ entre los registros donde $Y = i$ en el conjunto de entrenamiento.
2. Multiplica estas probabilidades entre sí y luego por la proporción de registros pertenecientes a $Y = i$.
3. Repite los pasos 1 y 2 para todas las clases.
4. Estima una probabilidad para el resultado $i$ tomando el valor calculado en el paso 2 para la clase $i$ y dividiéndolo por la suma de dichos valores para todas las clases.
5. Asigna el registro a la clase con la probabilidad más alta para este conjunto de valores predictores.

Este algoritmo de Naive Bayes también puede expresarse como una ecuación para la probabilidad de observar el resultado $Y = i$, dado un conjunto de valores predictores $X1, X2, ..., Xp$:

$$P(Y = i | X1, X2, ..., Xp)$$

Aquí está la fórmula completa para calcular las probabilidades de clase utilizando la clasificación bayesiana exacta:

$$P(Y = i | X1, X2, ..., Xp) = \frac{P(Y = i)P(X1, ..., Xp | Y = i)}{P(Y = 0)P(X1, ..., Xp | Y = 0) + P(Y = 1)P(X1, ..., Xp | Y = 1)}$$

Bajo la suposición ingenua de Bayes de independencia condicional, esta ecuación se simplifica a:

$$P(Y = i | X1, X2, ..., Xp) = \frac{P(Y = i)P(X1 | Y = i) \ldots P(Xp | Y = i)}{P(Y = 0)P(X1 | Y = 0) \ldots P(Xp | Y = 0) + P(Y = 1)P(X1 | Y = 1) \ldots P(Xp | Y = 1)}$$

¿Por qué se llama a esta fórmula "ingenua"? Hemos hecho una suposición simplificadora de que la probabilidad condicional exacta de un vector de valores predictores, dada la observación de un resultado, se estima suficientemente bien mediante el producto de las probabilidades condicionales individuales $P(Xj | Y = i)$. En otras palabras, al estimar $P(Xj | Y = i)$ en lugar de $P(X1, X2, ⋯Xp | Y = i)$, estamos asumiendo que $Xj$ es independiente de todas las demás variables predictoras $Xk$ para $k ≠ j$.

Varios paquetes en R pueden utilizarse para estimar un modelo de Naive Bayes. El siguiente ajusta un modelo a los datos de pagos de préstamos utilizando el paquete klaR:

In [None]:
#

In [None]:
#

In [None]:
#

# pagina: 217

La salida del modelo son las probabilidades condicionales $P(X_j | Y = i)$. En Python, podemos utilizar `sklearn.naive_bayes.MultinomialNB` de scikit-learn. Necesitamos convertir las características categóricas en variables ficticias antes de ajustar el modelo:

In [None]:
#

In [None]:
#

Es posible derivar las probabilidades condicionales del modelo ajustado utilizando la propiedad `feature_log_prob_`. El modelo se puede utilizar para predecir el resultado de un nuevo préstamo. Utilizamos el último valor del conjunto de datos para realizar la prueba:

In [None]:
#

In [None]:
#

En Python, obtenemos este valor de la siguiente manera:

In [None]:
#

In [None]:
#

En este caso, el modelo predice un incumplimiento (R).

In [None]:
#

In [None]:
#

In [None]:
#

Como discutimos, los modelos de clasificación de scikit-learn tienen dos métodos: `predict`, que devuelve la clase predicha, y `predict_proba`, que devuelve las probabilidades de las clases:

In [None]:
#

In [None]:
#

In [None]:
#

La predicción también devuelve una estimación posterior de la probabilidad de incumplimiento. Se sabe que el clasificador bayesiano ingenuo produce estimaciones sesgadas. Sin embargo, cuando el objetivo es clasificar registros según la probabilidad de que $(Y = 1)$, no se necesitan estimaciones imparciales de probabilidad, y el clasificador bayesiano ingenuo produce buenos resultados.

# Variables predictoras numéricas

El clasificador bayesiano funciona solo con predictores categóricos (por ejemplo, en la clasificación de spam, donde la presencia o ausencia de palabras, frases, caracteres, etc., es fundamental para la tarea predictiva). Para aplicar el bayesiano ingenuo a predictores numéricos, se deben tomar una de las dos aproximaciones:

1. Dividir y convertir los predictores numéricos en predictores categóricos y aplicar el algoritmo de la sección anterior.
2. Utilizar un modelo de probabilidad, por ejemplo, la distribución normal (ver "Distribución Normal" en la página 69), para estimar la probabilidad condicional $P(X_j | Y = i)$.

**Nota:**

Cuando una categoría de predictor está ausente en los datos de entrenamiento, el algoritmo asigna una probabilidad de cero a la variable de resultado en nuevos datos, en lugar de simplemente ignorar esta variable y utilizar la información de otras variables, como podrían hacer otros métodos. La mayoría de las implementaciones de Naive Bayes utilizan un parámetro de suavizado (suavizado de Laplace) para evitar esto.

### Ideas clave
- Naive Bayes funciona con predictores y resultados categóricos (factores).
- Plantea la pregunta: "Dentro de cada categoría de resultado, ¿cuáles son las categorías de predictor más probables?"
- Luego, esa información se invierte para estimar las probabilidades de las categorías de resultado dadas los valores del predictor.

### Lecturas Adicionales:
- "Los Elementos del Aprendizaje Estadístico, 2da ed." por Trevor Hastie, Robert Tibshirani y Jerome Friedman (Springer, 2009).
- "Minería de Datos para Analítica Empresarial" por Galit Shmueli, Peter Bruce, Nitin Patel, Peter Gedeck, Inbal Yahav y Kenneth Lichtendahl (Wiley, 2007–2020, con ediciones para R, Python, Excel y JMP). Contiene un capítulo completo sobre Naive Bayes.

# Análisis Discriminante
El análisis discriminante es el clasificador estadístico más antiguo; fue introducido por R. A. Fisher en 1936 en un artículo publicado en la revista Annals of Eugenics.

**Nota:**

Es ciertamente sorprendente que el primer artículo sobre clasificación estadística se haya publicado en una revista dedicada a la eugenesia. De hecho, existe una conexión desconcertante entre los primeros desarrollos de la estadística y la eugenesia.

### Términos Clave para el Análisis Discriminante:
- Covarianza: Una medida de la magnitud en que una variable varía en concierto con otra (es decir, de manera similar en magnitud y dirección).
- Función discriminante: La función que, cuando se aplica a las variables predictoras, maximiza la separación entre las clases.
- Pesos discriminantes: Los puntajes que resultan de la aplicación de la función discriminante y se utilizan para estimar las probabilidades de pertenecer a una clase u otra.

Aunque el análisis discriminante abarca varias técnicas, la más comúnmente utilizada es el análisis discriminante lineal, o LDA (por sus siglas en inglés). El método original propuesto por Fisher era ligeramente diferente de LDA, pero los conceptos son esencialmente los mismos. En la actualidad, LDA se utiliza menos ampliamente con la llegada de técnicas más sofisticadas, como modelos de árboles y regresión logística.

Sin embargo, aún puedes encontrarte con LDA en algunas aplicaciones, y tiene conexiones con otros métodos más ampliamente utilizados, como el análisis de componentes principales (ver "Análisis de Componentes Principales" en la página 284).

**Nota:**

El análisis discriminante lineal no debe confundirse con la Asignación Latente de Dirichlet, también conocida como LDA. La Asignación Latente de Dirichlet se utiliza en el procesamiento de texto y lenguaje natural, y no tiene relación con el análisis discriminante lineal.

# Matriz de Covarianza
Para entender el análisis discriminante, primero es necesario introducir el concepto de covarianza entre dos o más variables. La covarianza mide la relación entre dos variables, $x$ y $z$. Denotemos la media de cada variable por $x$ y $z$ (ver "Media" en la página 9). La covarianza $s_x$,$z$ entre $x$ y $z$ se define como:

$$s_{x,z} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(z_i - \bar{z})}{n-1}$$

donde $n$ es el número de registros (nota que dividimos por $n - 1$ en lugar de $n$; ver "Grados de libertad, ¿ $n$ o $n - 1$ ?" en la página 15). Al igual que el coeficiente de correlación (ver "Correlación" en la página 30), valores positivos indican una relación positiva y valores negativos indican una relación negativa.

Sin embargo, la correlación está limitada a estar entre -1 y 1, mientras que la escala de la covarianza depende de la escala de las variables $x$ y $z$. La matriz de covarianza $\Sigma$ para $x$ y $z$ consiste en las varianzas individuales de las variables, $s_x^2$ y $s_z^2$, en la diagonal (donde la fila y la columna son la misma variable) y las covarianzas entre pares de variables en las posiciones fuera de la diagonal:

$$\Sigma = \begin{bmatrix} s_x^2 & s_{x,z} \\ s_{z,x} & s_z^2 \end{bmatrix}$$

Recuerda que la desviación estándar se utiliza para normalizar una variable a un puntaje z; la matriz de covarianza se utiliza en una extensión multivariante de este proceso de estandarización. Esto se conoce como la distancia de Mahalanobis (ver "Otras Métricas de Distancia" en la página 242) y está relacionado con la función LDA.

# Discriminante Lineal de Fisher

Para simplificar, centrémonos en un problema de clasificación en el que queremos predecir un resultado binario $y$ utilizando solo dos variables numéricas continuas $x, z$. Técnicamente, el análisis discriminante asume que las variables predictoras son variables continuas distribuidas normalmente, pero, en la práctica, el método funciona bien incluso para desviaciones no extremas de la normalidad y para predictores binarios. El discriminante lineal de Fisher distingue la variación entre grupos, por un lado, de la variación dentro de los grupos, por el otro.

Específicamente, al buscar dividir los registros en dos grupos, el análisis discriminante lineal (LDA) se centra en maximizar la suma de cuadrados "entre" (SSbetween), que mide la variación entre los dos grupos, en relación con la suma de cuadrados "dentro" (SSwithin), que mide la variación dentro de cada grupo. En este caso, los dos grupos corresponden a los registros $x_0, z_0$ para los cuales $y = 0$ y los registros $x_1, z_1$ para los cuales $y = 1$.

El método encuentra la combinación lineal $wx \cdot x + wz \cdot z$ que maximiza esa proporción de sumas de cuadrados:

$$\frac{SS_{\text{between}}}{SS_{\text{within}}}$$

La suma de cuadrados entre es la distancia al cuadrado entre las medias de los dos grupos, y la suma de cuadrados dentro es la dispersión alrededor de las medias dentro de cada grupo, ponderada por la matriz de covarianza. Intuitivamente, al maximizar la suma de cuadrados entre y minimizar la suma de cuadrados dentro, este método proporciona la mayor separación entre los dos grupos.

# Un Ejemplo Sencillo

El paquete MASS, asociado con el libro "Modern Applied Statistics with S" de W. N. Venables y B. D. Ripley (Springer, 1994), proporciona una función para el discriminante lineal de Fisher (LDA) en R. Lo siguiente aplica esta función a una muestra de datos de préstamos utilizando dos variables predictoras, borrower_score y payment_inc_ratio, e imprime los pesos estimados del discriminante lineal:

In [None]:
#

In [None]:
#

In [None]:
#

En Python, podemos utilizar `LinearDiscriminantAnalysis` de `sklearn.discriminant_analysis`. La propiedad `scalings_` proporciona los pesos estimados:

In [None]:
#

In [None]:
#

In [None]:
#

### Usar el Análisis Discriminante para la Selección de Características

Si las variables predictoras se normalizan antes de ejecutar LDA, los pesos del discriminante son medidas de la importancia de la variable, proporcionando así un método computacionalmente eficiente para la selección de características.

La función `lda` puede predecir la probabilidad de "incumplimiento" versus "pagado":

In [None]:
#

In [None]:
#

In [None]:
#

El método `predict_proba` del modelo ajustado devuelve las probabilidades para los resultados de "incumplimiento" y "pagado":

In [None]:
#

In [None]:
#

Un gráfico de las predicciones ayuda a ilustrar cómo funciona LDA. Utilizando la salida de la función `predict`, se produce un gráfico de la probabilidad estimada de incumplimiento de la siguiente manera:

In [None]:
#

In [None]:
#

In [None]:
#

Un gráfico similar se crea en Python utilizando el siguiente código:

In [None]:
#

In [None]:
#

In [None]:
#

La gráfica resultante se muestra en la Figura 5-1. Los puntos de datos a la izquierda de la línea diagonal se predicen como incumplimientos (probabilidad mayor a 0.5).

![Captura de pantalla 2024-01-29 205803.png](attachment:8267bf76-4aa8-4c7e-8dd6-d8eda0363dfc.png)

**Figura 5-1**. Predicción de incumplimiento de préstamo mediante LDA utilizando dos variables: un puntaje de la solvencia crediticia del prestatario y la relación pago-ingreso.

Utilizando los pesos de la función discriminante, LDA divide el espacio de los predictores en dos regiones, como se muestra mediante la línea sólida. Las predicciones más alejadas de la línea en ambas direcciones tienen un mayor nivel de confianza (es decir, una probabilidad más alejada de 0.5).

### Extensiones del Análisis Discriminante

Más variables predictoras: aunque el texto y el ejemplo en esta sección utilizaron solo dos variables predictoras, el análisis discriminante lineal (LDA) funciona igual de bien con más de dos variables predictoras. El único factor limitante es la cantidad de registros (estimar la matriz de covarianza requiere un número suficiente de registros por variable, lo cual generalmente no es un problema en aplicaciones de ciencia de datos).

Existen otras variantes del análisis discriminante. La más conocida es el análisis discriminante cuadrático (QDA). A pesar de su nombre, QDA sigue siendo una función discriminante lineal. La principal diferencia es que en LDA se asume que la matriz de covarianza es la misma para los dos grupos correspondientes a $Y = 0$ e $Y = 1$. En QDA, se permite que la matriz de covarianza sea diferente para los dos grupos. En la práctica, la diferencia en la mayoría de las aplicaciones no es crítica.

### Ideas Clave:

- El análisis discriminante funciona con predictores continuos o categóricos, así como con resultados categóricos.
- Utilizando la matriz de covarianza, calcula una función discriminante lineal que se utiliza para distinguir registros que pertenecen a una clase de aquellos que pertenecen a otra.
- Esta función se aplica a los registros para derivar pesos, o puntajes, para cada registro (un peso para cada posible clase), lo que determina su clase estimada.

### Lecturas Adicionales:

- Tanto "The Elements of Statistical Learning, 2nd ed." de Trevor Hastie, Robert Tibshirani y Jerome Friedman (Springer, 2009), como su versión más corta, "An Introduction to Statistical Learning" de Gareth James, Daniela Witten, Trevor Hastie y Robert Tibshirani (Springer, 2013), tienen una sección sobre análisis discriminante.
- "Data Mining for Business Analytics" de Galit Shmueli, Peter Bruce, Nitin Patel, Peter Gedeck, Inbal Yahav y Kenneth Lichtendahl (Wiley, 2007–2020, con ediciones para R, Python, Excel y JMP) cuenta con un capítulo completo sobre análisis discriminante.
- Por interés histórico, el artículo original de Fisher sobre el tema, "The Use of Multiple Measurements in Taxonomic Problems", publicado en 1936 en Annals of Eugenics (ahora llamado Annals of Genetics), se puede encontrar en línea.

# Regresión Logística

La regresión logística es análoga a la regresión lineal múltiple (ver Capítulo 4), excepto que el resultado es binario. Se utilizan diversas transformaciones para convertir el problema en uno en el que se pueda ajustar un modelo lineal. Al igual que el análisis discriminante y a diferencia de K-Vecinos Más Cercanos (K-Nearest Neighbor) y el bayesiano ingenuo, la regresión logística es un enfoque de modelo estructurado en lugar de un enfoque centrado en los datos. Debido a su rápida velocidad computacional y su capacidad para generar un modelo que se presta para la puntuación rápida de nuevos datos, es un método popular.

### Términos Clave para Regresión Logística:

- Logit: La función que asigna la probabilidad de pertenencia a una clase a un rango de ± ∞ (en lugar de 0 a 1).
- Sinónimo: Probabilidades logarítmicas (ver abajo).
- Odds: La razón de "éxito" (1) a "no éxito" (0).
- Log Odds: La respuesta en el modelo transformado (ahora lineal), que se vuelve a asignar a una probabilidad.

# Función de Respuesta Logística y Logit

Los ingredientes clave para la regresión logística son la función de respuesta logística y el logit, en los cuales mapeamos una probabilidad (que está en una escala de 0 a 1) a una escala más expansiva adecuada para modelado lineal.

El primer paso es pensar en la variable de resultado no como una etiqueta binaria, sino como la probabilidad $p$ de que la etiqueta sea un "1". De manera ingenua, podríamos tentarnos a modelar $p$ como una función lineal de las variables predictoras:

$$p = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_q x_q$$

Sin embargo, ajustar este modelo no garantiza que $p$ termine entre 0 y 1, como debe ser una probabilidad.

En cambio, modelamos $p$ aplicando una función de respuesta logística o función logit a los predictores:

$$p = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_q x_q)}}$$

Esta transformación garantiza que $p$ permanezca entre 0 y 1.

Para eliminar la expresión exponencial del denominador, consideramos las probabilidades en lugar de las probabilidades. Las probabilidades, familiares para los apostadores, son la razón de "éxitos" (1) a "fracasos" (0). En términos de probabilidades, las probabilidades son la probabilidad de un evento dividida por la probabilidad de que el evento no ocurra. Por ejemplo, si la probabilidad de que un caballo gane es 0.5, la probabilidad de "no ganará" es (1 - 0.5) = 0.5, y las probabilidades son 1.0:

$$\text{Odds } (Y = 1) = \frac{p}{1 - p}$$

Podemos obtener la probabilidad a partir de las probabilidades usando la función inversa de probabilidades:

$$p = \frac{\text{Odds}}{1 + \text{Odds}}$$

Combinamos esto con la función de respuesta logística, mostrada anteriormente, para obtener:

$$\text{Odds } (Y = 1) = e^{\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_q x_q}$$

Finalmente, tomando el logaritmo de ambos lados, obtenemos una expresión que involucra una función lineal de los predictores:

$$\text{log (Odds } (Y = 1)) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_q x_q$$

La función de logaritmo de probabilidades, también conocida como función logit, mapea la probabilidad $p$ de 0 a 1 a cualquier valor $-\infty, +\infty$ —ver Figura 5-2. La transformación está completa; hemos utilizado un modelo lineal para predecir una probabilidad, que a su vez podemos asignar a una etiqueta de clase aplicando una regla de corte. Cualquier registro con una probabilidad mayor que el umbral se clasifica como un 1.

![Captura de pantalla 2024-01-29 210835.png](attachment:ce1a8421-eace-41a3-b095-683e988b5c25.png)

**Figura 5-2**. Gráfico de la función logit que mapea una probabilidad a una escala adecuada para un modelo lineal.

# Regresión Logística y el GLM

La respuesta en la fórmula de regresión logística es el logaritmo de las probabilidades (log odds) de un resultado binario de 1. Observamos solo el resultado binario, no el logaritmo de las probabilidades, por lo que se necesitan métodos estadísticos especiales para ajustar la ecuación. La regresión logística es un caso especial de un modelo lineal generalizado (GLM), desarrollado para extender la regresión lineal a otros contextos.

En R, para ajustar una regresión logística, se utiliza la función `glm` con el parámetro `family` establecido en `binomial`. El siguiente código ajusta una regresión logística a los datos de préstamos personales introducidos en "K-Nearest Neighbors" en la página 238:

In [None]:
#

In [None]:
#

In [None]:
#

La respuesta es `outcome`, que toma un valor de 0 si el préstamo está pagado y 1 si el préstamo incumple. `purpose_` y `home_` son variables de tipo factor que representan el propósito del préstamo y el estado de propiedad de la vivienda. Al igual que en la regresión lineal, una variable de tipo factor con P niveles se representa con P – 1 columnas. Por defecto en R, se utiliza la codificación de referencia y los niveles se comparan todos con el nivel de referencia (ver "Variables de Factor en Regresión" en la página 163). Los niveles de referencia para estos factores son `credit_card` e `MORTGAGE`, respectivamente. La variable `borrower_score` es un puntaje de 0 a 1 que representa la solvencia crediticia del prestatario (de pobre a excelente). Esta variable fue creada a partir de varias otras variables utilizando K-Nearest Neighbor; ver "KNN como Ingeniería de Características" en la página 247.

En Python, utilizamos la clase `LogisticRegression` del módulo `linear_model` de scikit-learn. Los argumentos `penalty` y `C` se utilizan para prevenir el sobreajuste mediante regularización L1 o L2. La regularización está habilitada por defecto. Para ajustar sin regularización, establecemos `C` en un valor muy grande. El argumento `solver` selecciona el minimizador utilizado; el método `liblinear` es el predeterminado:

In [None]:
#

In [None]:
#

In [None]:
#

A diferencia de R, scikit-learn deriva las clases a partir de los valores únicos en `y` (pagado y incumplido). Internamente, las clases están ordenadas alfabéticamente. Dado que este orden es inverso al de los factores utilizados en R, verás que los coeficientes están invertidos. El método `predict` devuelve la etiqueta de clase y `predict_proba` devuelve las probabilidades en el orden disponible desde el atributo `logit_reg.classes_`.

# Modelos Lineales Generalizados

Los modelos lineales generalizados (GLM) se caracterizan por dos componentes principales:

- Una distribución de probabilidad o familia (binomial en el caso de la regresión logística).
- Una función de enlace, es decir, una función de transformación que mapea la respuesta a los predictores (logit en el caso de la regresión logística).

La regresión logística es, con mucho, la forma más común de GLM. Un científico de datos se encontrará con otros tipos de GLM. A veces se utiliza una función de enlace logarítmica en lugar del logit; en la práctica, el uso de una función de enlace logarítmica es poco probable que conduzca a resultados muy diferentes para la mayoría de las aplicaciones. La distribución de Poisson se utiliza comúnmente para modelar datos de conteo (por ejemplo, el número de veces que un usuario visita una página web en cierto período de tiempo). Otras familias incluyen la binomial negativa y la gamma, que a menudo se utilizan para modelar el tiempo transcurrido (por ejemplo, el tiempo hasta la falla). A diferencia de la regresión logística, la aplicación de GLM con estos modelos es más matizada y requiere mayor precaución. Es recomendable evitarlos a menos que estés familiarizado y comprendas la utilidad y las dificultades de estos métodos.

# Valores Predichos de la Regresión Logística

El valor predicho de la regresión logística está en términos del logaritmo de las probabilidades (log odds): $Y = \log \text{Odds } Y = 1$. La probabilidad predicha se obtiene mediante la función de respuesta logística:

$$\hat{p} = \frac{1}{1 + e^\hat{-Y}}$$

Por ejemplo, observa las predicciones del modelo `logistic_model` en R:

Por ejemplo, observa las predicciones del modelo `logistic_model` en R:

In [None]:
#

In [None]:
#

In [None]:
#

En Python, podemos convertir las probabilidades en un marco de datos y utilizar el método `describe` para obtener estas características de la distribución:

In [None]:
#

In [None]:
#

In [None]:
#

Convertir estos valores a probabilidades es una transformación sencilla:

In [None]:
#

In [None]:
#

Las probabilidades están directamente disponibles utilizando el método `predict_proba` en scikit-learn:

In [None]:
#

In [None]:
#

Estas están en una escala de 0 a 1 y aún no indican si el valor predicho es incumplimiento o pago completo. Podríamos declarar cualquier valor mayor que 0.5 como incumplimiento. En la práctica, a menudo es apropiado usar un umbral más bajo si el objetivo es identificar miembros de una clase rara (ver "El Problema de la Clase Rara" en la página 223).

# Interpretación de los Coeficientes y Razones de Probabilidades

Una ventaja de la regresión logística es que produce un modelo que se puede evaluar rápidamente en nuevos datos sin necesidad de recálculos. Otra ventaja es la relativa facilidad de interpretación del modelo, en comparación con otros métodos de clasificación. La idea conceptual clave es comprender una razón de probabilidades (odds ratio). La razón de probabilidades es más fácil de entender para una variable binaria de factor $X$:

$$\text{Razón de Probabilidades} = \frac{\text{Odds } Y = 1 \text{ cuando } X = 1}{\text{Odds } Y = 1 \text{ cuando } X = 0}$$

Esto se interpreta como las probabilidades de que $Y = 1$ cuando $X = 1$ en comparación con las probabilidades de que $Y = 1$ cuando $X = 0$. Si la razón de probabilidades es 2, entonces las probabilidades de que $Y = 1$ son dos veces más altas cuando $X = 1$ en comparación con cuando $X = 0$.

¿Por qué molestarse con una razón de probabilidades en lugar de probabilidades? Trabajamos con probabilidades porque el coeficiente $\beta_j$ en la regresión logística es el logaritmo de la razón de probabilidades para $X_j$.

Un ejemplo hará esto más explícito. Para el modelo ajustado en "Regresión Logística y el GLM" en la página 210, el coeficiente de regresión para `purpose_small_business` es 1.21526. Esto significa que un préstamo para un pequeño negocio en comparación con un préstamo para pagar deudas de tarjetas de crédito reduce las probabilidades de incumplimiento versus pago completo en $\exp(1.21526) \approx 3.4$. Claramente, los préstamos con el propósito de crear o expandir un pequeño negocio son considerablemente más arriesgados que otros tipos de préstamos.

La Figura 5-3 muestra la relación entre la razón de probabilidades y el logaritmo de la razón de probabilidades para razones de probabilidades mayores que 1. Debido a que los coeficientes están en la escala logarítmica, un aumento de 1 en el coeficiente resulta en un aumento de aproximadamente $\exp(1) \approx 2.72$ en la razón de probabilidades.

![Captura de pantalla 2024-01-29 211805.png](attachment:6e585063-04c3-416b-b749-9e7c464e730b.png)

**Figura 5-3**. La relación entre la razón de probabilidades y el logaritmo de la razón de probabilidades

Las razones de probabilidades para variables numéricas $X$ se pueden interpretar de manera similar: miden el cambio en la razón de probabilidades por un cambio unitario en $X$. Por ejemplo, el efecto de aumentar la proporción pago-ingreso de, digamos, 5 a 6 aumenta las probabilidades de que el préstamo incumpla en un factor de $\exp(0.08244) \approx 1.09$ . La variable `borrower_score` es una puntuación de la solvencia crediticia de los prestatarios y varía de 0 (baja) a 1 (alta). Las probabilidades de que los mejores prestatarios en comparación con los peores prestatarios incumplan en sus préstamos son más bajas por un factor de $\exp(-4.61264) \approx 0.01$. En otras palabras, el riesgo de incumplimiento por parte de los prestatarios con la solvencia crediticia más baja es 100 veces mayor que el de los mejores prestatarios.

# Regresión Lineal y Regresión Logística: Similitudes y Diferencias

La regresión lineal y la regresión logística comparten muchas similitudes. Ambas asumen una forma paramétrica lineal que relaciona los predictores con la respuesta. La exploración y la búsqueda del mejor modelo se realizan de manera muy similar. Extensiones al modelo lineal, como el uso de una transformación de splines de un predictor (ver "Splines" en la página 189), son igualmente aplicables en el contexto de la regresión logística. La regresión logística difiere en dos formas fundamentales:
- La forma en que se ajusta el modelo (mínimos cuadrados no es aplicable)
- La naturaleza y análisis de los residuos del modelo

### Ajuste del Modelo
La regresión lineal se ajusta utilizando mínimos cuadrados, y la calidad del ajuste se evalúa utilizando las estadísticas de RMSE (Error Cuadrático Medio) y R-cuadrado. En la regresión logística (a diferencia de la regresión lineal), no hay una solución cerrada, y el modelo debe ajustarse utilizando la estimación de máxima verosimilitud (MLE, por sus siglas en inglés). La estimación de máxima verosimilitud es un proceso que intenta encontrar el modelo que es más probable que haya producido los datos que observamos. En la ecuación de regresión logística, la respuesta no es 0 o 1, sino más bien una estimación del logaritmo de las probabilidades (log odds) de que la respuesta sea 1. La MLE encuentra la solución de manera que los logaritmos estimados de las probabilidades se ajusten mejor al resultado observado. La mecánica del algoritmo implica una optimización de cuasi-Newton que itera entre un paso de puntuación (puntuación de Fisher), basado en los parámetros actuales, y una actualización de los parámetros para mejorar el ajuste.

### Estimación de Máxima Verosimilitud
Aquí hay un poco más de detalle, si te gustan los símbolos estadísticos: comenzamos con un conjunto de datos $X_1, X_2, \ldots, X_n$ y un modelo de probabilidad $P_\theta(X_1, X_2, \ldots, X_n)$ que depende de un conjunto de parámetros $\theta$. El objetivo de la estimación de máxima verosimilitud (MLE) es encontrar el conjunto de parámetros $\theta$ que maximiza el valor de $P_\theta(X_1, X_2, \ldots, X_n)$; es decir, maximiza la probabilidad de observar $X_1, X_2, \ldots, X_n$ dado el modelo $P$. En el proceso de ajuste, el modelo se evalúa utilizando una métrica llamada devianza:

$$\text{devianza} = -2 \log (P_\theta(X_1, X_2, \ldots, X_n))$$

Una devianza menor corresponde a un mejor ajuste.

Afortunadamente, la mayoría de los profesionales no necesitan preocuparse por los detalles del algoritmo de ajuste, ya que esto es manejado por el software. La mayoría de los científicos de datos no necesitarán preocuparse por el método de ajuste, aparte de entender que es una forma de encontrar un buen modelo bajo ciertas suposiciones.

### Manejo de Variables Factoriales
En la regresión logística, las variables factoriales deben codificarse como en la regresión lineal; consulta "Variables Factoriales en la Regresión" en la página 163. En R y otros programas, esto se maneja normalmente de manera automática, y generalmente se utiliza la codificación de referencia. Todos los demás métodos de clasificación cubiertos en este capítulo suelen utilizar la representación de codificador uno hot (ver "Codificador One Hot" en la página 242). En scikit-learn de Python, es más fácil usar la codificación one hot, lo que significa que solo se pueden utilizar n - 1 de las variables ficticias resultantes en la regresión.

# Evaluación del Modelo
Al igual que otros métodos de clasificación, la regresión logística se evalúa según la precisión con la que el modelo clasifica nuevos datos (consulte "Evaluación de Modelos de Clasificación" en la página 219). Al igual que con la regresión lineal, hay algunas herramientas estadísticas estándar adicionales disponibles para examinar y mejorar el modelo. Junto con los coeficientes estimados, R informa sobre el error estándar de los coeficientes (SE), un valor z y un valor p:

In [None]:
#

In [None]:
#

In [None]:
#

El paquete statsmodels tiene una implementación para el modelo lineal generalizado (GLM) que proporciona información detallada de manera similar:

In [None]:
#

In [None]:
#

La interpretación del valor p viene con la misma precaución que en la regresión y debería considerarse más como un indicador relativo de la importancia de la variable (consulte "Evaluación del Modelo" en la página 153) que como una medida formal de significancia estadística. Un modelo de regresión logística, que tiene una respuesta binaria, no tiene un RMSE (Error Cuadrático Medio) o R-cuadrado asociado. En cambio, un modelo de regresión logística suele evaluarse mediante métricas más generales para la clasificación; consulte "Evaluación de Modelos de Clasificación" en la página 219.

Muchos otros conceptos de la regresión lineal se aplican también al contexto de la regresión logística (y otros modelos lineales generalizados). Por ejemplo, se pueden utilizar técnicas como la regresión paso a paso, ajustar términos de interacción o incluir términos de splines. Las mismas preocupaciones sobre variables confusas y correlacionadas se aplican a la regresión logística (consulte "Interpretación de la Ecuación de Regresión" en la página 169). También puede ajustar modelos aditivos generalizados (consulte "Modelos Aditivos Generalizados" en la página 192) utilizando el paquete mgcv en R:

In [None]:
#

In [None]:
#

La interfaz de fórmula de statsmodels también admite estas extensiones en Python:

In [None]:
#

In [None]:
#

In [None]:
#

### Análisis de residuos
Un área en la que la regresión logística difiere de la regresión lineal es en el análisis de los residuos. Al igual que en la regresión lineal (consulte la Figura 4-9), es sencillo calcular residuos parciales en R:

In [None]:
#

In [None]:
#

In [None]:
#

El gráfico resultante se muestra en la Figura 5-4. El ajuste estimado, representado por la línea, se encuentra entre dos conjuntos de nubes de puntos. La nube superior corresponde a una respuesta de 1 (préstamos en mora), y la nube inferior corresponde a una respuesta de 0 (préstamos pagados). Esto es muy típico de los residuos de una regresión logística, ya que la salida es binaria. La predicción se mide como el logit (logaritmo de la razón de probabilidades), que siempre será algún valor finito. El valor real, un 0 o 1 absoluto, corresponde a un logit infinito, ya sea positivo o negativo, por lo que los residuos (que se suman al valor ajustado) nunca serán iguales a 0. Por lo tanto, los puntos representados se encuentran en nubes ya sea por encima o por debajo de la línea ajustada en el gráfico de residuos parciales. Los residuos parciales en la regresión logística, aunque menos valiosos que en la regresión lineal, siguen siendo útiles para confirmar comportamientos no lineales e identificar registros altamente influyentes.

Actualmente, no hay una implementación de residuos parciales en ninguno de los paquetes principales de Python. Proporcionamos código en Python para crear el gráfico de residuos parciales en el repositorio de código fuente que acompaña a esta información.

![Captura de pantalla 2024-01-29 214004.png](attachment:f149bb9d-c215-488d-b3f6-06ab90f1526c.png)

**Figura 5-4**. Residuos parciales de la regresión logística

**Nota:**

Algunos de los resultados de la función de resumen pueden ser efectivamente ignorados. El parámetro de dispersión no se aplica a la regresión logística y está presente para otros tipos de modelos lineales generalizados (GLM). La desviación residual y el número de iteraciones de puntuación están relacionados con el método de ajuste de máxima verosimilitud; consulte "Estimación de Máxima Verosimilitud" en la página 215.

### Ideas Clave
* La regresión logística es similar a la regresión lineal, con la diferencia de que la variable de resultado es binaria.
* Se requieren varias transformaciones para llevar el modelo a una forma que pueda ajustarse como un modelo lineal, con el logaritmo de la razón de probabilidades como variable de respuesta.
* Después de ajustar el modelo lineal (mediante un proceso iterativo), el logaritmo de las probabilidades se mapea nuevamente a una probabilidad.
* La regresión logística es popular porque es computacionalmente rápida y produce un modelo que puede ser evaluado en nuevos datos con solo unas pocas operaciones aritméticas.

### Lecturas Adicionales
* La referencia estándar sobre regresión logística es "Applied Logistic Regression, 3rd ed.", de David Hosmer, Stanley Lemeshow y Rodney Sturdivant (Wiley, 2013).
* También son populares dos libros de Joseph Hilbe: "Logistic Regression Models" (muy completo, 2017) y "Practical Guide to Logistic Regression" (compacto, 2015), ambos de Chapman & Hall/CRC Press.
* Tanto "The Elements of Statistical Learning, 2nd ed.", de Trevor Hastie, Robert Tibshirani y Jerome Friedman (Springer, 2009), como su versión más corta, "An Introduction to Statistical Learning" de Gareth James, Daniela Witten, Trevor Hastie y Robert Tibshirani (Springer, 2013), tienen una sección sobre regresión logística.
* "Data Mining for Business Analytics" de Galit Shmueli, Peter Bruce, Nitin Patel, Peter Gedeck, Inbal Yahav y Kenneth Lichtendahl (Wiley, 2007–2020, con ediciones para R, Python, Excel y JMP) incluye un capítulo completo sobre regresión logística.

# Evaluación de Modelos de Clasificación

En la modelización predictiva, es común entrenar varios modelos diferentes, aplicar cada uno a una muestra de retención y evaluar su rendimiento. A veces, después de evaluar y ajustar varios modelos, y si hay datos suficientes, se utiliza una tercera muestra de retención, no utilizada anteriormente, para estimar cómo se desempeñará el modelo seleccionado con datos completamente nuevos. Diferentes disciplinas y profesionales también pueden utilizar los términos validación y prueba para referirse a la(s) muestra(s) de retención. Fundamentalmente, el proceso de evaluación intenta determinar qué modelo produce las predicciones más precisas y útiles.

### Términos Clave para Evaluar Modelos de Clasificación

**Precisión (Accuracy)**
El porcentaje (o proporción) de casos clasificados correctamente.

**Matriz de Confusión (Confusion matrix)**
Una presentación tabular (2×2 en el caso binario) de los recuentos de registros según su clasificación predicha y real.

**Sensibilidad (Sensitivity)**
El porcentaje (o proporción) de todos los 1 que son correctamente clasificados como 1.

Sinónimo: Recall

**Especificidad (Specificity)**
El porcentaje (o proporción) de todos los 0 que son correctamente clasificados como 0.

**Precisión (Precision)**
El porcentaje (o proporción) de los casos predichos como 1 que son realmente 1.

**Curva ROC (ROC curve)**
Un gráfico de sensibilidad versus especificidad.

**Ganancia (Lift)**
Una medida de cuán efectivo es el modelo para identificar (comparativamente raros) los 1 en diferentes puntos de corte de probabilidad.

Una forma simple de medir el rendimiento de la clasificación es contar la proporción de predicciones que son correctas, es decir, medir la precisión. La precisión es simplemente una medida del error total:

$$\text{precisión} = \frac{\sum \text{Verdaderos Positivos} + \sum \text{Verdaderos Negativos}}{\text{Tamaño de la Muestra}}$$

En la mayoría de los algoritmos de clasificación, a cada caso se le asigna una "probabilidad estimada de ser un 1".3 El punto de decisión predeterminado, o umbral, suele ser 0.50 o 50%. Si la probabilidad es superior al 0.5, la clasificación es "1"; de lo contrario, es "0". Otro umbral predeterminado alternativo es la probabilidad prevalente de 1 en los datos.

# Matriz de Confusión
En el núcleo de las métricas de clasificación se encuentra la matriz de confusión. La matriz de confusión es una tabla que muestra el número de predicciones correctas e incorrectas categorizadas por tipo de respuesta. Existen varios paquetes disponibles en R y Python para calcular una matriz de confusión, pero en el caso binario, es sencillo calcularla manualmente.

Para ilustrar la matriz de confusión, consideremos el modelo logistic_gam que fue entrenado en un conjunto de datos equilibrado con un número igual de préstamos incumplidos y pagados (ver Figura 5-4). Siguiendo las convenciones habituales, $Y = 1$ corresponde al evento de interés (por ejemplo, incumplimiento), y $Y = 0$ corresponde a un evento negativo (o habitual) (por ejemplo, pago). Lo siguiente calcula la matriz de confusión para el modelo logistic_gam aplicado a todo el conjunto de entrenamiento (desequilibrado) en R:

In [None]:
#

In [None]:
#

In [None]:
#

En Python:

In [None]:
#

In [None]:
#

In [None]:
#

**Nota:**

No todos los métodos proporcionan estimaciones imparciales de probabilidad. En la mayoría de los casos, es suficiente que el método proporcione un ranking equivalente a los rankings que resultarían de una estimación imparcial de probabilidad; el método de umbral (cutoff) es entonces funcionalmente equivalente.

In [None]:
#

In [None]:
#

In [None]:
#

Las predicciones se muestran en las columnas y los resultados reales en las filas. Los elementos diagonales de la matriz muestran el número de predicciones correctas, y los elementos fuera de la diagonal muestran el número de predicciones incorrectas. Por ejemplo, 14,295 préstamos incumplidos fueron correctamente predichos como incumplimiento, pero 8,376 préstamos incumplidos fueron incorrectamente predichos como pagados.

La Figura 5-5 muestra la relación entre la matriz de confusión para una respuesta binaria Y y diferentes métricas (consulte "Precisión, Sensibilidad y Especificidad" en la página 223 para obtener más información sobre las métricas). Al igual que en el ejemplo de los datos de préstamos, la respuesta real se encuentra a lo largo de las filas y la respuesta predicha a lo largo de las columnas. Las cajas diagonales (superior izquierda, inferior derecha) muestran cuando las predicciones Y coinciden correctamente con la respuesta. Una métrica importante que no se menciona explícitamente es la tasa de falsos positivos (la imagen especular de la precisión). Cuando los 1 son raros, la proporción de falsos positivos entre todos los positivos predichos puede ser alta, lo que lleva a la situación paradójica en la que un 1 predicho es más probable que sea un 0. Este problema afecta a las pruebas de detección médica (por ejemplo, mamografías) que se aplican ampliamente: debido a la relativa rareza de la condición, los resultados positivos de las pruebas probablemente no signifiquen cáncer de mama. Esto lleva a mucha confusión en el público.

![Captura de pantalla 2024-01-29 214647.png](attachment:3391b4fa-28bc-421f-a55c-9f12f24c5b28.png)

**Figura 5-5**. Matriz de confusión para una respuesta binaria y diversas métricas

**Nota:**

Aquí presentamos la respuesta real a lo largo de las filas y la respuesta predicha a lo largo de las columnas, pero no es raro ver esto invertido. Un ejemplo notable es el popular paquete caret en R.

# El Problema de la Clase Rara
En muchos casos, hay un desequilibrio en las clases a predecir, con una clase mucho más prevalente que la otra, por ejemplo, reclamaciones legítimas de seguros frente a reclamaciones fraudulentas, o visitantes frente a compradores en un sitio web. La clase rara (por ejemplo, las reclamaciones fraudulentas) suele ser la clase de mayor interés y se designa típicamente como 1, en contraste con los 0s más prevalentes. En el escenario típico, los 1 son el caso más importante, en el sentido de que clasificarlos incorrectamente como 0s es más costoso que clasificar incorrectamente 0s como 1s. Por ejemplo, identificar correctamente una reclamación fraudulenta de seguro puede ahorrar miles de dólares. Por otro lado, identificar correctamente una reclamación no fraudulenta simplemente ahorra el costo y el esfuerzo de revisar la reclamación manualmente con una revisión más cuidadosa (que es lo que haría si la reclamación se etiquetara como "fraudulenta").

En tales casos, a menos que las clases sean fácilmente separables, el modelo de clasificación más preciso puede ser uno que simplemente clasifica todo como un 0. Por ejemplo, si solo el 0.1% de los visitantes en una tienda web terminan comprando, un modelo que predice que cada visitante se irá sin comprar será 99.9% preciso. Sin embargo, será inútil. En cambio, estaríamos satisfechos con un modelo que sea menos preciso en general pero sea bueno para identificar a los compradores, incluso si clasifica incorrectamente a algunos no compradores en el camino.

# Precisión, Sensibilidad y Especificidad
Métricas distintas a la precisión pura, métricas más matizadas, son comúnmente utilizadas en la evaluación de modelos de clasificación. Varias de estas métricas tienen una larga historia en estadísticas, especialmente en biostadística, donde se utilizan para describir el rendimiento esperado de pruebas diagnósticas.

La precisión mide la exactitud de un resultado positivo predicho (ver Figura 5-5):

$$\text{precisión} = \frac{\sum \text{Verdaderos Positivos}}{\sum \text{Verdaderos Positivos} + \sum \text{Falsos Positivos}}$$

La sensibilidad, también conocida como recall, mide la capacidad del modelo para predecir un resultado positivo: la proporción de los 1 que identifica correctamente (ver Figura 5-5). El término sensibilidad se utiliza mucho en biostadística y diagnósticos médicos, mientras que recall se utiliza más en la comunidad de aprendizaje automático. La definición de recall es:

$$\text{sensibilidad} = \frac{\sum \text{Verdaderos Positivos}}{\sum \text{Verdaderos Positivos} + \sum \text{Falsos Negativos}}$$

Otra métrica utilizada es la especificidad, que mide la capacidad de un modelo para predecir un resultado negativo:

$$\text{especificidad} = \frac{\sum \text{Verdaderos Negativos}}{\sum \text{Verdaderos Negativos} + \sum \text{Falsos Positivos}}$$

Podemos calcular las tres métricas a partir de `conf_mat` en R:

In [None]:
#

In [None]:
#

In [None]:
#

Aquí tienes el código equivalente para calcular las métricas en Python:

In [None]:
#

In [None]:
#

In [None]:
#

scikit-learn tiene un método personalizado llamado `precision_recall_fscore_support` que calcula la precisión y la sensibilidad/especificidad al mismo tiempo.

# Curva ROC
Puedes observar que hay un equilibrio entre sensibilidad y especificidad. Capturar más 1s generalmente significa clasificar incorrectamente más 0s como 1s. El clasificador ideal haría un excelente trabajo clasificando los 1s sin clasificar incorrectamente más 0s como 1s.

La métrica que captura este equilibrio es la "Receiver Operating Characteristics" (Curva ROC), generalmente conocida como la curva ROC. La curva ROC representa la sensibilidad (recall) en el eje y contra la especificidad en el eje x. La curva ROC muestra el equilibrio entre sensibilidad y especificidad al cambiar el umbral para determinar cómo clasificar un registro. La sensibilidad (recall) se representa en el eje y, y puede encontrar dos formas en las que se etiqueta el eje x:

- Especificidad en el eje x, con 1 a la izquierda y 0 a la derecha
- 1-Especificidad en el eje x, con 0 a la izquierda y 1 a la derecha

La curva parece idéntica de cualquier manera que se haga. El proceso para calcular la curva ROC es:

1. Ordenar los registros por la probabilidad predicha de ser un 1, comenzando con el más probable y terminando con el menos probable.
2. Calcular la especificidad y la sensibilidad acumulativas en función de los registros ordenados.

Calcular la curva ROC en R es sencillo. El siguiente código calcula la curva ROC para los datos de préstamos:

**Nota:**

La curva ROC se utilizó por primera vez durante la Segunda Guerra Mundial para describir el rendimiento de las estaciones receptoras de radar, cuya tarea era identificar correctamente (clasificar) las señales de radar reflejadas y alertar a las fuerzas de defensa sobre la llegada de aeronaves.

In [None]:
#

In [None]:
#

In [None]:
#

En Python, podemos utilizar la función `sklearn.metrics.roc_curve` de scikit-learn para calcular la información necesaria para la curva ROC. Puedes encontrar paquetes similares para R, por ejemplo, ROCR:

In [None]:
#

In [None]:
#

In [None]:
#

El resultado se muestra en la Figura 5-6. La línea diagonal punteada corresponde a un clasificador que no es mejor que el azar. Un clasificador extremadamente efectivo (o, en situaciones médicas, una prueba de diagnóstico extremadamente efectiva) tendrá una curva ROC que se acerque a la esquina superior izquierda: identificará correctamente muchos 1s sin clasificar incorrectamente muchos 0s como 1s.

Para este modelo, si deseamos un clasificador con una especificidad de al menos el 50%, entonces la sensibilidad es de aproximadamente el 75%.

![Captura de pantalla 2024-01-29 215357.png](attachment:bd2587f9-fd32-4f41-9781-cf537522ffe7.png)

**Figura 5-6**. Curva ROC para los datos de préstamos

### Curva Precisión-Recall
Además de las curvas ROC, puede ser esclarecedor examinar la curva precisión-recall (PR). Las curvas PR se calculan de manera similar, excepto que los datos se ordenan de menos a más probable y se calculan estadísticas acumulativas de precisión y recall. Las curvas PR son especialmente útiles para evaluar datos con resultados altamente desbalanceados.

# AUC (Área bajo la Curva)
La curva ROC es una herramienta gráfica valiosa, pero por sí sola no constituye una única medida para el rendimiento de un clasificador. Sin embargo, la curva ROC se puede utilizar para producir la métrica del área bajo la curva (AUC, por sus siglas en inglés). AUC es simplemente el área total bajo la curva ROC. Cuanto mayor sea el valor de AUC, más efectivo será el clasificador. Un AUC de 1 indica un clasificador perfecto: clasifica correctamente todos los 1s y no clasifica incorrectamente ningún 0 como 1.

Un clasificador completamente inefectivo, representado por la línea diagonal, tendrá un AUC de 0.5. La Figura 5-7 muestra el área bajo la curva ROC para el modelo de préstamos. El valor de AUC se puede calcular mediante una integración numérica en R:

In [None]:
#

In [None]:
#

En Python, podemos calcular la AUC de dos maneras: utilizando el código que se mostró para R o utilizando la función `sklearn.metrics.roc_auc_score` de scikit-learn. Deberás proporcionar el valor esperado como 0 o 1.

In [None]:
#

In [None]:
#

In [None]:
#

El modelo tiene un AUC de aproximadamente 0.69, lo que corresponde a un clasificador relativamente débil.

![Captura de pantalla 2024-01-29 215613.png](attachment:744fd915-8416-40dd-b210-a0ef905a96ed.png)

**Figura 5-7**. Área bajo la curva ROC para los datos de préstamos

### Confusión en la Tasa de Falsos Positivos
Las tasas de falsos positivos/negativos a menudo se confunden o se mezclan con la especificidad o sensibilidad (incluso en publicaciones y software). En ocasiones, la tasa de falsos positivos se define como la proporción de verdaderos negativos que dan positivo. En muchos casos (como en la detección de intrusiones en redes), el término se utiliza para referirse a la proporción de señales positivas que son verdaderos negativos.

# Lift
Utilizar el AUC como métrica para evaluar un modelo es una mejora sobre la precisión simple, ya que puede evaluar qué tan bien un clasificador maneja el equilibrio entre la precisión general y la necesidad de identificar los 1 más importantes. Sin embargo, no aborda completamente el problema de casos raros, donde es necesario reducir el umbral de probabilidad del modelo por debajo de 0.5 para evitar que todos los registros se clasifiquen como 0. En tales casos, para que un registro se clasifique como 1, podría ser suficiente tener una probabilidad de 0.4, 0.3 o menos. En efecto, terminamos identificando en exceso los 1, reflejando su mayor importancia.

Cambiar este umbral mejorará tus posibilidades de capturar los 1 (a costa de clasificar incorrectamente más 0 como 1). Pero, ¿cuál es el umbral óptimo?

El concepto de "lift" te permite posponer responder a esa pregunta. En su lugar, consideras los registros en función de su probabilidad predicha de ser 1. Por ejemplo, de los mejores 10% clasificados como 1, ¿cuánto mejor lo hizo el algoritmo en comparación con la referencia de elegir al azar? Si puedes obtener un 0.3% de respuesta en este décimo superior en lugar del 0.1% que obtendrías al elegir al azar, se dice que el algoritmo tiene un "lift" (también llamado ganancias) de 3 en el décimo superior. Un gráfico de levantamiento (gains chart) cuantifica esto en todo el rango de los datos. Puede producirse década por década o continuamente a lo largo del rango de los datos.

Para calcular un gráfico de levantamiento, primero produces un gráfico de ganancias acumulativas que muestra la sensibilidad en el eje y y el número total de registros en el eje x. La curva de lift es la relación de las ganancias acumulativas con la línea diagonal que corresponde a la selección aleatoria.

Los gráficos de ganancias por década son una de las técnicas más antiguas en modelado predictivo, datando de la época antes del comercio en internet. Eran particularmente populares entre los profesionales de correo directo. El correo directo es un método costoso de publicidad si se aplica indiscriminadamente, y los anunciantes utilizaban modelos predictivos (bastante simples, en los primeros días) para identificar a los clientes potenciales con la probabilidad más alta de éxito.

### Uplift
En ocasiones, el término "uplift" se utiliza para significar lo mismo que "lift". 

Un significado alternativo se utiliza en un contexto más restrictivo, cuando se ha realizado una prueba A/B y el tratamiento (A o B) se utiliza como variable predictora en un modelo predictivo. El "uplift" es la mejora en la respuesta pronosticada para un caso individual con el tratamiento A en comparación con el tratamiento B. Esto se determina puntuando el caso individual primero con el predictor establecido en A y luego nuevamente con el predictor cambiado a B. Los profesionales de marketing y consultores de campañas políticas utilizan este método para determinar qué tratamiento de mensajes debe utilizarse con qué clientes o votantes.

Un gráfico de levantamiento te permite observar las consecuencias de establecer diferentes umbrales de probabilidad para clasificar registros como 1. Puede ser un paso intermedio para determinar un nivel de corte apropiado. Por ejemplo, una autoridad fiscal podría tener solo una cierta cantidad de recursos que puede gastar en auditorías fiscales, y desea gastarlos en los evasores de impuestos más probables. Teniendo en cuenta sus restricciones de recursos, la autoridad utilizaría un gráfico de levantamiento para estimar dónde trazar la línea entre las declaraciones de impuestos seleccionadas para la auditoría y aquellas que se dejan sin revisar.

### Ideas Clave
* La precisión (el porcentaje de clasificaciones predichas que son correctas) es solo el primer paso en la evaluación de un modelo.
* Otras métricas (sensibilidad, especificidad, precisión) se centran en características de rendimiento más específicas (por ejemplo, la sensibilidad mide qué tan bueno es un modelo para identificar correctamente los 1).
* El AUC (área bajo la curva ROC) es una métrica común para evaluar la capacidad de un modelo para distinguir entre 1s y 0s.
* De manera similar, el "lift" mide qué tan efectivo es un modelo para identificar los 1s y a menudo se calcula década por década, comenzando con los 1s más probables.

### Lecturas Adicionales
La evaluación y la valoración generalmente se tratan en el contexto de un modelo específico (por ejemplo, K-Nearest Neighbors o árboles de decisión); tres libros que abordan el tema en su propio capítulo son:
* "Data Mining", 3ra edición, de Ian Whitten, Eibe Frank y Mark Hall (Morgan Kaufmann, 2011).
* "Modern Data Science with R" de Benjamin Baumer, Daniel Kaplan y Nicholas Horton (Chapman & Hall/CRC Press, 2017).
* "Data Mining for Business Analytics" de Galit Shmueli, Peter Bruce, Nitin Patel, Peter Gedeck, Inbal Yahav y Kenneth Lichtendahl (Wiley, 2007–2020, con ediciones para R, Python, Excel y JMP).

# Estrategias para Datos Desbalanceados
La sección anterior trató sobre la evaluación de modelos de clasificación utilizando métricas que van más allá de la simple precisión y son adecuadas para datos desbalanceados, es decir, datos en los que el resultado de interés (compra en un sitio web, fraude en seguros, etc.) es raro. En esta sección, exploraremos estrategias adicionales que pueden mejorar el rendimiento del modelado predictivo con datos desbalanceados.

### Términos Clave para Datos Desbalanceados

**Undersample**
Utilizar menos registros de la clase prevalente en el modelo de clasificación.
Sinónimo
Downsample

**Oversample**
Utilizar más registros de la clase rara en el modelo de clasificación, haciendo bootstrap si es necesario.
Sinónimo
Upsample

**Up weight o down weight**
Asignar más (o menos) peso a la clase rara (o prevalente) en el modelo.

**Data generation**
Similar al bootstrap, excepto que cada nuevo registro bootstrap es ligeramente diferente de su origen.

**z-score**
El valor que resulta después de la estandarización.

**K**
El número de vecinos considerados en el cálculo del vecino más cercano.

# Undersampling
Si tienes suficientes datos, como es el caso con los datos de préstamos, una solución es realizar un submuestreo (o reducción de muestreo) de la clase prevalente, de modo que los datos a modelar estén más equilibrados entre 0 y 1. La idea básica en el submuestreo es que los datos para la clase dominante tienen muchos registros redundantes. Trabajar con un conjunto de datos más pequeño y equilibrado proporciona beneficios en el rendimiento del modelo y facilita la preparación de datos y la exploración y pilotaje de modelos.

¿Cuántos datos son suficientes? Depende de la aplicación, pero en general, tener decenas de miles de registros para la clase menos dominante es suficiente. Cuanto más fácilmente distinguibles sean los 1 de los 0, menos datos se necesitarán.

Los datos de préstamos analizados en "Regresión Logística" en la página 208 se basaron en un conjunto de entrenamiento equilibrado: la mitad de los préstamos fueron pagados, y la otra mitad estaban en incumplimiento. Los valores predichos fueron similares: la mitad de las probabilidades eran menores que 0.5 y la mitad eran mayores que 0.5. En el conjunto de datos completo, solo aproximadamente el 19% de los préstamos estaban en incumplimiento, como se muestra en R:

In [None]:
#

In [None]:
#

En Python:

In [None]:
#

In [None]:
#

¿Qué sucede si utilizamos el conjunto de datos completo para entrenar el modelo? Veamos cómo se ve esto en R:

In [None]:
#

In [None]:
#

Y en Python:

In [None]:
#

In [None]:
#

In [None]:
#

Solo el 0.39% de los préstamos se predice que estarán en incumplimiento, o menos de 1/47 de la cantidad esperada. Los préstamos que fueron pagados superan abrumadoramente a los préstamos en incumplimiento porque el modelo se entrena utilizando todos los datos por igual. Pensándolo de manera intuitiva, la presencia de tantos préstamos que no están en incumplimiento, junto con la inevitable variabilidad en los datos predictivos, significa que, incluso para un préstamo en incumplimiento, es probable que el modelo encuentre algunos préstamos que no están en incumplimiento y que son similares por casualidad. Cuando se usó una muestra equilibrada, aproximadamente el 50% de los préstamos se predijo que estarían en incumplimiento.

# Sobremuestreo y Ajuste de Peso (Up/Down Weighting)
Una crítica al método de submuestreo es que desecha datos y no utiliza toda la información disponible. Si tienes un conjunto de datos relativamente pequeño, y la clase más rara contiene algunos cientos o algunos miles de registros, entonces realizar un submuestreo de la clase dominante tiene el riesgo de desechar información útil. En este caso, en lugar de reducir el muestreo de la clase dominante, deberías realizar un sobremuestreo (aumentar el muestreo) de la clase más rara mediante la selección adicional de filas con reemplazo (bootstrap).

Puedes lograr un efecto similar ajustando el peso de los datos. Muchos algoritmos de clasificación aceptan un argumento de peso que te permitirá ajustar el peso de los datos hacia arriba o hacia abajo. Por ejemplo, aplica un vector de peso a los datos de préstamos utilizando el argumento de peso para glm en R:

In [None]:
#

In [None]:
#

In [None]:
#

La mayoría de los métodos de scikit-learn permiten especificar pesos en la función de ajuste utilizando el argumento de palabra clave `sample_weight`:

In [None]:
#

In [None]:
#

In [None]:
#

Los pesos para los préstamos que entran en incumplimiento se establecen en 1/p, donde p es la probabilidad de incumplimiento. Los préstamos que no entran en incumplimiento tienen un peso de 1. La suma de los pesos para los préstamos que entran en incumplimiento y los préstamos que no entran en incumplimiento es aproximadamente igual. La media de los valores predichos es ahora aproximadamente del 58% en lugar del 0.39%.

Ten en cuenta que el ajuste de peso proporciona una alternativa tanto al sobremuestreo de la clase más rara como al submuestreo de la clase dominante.

**Nota:**

Debido a diferencias en la implementación, los resultados en Python difieren ligeramente: 1%, o aproximadamente 1/18 de la cantidad esperada.

# Adaptar la Función de Pérdida
Muchos algoritmos de clasificación y regresión optimizan ciertos criterios o funciones de pérdida. Por ejemplo, la regresión logística intenta minimizar la devianza. En la literatura, algunos proponen modificar la función de pérdida para evitar los problemas causados por una clase rara. En la práctica, esto es difícil de hacer: los algoritmos de clasificación pueden ser complejos y difíciles de modificar. Ajustar el peso es una manera fácil de cambiar la función de pérdida, descontando errores para registros con bajos pesos a favor de registros con pesos más altos.

# Generación de Datos
Una variación del sobremuestreo mediante bootstrap (ver "Sobremuestreo y Ponderación Arriba/Abajo" en la página 232) es la generación de datos mediante la perturbación de registros existentes para crear nuevos registros. La intuición detrás de esta idea es que, dado que observamos solo un conjunto limitado de instancias, el algoritmo no tiene un conjunto rico de información para construir "reglas" de clasificación. Al crear nuevos registros que son similares pero no idénticos a los registros existentes, el algoritmo tiene la oportunidad de aprender un conjunto de reglas más robusto. Esta noción es similar en espíritu a modelos estadísticos de conjunto como boosting y bagging (ver Capítulo 6).

La idea ganó tracción con la publicación del algoritmo SMOTE, que significa "Técnica de Sobremuestreo Sintético para la Minoría". El algoritmo SMOTE encuentra un registro similar al registro que se está sobremuestreando (ver "Vecinos más Cercanos" en la página 238) y crea un registro sintético que es un promedio ponderado aleatorio del registro original y el registro vecino, donde el peso se genera por separado para cada predictor. El número de registros sintéticos sobremuestreados creados depende de la proporción de sobremuestreo requerida para equilibrar aproximadamente el conjunto de datos con respecto a las clases de resultado.

Existen varias implementaciones de SMOTE en R. El paquete más completo para manejar datos desbalanceados es "unbalanced". Ofrece una variedad de técnicas, incluido un algoritmo de "Racing" para seleccionar el mejor método. Sin embargo, el algoritmo SMOTE es lo suficientemente simple como para poder implementarse directamente en R utilizando el paquete FNN. El paquete de Python "imbalanced-learn" implementa una variedad de métodos con una API compatible con scikit-learn. Proporciona diversos métodos de sobremuestreo y submuestreo, y soporte para utilizar estas técnicas con clasificadores de boosting y bagging.

# Clasificación Basada en Costos

En la práctica, la precisión y el AUC son una manera básica de elegir una regla de clasificación. A menudo, se puede asignar un costo estimado a los falsos positivos versus los falsos negativos, y es más apropiado incorporar estos costos para determinar el mejor umbral al clasificar 1s y 0s. Por ejemplo, supongamos que el costo esperado de un incumplimiento de un nuevo préstamo es C y el rendimiento esperado de un préstamo saldado es R. Entonces, el rendimiento esperado para ese préstamo es:

$$rendimiento\ esperado = P(Y = 0) × R + P(Y = 1) × C$$

En lugar de simplemente etiquetar un préstamo como incumplimiento o saldado, o determinar la probabilidad de incumplimiento, tiene más sentido determinar si el préstamo tiene un rendimiento esperado positivo. La probabilidad predicha de incumplimiento es un paso intermedio, y debe combinarse con el valor total del préstamo para determinar la ganancia esperada, que es la métrica de planificación empresarial definitiva. Por ejemplo, un préstamo de menor valor podría pasarse por alto a favor de uno más grande con una probabilidad de incumplimiento ligeramente más alta.

# Explorando las Predicciones

Una única métrica, como el AUC, no puede evaluar todos los aspectos de la idoneidad de un modelo para una situación. La Figura 5-8 muestra las reglas de decisión para cuatro modelos diferentes ajustados a los datos de préstamos utilizando solo dos variables predictoras: borrower_score y payment_inc_ratio. Los modelos son análisis discriminante lineal (LDA), regresión lineal logística, regresión logística ajustada mediante un modelo aditivo generalizado (GAM) y un modelo de árbol (ver "Modelos de Árbol" en la página 249). La región en la parte superior izquierda de las líneas corresponde a un incumplimiento predicho. LDA y regresión lineal logística dan resultados casi idénticos en este caso. El modelo de árbol produce la regla menos regular, con dos pasos. Finalmente, el ajuste GAM de la regresión logística representa un compromiso entre el modelo de árbol y el modelo lineal.

![Captura de pantalla 2024-01-29 220909.png](attachment:d4a5363e-a88d-465c-b837-c88bb4c21376.png)

**Figura 5-8**. Comparación de las reglas de clasificación para cuatro métodos diferentes

No es fácil visualizar las reglas de predicción en dimensiones superiores o, en el caso del modelo GAM y el modelo de árbol, incluso generar las regiones para tales reglas. En cualquier caso, el análisis exploratorio de los valores predichos siempre es recomendable.

### Ideas Clave
* Datos altamente desequilibrados (es decir, donde los resultados de interés, los 1, son raros) presentan problemas para los algoritmos de clasificación.
* Una estrategia para trabajar con datos desequilibrados es equilibrar los datos de entrenamiento mediante la submuestreo del caso abundante (o el sobre muestreo del caso raro).
* Si usar todos los 1 aún deja muy pocos, puedes realizar un remuestreo (bootstrap) de los casos raros o utilizar SMOTE para crear datos sintéticos similares a los casos raros existentes.
* Datos desequilibrados generalmente indican que clasificar correctamente una clase (los 1) tiene un valor más alto, y esa relación de valor debería incorporarse en la métrica de evaluación.

### Lecturas Adicionales
• Tom Fawcett, autor de "Data Science for Business", tiene un buen artículo sobre clases desequilibradas.
• Para obtener más información sobre SMOTE, consulta el trabajo de Nitesh V. Chawla, Kevin W. Bowyer, Lawrence O. Hall y W. Philip Kegelmeyer, "SMOTE: Synthetic Minority Over-sampling Technique," Journal of Artificial Intelligence Research 16 (2002): 321–357.
• También puedes revisar la "Guía Práctica para Enfrentar Problemas de Clasificación Desbalanceada en R" del equipo de contenido de Analytics Vidhya, fechada el 28 de marzo de 2016.

# Resumen

Clasificación, el proceso de predecir a cuál de dos o más categorías pertenece un registro, es una herramienta fundamental de la analítica predictiva. ¿Un préstamo incumplirá (sí o no)? ¿Se pagará anticipadamente? ¿Un visitante web hará clic en un enlace? ¿Comprará algo? ¿Es fraudulenta una reclamación de seguro? A menudo, en problemas de clasificación, una clase es de interés primario (por ejemplo, la reclamación fraudulenta de seguro), y en la clasificación binaria, esta clase se designa como 1, mientras que la otra clase más prevalente es un 0. A menudo, una parte clave del proceso es estimar un puntaje de propensión, una probabilidad de pertenecer a la clase de interés. Un escenario común es aquel en el que la clase de interés es relativamente rara. Al evaluar un clasificador, hay una variedad de métricas de evaluación del modelo que van más allá de la simple precisión; estas son importantes en situaciones de clases raras, cuando clasificar todos los registros como 0 puede dar como resultado una alta precisión.