### Equilibrio y desequilibrio de las clases

La exactitud del árbol de decisión es casi la misma que la del modelo constante. ¿Por qué pasa eso y qué debemos hacer al respecto?

Aunque la proporción de predicciones correctas es cercana al 100 %, todavía no sabemos si el cliente hará una reclamación al seguro. Hay un fuerte desequilibrio de clases en nuestro problema, lo que afecta cómo se entrena el modelo.

Las clases están desequilibradas cuando su proporción está lejos de 1:1. El equilibrio de clases se observa si su número es aproximadamente igual.

La exactitud no evalúa bien el modelo en un escenario de fuerte desequilibrio. ¡Necesitamos una nueva métrica! Pero primero debemos repasar algunas distinciones importantes.

Una clase con la etiqueta "1" se llama positiva y una clase con la etiqueta "0" se llama negativa.

Si combinamos estas respuestas con predicciones, obtendremos la siguiente división:

- Respuestas de verdadero positivo (VP) y verdadero negativo (VN)
- Respuestas de falso positivo (FP) y falso negativo (FN)

Entonces, las características "positivo" y "negativo" se refieren a una predicción, y "verdadero" y "falso" se refieren a su exactitud.

En las próximas lecciones, veremos cómo podemos calcular estos cuatro valores posibles.

### Respuestas verdaderas positivas

Podemos utilizar diferentes métricas para gestionar el desequilibrio y clasificar las respuestas con mayor exactitud.

¿Qué significa una respuesta verdadera positiva (VP)? En este caso, el modelo etiquetó una observación como 1 y su valor real también es 1.

En nuestro ejercicio, la respuesta Verdadero Positivo equivale al número de asegurados que:

- pidió compensación, de acuerdo con la predicción del modelo;
- sí hizo un reclamo de seguro.

Aquí hay un ejemplo de predicciones frente a respuestas correctas. Cuenta el número de respuestas VP y muestra el resultado en la pantalla.

debes agregar condiciones en una secuencia: combínalas con un operador lógico y encuentra la suma de los valores. Como sabes, el operador and en pandas se escribe usando el símbolo &:

((target == 1) & (# < escribe el código aquí >)).sum()

In [6]:
import pandas as pd

target = pd.Series([1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1])
predictions = pd.Series([1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1])

# <  escribe el código aquí >
vp_answers = ((target == 1) & (predictions == 1)).sum()

print(vp_answers)



5


¡Es correcto!

¡Conociste a Verdadero Positivo, el líder del cuarteto! Intenta no confundirlo. Faltan otros tres.

Esto te da una Serie booleana que es True solo cuando ambos son 1.

Si quieres contar cuántos VP hay, usa .sum(), porque True cuenta como 1 y False como 0.

Respuestas verdaderas negativas

Si los valores de clase previstos y reales son negativos, la respuesta es Verdadero Negativo.

En nuestro ejercicio, la respuesta Verdadero Negativo (VN) es el número de personas aseguradas que:

de acuerdo con la predicción del modelo, no solicitaron un pago
en realidad no solicitaron la compensación del seguro.

Cuenta el número de respuestas VN tal como lo hiciste en el ejercicio anterior. Muestra los resultados en la pantalla.

In [7]:
import pandas as pd

target = pd.Series([1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1])
predictions = pd.Series([1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1])

# < escribe el código aquí >
vn_answers = ((target == 0) & (predictions == 0)).sum()

print(vn_answers)

4


Es correcto!

Imagina cambiar a los miembros del cuarteto. Intenta no confundirlos por los Cuatro Jinetes del Apocalipsis. Este definitivamente montaría un caballo blanco. Y su jinete, Verdadero Negativo.

Respuestas falsas positivas

Los algoritmos son como los humanos: cometen errores. Estos errores se dividen en dos categorías.

El primer tipo de error es un falso positivo (FP). Ocurre cuando el modelo predijo "1", pero el valor real de la clase es "0".

En nuestra tarea, una respuesta Falso Positivo es el número de personas aseguradas que:

según la predicción del modelo, solicitaron un pago, pero
en realidad, no hicieron un reclamo.

Encuentra el número de respuestas FP de la misma manera que encontraste las respuestas VN en la tarea anterior. Muestra los resultados en la pantalla.


In [8]:
import pandas as pd

target = pd.Series([1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1])
predictions = pd.Series([1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1])

# <  escribe el código aquí  >
fp_answers = ((target == 0) & (predictions == 1)).sum()

print(fp_answers)

3


¡Es correcto!

Similar a un falso profeta, el Falso Positivo es... Espera, esto no es la escuela dominical. ¡Muy bien! Al igual que el Verdadero Positivo, el Falso Positivo es positivo, pero no es verdadero.

Respuestas falsas negativas

El segundo tipo de error son las respuestas Falsas Negativas (FN).
Las respuestas falsas negativas ocurren cuando el modelo predice "0", pero el valor real de la clase es "1".

En nuestra tarea, una respuesta de Falso Negativo es el número de personas aseguradas que:

- según la predicción del modelo, no solicitaron un pago, (prediccion = 0) pero
- en realidad, hicieron un reclamo (target = 1).

Cuenta el número de respuestas FN. Muestra los resultados en la pantalla.


In [9]:
import pandas as pd

target = pd.Series([1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1])
predictions = pd.Series([1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1])

# < escribe el código aquí >
fn_answers = ((target == 1) & (predictions == 0)).sum()

print(fn_answers)


2


¡Es correcto!

Tanto Falso como Negativo suenan negativos, pero juntos significan positivo. Y es maravilloso. Camina sobre las huellas de lo Falso y lo Negativo y encuentra el bien en los dos.