# BIAS & VARIANCE

La selección del algoritmo es un paso importante en la formación de un modelo de predicción preciso, pero desplegar un algoritmo con una alta tasa de precisión puede ser un acto de equilibrio difícil. El hecho de que cada algoritmo pueda producir modelos muy diferentes según los hiperparámetros proporcionados puede llevar a resultados dramáticamente diferentes. Como se mencionó anteriormente, los hiperparámetros son los ajustes del algoritmo, similares a los controles en el tablero de un avión o los botones utilizados para ajustar la frecuencia de la radio, ¡excepto que los hiperparámetros son líneas de código!

![image.png](attachment:image.png)

Figure 1: Example of hyperparameters in Python for the algorithm gradient boosting

Un desafío constante en el aprendizaje automático es navegar entre el subajuste y el sobreajuste, que describen cuán cercano está tu modelo a los patrones reales del conjunto de datos. Para entender el subajuste y el sobreajuste, primero debes comprender el sesgo y la varianza.

El sesgo se refiere a la brecha entre el valor predicho y el valor real. En el caso de un sesgo alto, es probable que tus predicciones estén sesgadas en una cierta dirección alejada de los valores reales. La varianza describe qué tan dispersos están tus valores predichos. El sesgo y la varianza se pueden entender mejor analizando la siguiente representación visual.

![image.png](attachment:image.png)

Figure 2: Shooting targets used to represent bias and variance

Los blancos de tiro, como se ve en la Figura 2, no son un gráfico visual utilizado en el aprendizaje automático, pero ayudan a explicar el sesgo y la varianza. Imagina que el centro del blanco, o el ojo del toro, predice perfectamente el valor correcto de tu modelo. Los puntos marcados en el blanco representan una realización individual de tu modelo basado en tus datos de entrenamiento. En ciertos casos, los puntos estarán densamente posicionados cerca del ojo del toro, asegurando que las predicciones hechas por el modelo estén cerca de los datos reales. En otros casos, los datos de entrenamiento estarán dispersos por todo el blanco. Cuanto más se desvíen los puntos del ojo del toro, mayor será el sesgo y menos precisa será la capacidad predictiva del modelo en general.

En el primer blanco, podemos ver un ejemplo de bajo sesgo y baja varianza. El sesgo es bajo porque los impactos están cerca del centro y hay poca varianza porque los impactos están densamente posicionados en una ubicación.

El segundo blanco (ubicado a la derecha del primer blanco) muestra un caso de bajo sesgo y alta varianza. Aunque los impactos no están tan cerca del ojo del toro como en el ejemplo anterior, todavía están cerca del centro y, por lo tanto, el sesgo es relativamente bajo. Sin embargo, hay alta varianza esta vez porque los impactos están dispersos entre sí.

El tercer blanco (ubicado a la izquierda de la segunda fila) representa alto sesgo y baja varianza y el cuarto blanco (ubicado a la derecha de la segunda fila) muestra alto sesgo y alta varianza.

Idealmente, quieres una situación donde haya baja varianza y bajo sesgo. En realidad, sin embargo, a menudo hay un compromiso entre el sesgo y la varianza óptimos. Tanto el sesgo como la varianza contribuyen al error, pero es el error de predicción que quieres minimizar, no el sesgo o la varianza específicamente.

![image.png](attachment:image.png)

Figure 3: Model complexity based on prediction error

En la Figura 3, podemos ver dos líneas moviéndose de izquierda a derecha. La línea de arriba representa los datos de prueba y la línea de abajo representa los datos de entrenamiento. Desde la izquierda, ambas líneas comienzan en un punto de alto error de predicción debido a baja varianza y alto sesgo. A medida que se mueven de izquierda a derecha, cambian a lo opuesto: alta varianza y bajo sesgo. Esto conduce a un bajo error de predicción en el caso de los datos de entrenamiento y un alto error de predicción para los datos de prueba. En el medio del gráfico hay un equilibrio óptimo de error de predicción entre los datos de entrenamiento y prueba. Este es un caso común de compensación sesgo-varianza.

![image.png](attachment:image.png)

Figure 4: Underfitting on the left and overfitting on the right

Una gestión incorrecta de la compensación entre sesgo y varianza puede conducir a resultados pobres. Como se muestra en la Figura 4, esto puede resultar en que el modelo se vuelva demasiado simple e inflexible (subajuste) o demasiado complejo y flexible (sobreajuste).

El subajuste (baja varianza, alto sesgo) a la izquierda y el sobreajuste (alta varianza, bajo sesgo) a la derecha se muestran en estos dos diagramas de dispersión. Una tentación natural es agregar complejidad al modelo (como se muestra a la derecha) para mejorar la precisión, pero esto puede conducir a un sobreajuste. Un modelo sobreajustado producirá predicciones precisas a partir de los datos de entrenamiento pero será menos preciso al formular predicciones a partir de los datos de prueba. El sobreajuste también puede ocurrir si los datos de entrenamiento y prueba no se mezclan antes de dividirse y los patrones en los datos no se distribuyen entre los dos segmentos de datos.

El subajuste es cuando tu modelo es demasiado simple y, nuevamente, no ha explorado los patrones subyacentes en el conjunto de datos. El subajuste puede llevar a predicciones inexactas tanto para los datos de entrenamiento como para los datos de prueba.

Las causas comunes del subajuste incluyen datos de entrenamiento insuficientes para cubrir adecuadamente todas las combinaciones posibles, y situaciones donde los datos de entrenamiento y prueba no se mezclaron adecuadamente.

Para erradicar tanto el subajuste como el sobreajuste, es posible que necesites modificar los hiperparámetros del modelo para asegurarte de que se ajusten a los patrones en ambos conjuntos de datos de entrenamiento y prueba y no solo a la mitad de los datos. Un ajuste adecuado debería reconocer las tendencias principales en los datos y minimizar o incluso omitir variaciones menores. Esto también puede significar volver a mezclar los datos de entrenamiento y prueba o agregar nuevos puntos de datos para detectar mejor los patrones subyacentes. Sin embargo, en la mayoría de los casos, probablemente necesitarás considerar cambiar de algoritmos o modificar tus hiperparámetros en base a la prueba y error para minimizar y gestionar el problema de la compensación entre sesgo y varianza.

Específicamente, esto podría implicar cambiar de regresión lineal a regresión no lineal para reducir el sesgo aumentando la varianza. O podría significar aumentar "k" en k-NN para reducir la varianza (mediante la promediación de más vecinos). Un tercer ejemplo podría ser reducir la varianza cambiando de un solo árbol de decisión (que es propenso al sobreajuste) a un bosque aleatorio con muchos árboles de decisión.

Otra estrategia efectiva para combatir el sobreajuste y el subajuste es introducir regularización. La regularización aumenta artificialmente el error de sesgo penalizando el aumento de la complejidad de un modelo. En efecto, este parámetro adicional proporciona una alerta para mantener la alta varianza bajo control mientras se optimizan los parámetros originales.

Otra técnica efectiva para contener el sobreajuste y el subajuste en tu modelo es realizar validación cruzada, como se cubrió anteriormente en el Capítulo 6, para minimizar cualquier discrepancia entre los datos de entrenamiento y los datos de prueba.