[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/MauricioRR-Tec/Machine-Learning/blob/master/Notebooks/Module_2/InformacionComplementaria_ML.ipynb)

# Información complementaria

---

## Contenido de la Sección


1.   Errores - Bias y Varianza
2.   Entrenamiento - Sobreajuste y Subajuste (General)
3.   Errores en modelos de regresión


---
## 1.- Errores
En **Machine Learning**, tenemos muy presente lo siguiente: "Precisión".

Cuando nos enfrentamos al desarrollo de un modelo, nos debemos esforzar considerando lograr la mejor precisión y un adecuado ajuste de parámetros.

En la práctica siempre habrá "alti-bajos" para dicha construcción, por lo que no siempre podremos construir un modelo con una precisión del 100% por diversas cuestiones (siempre sujetos a errores). 

![img](https://cdn.diferenciador.com/imagenes/exactitud-4-cke.jpg)

Debemos comprender las diferentes fuentes de error de predicción, los cuales se dividen en estas parte:
* `Error de Bias`
* `Error de Varianza`
* `Error de Irreducible`

### Error de Bias

**Diferencia entre la predicción esperada de nuestro modelo y los valores verdaderos**.

Aunque al final nuestro objetivo es siempre construir modelos que puedan predecir datos muy cercanos a los *valores verdaderos*, no siempre es tan fácil.

Ejemplo: Ajustar una regresión lineal a un conjunto de datos que tiene un patrón no lineal (Ajuste insuficiente).

En general, los algoritmos paramétricos como la regresión lineal, tienen un alto bias que los hace rápidos de aprender y más fácil de entender, pero generalmente menos flexibles. A su vez, tienen un menor rendimiento predictivo en problemas complejos.

![img](https://i0.wp.com/live.staticflickr.com/65535/48057227231_5aacf1e5ac_c.jpg?resize=800%2C502&ssl=1)


    Bajo bias: sugiere menos suposiciones sobre la forma de la función objetivo.
    Alto bias: sugiere más suposiciones sobre la forma de la función objetivo.


### Error de varianza

**Cantidad que la estimación de la función objetivo cambiará si se utiliza diferentes datos de entrenamiento**.

La función objetivo se estima a partir de los datos de entrenamiento mediante un algoritmo de Machine Learning, por lo que deberíamos esperar que el algoritmo tenga alguna variación. 

Idealmente no debería cambiar demasiado de un conjunto de datos de entrenamiento a otro, lo que significa que el algoritmo es bueno para elegir el mapeo subyacente oculto entre las variables de entrada y de salida.

---

**Los algoritmos de Machine Learning que tienen una gran varianza están fuertemente influenciados por los detalles de los datos de entrenamiento, esto significa que los detalles de la capacitación influyen en el número y los tipos de parámetros utilizados para caracterizar la función de mapeo**.

![img](https://i2.wp.com/live.staticflickr.com/65535/48057275418_bf2cae6f83_c.jpg?resize=800%2C577&ssl=1)

    
    Varianza baja: sugiere pequeños cambios en la estimación de la función objetivo con cambios en el conjunto de datos de capacitación.
    Alta varianza: sugiere grandes cambios en la estimación de la función objetivo con cambios en el conjunto de datos de capacitación.


### Importante !

Los que de plano no se pueden "reducir" son los errores de tipo **Irreducibes**. 

También se le conoce como ruido y, por lo general, proviene por factores como variables desconocidas que influyen en el mapeo de las variables de entrada a la variable de salida, un conjunto de características incompleto o **un problema mal enmarcado**. Acá es importante comprender que no importa cuán bueno hagamos nuestro modelo, nuestros datos tendrán cierta cantidad de ruido o un error irreductible que no se puede eliminar.

---

Traduciendo el mapa de tiro con arco a estos conceptos...

![img](https://i1.wp.com/live.staticflickr.com/65535/48057226411_5cdfc33307_c.jpg?resize=800%2C746&ssl=1)

### Error total

Comprender el bias y la varianza es fundamental para comprender el comportamiento de los modelos de predicción, pero en general lo que realmente importa es el **error general**, no la descomposición específica. 

El punto ideal para cualquier modelo es el nivel de complejidad en el que el aumento en el bias es equivalente a la reducción en la varianza.

![img](https://i0.wp.com/live.staticflickr.com/7927/46138669365_b98531b89d_c.jpg?resize=800%2C505&ssl=1)

---
# 2.- Entrenamiento

Cuando trabajamos con un conjunto de datos para predecir o clasificar un problema, tendemos a encontrar la precisión implementando un modelo con el conjunto de datos de entrenamiento y luego con el conjunto de datos de pruebas.

Si la precisión es satisfactoria, tendemos a aumentar la precisión de la predicción con el conjuntos de datos, ya sea aumentando o disminuyendo la selección de las característicos o modificando las condiciones de nuestro modelo de Machine Learning, pero con esto, en ocasiones el modelo puede dar resultados pobres.

---
Rendimiento pobre: se debe a que el modelo es demasiado **simple** para describir el objetivo, o, por el contrario, **complejo** para expresar el objetivo. 

Es en este momento que se debe tener claro los conceptos de sobreajuste y subajuste o “overfitting” y “underfitting”, como se le conoce en inglés.
![img](https://i2.wp.com/live.staticflickr.com/65535/48057305423_0653b5e58f_c.jpg?resize=800%2C292&ssl=1)

En Machine Learning, predecimos y clasificamos nuestros datos de forma más general, entonces, para resolver el problema de nuestro modelo que esta sobreajustado o subajustado, debemos verlos por separado uno por uno.

## Subajuste
---
El ajuste insuficiente destruye la precisión de nuestro modelo de Machine Learning. Su aparición simplemente significa que nuestro modelo o el algoritmo no se ajusta a los datos lo suficientemente bien. Suele suceder cuando tenemos menos datos para construir un modelo preciso y también cuando intentamos construir un modelo lineal con datos no lineales.

En tales casos, las reglas del modelo de Machine Learning son demasiado fáciles y flexibles para aplicarse a datos tan mínimos y, por lo tanto, es probable que el modelo haga muchas predicciones erróneas. La falta de adaptación se puede evitar utilizando más datos y también reduciendo las características por selección de características.

## Sobreajuste
---
Esto ocurre cuando un modelo aprende el detalle, incluyendo el ruido en los datos de entrenamiento en la medida en que tiene un impacto negativo en el rendimiento del modelo en datos nuevos. Esto significa que el ruido o las fluctuaciones aleatorias en los datos de entrenamiento son recogidos y aprendidos por el modelo. El problema es que estos conceptos no se aplican a los datos nuevos y afectan negativamente a la capacidad de los modelos para generalizar.

El sobreajuste es más probable con modelos no paramétricos y no lineales porque estos tipos de algoritmos de Machine Learning tienen más libertad para construir el modelo basado en el conjunto de datos , por lo tanto, pueden construir modelos poco realistas.

---
Idealmente, deseamos seleccionar un modelo en el "punto óptimo" entre ajuste insuficiente y excesivo. Ésto es el objetivo, pero en la práctica se puede complicar.

Existen varias maneras de evitar el sobreajuste de los modelos de Machine Learning, algunos de los cuales se mencionan a continuación.

---

### Validación cruzada

Estándar de oro en ML, aplicado para estimar la precisión del modelo en datos no vistos. Si tienes los datos, usar un conjunto de datos de valicación también es una práctica excelente.

### Detección temprana

En el proceso de entrenamiento del modelo, podemos ir viendo que hasta cierto número de iteraciones el rendimiento se "estabiliza". Después de cierto punto, si aumenta el número de iteraciones, el modelo posiblemente tendrá una mejoría en el rendimiento en el conjunto de entrenamiento, pero el modelo se **sobrecargará** y tendrá un bajo rendimiento con el conjunto de prueba (Evitamos así un ajuste excesivo del modelo!).

### Regularización

Se hace para simplificar el modelo. ¿Para qué la necesitamos? Para evitar que el modelo se adapte excesivamente.

-------------

## 3.- Errores en modelos de regresión

Con un modelo de regresión, predecimos o estimamos el valor numérico de una cantidad desconocida, de acuerdo con unas características dadas. 

La diferencia entre la predicción y el valor real es **el error**, este es una variable aleatoria, que puede depender de las características dadas.

---

En la actualidad hay algunas formas para estimar el rendimiento y evaluar el ajuste del modelo, algunas de ellas son: 
* Error cuadrático medio (RMSE- root mean squared error)
* Error absoluto medio (MAE - mean absolute error) 
* R-cuadrado

---

### RMSE
Indica el ajuste absoluto del modelo a los datos, qué tan cerca están los puntos de los datos observados de los predichos en el modelo.

  $$
  RMSE  = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2},
  $$
  
Como la raíz cuadrada de una varianza, RMSE se puede interpretar como la desviación estándar de la varianza inexplicada, y tiene la propiedad útil de estar en las mismas unidades que la variable de respuesta.

---
Los valores más bajos de RMSE indican un mejor ajuste. RMSE es una buena medida de la precisión con que el modelo predice la respuesta, y es el criterio más importante para ajustar si el propósito principal del modelo es la predicción.

### MAE

$$
  MAE  = {\frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|},
  $$

Es el promedio de la diferencia absoluta entre el valor observado y los valores predichos. El error absoluto medio o MAE es un puntaje lineal, lo que significa que todas las diferencias individuales se ponderán por igual en el promedio.

---

### $R^2$

  $$
  R^2 \equiv 1 - \frac{\sum_i (y_i-\hat{y})^2}{\sum_i (y_i-\bar{y})^2},
  $$
  
R-cuadrado tiene la propiedad útil de que su escala es intuitiva, va de 0 a 1, con 0 indicando que el modelo propuesto no mejora la predicción sobre el modelo medio y 1 indica una predicción perfecta. La mejora en el modelo de regresión da como resultado aumentos proporcionales en R-cuadrado.

### Limitaciones importante de RMSE y MAE
Cada una de estas medidas es meramente un promedio o la raíz cuadrada de ese promedio de las realizaciones de los errores de prueba. 

El error es una variable aleatoria numérica y no se puede captar todo el comportamiento de una variable aleatoria con una sola agregación de observaciones, a menudo es una variable aleatoria muy sesgada. 

Cuando predecimos resultados sesgados, como precios, ingresos, ventas de artículos y muchos más, lo más probable es que el error también sea sesgado, lo que significa que en la mayoría de los casos el error es muy pequeño, pero hay relativamente pocos ejemplos que pueden tener errores extremadamente grandes. Cuando el error es muy sesgado, el promedio a menudo no dice nada.