<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.04/bds_optimizacion_002_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Sobreajuste (overfit) / Generalización / Simplificación (underfit) </font>**

<p align="justify">
👀 En el Colab anterior, presentamos el marco general de validación cruzada y cómo nos ayuda a cuantificar los errores de entrenamiento y prueba, así como sus fluctuaciones.
<br><br>
En este Colab, pondremos estos dos errores en perspectiva y mostraremos cómo pueden ayudarnos a saber si nuestro modelo se generaliza, se sobreajusta o se simplifica.
<br><br>
Vamos a cargar los datos y crear el mismo modelo que en el Colab anterior, pero antes algunas definiciones

 ## **<font color="DeepPink">Definición de overfitting, generalizacion y underfitting</font>**

<p align="justify">
En <code>Scikit-learn</code> y para el aprendizaje automático, los términos <code>overfitting</code> (sobreajuste), generalización y <code>underfitting</code> (simplificación) se refieren a fenómenos relacionados con el rendimiento de un modelo.
<br><br>
✅ El <code>overfitting</code> ocurre cuando un modelo se ajusta demasiado a los datos de entrenamiento y se vuelve muy específico para esos datos, perdiendo la capacidad de generalizar correctamente a los datos nuevos, es decir los datos no vistos. En otras palabras, el modelo "aprende de memoria" los datos de entrenamiento en lugar de capturar los patrones subyacentes. Como resultado, el modelo puede tener un rendimiento muy alto en los datos de entrenamiento, pero un rendimiento deficiente en los datos no vistos, lo que reduce su capacidad de generalización. En <code>Scikit-learn</code>, el sobreajuste se puede identificar cuando el rendimiento del modelo en el conjunto de entrenamiento es significativamente mejor que en el conjunto de evaluación.
<br><br>
✅ La generalización se refiere a la capacidad de un modelo para realizar predicciones precisas en datos no vistos, es decir, su capacidad para capturar los patrones subyacentes y aplicarlos a nuevas instancias. Un modelo bien generalizado es capaz de adaptarse a nuevos datos y realizar predicciones precisas sin haberlos visto previamente. En <code>Scikit-learn</code>, la generalización se evalúa mediante el rendimiento del modelo en un conjunto de evaluación independiente.
<br><br>
✅ El <code>underfitting</code> ocurre cuando un modelo es demasiado simple para capturar los patrones complejos presentes en los datos de entrenamiento. En otras palabras, el modelo no se ajusta lo suficiente a los datos de entrenamiento y no logra capturar las relaciones importantes. Como resultado, el modelo puede tener un rendimiento deficiente tanto en los datos de entrenamiento como en los datos de evaluación. En <code>Scikit-learn</code>, la simplificación se puede identificar cuando el rendimiento del modelo es bajo tanto en el conjunto de entrenamiento como en el conjunto de evaluación.
<br><br>
👀 El objetivo deseado en el aprendizaje automático es lograr un equilibrio entre el sobreajuste y la simplificación, es decir, obtener un modelo que generalice bien a nuevos datos sin ajustarse demasiado a los datos de entrenamiento. Esto se logra mediante técnicas como la selección adecuada de características, la regularización, la validación cruzada y la búsqueda de hiperparámetros. <code>Scikit-learn</code> proporciona herramientas y métodos para ayudar a abordar estos desafíos y encontrar el equilibrio óptimo entre el sobreajuste y el subajuste.

 ## **<font color="DeepPink">Carga de las librerías</font>**

In [1]:
import numpy as np
import pandas as pd

In [2]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go

 ## **<font color="DeepPink">Carga y análisis de conjunto de datos</font>**

<p align = "justify">
👀 Vamos a usar datos de <code>Scikit-learn</code>

In [3]:
from sklearn.datasets import fetch_california_housing

In [4]:
housing = fetch_california_housing(as_frame=True) #as_frame: como Pandas DataFrame

In [5]:
print(housing.DESCR)

.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

    :Number of Instances: 20640

    :Number of Attributes: 8 numeric, predictive attributes and the target

    :Attribute Information:
        - MedInc        median income in block group
        - HouseAge      median house age in block group
        - AveRooms      average number of rooms per household
        - AveBedrms     average number of bedrooms per household
        - Population    block group population
        - AveOccup      average number of household members
        - Latitude      block group latitude
        - Longitude     block group longitude

    :Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

The target variable is the median house value for California districts,
expressed in hundreds of thousands of dollars ($100,000).

This dataset was derived

<p align="justify">
👀 En este conjunto de datos, el objetivo es predecir el valor promedio de las casas en un área de California. Las características recopiladas se basan en información inmobiliaria y geográfica general de estas propiedades. Como el valor promedio a predecir es el precio medio (variable numérica continua), utilizaremos entonces un modelo predictivo específico de regresión. 

In [6]:
housing.data.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25


<p align="justify">
👀 Ahora si, dividimos todos los datos del conjunto de datos <code>housing</code>, en nuestra variable objetivo y las variables explicativas. En el caso de la variable objetivo hacemos una transformación de los datos para expresar los valores a cientos de miles de dólares. 

In [7]:
X, y = housing.data, housing.target
y *= 100000

<p align="justify">
👀 Visualizamos variable objetivo. 

In [8]:
y.head()

0    452600.0
1    358500.0
2    352100.0
3    341300.0
4    342200.0
Name: MedHouseVal, dtype: float64

<p align="justify">
👀 Visualizamos variables explicativas.

In [9]:
X.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25


 # **<font color="DeepPink">Overfitting versus Underfitting</font>**


<p align="justify">
Para comprender mejor el rendimiento de generalización de nuestro modelo y tal vez encontrar información sobre cómo mejorarlo, comparamos el error de prueba con el error de entrenamiento. Por lo tanto, necesitamos calcular el error en el conjunto de entrenamiento, lo cual es posible usando la función <code>cross_validate</code>.

 ## **<font color="DeepPink">Creación y ajuste del modelo</font>**

Para resolver el problema de regresión, utilizaremos un [Árbol de Regresión](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html)

In [10]:
from sklearn.tree import DecisionTreeRegressor

In [11]:
model = DecisionTreeRegressor(random_state=0) 
model

In [12]:
from sklearn.model_selection import cross_validate, ShuffleSplit

In [13]:
cv = ShuffleSplit(n_splits=30, test_size=0.2)

cv_results = cross_validate(model, X, y,
                            cv=cv, scoring="neg_mean_absolute_error",
                            return_train_score=True, n_jobs=2)

cv_results = pd.DataFrame(cv_results)

In [14]:
cv_results.head()

Unnamed: 0,fit_time,score_time,test_score,train_score
0,0.194639,0.003206,-45727.048207,-9.130199e-13
1,0.196539,0.003264,-44624.072432,-6.90934e-13
2,0.191325,0.003196,-46019.031977,-9.447464e-13
3,0.195826,0.003234,-45377.976017,-9.870485e-13
4,0.19168,0.003196,-46656.921027,-6.874088e-13


<p align="justify">
👀 La validación cruzada utilizó el error absoluto medio negativo. Transformamos el error absoluto medio negativo en un error absoluto medio positivo.

In [15]:
scores = pd.DataFrame()
scores[["train error", "test error"]] = -cv_results[["train_score", "test_score"]]

In [16]:
scores.head()

Unnamed: 0,train error,test error
0,9.130199e-13,45727.048207
1,6.90934e-13,44624.072432
2,9.447464e-13,46019.031977
3,9.870485e-13,45377.976017
4,6.874088e-13,46656.921027


 ## **<font color="DeepPink">Histograma Overfitting versus Underfitting</font>**

In [17]:
fig = make_subplots(rows=1, cols=2, 
                    subplot_titles=[f"{i}" for i in scores.columns],
                    x_title="MAE $")

In [18]:
for i,j in enumerate(scores.columns):
  fig.add_trace(go.Histogram(x=scores[j],
                             name=j),
                row=1, col=i+1)

In [19]:
fig.update_layout(template="gridon",
                  title_text="Overfitting versus Underfitting",
                  bargap=0.2)

fig.show()

<p align="justify">
👀 Al graficar la distribución de los errores de entrenamiento y los errores de prueba, se puede obtener información sobre si nuestro modelo se ajusta demasiado (Overfitting), se ajusta poco (Underfitting) o los dos al mismo tiempo.
<br><br>
✅ Aquí, observamos un <b>pequeño error de entrenamiento</b> (en realidad cero), lo que significa que el modelo <b>no tiene underfitting</b>. El modelo es lo suficientemente flexible para capturar cualquier variación presente en el conjunto de entrenamiento.
<br><br>
✅ Sin embargo, el <b>error de prueba</b> es significativamente mayor, lo que nos dice que el modelo tiene <b>overfitting</b>. El modelo ha memorizado muchas variaciones del conjunto de entrenamiento que podría considerarse "ruido" porque no generaliza en una buena predicción en el conjunto de prueba.

 ## **<font color="DeepPink">Curva de validación</font>**

<p align="justify">
La curva de validación en <code>Scikit-learn</code> es una herramienta utilizada para evaluar el rendimiento de un modelo de aprendizaje automático en función de diferentes valores de un hiperparámetro específico. Proporciona una visualización gráfica de cómo varía la puntuación de rendimiento del modelo en el conjunto de entrenamiento y el conjunto de validación a medida que se modifican los valores del hiperparámetro.
<br><br>
<code>Scikit-learn</code> ofrece la función <code>validation_curve</code> del módulo <code>model_selection</code> para generar la curva de validación. Esta función permite realizar un análisis sistemático del rendimiento del modelo en función de un hiperparámetro, como la profundidad máxima de un árbol de decisión o la cantidad de vecinos en un algoritmo de vecinos más cercanos (K-NN).

<p align="justify">
Algunos hiperparámetros del modelo suelen ser la clave para pasar de un modelo que simplifique a un modelo que sobreajuste, con suerte pasando por una región donde se puede conseguir un buen equilibrio entre los dos. Se puede adquirir un conocimiento trazando una curva llamada la curva de validación. 

In [20]:
from sklearn.model_selection import validation_curve

<p align="justify">
🛑 Para el árbol de decisión, el parámetro <code>max_depth</code> se utiliza para controlar el equilibrio entre sobreajuste y simplificación del modelo de árbol.

In [21]:
max_depth = [1, 5, 10, 15, 20, 25] # es la complejidad del modelo árbol

In [22]:
train_scores, test_scores = validation_curve(model, 
                                             X, y, 
                                             param_name="max_depth", 
                                             param_range=max_depth,
                                             cv=cv, 
                                             scoring="neg_mean_absolute_error", 
                                             n_jobs=2)

In [23]:
train_errors, test_errors = -train_scores, -test_scores

<p align="justify">
📊 Ahora que recopilamos los resultados, mostramos la curva de validación al graficar los errores de entrenamiento y los errores de prueba (así como sus desviaciones).

In [24]:
fig = go.Figure()

fig.add_trace(go.Scatter(x=max_depth, 
                         y=train_errors.mean(axis=1), 
                         name='train_errors'))

fig.add_trace(go.Scatter(x=max_depth, 
                         y=test_errors.mean(axis=1), 
                         name='test_errors'))

fig.update_layout(template="gridon",
                  title_text="Validation curve for Decision Tree",
                  xaxis_title='Maximum depth of Decision Tree',
                  yaxis_title='Mean Absolute Error (k$)',
                  bargap=0.2)

fig.show()

👀 otra forma de graficar

In [25]:
tupla = (("train_errors", train_errors),("test_errors",test_errors))

In [26]:
fig = go.Figure()

for i, j in tupla:
  fig.add_trace(go.Scatter(x=max_depth, 
                           y=j.mean(axis=1), 
                           name=f"{i}"))

fig.update_layout(template="gridon",
                  title_text="Validation curve for Decision Tree",
                  xaxis_title='Maximum depth of Decision Tree',
                  yaxis_title='Mean Absolute Error (k$)',
                  bargap=0.2)

fig.show()

<p align="justify">
👀 La curva de validación se puede dividir en tres áreas:
<br><br>
🥇 Para <code>max_depth < 10</code>, el árbol de decisión simplifica el error de entrenamiento y por lo tanto, el error de prueba es alto. El modelo tambien es restringido, tiene poca profundidad, por lo que no puede capturar gran parte de la variabilidad de la variable objetivo.
<br><br>
🥈 La región alrededor de <code>max_ depth = 10</code> corresponde al parámetro para el cual el árbol de decisión generaliza mejor. Es lo suficientemente flexible para capturar una fracción de la variabilidad de la variable objetivo que se generaliza, mientras que no memoriza todo el ruido.
<br><br>
🥉 Para <code>max_depth > 10</code>, el árbol de decisión se sobreajusta. El error de entrenamiento se vuelve muy pequeño, mientras que el error de prueba aumenta. En esta región, los modelos crean decisiones específicamente para muestras ruidosas que dañan la capacidad para generalizar en los datos de prueba.



<p align = "justify">
👀 Tenga en cuenta que para <code>max_ depth = 10</code>, el modelo se sobreajusta un poco ya que hay una brecha entre el error de entrenamiento y el error de prueba.
<br><br>
También puede potencialmente ser deficiente un poco al mismo tiempo, porque el error de entrenamiento todavía está lejos de cero (más de 30 k\$), lo que significa que el modelo podría todavía estar demasiado limitado para modelar partes interesantes de los datos. 
<br><br>
Sin embargo, el error de prueba es el menor, y esto es lo que realmente importa. Esto es lo mejor que podíamos llegar simplemente ajustando el parámetro de máxima profundidad.
<br><br>
Tenga en cuenta que mirar las medias de los errores  es bastante limitante. También deberíamos observar la desviación estándar para evaluar la dispersión de la puntuación. Nosotros podemos repetir el mismo gráfico, pero esta vez,  mostrando la desviación estándar de los errores.

In [27]:
scores.columns

Index(['train error', 'test error'], dtype='object')

In [28]:
fig = make_subplots(rows=2, cols=1, 
                    subplot_titles=[f"{i}" for i in scores.columns],
                    x_title="Maximum depth of Decision Tree",
                    y_title='Mean Absolute Error (k$)')

In [29]:
fig.add_trace(go.Scatter(x=max_depth, 
                         y=train_errors.mean(axis=1), 
                         name='train_errors mean'),
              row=1, col=1)

fig.add_trace(go.Scatter(x=max_depth, 
                         y=test_errors.mean(axis=1), 
                         name='test_errors mean'),
              row=1, col=1)

fig.add_trace(go.Scatter(x=max_depth, 
                         y=train_errors.std(axis=1), 
                         name='train_errors std'),
              row=2, col=1)

fig.add_trace(go.Scatter(x=max_depth, 
                         y=test_errors.std(axis=1), 
                         name='test_errors std'),
              row=2, col=1)


fig.update_layout(template="gridon",
                  title_text="Validation curve for Decision Tree")

fig.show()

<p align="justify">
🛑 Tuvimos suerte de que la varianza de los errores fuera pequeña en comparación con sus respectivos valores y, por lo tanto, las conclusiones anteriores son bastante claras. Esto no es necesariamente siempre el caso...
<br><br>
La curva de validación resultante se puede visualizar para analizar el comportamiento del rendimiento en función de los valores del hiperparámetro y, a partir de ello, tomar decisiones informadas sobre la configuración óptima del modelo.

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:
<br><br>
✅ Cargamos los datos de un objeto de<code>Scikit-learn</code> y lo convertimos a un <code>DataFrame</code>.
<br> 
✅ Identificamos si un modelo está generalizando, ajustando demasiado o simplificando.
<br> 
✅ Generamos la curva de validación y comprobamos la influencia de un hiperparámetro del modelo seleccionado. 

<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
<br>
<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>

---
