<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.04/bds_optimizacion_002_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>


<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Scikit-learn.png?raw=true">
</p>


 # **<font color="DeepPink">Sobreajuste (overfit) / Generalizaci√≥n / Simplificaci√≥n (underfit) </font>**

<p align="justify">
‚ô• En el Colab anterior, presentamos el marco general de validaci√≥n cruzada y c√≥mo nos ayuda a cuantificar los errores de entrenamiento y prueba, as√≠ como sus fluctuaciones.
<br><br>
En este Colab, pondremos estos dos errores en perspectiva y mostraremos c√≥mo pueden ayudarnos a saber si nuestro modelo se generaliza, se sobreajusta o se simplifica.
<br><br>
Vamos a cargar los datos y crear el mismo modelo que en el Colab anterior, pero antes algunas definiciones

 ## **<font color="DeepPink">Definici√≥n de overfitting, generalizacion y underfitting</font>**

<p align="justify">
En <code>Scikit-learn</code> y para el aprendizaje autom√°tico, los t√©rminos <code>overfitting</code> (sobreajuste), generalizaci√≥n y <code>underfitting</code> (simplificaci√≥n) se refieren a fen√≥menos relacionados con el rendimiento de un modelo.
<br><br>
‚úÖ El <code>overfitting</code> ocurre cuando un modelo se ajusta demasiado a los datos de entrenamiento y se vuelve muy espec√≠fico para esos datos, perdiendo la capacidad de generalizar correctamente a los datos nuevos, es decir los datos no vistos. En otras palabras, el modelo "aprende de memoria" los datos de entrenamiento en lugar de capturar los patrones subyacentes. Como resultado, el modelo puede tener un rendimiento muy alto en los datos de entrenamiento, pero un rendimiento deficiente en los datos no vistos, lo que reduce su capacidad de generalizaci√≥n. En <code>Scikit-learn</code>, el sobreajuste se puede identificar cuando el rendimiento del modelo en el conjunto de entrenamiento es significativamente mejor que en el conjunto de evaluaci√≥n.
<br><br>
‚úÖ La generalizaci√≥n se refiere a la capacidad de un modelo para realizar predicciones precisas en datos no vistos, es decir, su capacidad para capturar los patrones subyacentes y aplicarlos a nuevas instancias. Un modelo bien generalizado es capaz de adaptarse a nuevos datos y realizar predicciones precisas sin haberlos visto previamente. En <code>Scikit-learn</code>, la generalizaci√≥n se eval√∫a mediante el rendimiento del modelo en un conjunto de evaluaci√≥n independiente.
<br><br>
‚úÖ El <code>underfitting</code> ocurre cuando un modelo es demasiado simple para capturar los patrones complejos presentes en los datos de entrenamiento. En otras palabras, el modelo no se ajusta lo suficiente a los datos de entrenamiento y no logra capturar las relaciones importantes. Como resultado, el modelo puede tener un rendimiento deficiente tanto en los datos de entrenamiento como en los datos de evaluaci√≥n. En <code>Scikit-learn</code>, la simplificaci√≥n se puede identificar cuando el rendimiento del modelo es bajo tanto en el conjunto de entrenamiento como en el conjunto de evaluaci√≥n.
<br><br>
üëÄ El objetivo deseado en el aprendizaje autom√°tico es lograr un equilibrio entre el sobreajuste y la simplificaci√≥n, es decir, obtener un modelo que generalice bien a nuevos datos sin ajustarse demasiado a los datos de entrenamiento. Esto se logra mediante t√©cnicas como la selecci√≥n adecuada de caracter√≠sticas, la regularizaci√≥n, la validaci√≥n cruzada y la b√∫squeda de hiperpar√°metros. <code>Scikit-learn</code> proporciona herramientas y m√©todos para ayudar a abordar estos desaf√≠os y encontrar el equilibrio √≥ptimo entre el sobreajuste y el subajuste.

 ## **<font color="DeepPink">Carga de las librer√≠as</font>**

In [None]:
import numpy as np
import pandas as pd

In [None]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go

 ## **<font color="DeepPink">Carga y an√°lisis de conjunto de datos</font>**

<p align = "justify">
üëÄ Vamos a usar datos de <code>Scikit-learn</code>

In [None]:
from sklearn.datasets import fetch_california_housing

In [None]:
housing = fetch_california_housing(as_frame=True) #as_frame: como Pandas DataFrame

In [None]:
print(housing.DESCR)

.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

    :Number of Instances: 20640

    :Number of Attributes: 8 numeric, predictive attributes and the target

    :Attribute Information:
        - MedInc        median income in block group
        - HouseAge      median house age in block group
        - AveRooms      average number of rooms per household
        - AveBedrms     average number of bedrooms per household
        - Population    block group population
        - AveOccup      average number of household members
        - Latitude      block group latitude
        - Longitude     block group longitude

    :Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

The target variable is the median house value for California districts,
expressed in hundreds of thousands of dollars ($100,000).

This dataset was derived

<p align="justify">
üëÄ En este conjunto de datos, el objetivo es predecir el valor promedio de las casas en un √°rea de California. Las caracter√≠sticas recopiladas se basan en informaci√≥n inmobiliaria y geogr√°fica general de estas propiedades. Como el valor promedio a predecir es el precio medio (variable num√©rica continua), utilizaremos entonces un modelo predictivo espec√≠fico de regresi√≥n.

In [None]:
housing.data.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25


<p align="justify">
üëÄ Ahora si, dividimos todos los datos del conjunto de datos <code>housing</code>, en nuestra variable objetivo y las variables explicativas. En el caso de la variable objetivo hacemos una transformaci√≥n de los datos para expresar los valores a cientos de miles de d√≥lares.

In [None]:
X, y = housing.data, housing.target
y *= 100000

<p align="justify">
üëÄ Visualizamos variable objetivo.

In [None]:
y.head()

0    452600.0
1    358500.0
2    352100.0
3    341300.0
4    342200.0
Name: MedHouseVal, dtype: float64

<p align="justify">
üëÄ Visualizamos variables explicativas.

In [None]:
X.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25


 # **<font color="DeepPink">Overfitting versus Underfitting</font>**


<p align="justify">
üí° Para comprender mejor el rendimiento de generalizaci√≥n de nuestro modelo y tal vez encontrar informaci√≥n sobre c√≥mo mejorarlo, comparamos el error de prueba con el error de entrenamiento. Por lo tanto, necesitamos calcular el error en el conjunto de entrenamiento, lo cual es posible usando la funci√≥n <code>cross_validate</code>.

 ## **<font color="DeepPink">Creaci√≥n y ajuste del modelo</font>**

Para resolver el problema de regresi√≥n, utilizaremos un [√Årbol de Regresi√≥n](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html)

In [None]:
from sklearn.tree import DecisionTreeRegressor

In [None]:
model = DecisionTreeRegressor(random_state=0)
model

In [None]:
from sklearn.model_selection import cross_validate, ShuffleSplit

In [None]:
cv = ShuffleSplit(n_splits=30, test_size=0.2)

cv_results = cross_validate(model, X, y,
                            cv=cv, scoring="neg_mean_absolute_error",
                            return_train_score=True, n_jobs=2)

cv_results = pd.DataFrame(cv_results)

In [None]:
cv_results.head()

Unnamed: 0,fit_time,score_time,test_score,train_score
0,0.560158,0.012089,-46077.510174,-4.230208e-13
1,0.557201,0.012454,-46327.678052,-9.059695e-13
2,0.484505,0.013182,-47560.818072,-1.057552e-12
3,0.394024,0.004675,-46426.079215,-9.094947e-13
4,0.533737,0.011653,-45996.867975,-5.746032e-13


<p align="justify">
üëÄ La validaci√≥n cruzada utiliz√≥ el error absoluto medio negativo. Transformamos el error absoluto medio negativo en un error absoluto medio positivo.

In [None]:
scores = pd.DataFrame()
scores[["train error", "test error"]] = -cv_results[["train_score", "test_score"]]

In [None]:
scores.head()

Unnamed: 0,train error,test error
0,4.230208e-13,46077.510174
1,9.059695e-13,46327.678052
2,1.057552e-12,47560.818072
3,9.094947e-13,46426.079215
4,5.746032e-13,45996.867975


 ## **<font color="DeepPink">Histograma Overfitting versus Underfitting</font>**

In [None]:
fig = make_subplots(rows=1, cols=2,
                    subplot_titles=[f"{i}" for i in scores.columns],
                    x_title="MAE $")

In [None]:
for i,j in enumerate(scores.columns):
  fig.add_trace(go.Histogram(x=scores[j],
                             name=j),
                row=1, col=i+1)

In [None]:
fig.update_layout(template="gridon",
                  title_text="Overfitting versus Underfitting",
                  bargap=0.2)

fig.show()

<p align="justify">
üëÄ Al graficar la distribuci√≥n de los errores de entrenamiento y los errores de prueba, se puede obtener informaci√≥n sobre si nuestro modelo se ajusta demasiado (Overfitting), se ajusta poco (Underfitting) o los dos al mismo tiempo.
<br><br>
‚úÖ Aqu√≠, observamos un <b>peque√±o error de entrenamiento</b> (en realidad cero), lo que significa que el modelo <b>no tiene underfitting</b>. El modelo es lo suficientemente flexible para capturar cualquier variaci√≥n presente en el conjunto de entrenamiento.
<br><br>
‚úÖ Sin embargo, el <b>error de prueba</b> es significativamente mayor, lo que nos dice que el modelo tiene <b>overfitting</b>. El modelo ha memorizado muchas variaciones del conjunto de entrenamiento que podr√≠a considerarse "ruido" porque no generaliza en una buena predicci√≥n en el conjunto de prueba.

 ## **<font color="DeepPink">Curva de validaci√≥n</font>**

<p align="justify">
La curva de validaci√≥n en <code>Scikit-learn</code> es una herramienta utilizada para evaluar el rendimiento de un modelo de aprendizaje autom√°tico en funci√≥n de diferentes valores de un hiperpar√°metro espec√≠fico. Proporciona una visualizaci√≥n gr√°fica de c√≥mo var√≠a la puntuaci√≥n de rendimiento del modelo en el conjunto de entrenamiento y el conjunto de validaci√≥n a medida que se modifican los valores del hiperpar√°metro.
<br><br>
<code>Scikit-learn</code> ofrece la funci√≥n <code>validation_curve</code> del m√≥dulo <code>model_selection</code> para generar la curva de validaci√≥n. Esta funci√≥n permite realizar un an√°lisis sistem√°tico del rendimiento del modelo en funci√≥n de un hiperpar√°metro, como la profundidad m√°xima de un √°rbol de decisi√≥n o la cantidad de vecinos en un algoritmo de vecinos m√°s cercanos (K-NN).

<p align="justify">
Algunos hiperpar√°metros del modelo suelen ser la clave para pasar de un modelo que simplifique a un modelo que sobreajuste, con suerte pasando por una regi√≥n donde se puede conseguir un buen equilibrio entre los dos. Se puede adquirir un conocimiento trazando una curva llamada la curva de validaci√≥n.

In [None]:
from sklearn.model_selection import validation_curve

<p align="justify">
üõë Para el √°rbol de decisi√≥n, el par√°metro <code>max_depth</code> se utiliza para controlar el equilibrio entre sobreajuste y simplificaci√≥n del modelo de √°rbol.

In [None]:
max_depth = [1, 5, 10, 15, 20, 25] # es la complejidad del modelo √°rbol

In [None]:
train_scores, test_scores = validation_curve(model,
                                             X, y,
                                             param_name="max_depth",
                                             param_range=max_depth,
                                             cv=cv,
                                             scoring="neg_mean_absolute_error",
                                             n_jobs=2)

In [None]:
train_errors, test_errors = -train_scores, -test_scores

<p align="justify">
üìä Ahora que recopilamos los resultados, mostramos la curva de validaci√≥n al graficar los errores de entrenamiento y los errores de prueba (as√≠ como sus desviaciones).

In [None]:
fig = go.Figure()

fig.add_trace(go.Scatter(x=max_depth,
                         y=train_errors.mean(axis=1),
                         name='train_errors'))

fig.add_trace(go.Scatter(x=max_depth,
                         y=test_errors.mean(axis=1),
                         name='test_errors'))

fig.update_layout(template="gridon",
                  title_text="Validation curve for Decision Tree",
                  xaxis_title='Maximum depth of Decision Tree',
                  yaxis_title='Mean Absolute Error (k$)',
                  bargap=0.2)

fig.show()

üëÄ otra forma de graficar

In [None]:
tupla = (("train_errors", train_errors),("test_errors",test_errors))

In [None]:
fig = go.Figure()

for i, j in tupla:
  fig.add_trace(go.Scatter(x=max_depth,
                           y=j.mean(axis=1),
                           name=f"{i}"))

fig.update_layout(template="gridon",
                  title_text="Validation curve for Decision Tree",
                  xaxis_title='Maximum depth of Decision Tree',
                  yaxis_title='Mean Absolute Error (k$)',
                  bargap=0.2)

fig.show()

<p align="justify">
üëÄ La curva de validaci√≥n se puede dividir en tres √°reas:
<br><br>
ü•á Para <code>max_depth < 10</code>, el √°rbol de decisi√≥n simplifica el error de entrenamiento y por lo tanto, el error de prueba es alto. El modelo tambien es restringido, tiene poca profundidad, por lo que no puede capturar gran parte de la variabilidad de la variable objetivo.
<br><br>
ü•à La regi√≥n alrededor de <code>max_ depth = 10</code> corresponde al par√°metro para el cual el √°rbol de decisi√≥n generaliza mejor. Es lo suficientemente flexible para capturar una fracci√≥n de la variabilidad de la variable objetivo que se generaliza, mientras que no memoriza todo el ruido.
<br><br>
ü•â Para <code>max_depth > 10</code>, el √°rbol de decisi√≥n se sobreajusta. El error de entrenamiento se vuelve muy peque√±o, mientras que el error de prueba aumenta. En esta regi√≥n, los modelos crean decisiones espec√≠ficamente para muestras ruidosas que da√±an la capacidad para generalizar en los datos de prueba.



<p align = "justify">
üëÄ Tenga en cuenta que para <code>max_ depth = 10</code>, el modelo se sobreajusta un poco ya que hay una brecha entre el error de entrenamiento y el error de prueba.
<br><br>
Tambi√©n puede potencialmente ser deficiente un poco al mismo tiempo, porque el error de entrenamiento todav√≠a est√° lejos de cero (m√°s de 30 k\$), lo que significa que el modelo podr√≠a todav√≠a estar demasiado limitado para modelar partes interesantes de los datos.
<br><br>
Sin embargo, el error de prueba es el menor, y esto es lo que realmente importa. Esto es lo mejor que pod√≠amos llegar simplemente ajustando el par√°metro de m√°xima profundidad.
<br><br>
Tenga en cuenta que mirar las medias de los errores  es bastante limitante. Tambi√©n deber√≠amos observar la desviaci√≥n est√°ndar para evaluar la dispersi√≥n de la puntuaci√≥n. Nosotros podemos repetir el mismo gr√°fico, pero esta vez,  mostrando la desviaci√≥n est√°ndar de los errores.

In [None]:
fig = make_subplots(rows=2, cols=1,
                    x_title="Maximum depth of Decision Tree",
                    y_title='Mean Absolute Error (k$)')

In [None]:
fig.add_trace(go.Scatter(x=max_depth,
                         y=train_errors.mean(axis=1),
                         name='train_errors mean'),
              row=1, col=1)

fig.add_trace(go.Scatter(x=max_depth,
                         y=test_errors.mean(axis=1),
                         name='test_errors mean'),
              row=1, col=1)

fig.add_trace(go.Scatter(x=max_depth,
                         y=train_errors.std(axis=1),
                         name='train_errors std'),
              row=2, col=1)

fig.add_trace(go.Scatter(x=max_depth,
                         y=test_errors.std(axis=1),
                         name='test_errors std'),
              row=2, col=1)


fig.update_layout(template="gridon",
                  title_text="Validation curve for Decision Tree")

fig.show()

<p align="justify">
üõë Tuvimos suerte de que la varianza de los errores fuera peque√±a en comparaci√≥n con sus respectivos valores y, por lo tanto, las conclusiones anteriores son bastante claras. Esto no es necesariamente siempre el caso...
<br><br>
La curva de validaci√≥n resultante se puede visualizar para analizar el comportamiento del rendimiento en funci√≥n de los valores del hiperpar√°metro y, a partir de ello, tomar decisiones informadas sobre la configuraci√≥n √≥ptima del modelo.

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
üëÄ En este colab nosotros:
<br><br>
‚úÖ Cargamos los datos de un objeto de<code>Scikit-learn</code> y lo convertimos a un <code>DataFrame</code>.
<br>
‚úÖ Identificamos si un modelo est√° generalizando, ajustando demasiado o simplificando.
<br>
‚úÖ Generamos la curva de validaci√≥n y comprobamos la influencia de un hiperpar√°metro del modelo seleccionado.

<br>
<br>
<p align="center"><b>
üíó
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
<br>
<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20BDS%20Horizontal%208.png?raw=true">
</p>

---
