<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/Ecuaciones_Diferenciales/blob/main/asesoria_EDO/ejer_sec_3.1/Ejer_22_sec_3.1_Boyce_DiPrima.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marco-canas/Ecuaciones_Diferenciales/blob/main/asesoria_EDO/ejer_sec_3.1/Ejer_22_sec_3.1_Boyce_DiPrima.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table>

# Día 10 Underfitting and Overfitting

[Underfitting and Overfitting](https://www.kaggle.com/dansbecker/underfitting-and-overfitting?utm_medium=email&utm_source=gamma&utm_campaign=thirty-days-of-ml&utm_content=day-10)

Al final de este paso, comprenderá los conceptos de `underfitting` y `overfitting`, y podrá aplicar estas ideas para que sus modelos sean más precisos.

## Experimentando con diferentes modelos

Ahora que tiene una forma confiable de medir la precisión del modelo, puede experimentar con modelos alternativos y ver cuál ofrece las mejores predicciones.

Pero, ¿qué alternativas tienes para los modelos?

Puede ver en la documentación de scikit-learn que el modelo de árbol de decisión tiene muchas opciones (más de las que querrá o necesitará durante mucho tiempo).

Las opciones más importantes determinan la profundidad del árbol.

Recuerde de la primera lección de este curso que la profundidad de un árbol es una medida de cuántas divisiones hace antes de llegar a una predicción.

Este es un árbol relativamente poco profundo.

<table align="left">
  <td>
  <img src="http://i.imgur.com/R3ywQsR.png" /></a>
  </td>
</table>

En la práctica, no es raro que un árbol tenga 10 divisiones entre el nivel superior (todas las casas) y una hoja.

A medida que el árbol se hace más profundo, el conjunto de datos se corta en hojas con menos casas. 

Si un árbol solo tiene 1 división, divide los datos en 2 grupos.

Si cada grupo se vuelve a dividir, obtendríamos 4 grupos de casas.

Dividir cada uno de ellos de nuevo crearía 8 grupos.

Si seguimos duplicando el número de grupos agregando más divisiones en cada nivel, tendremos 210 grupos de casas para cuando lleguemos al décimo nivel.

Eso es 1024 hojas.

Cuando dividimos las casas entre muchas hojas, también tenemos menos casas en cada hoja.

Las hojas con muy pocas casas harán predicciones que están bastante cerca de los valores reales de esas casas, pero pueden hacer predicciones muy poco confiables para nuevos datos (porque cada predicción se basa en solo unas pocas casas).

Este es un fenómeno llamado sobreajuste, donde un modelo coincide con los datos de entrenamiento casi a la perfección, pero lo hace mal en la validación y otros datos nuevos.

Por otro lado, si hacemos que nuestro árbol sea muy poco profundo, no divide las casas en grupos muy distintos.

En un extremo, si un árbol divide las casas en solo 2 o 4, cada grupo todavía tiene una amplia variedad de casas.

Las predicciones resultantes pueden estar lejanas para la mayoría de las casas, incluso en los datos de entrenamiento (y también serán malas en la validación por la misma razón).

Cuando un modelo no logra capturar distinciones y patrones importantes en los datos, por lo que tiene un rendimiento deficiente incluso en los datos de entrenamiento, eso se denomina desajuste.

Dado que nos preocupamos por la precisión de los datos nuevos, que estimamos a partir de nuestros datos de validación, queremos encontrar el punto óptimo entre "desajuste" y "sobreajuste".

Visualmente, queremos el punto bajo de la curva de validación (roja) en la siguiente figura.

<table align="left">
  <td>
  <img src="http://i.imgur.com/2q85n9s.png" /></a>
  </td>
</table>

## Example

Existen algunas alternativas para controlar la profundidad del árbol, y muchas permiten que algunas rutas a través del árbol tengan mayor profundidad que otras rutas.

Pero el argumento `max_leaf_nodes` proporciona una forma muy sensata de controlar `overfitting` vs `underfitting`.

Cuantas más hojas permitamos que haga el modelo, más nos movemos del área de ajuste inferior en el gráfico anterior al área de ajuste superior.

Podemos usar una función de utilidad para ayudar a comparar los puntajes MAE de diferentes valores para `max_leaf_nodos`:

In [1]:
from sklearn.metrics import mean_absolute_error
from sklearn.tree import DecisionTreeRegressor

In [2]:
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return mae

Los datos se cargan en `train_X`,`val_X`, `train_y` y `val_y` usando el código que ya has visto (y que has ya escrito).

In [4]:
# Data Loading Code Runs At This Point
import pandas as pd
    
# Load data
# melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data = pd.read_csv('melb_data.csv')  
# Filter rows with missing values
filtered_melbourne_data = melbourne_data.dropna(axis=0)
# Choose target and features
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]

from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 0)

Podemos usar un bucle for para comparar la precisión de los modelos construidos con diferentes valores para `max_leaf_nodos`.

In [5]:
# compare MAE with differing values of max_leaf_nodes
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

Max leaf nodes: 5  		 Mean Absolute Error:  347380
Max leaf nodes: 50  		 Mean Absolute Error:  258171
Max leaf nodes: 500  		 Mean Absolute Error:  243495
Max leaf nodes: 5000  		 Mean Absolute Error:  254983


De las opciones enumeradas, 500 es el número óptimo de hojas.

## Conclusión

Aquí está la conclusión: los modelos pueden sufrir de:

"Sobreajuste": captura de patrones espurios que no se repetirán en el futuro, lo que lleva a predicciones menos precisas, o

`Underfitting`: no poder capturar patrones relevantes, lo que nuevamente conduce a predicciones menos precisas.

Usamos datos de validación, que no se usan en el entrenamiento de modelos, para medir la precisión de un modelo candidato.

Esto nos permite probar muchos modelos candidatos y mantener el mejor.

# Tu turno

Try [optimizing the model you've previously built](https://www.kaggle.com/marcocanas/exercise-underfitting-and-overfitting/edit).

## Resumen

Ha creado su primer modelo y ahora es el momento de optimizar el tamaño del árbol para hacer mejores predicciones.

Ejecute esta celda para configurar su entorno de codificación donde lo dejó el paso anterior.

In [9]:
# Code you have previously used to load data
import pandas as pd
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor

# Path of the file to read
#iowa_file_path = '../input/home-data-for-ml-course/train.csv'

#home_data = pd.read_csv(iowa_file_path)
home_data = pd.read_csv('train.csv') 
# Create target object and call it y
y = home_data.SalePrice
# Create X
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[features]

# Split into validation and training data
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

# Specify Model
iowa_model = DecisionTreeRegressor(random_state=1)
# Fit Model
iowa_model.fit(train_X, train_y)

# Make validation predictions and calculate mean absolute error
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE: {:,.0f}".format(val_mae))

Validation MAE: 29,653


In [1]:
# Set up code checking
# from learntools.core import binder
# binder.bind(globals())
# from learntools.machine_learning.ex5 import *
# print("\nSetup complete")

## Exercises

Puede escribir la función `get_mae` usted mismo.

For now, we'll supply it. 

This is the same function you read about in the previous lesson. 

Just run the cell below.