# Underfitting and Overfitting

Con una manera segura de medir la precisión de un modelo, se puede experimentar con alternativas de modelos y ver cuál da las mejores predicciones. Para el modelo de árbol de decisión se tienen muchas opciones en las que una de las más importantes es la profundidad del árbol.

**Tener n en profundidad significa que se tendrán 2^n hojas.**

### Overfitting
Cuando se divide en muchas hojas, se tienen muy pocas casas en cada una. Esto hará predicciones muy cercanas a los valores actuales de las casas, pero puede que hagan predicciones no confiables para nuevos datos, ya que cada predicción está basada sólo en pocas casas. Cuando un modelo relaciona los datos de entrenamiento casi perfectamente pero lo hace muy mal en datos de validación o nuevos, se le conoce como **Overfitting** o **Sobreajuste**.

### Underfitting
En caso contrario, si se tienen muy pocas hojas, cada grupo tendrá una gran variedad de casas, resultando en predicciones muy lejanas para la mayoría de casas, incluso en los datos de entrenamiento y, por supuesto, también lo serán en datos de validación por la misma razón. Cuando un modelo falla en capturar distinciones y patrones importantes en los datos, entonces se desempeña pobremente en datos de entrenamiento, se le conoce como **Underfitting** o **Subajuste**. 

### El mejor punto
Ya que necesitamos precisión en datos nuevos, los cuales estimamos de nuestros datos de validación, queremos encontrar el mejor punto entre el underfitting y el overfitting. Visualmente, queremos el siguiente punto:

<p align="center"><img src="https://storage.googleapis.com/kaggle-media/learn/images/AXSEOfI.png" width="700px"></p>

## Ejemplo

Podemos usar una función para comparar MAE de diferentes valores para `max_leaf_nodes`, argumento de `DecisionTreeRegressor`:

In [None]:
from sklearn.metrics import mean_absolute_error
from sklearn.tree import DecisionTreeRegressor

def get_MAE(max_leaf_nodes, training_X, training_y, validation_X, validation_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(training_X, training_y)
    prediction = model.predict(validation_X)
    return mean_absolute_error(validation_y, prediction)

Definiendo los datos de entrada:

In [None]:
import pandas as pd

melbourne_path = "./melb_data.csv"
melbourne_data = pd.read_csv(melbourne_path)
filtered_melbourne_data = melbourne_data.dropna(axis=0)
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]

Probando diferentes valores de `max_leaf_nodes` con un ciclo for, para encontrar el mejor valor del parámetro:

In [None]:
from sklearn.model_selection import train_test_split

training_X, validation_X, training_y, validation_y = train_test_split(X, y, random_state=0)
best_mae = float('inf')
best_depth = 0

for depth in range(10, 5001, 10):
    mae = get_MAE(depth, training_X, training_y, validation_X, validation_y)
    if mae < best_mae:
        best_mae = mae
        best_depth = depth
    # print("Max leaf nodes: %d\t\tMAE: %.3f" %(depth, mae))

print("Best depth: %d\t\tMAE: %.3f" %(best_depth, best_mae))