# Cómo funcionan los modelos

## Introducción

Comenzaremos con una visión general de cómo funcionan los modelos de aprendizaje automático y cómo se utilizan. Esto puede parecer básico si ya has hecho modelado estadístico o aprendizaje automático antes. No te preocupes, pronto pasaremos a construir modelos potentes.

En este curso tendrás que construir modelos a medida que avanzas en el siguiente escenario:

* Tu primo ha ganado millones de dólares especulando con bienes raíces. Se ha ofrecido a convertirse en socio de negocios contigo por tu interés en la ciencia de los datos. Él aportará el dinero y tú suministrarás los modelos que predicen el valor de varias casas.

* Le preguntas a tu primo cómo ha predicho los valores inmobiliarios en el pasado, y te dice que es sólo intuición. Pero si le preguntas más, te dirá que ha identificado patrones de precios en las casas que ha visto en el pasado y que utiliza esos patrones para hacer predicciones sobre las nuevas casas que está considerando.

El aprendizaje automático funciona de la misma manera. Empezaremos con un modelo llamado árbol de decisión. Hay modelos más sofisticados que ofrecen predicciones más precisas. Pero los árboles de decisión son fáciles de entender, y son el bloque de construcción básico para algunos de los mejores modelos en la ciencia de datos.

Para simplificar, empezaremos con el árbol de decisión más simple posible.

![img](http://i.imgur.com/7tsb5b1.png)

Divide las casas en sólo dos categorías. El precio previsto para cualquier casa considerada es el precio medio histórico de las casas de la misma categoría.

Utilizamos los datos para decidir cómo dividir las casas en dos grupos y, a continuación, para determinar el precio previsto en cada grupo. Este paso de captación de patrones a partir de los datos se denomina ajuste o entrenamiento del modelo. Los datos utilizados para ajustar el modelo se denominan datos de entrenamiento (training data).

Los detalles de cómo se ajusta el modelo (por ejemplo, cómo dividir los datos) son lo suficientemente complejos como para dejarlos para más adelante. Una vez ajustado el modelo, puede aplicarlo a nuevos datos para predecir los precios de otras viviendas.

## Mejorar el árbol de decisión

¿Cuál de los dos árboles de decisión siguientes es más probable que resulte del ajuste de los datos de entrenamiento del sector inmobiliario?

![img2](http://i.imgur.com/prAjgku.png)

El árbol de decisión de la izquierda (Árbol de decisión 1) probablemente tenga más sentido, porque capta la realidad de que las casas con más dormitorios tienden a venderse a precios más altos que las casas con menos dormitorios. El mayor defecto de este modelo es que no recoge la mayoría de los factores que afectan al precio de la vivienda, como el número de baños, el tamaño del terreno, la ubicación, etc.

Se pueden captar más factores utilizando un árbol que tenga más "divisiones". Estos árboles se denominan "más profundos". Un árbol de decisión que también tenga en cuenta el tamaño total del terreno de cada casa podría tener este aspecto:

![img3](http://i.imgur.com/R3ywQsR.png)

Para predecir el precio de una casa cualquiera, se recorre el árbol de decisión, eligiendo siempre el camino correspondiente a las características de esa casa. El precio previsto para la casa se encuentra en la parte inferior del árbol. El punto de la parte inferior en el que hacemos una predicción se llama hoja.

Las divisiones y los valores en las hojas vendrán determinados por los datos, así que es hora de que compruebes los datos con los que vas a trabajar.

## Exploración de datos básicos

### Uso de Pandas para familiarizarse con los datos

El primer paso en cualquier proyecto de aprendizaje automático es familiarizarse con los datos. Para ello utilizarás la librería Pandas. Pandas es la principal herramienta que utilizan los científicos de datos para explorar y manipular los datos. La mayoría de la gente abrevia pandas en su código como pd. Lo hacemos con el comando

In [1]:
import pandas as pd
pd.set_option('display.max_columns', 25)

Como ejemplo, veremos datos sobre los precios de las viviendas en Melbourne, Australia. En los ejercicios prácticos, aplicará los mismos procesos a un nuevo conjunto de datos, que tiene los precios de las viviendas en Iowa. Cargamos y exploramos los datos con los siguientes comandos:

In [2]:
melbourne_data = pd.read_csv("melb_data.csv") 
print(f"Rows: {melbourne_data.shape[0]}  Columns: {melbourne_data.shape[1]}")
melbourne_data.head()

Rows: 13580  Columns: 21


Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


In [3]:
melbourne_data.describe()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0,8205.0,13580.0,13580.0,13580.0
mean,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.610075,558.416127,151.96765,1964.684217,-37.809203,144.995216,7454.417378
std,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.962634,3990.669241,541.014538,37.273762,0.07926,0.103916,4378.581772
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,93.0,1940.0,-37.856822,144.9296,4380.0
50%,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,174.0,1999.0,-37.7564,145.058305,10331.0
max,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


## Su primer modelo de aprendizaje automático

### Selección de datos para la modelización
Su conjunto de datos tiene demasiadas variables como para poder entenderlas, o incluso para imprimirlas bien. ¿Cómo puede reducir esta abrumadora cantidad de datos a algo que pueda entender?

Empezaremos eligiendo algunas variables utilizando nuestra intuición. En cursos posteriores se mostrarán técnicas estadísticas para priorizar automáticamente las variables.

Para elegir las variables/columnas, necesitaremos ver una lista de todas las columnas del conjunto de datos. Eso se hace con la propiedad `columns` del DataFrame:

In [18]:
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

Los datos de Melbourne tienen algunos valores perdidos (algunas casas para las que no se registraron algunas variables). Así que tomaremos la opción más simple por ahora, y eliminaremos las casas que tienen valores *nan* en nuestros datos.

In [19]:
melbourne_data = melbourne_data.dropna(axis=0)

### Selección del objetivo de predicción

Puede extraer una variable con anotación de puntos. Esta única columna se almacena en una Serie, que a grandes rasgos es como un DataFrame con una sola columna de datos.

Utilizaremos la notación de puntos para seleccionar la columna que queremos predecir, que se llama objetivo de predicción. Por convención, el objetivo de predicción se llama y. Así que el código que necesitamos para guardar los precios de la vivienda en los datos de Melbourne es el siguiente:

In [21]:
y = melbourne_data.Price

### Elección de las "características"

Las columnas que se introducen en nuestro modelo (y que luego se utilizan para hacer predicciones) se denominan "características". En nuestro caso, serían las columnas utilizadas para determinar el precio de la vivienda. A veces, utilizará como características todas las columnas excepto el objetivo. Otras veces será mejor utilizar menos características.

Por ahora, construiremos un modelo con sólo unas pocas características. Más adelante verá cómo iterar y comparar modelos construidos con diferentes características.

Seleccionamos múltiples características proporcionando una lista de nombres de columnas entre paréntesis. Cada elemento de esa lista debe ser una cadena (con comillas).

Aquí hay un ejemplo:

In [37]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]

Por convención, estos datos se denominan **X**

## Creación de su modelo

Usted utilizará la biblioteca *scikit-learn* para crear sus modelos. Al codificar, esta biblioteca se escribe como *sklearn*, como verás en el código de ejemplo. *Scikit-learn* es fácilmente la biblioteca más popular para modelar los tipos de datos típicamente almacenados en **DataFrames**.

Los pasos para construir y utilizar un modelo son

* **Definir**: ¿Qué tipo de modelo será? ¿Un árbol de decisión? ¿Algún otro tipo de modelo? También se especifican algunos otros parámetros del tipo de modelo.
* **Ajustar**: Capturar los patrones a partir de los datos proporcionados. Este es el corazón del modelado.
* **Predecir**: Justo lo que parece
* **Evaluar**: Determinar la precisión de las predicciones del modelo.

Este es un ejemplo de la definición de un modelo de árbol de decisión con scikit-learn y su ajuste con las características y la variable objetivo.

In [38]:
from sklearn.tree import DecisionTreeRegressor

# Define model. Specify a number for random_state to ensure same results each run
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

DecisionTreeRegressor(random_state=1)

Muchos modelos de aprendizaje automático permiten cierta aleatoriedad en el entrenamiento del modelo. Especificar un número para random_state garantiza que se obtengan los mismos resultados en cada ejecución. Esto se considera una buena práctica. Puedes usar cualquier número, y la calidad del modelo no dependerá significativamente del valor que elijas.

Ahora tenemos un modelo ajustado que podemos utilizar para hacer predicciones.

En la práctica, querremos hacer predicciones para las nuevas viviendas que salgan al mercado y no para las viviendas de las que ya tenemos precios. Pero haremos predicciones para las primeras filas de los datos de entrenamiento para ver cómo funciona la función predecir.



In [39]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  BuildingArea  YearBuilt  Lattitude  Longtitude
1      2       1.0     156.0          79.0     1900.0   -37.8079    144.9934
2      3       2.0     134.0         150.0     1900.0   -37.8093    144.9944
4      4       1.0     120.0         142.0     2014.0   -37.8072    144.9941
6      3       2.0     245.0         210.0     1910.0   -37.8024    144.9993
7      2       1.0     256.0         107.0     1890.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]


## Validación del modelo

Ha construido un modelo. Pero, ¿es bueno?

En esta lección, aprenderá a utilizar la validación de modelos para medir la calidad de su modelo. Medir la calidad del modelo es la clave para mejorar iterativamente sus modelos.

### Qué es la validación de modelos

Usted querrá evaluar casi todos los modelos que construya. En la mayoría de las aplicaciones (aunque no en todas), la medida relevante de la calidad del modelo es la precisión predictiva. En otras palabras, si las predicciones del modelo se acercan a lo que realmente ocurre.

Mucha gente comete un gran error al medir la precisión predictiva. Hacen predicciones con sus datos de entrenamiento y comparan esas predicciones con los valores objetivo de los datos de entrenamiento. Verás el problema de este enfoque y cómo resolverlo en un momento, pero primero pensemos en cómo lo haríamos.

Primero habría que resumir la calidad del modelo de forma comprensible. Si se comparan los valores de las viviendas predichos y los reales de 10.000 casas, es probable que se encuentre una mezcla de buenas y malas predicciones. Mirar una lista de 10.000 valores predichos y reales no tendría sentido. Necesitamos resumir esto en una sola métrica.

Hay muchas métricas para resumir la calidad del modelo, pero empezaremos con una llamada **Error Absoluto Medio** (también llamada **MAE**). Vamos a desglosar esta métrica empezando por la última palabra, error.

El error de predicción para cada casa es:

`error=actual−predicted`

Así, si una casa cuesta 150.000 dólares y usted predijo que costaría 100.000 dólares, el error es de 50.000 dólares.

Con la métrica MAE, tomamos el valor absoluto de cada error. Esto convierte cada error en un número positivo. A continuación, tomamos la media de esos errores absolutos. Esta es nuestra medida de la calidad del modelo. En términos sencillos, puede decirse que

Por término medio, nuestras predicciones tienen un error de aproximadamente X.

In [40]:
from sklearn.metrics import mean_absolute_error

predicted_home_prices = melbourne_model.predict(X)
mean_absolute_error(y, predicted_home_prices)

434.71594577146544

### El problema con In-Sample-Scores

La medida que acabamos de calcular puede denominarse puntuación "dentro de la muestra". Hemos utilizado una única "muestra" de casas tanto para construir el modelo como para evaluarlo. He aquí por qué esto es incorrecto.

Imagine que, en el gran mercado inmobiliario, el color de la puerta no está relacionado con el precio de la vivienda.

Sin embargo, en la muestra de datos que ha utilizado para construir el modelo, todas las casas con puertas verdes eran muy caras. El trabajo del modelo consiste en encontrar patrones que predigan los precios de las viviendas, por lo que verá este patrón y siempre predecirá precios altos para las viviendas con puertas verdes.

Dado que este patrón se derivó de los datos de entrenamiento, el modelo parecerá preciso en los datos de entrenamiento.

Pero si este patrón no se mantiene cuando el modelo ve nuevos datos, el modelo sería muy inexacto cuando se utilice en la práctica.

Dado que el valor práctico de los modelos proviene de la realización de predicciones sobre nuevos datos, medimos el rendimiento sobre datos que no se utilizaron para construir el modelo. La forma más sencilla de hacerlo es excluir algunos datos del proceso de construcción del modelo y, a continuación, utilizarlos para probar la precisión del modelo con datos que no haya visto antes. Estos datos se denominan datos de validación.

La biblioteca scikit-learn tiene una función train_test_split para dividir los datos en dos partes. Utilizaremos algunos de esos datos como datos de entrenamiento para ajustar el modelo, y utilizaremos los otros datos como datos de validación para calcular el error medio_absoluto.

In [41]:
from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0)
# Define model
melbourne_model = DecisionTreeRegressor()
# Fit model
melbourne_model.fit(train_X, train_y)

# get predicted prices on validation data
val_predictions = melbourne_model.predict(val_X)
print(mean_absolute_error(val_y, val_predictions))

266429.2775984506


Su error absoluto medio para los datos dentro de la muestra era de unos 500 dólares. Fuera de la muestra es de más de 250.000 dólares!.

Esta es la diferencia entre un modelo que es casi exactamente correcto, y uno que es inutilizable para la mayoría de los propósitos prácticos. Como punto de referencia, el valor medio de la vivienda en los datos de validación es de 1,1 millones de dólares. Por tanto, el error en los nuevos datos es de aproximadamente una cuarta parte del valor medio de la vivienda.

Hay muchas formas de mejorar este modelo, como experimentar para encontrar mejores características o diferentes tipos de modelos.

## Subajuste y sobreajuste

### Experimentar con diferentes modelos

Ahora que dispone de una forma fiable de medir la precisión del modelo, puede experimentar con modelos alternativos y ver cuál ofrece las mejores predicciones. Pero, ¿qué alternativas tiene para los modelos?

Puede ver en la documentación de scikit-learn que el modelo de árbol de decisión tiene muchas opciones (más de las que querrá o necesitará durante mucho tiempo). Las opciones más importantes determinan la profundidad del árbol. Recordemos de la primera lección de este curso que la profundidad de un árbol es una medida de cuántas divisiones hace antes de llegar a una predicción. Este es un árbol relativamente poco profundo

![img4](http://i.imgur.com/R3ywQsR.png)

En la práctica, no es raro que un árbol tenga 10 divisiones entre el nivel superior (todas las casas) y una hoja. A medida que el árbol se hace más profundo, el conjunto de datos se divide en hojas con menos casas. Si un árbol sólo tiene 1 división, divide los datos en 2 grupos. Si cada grupo se divide de nuevo, obtendríamos 4 grupos de casas. Si volvemos a dividir cada uno de ellos, obtendríamos 8 grupos. Si seguimos duplicando el número de grupos añadiendo más divisiones en cada nivel, tendremos 210 grupos de casas cuando lleguemos al décimo nivel. Eso son 1024 hojas.

Cuando dividimos las casas entre muchas hojas, también tenemos menos casas en cada hoja. Las hojas con muy pocas casas harán predicciones que se acercan bastante a los valores reales de esas casas, pero pueden hacer predicciones muy poco fiables para los nuevos datos (porque cada predicción se basa en sólo unas pocas casas).

Se trata de un fenómeno llamado sobreajuste, en el que un modelo se ajusta a los datos de entrenamiento casi a la perfección, pero lo hace mal en la validación y en otros datos nuevos. Por otro lado, si nuestro árbol es muy superficial, no divide las casas en grupos muy distintos.

En un extremo, si un árbol divide las casas en sólo 2 o 4, cada grupo sigue teniendo una gran variedad de casas. Las predicciones resultantes pueden estar muy lejos de la mayoría de las casas, incluso en los datos de entrenamiento (y también serán malas en la validación por la misma razón). Cuando un modelo no capta distinciones y patrones importantes en los datos, por lo que su rendimiento es deficiente incluso en los datos de entrenamiento, esto se denomina infraadaptación.

Dado que nos interesa la precisión en los nuevos datos, que estimamos a partir de nuestros datos de validación, queremos encontrar el punto óptimo entre el infraajuste y el sobreajuste. Visualmente, queremos el punto más bajo de la curva de validación (roja) en la figura siguiente.

<img src="http://i.imgur.com/AXSEOfI.png" width="500"/>

### Ejemplo

Hay algunas alternativas para controlar la profundidad del árbol, y muchas permiten que algunas rutas a través del árbol tengan mayor profundidad que otras. Pero el argumento max_leaf_nodes proporciona una forma muy sensata de controlar el sobreajuste frente al infraajuste. Cuantas más hojas permitamos al modelo, más nos moveremos de la zona de infraajuste en el gráfico anterior a la zona de sobreajuste.

Podemos utilizar una función de utilidad para ayudar a comparar las puntuaciones MAE de diferentes valores para max_leaf_nodes:

In [42]:
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

In [43]:
# compare MAE with differing values of max_leaf_nodes
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

Max leaf nodes: 5  		 Mean Absolute Error:  347380
Max leaf nodes: 50  		 Mean Absolute Error:  258171
Max leaf nodes: 500  		 Mean Absolute Error:  243495
Max leaf nodes: 5000  		 Mean Absolute Error:  254983


*De las opciones enumeradas, 500 es el número óptimo de hojas.*

### Conclusión

Asi que los modelos pueden sufrir de:

* Sobreajuste: captura de patrones espurios que no se repetirán en el futuro, lo que lleva a predicciones menos precisas, o
* Infraajuste: no capturar patrones relevantes, lo que también conduce a predicciones menos precisas.

Los datos de validación, que no se utilizan en el entrenamiento del modelo, sirven para medir la precisión de un modelo candidato. Esto nos permite probar muchos modelos candidatos y quedarnos con el mejor.