# Introducción al Machine Learning
(Texto basado en Kaggle)


## Introducción
Un primo tuyo ha ganado mucho dinero especulando en la compra-venta de edificios y como el Machine-Learning está dando grandes resultados en empresas, te pide ser su socio para que lo apliques.

Le preguntas qué modelos ha utilizado él en el pasado y te dice que ha sido pura intución, pero que el mercado está cambiando. Su intución no es otra cosa que ver patrones que se repetían en el pasado y aplicarlos a precios actuales. El Machine Learning hace algo similar.

EMpezaremos con un modelo sencillo llamado `Árboles de Decisión` o *Decision Tree*. Imaginemos un sencillo árbol de decisión:

![Example](http://i.imgur.com/7tsb5b1.png)

Este árbol de decisión divide las casas en dos categorías: el valor predicho se basa en el precio histórico de ventas de al misma categoría.

Usamos los datos para dividir las casas en dos grupos y después determinar el precio para cada grupo. Este paso para capturar patrones se llama ***fitting** o ***training*** (entrenar el modelo). El conjunto de datos para entrenarle es el denominado ***training data***.

## Familiarizándose con los datos
El dataset con el que se va a trabajar se llama `train.csv`.

El primer paso en un proyecto de Data Science es familiarizarse con los datos y los Data Scientist que usan Python generalmente usan Pandas para ello. Como se ha explicado, la parte más importante de Pandas son los DataFrame, que es un tipo de datos que debemos imaginar como una tabla, similar a una hoja de Excel o a una tabla de SQL.

In [3]:
import pandas as pd
import os

In [5]:
#Vemos en qué Working Directory Estamos
os.getcwd()

'/home/dsc/git_shared/master_data_science_kschool'

In [8]:
#Seleccionamos el Working Directory.
os.chdir("/home/dsc/git_shared/master_data_science_kschool/11_Introduction_to_ML")
os.getcwd()

'/home/dsc/git_shared/master_data_science_kschool/11_Introduction_to_ML'

In [9]:
home_data = pd.read_csv("train.csv")

In [10]:
#Realizamos una primera aproximación a los datos
home_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
Id               1460 non-null int64
MSSubClass       1460 non-null int64
MSZoning         1460 non-null object
LotFrontage      1201 non-null float64
LotArea          1460 non-null int64
Street           1460 non-null object
Alley            91 non-null object
LotShape         1460 non-null object
LandContour      1460 non-null object
Utilities        1460 non-null object
LotConfig        1460 non-null object
LandSlope        1460 non-null object
Neighborhood     1460 non-null object
Condition1       1460 non-null object
Condition2       1460 non-null object
BldgType         1460 non-null object
HouseStyle       1460 non-null object
OverallQual      1460 non-null int64
OverallCond      1460 non-null int64
YearBuilt        1460 non-null int64
YearRemodAdd     1460 non-null int64
RoofStyle        1460 non-null object
RoofMatl         1460 non-null object
Exterior1st      1460 non-n

In [14]:
#Vemos las dimesiones del archivo. Son 1.460 líneas y 81 columnas
home_data.shape

(1460, 81)

In [11]:
#Vemos las perimeas 5 líneas
home_data.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [12]:
#Obtenemos los primeros estadísticos descriptivos
home_data.describe()

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
count,1460.0,1460.0,1201.0,1460.0,1460.0,1460.0,1460.0,1460.0,1452.0,1460.0,...,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,730.5,56.89726,70.049958,10516.828082,6.099315,5.575342,1971.267808,1984.865753,103.685262,443.639726,...,94.244521,46.660274,21.95411,3.409589,15.060959,2.758904,43.489041,6.321918,2007.815753,180921.19589
std,421.610009,42.300571,24.284752,9981.264932,1.382997,1.112799,30.202904,20.645407,181.066207,456.098091,...,125.338794,66.256028,61.119149,29.317331,55.757415,40.177307,496.123024,2.703626,1.328095,79442.502883
min,1.0,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,34900.0
25%,365.75,20.0,59.0,7553.5,5.0,5.0,1954.0,1967.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,2007.0,129975.0
50%,730.5,50.0,69.0,9478.5,6.0,5.0,1973.0,1994.0,0.0,383.5,...,0.0,25.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,163000.0
75%,1095.25,70.0,80.0,11601.5,7.0,6.0,2000.0,2004.0,166.0,712.25,...,168.0,68.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,214000.0
max,1460.0,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,...,857.0,547.0,552.0,508.0,480.0,738.0,15500.0,12.0,2010.0,755000.0


Eliminaremos también si hay NAN.

In [16]:
#Eliminando NaN
home_data.dropna(axis=0)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice


In [18]:
home_data.shape

(1460, 81)

Como se puede ver, no había ningún NaN

## El primer modelo de Machine Learning
Como se ha visto, el dataset tiene 81 columnas y es demasiado grande para poder visualizarlo a simple vista. 

Por otra parte, ¿cómo podemos trabajar un modelo con tanta información? Primero cogeremos algunas variables en base a nuestra intuición, si bien más adelante se verán más técnicas automáticas para priorizar variables.

En cualquier caso, lo primero es seleccionar la variable que queremos predecir, denominada `y`, y comenzaremos usando la librería `scikit-learn`.

Averiguaremos el nombre de la variable que se va a predecir (`y`) y de las variables predictoras o *features* (comúnmente denominadas `X`) sabiendo el nombre de las columas.

In [22]:
column_names = home_data.columns
column_names

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
       'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
       'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
       'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
       'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
       'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
       'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
       'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
       'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
       'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
       'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
       'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
       'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
       'GarageCond', 'PavedDrive

La variable que queremos predeciro *target* (`y`) es 'SalePrice'

In [20]:
#También vale y = home_data["SalePrice"]
y = home_data.SalePrice

Y se seleccionan las variables predictoras, *features* o `X`. De momento se empezará con estas. EN muchos casos serán todas menos la variable *target*, pero en este caso comencemos solo con unas pocas.

In [24]:
# Creación de una lista con las features
feature_names = ["LotArea","YearBuilt","1stFlrSF","2ndFlrSF","FullBath","BedroomAbvGr","TotRmsAbvGrd"]

# Se seleccionan en los datos las features con feature_names
X = home_data[feature_names]

Con estos pasos realizados, comenzaremos ya trabajando con `scikit-learn` para comenzar a crear modelos.

Esta librería aparece denominada como `sklearn`. Los pasos para crear un modelo son:

- `define`. Se utiliza para definir el tipo de modelo que será. Será un árbol de decisión? Una regresión lineal? EL resto de parámetros deben ser especificados también.
- `fit`. Captura patrones provenientes de los datos. Este es el corazón del modelo.
- `predict`. Se utiliza para predecir.
- `evaluate`. Determina cómo de acertado es el modelo

In [25]:
from sklearn.tree import DecisionTreeRegressor

#1. Definición del modelo. Con 'random_state' se hace igual que un 'set seed' para asegurar que los resultados son los mismos.
#Asentar un 'random_state' se considera una good practice
iowa_model = DecisionTreeRegressor(random_state=1)

#2. Fit the model
iowa_model.fit(X,y)

DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,
           max_leaf_nodes=None, min_impurity_decrease=0.0,
           min_impurity_split=None, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           presort=False, random_state=1, splitter='best')

Ahora ya se podrían realizar predicciones. Para que se vea cómo funciona, se van a seleccionar las 5 primeras casas:

In [26]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(iowa_model.predict(X.head()))

Making predictions for the following 5 houses:
   LotArea  YearBuilt  1stFlrSF  2ndFlrSF  FullBath  BedroomAbvGr  \
0     8450       2003       856       854         2             3   
1     9600       1976      1262         0         2             3   
2    11250       2001       920       866         2             3   
3     9550       1915       961       756         1             3   
4    14260       2000      1145      1053         2             4   

   TotRmsAbvGrd  
0             8  
1             6  
2             6  
3             7  
4             9  
The predictions are
[208500. 181500. 223500. 140000. 250000.]


## Split entre `training data` y `validation data` y la validación del modelo

En el paso anterior se ha cometido un error grave: se han hecho predicciones con el `training data` y se compararían sus resultados contra el `training data`. Es por ello por lo que siempre es necesario hacer un `split` entre `training data` y `validation data`. Esto se hace con:

In [30]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split

#Se diferencia entre train y validation
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 1)

#Se especifica el modelo
iowa_model = DecisionTreeRegressor(random_state=1)

# Se hace un fit del modelo
iowa_model.fit(train_X, train_y)

#Se hacen predicciones
val_predictions = iowa_model.predict(val_X)

#Imprimimos las primeras 5 val_predictions y las primeras 5 SalePrice
print(val_predictions[:4])
print(home_data["SalePrice"].head())

[186500. 184000. 130000.  92000.]
0    208500
1    181500
2    223500
3    140000
4    250000
Name: SalePrice, dtype: int64


Con todo esto, ya hemos elaborado el modelo y realizado predicciones, ¿pero cómo de buenas son?

Querremos evaluar todos los modelos que elaboremos. En absolutamente todos los casos, la calidad del modelo es su capacidad predictiva, o dicho de otra manera, cómo de cerca de la realidad se queda.

Hay muchas métricas para evaluar la capacidad predictiva de un modelo. Una de las pricipales es el **MAE**:
- **MAE** o **MEAN ABSOLUTE ERROR**: MAE = |actual - predicted|

In [34]:
from sklearn.metrics import mean_absolute_error

val_mae = mean_absolute_error(val_y, val_predictions)

print(val_mae)

29652.931506849316


## Optimizando el modelo: Underfitting y Overfitting

Ahora que tenemos un modelo, podemos experimentar con otros modelos que nos dé mejores predicciones. ¿Pero qué podemos hacer?

Cuando hemos configurado el árbol de decisión, se ha podido ver que una de las opcioes es la profundidad del árbol o `tree's depth`. ESta mide cuantos 'splits' o subdivisiones realiza antes de realizar una predicción.

Por lo general no es poco común encontrar hasta 10 'splits' entre el 'top level' (todas las casas) y las 'leafs' u hojas que son los resultados. A medida que el árbol se hace más profundo, el árbol de decisión cuenta con hojas más especializadas o subdividdas (por ejemplo si tiene piscina o no, número de dormitorios, si tiene piscina, etc.). Si un árbol tiene solo un split, se divide en dos grupos. Si cada grupo se divide de nuevo, tendremos 4 grupos. Árboles con 10 niveles tienen 1024 hojas.

A medida que dividimos el árbol en muchas hojas, tenemos menos casas en cada hoja y hojas con pocas casas es cierto que harán predicciones muy cercanas a los valores actuales de la casas, pero sus predicciones serán muy específicas, poco generalizables y, por lo general, malas para nuevos datos. Este fenónemo se llama **overfitting** o sobreajuste y hace que el modelo encaje con el **training data** casi a la perfección, pero es muy malo validando nuevos datos.

En el lado contratio encontramos el **underfitting**, teniendo un modelo que generalizaría demasiado y provocando que los resultados se queden muy lejos de la realidad, como se mostrará con el **training data**.

Es por ello por lo que debemos encontrar el equilibrio entre el **overfitting** y el **underfitting**. Visualmente, queremos llegar al punto marcado en rojo en el gráfico.

![over](http://i.imgur.com/2q85n9s.png)

Hay varias alternativas para controlar la profundidad del árbol, pero `max_leaf_nodes` es una buena manera de controlar el equilibrio. A medida que tenemos más hojas, más nos nos movemos del área de *underfitting* en el gráfico al área de *overfitting*.

Podemos utilizar el resultado del MAE para comparar resultados para `max_leaf_nodes`.

In [51]:
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=1)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

candidate_max_leaf_nodes = [5, 25, 50, 100, 250, 500]

for max_leaf_nodes in candidate_max_leaf_nodes:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

Max leaf nodes: 5  		 Mean Absolute Error:  35044
Max leaf nodes: 25  		 Mean Absolute Error:  29016
Max leaf nodes: 50  		 Mean Absolute Error:  27405
Max leaf nodes: 100  		 Mean Absolute Error:  27282
Max leaf nodes: 250  		 Mean Absolute Error:  27430
Max leaf nodes: 500  		 Mean Absolute Error:  28380


In [36]:
#Por lo tanto:
best_tree_size = 100

## Usando los Random Forest
Los *Random Forest* dan un paso más allá de los *Decision Tree*, ya que usan bastantes árboles de decisión y realizan la predicción tomando el promedio de cada componente del árbol. Generalmente tienen mucha mayor capacidad predictiva que un solo árbol de decisión y funcionan bien con parámetros por defecto. Hay, sin embargo, algoritmos con una mejor capacidad predictiva, pero muchos de ellos son muy sensibles a recibir los parámetros adecuados. Podemos destacar, por ejemplo a **XGBoost**.

A continuación se verá un ejemplo de Random Forest y de cómo mejora los resultados:

In [63]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

rf_model = RandomForestRegressor(random_state=1)
rf_model.fit(train_X, train_y)
rf_val_predictions = rf_model.predict(val_X)
rf_val_mae = mean_absolute_error(rf_val_predictions, val_y)

print("Validation MAE for Random Forest Model: {:,.0f}".format(rf_val_mae))

Validation MAE for Random Forest Model: 22,762




## Resumen del código:

In [54]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error


# Path of the file to read. We changed the directory structure to simplify submitting to a competition
iowa_file_path = 'train.csv'

home_data = pd.read_csv(iowa_file_path)
# Create target object and call it y
y = home_data.SalePrice
# Create X
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[features]

# Split into validation and training data
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

# Specify Model
iowa_model = DecisionTreeRegressor(random_state=1)
# Fit Model
iowa_model.fit(train_X, train_y)

# Make validation predictions and calculate mean absolute error
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE when not specifying max_leaf_nodes: {:,.0f}".format(val_mae))

# Using best value for max_leaf_nodes
iowa_model = DecisionTreeRegressor(max_leaf_nodes=100, random_state=1)
iowa_model.fit(train_X, train_y)
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE for best value of max_leaf_nodes: {:,.0f}".format(val_mae))

# Define the model. Set random_state to 1
rf_model = RandomForestRegressor(random_state=1)
rf_model.fit(train_X, train_y)
rf_val_predictions = rf_model.predict(val_X)
rf_val_mae = mean_absolute_error(rf_val_predictions, val_y)

print("Validation MAE for Random Forest Model: {:,.0f}".format(rf_val_mae))

Validation MAE when not specifying max_leaf_nodes: 29,653
Validation MAE for best value of max_leaf_nodes: 27,283
Validation MAE for Random Forest Model: 22,762


