# Introduccion a Modelos de Machine Learning
* Se trabajará con datos de la Competencia de precios de viviendas para usuarios de Kaggle Learn y el objetivo es predecir los precios de las viviendas en Iowa utilizando 79 variables explicativas que describen (casi) todos los aspectos de las viviendas.
* Este caso se trabajará con variables numéricas completas. Es decir, con valores no nulos NaN.

In [15]:
# Leer el archivo 'train.csv' y asignarlo a X_full
import pandas as pd

X_full = pd.read_csv('train.csv', index_col='Id')

# Este archivo test se utilizará para correr el modelo de ML final
X_test_full = pd.read_csv('test.csv', index_col='Id')

# Exploración de la Data

In [2]:
X_full.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1460 entries, 1 to 1460
Data columns (total 80 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   MSSubClass     1460 non-null   int64  
 1   MSZoning       1460 non-null   object 
 2   LotFrontage    1201 non-null   float64
 3   LotArea        1460 non-null   int64  
 4   Street         1460 non-null   object 
 5   Alley          91 non-null     object 
 6   LotShape       1460 non-null   object 
 7   LandContour    1460 non-null   object 
 8   Utilities      1460 non-null   object 
 9   LotConfig      1460 non-null   object 
 10  LandSlope      1460 non-null   object 
 11  Neighborhood   1460 non-null   object 
 12  Condition1     1460 non-null   object 
 13  Condition2     1460 non-null   object 
 14  BldgType       1460 non-null   object 
 15  HouseStyle     1460 non-null   object 
 16  OverallQual    1460 non-null   int64  
 17  OverallCond    1460 non-null   int64  
 18  YearBuil

In [3]:
# Utilizar la función .describe()
# La función describe() calcula estadísticas descriptivas para cada columna numérica en el DataFrame, como mínimo, máximo, media, desviación estándar, cuartiles, etc.
X_full.describe()

Unnamed: 0,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,BsmtFinSF2,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
count,1460.0,1201.0,1460.0,1460.0,1460.0,1460.0,1460.0,1452.0,1460.0,1460.0,...,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,56.89726,70.049958,10516.828082,6.099315,5.575342,1971.267808,1984.865753,103.685262,443.639726,46.549315,...,94.244521,46.660274,21.95411,3.409589,15.060959,2.758904,43.489041,6.321918,2007.815753,180921.19589
std,42.300571,24.284752,9981.264932,1.382997,1.112799,30.202904,20.645407,181.066207,456.098091,161.319273,...,125.338794,66.256028,61.119149,29.317331,55.757415,40.177307,496.123024,2.703626,1.328095,79442.502883
min,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,34900.0
25%,20.0,59.0,7553.5,5.0,5.0,1954.0,1967.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,2007.0,129975.0
50%,50.0,69.0,9478.5,6.0,5.0,1973.0,1994.0,0.0,383.5,0.0,...,0.0,25.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,163000.0
75%,70.0,80.0,11601.5,7.0,6.0,2000.0,2004.0,166.0,712.25,0.0,...,168.0,68.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,214000.0
max,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,1474.0,...,857.0,547.0,552.0,508.0,480.0,738.0,15500.0,12.0,2010.0,755000.0


In [4]:
# Numero de datos faltantes en cada columna
print(X_full.shape)
missing_val_count_by_column = (X_full.isnull().sum().sort_values(ascending = False))
print(missing_val_count_by_column[missing_val_count_by_column > 0])

(1460, 80)
PoolQC          1453
MiscFeature     1406
Alley           1369
Fence           1179
FireplaceQu      690
LotFrontage      259
GarageType        81
GarageCond        81
GarageFinish      81
GarageQual        81
GarageYrBlt       81
BsmtFinType2      38
BsmtExposure      38
BsmtQual          37
BsmtCond          37
BsmtFinType1      37
MasVnrArea         8
MasVnrType         8
Electrical         1
dtype: int64


## 0. Previos a la creación del modelo de Machine Learning

### Definir la variable objetivo (y) y las variables predictoras (X)
* La variable objetivo es **SalePrice**
* Las variables predictoras son las características que definen a SalesPrice son: **'LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd'**
* Se almacena en las nuevas variables como copia de la data original para no alterarla.

In [19]:
# Variable Objetivo (target)
y = X_full.SalePrice

# Variables predictoras (Caracteristicas)
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = X_full[features].copy()

X_test = X_test_full[features].copy()

In [6]:
X.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1460 entries, 1 to 1460
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   LotArea       1460 non-null   int64
 1   YearBuilt     1460 non-null   int64
 2   1stFlrSF      1460 non-null   int64
 3   2ndFlrSF      1460 non-null   int64
 4   FullBath      1460 non-null   int64
 5   BedroomAbvGr  1460 non-null   int64
 6   TotRmsAbvGrd  1460 non-null   int64
dtypes: int64(7)
memory usage: 91.2 KB


* Como vemos, por conveniencia se han elegidos **variables numericas** (tipo int64) con **valores completos** (non-null).

### Dividir los datos en conjunto de validación y de entrenamiento
* Se dividen datos en **datos de entrenamiento** y **datos de validacion**
* Los datos de entrenamiento los llamaremos **train_X, train_y**
* Los datos de validación los llamaremos **val_X, val_y**
* La biblioteca scikit-learn tiene una función **train_test_split** para dividir los datos en dos partes.
* Usaremos algunos de esos datos como **datos de entrenamiento para ajustarnos** al modelo y usaremos los demás datos como **datos de validación** para **calcular el error_absoluto medio** (MAE).
*  El argumento **random_state** quien garantiza que obtendremos la misma división cada vez. Se fija en este caso random_estate =0

In [7]:
# Divida sus datos: separe el conjunto de validación de los datos de entrenamiento
# En este caso, se elige un 80% para entrenamiento y un 20% para validacion

from sklearn.model_selection import train_test_split

X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2,
                                                      random_state=0)

In [18]:
print(f"El conjunto X_train tiene: {X_train.shape}, filas y columnas")
print(f"El conjunto X_valid tiene: {X_valid.shape}, filas y columnas")
print(f"El conjunto y_train tiene: {y_train.shape}, filas y columnas")
print(f"El conjunto y_valid tiene: {y_valid.shape}, filas y columnas")

El conjunto X_train tiene: (1168, 7), filas y columnas
El conjunto X_valid tiene: (292, 7), filas y columnas
El conjunto y_train tiene: (1168,), filas y columnas
El conjunto y_valid tiene: (292,), filas y columnas


Se observa que:
*   **el modelo de entranamiento se correrá** con 1168 del total de 1460 datos (80% de la data)
*   **el modelo de validacion se correrá con 292 de 1460** datos (20% de la data)

# Creacion del modelo de Machine 
* Se utilizará la biblioteca scikit-learn para crear los modelos.
* Al codificar, esta biblioteca se escribe como sklearn.

**Los pasos para construir y utilizar un modelo son:**
* 1. **Definir**: ¿Qué tipo de modelo será? ¿Un árbol de decisiones? ¿Algún otro tipo de modelo? También se especifican algunos otros parámetros del tipo de modelo.
* 2. **Ajuste**: capture patrones a partir de los datos proporcionados. Este es el corazón del modelaje.
* 3. **Predecir**: justo lo que parece
* 4. **Evaluar**: determinar qué tan precisas son las predicciones del modelo.

### 1. Definir Modelo de predicción: Random Forest
* En este caso, se almacenan en una lista 5 modelos con diferentes parámetros.
* Estos modelos seran entrenados y validados y se escogerá el que resulte con menor error absulto medio (MAE)

In [8]:
from sklearn.ensemble import RandomForestRegressor

# Define the models
model_1 = RandomForestRegressor(n_estimators=50, random_state=0)
model_2 = RandomForestRegressor(n_estimators=100, random_state=0)
model_3 = RandomForestRegressor(n_estimators=100, criterion= 'absolute_error', random_state=0)
model_4 = RandomForestRegressor(n_estimators=200, min_samples_split=20, random_state=0)
model_5 = RandomForestRegressor(n_estimators=100, max_depth=7, random_state=0)

models = [model_1, model_2, model_3, model_4, model_5]

### 1.1 Función de utilidad para selección de modelo más óptimo
En este paso
* sobre cada modelo (**model**):
  * **model.fit(X_t, y_t)**: se entrenan los modelos utilizando **X_train y y_train**
  * **preds = model.predict(x_v)**: se hacen predicciones utilizando **X_valid**
  * **mean_absolute_error(y_v, preds)**: se evalua el puntaje del MAE. 
* El modelo más òptimo resulta con menor MAE. Se utiliza **y_valid**.
* A continuación veamos el resultado MAE para el Modelo 1

In [9]:
from sklearn.metrics import mean_absolute_error

# Evaluación individual del modelo_1
model_1 = RandomForestRegressor(n_estimators=50, random_state=0)
model_1.fit(X_train, y_train)
preds_1 = model_1.predict(X_valid)
mae_1 = mean_absolute_error(y_valid, preds_1)
print("Model_1 MAE:", mae_1)

Model_1 MAE: 24015.492818003917


* Esto se calcula para cada modelo, y luego se elige el más óptimo.
* Para ello, se prefiere definir una función de utilidad que permita iterar sobre los tipos de modelos de una vez.

In [11]:
# Para seleccionar el mejor modelo de los cinco, definimos una función score_model() a continuación.
# Esta función devuelve el error absoluto medio (MAE) del conjunto de validación.
# El mejor modelo obtendrá el MAE más bajo.

from sklearn.metrics import mean_absolute_error

# Function for comparing different models
def score_model(model, X_t=X_train, X_v=X_valid, y_t=y_train, y_v=y_valid):
    model.fit(X_t, y_t)
    preds = model.predict(X_v)
    return mean_absolute_error(y_v, preds)

for i in range(len(models)):
    mae = score_model(models[i])
    print("Model %d MAE: %f" % (i+1, mae))  # Usar %f para MAE con decimales

Model 1 MAE: 24015.492818
Model 2 MAE: 23740.979229
Model 3 MAE: 23528.784212
Model 4 MAE: 23996.676790
Model 5 MAE: 23706.672864


### 1.2 Elección del modelo de predicción más óptimo

In [14]:
# El modelo con MAE más bajo.
best_model = model_3

# 2. Modelo final de predicción, entrenamiento y generación de predicciones de prueba
* Ahora ya tenemos todo para realizar el proceso de modelado y hacer predicciones.
* Se define el **modelo final** de predicción, **my_model** con los parámetros del modelo que resultó más ótimo. (menor MaE)
* Se ajusta el modelo final para los datos X, y. Definidos antes.  
* Se generan predicciones de prueba con **X_test** que se guardan en un archivo CSV.

In [16]:
# 1. Crear un modelo Random Forest con el nombre de variable my_model.
# Los parametros son los del modelo con menor MAE. (anterior)

#my_model = RandomForestRegressor(n_estimators=100, criterion='absolute_error', random_state=0)
my_model = best_model
my_model

In [17]:
# 2. Ajustar el modelo final con las variables X, y. Definidos antes.
# El modelo final se guarda como my_model
# Fit the model to the training data
my_model.fit(X, y)

In [20]:
# 3. Generar predicciones de prueba que se guardan en un archivo CSV.
# Se generan predicciones con la data de prueba X_test, utilizando el modelo final entrenado y validado "my_model"
preds_test = my_model.predict(X_test)
preds_test

array([119433.08, 158367.5 , 185351.21, ..., 156296.92, 132232.5 ,
       230870.6 ])

In [22]:
# Save predictions in format used for competition scoring
output = pd.DataFrame({'Id': X_test.index,
                       'SalePrice': preds_test})
output.to_csv('submission.csv', index=False)
output

Unnamed: 0,Id,SalePrice
0,1461,119433.08
1,1462,158367.50
2,1463,185351.21
3,1464,178343.12
4,1465,192898.29
...,...,...
1454,2915,86155.00
1455,2916,89050.00
1456,2917,156296.92
1457,2918,132232.50
