## **Machine Learning Notebook - Paso a Paso**

Este es un Notebook de un modelo intermedio de Machine Learning que va paso a paso a través de un data set de propiedades inmobiliarias para predecir el precio de venta

El Notebook está basado en el curso de Kaggle de Machine Learning Intermedio:
__[Kaggle - Intermediate Machine Learning](https://www.kaggle.com/learn/intermediate-machine-learning)__

***
**1. Importando los paquetes necesarios**

_Para correr este notebook se debe tener instalado el paquete de pandas y el paquete de SKlearn, para instalarlo se debe correr en el terminal las siguientes lineas_

_pip install pandas_

_pip install sklearn_

In [1]:
import pandas as pd # Paquete de pandas
from sklearn.tree import DecisionTreeRegressor # Modelo de Decision Tree de SKlearn package
from sklearn.ensemble import RandomForestRegressor # Modelo de Random Forest de SKlearn
from sklearn.metrics import mean_absolute_error # Metodo para calcular el error usando el mean absolute error
from sklearn.model_selection import train_test_split # Metodo para dividir la data en data de prueba y data de entrenamiento
from sklearn.impute import SimpleImputer # Metodo para imputar la data y manejar los valores nulos mediante promedios
from sklearn.preprocessing import OrdinalEncoder # Metodo para modificar las variables categoricas a ordinales (numeros)
from sklearn.preprocessing import OneHotEncoder # Metodo para modificar las variables categoricas y dividirlas en varias columnas de 1 y 0
import copy # paquete para duplicar dataframes

***
**2. Cargando la data de la fuente**

In [None]:
# Nombre del archivo de la data de entrenamiento
trainFileName = 'train.csv'
testFileName = 'test.csv'

# Cargar la data del archivo en un panda dataframe
fullTrainData = pd.read_csv(trainFileName,index_col= 'Id') 
fullTestData = pd.read_csv(testFileName,index_col= 'Id') 

In [None]:
# Resumen estadistico de la data 
fullTrainData.describe()

Unnamed: 0,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,BsmtFinSF2,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
count,1460.0,1201.0,1460.0,1460.0,1460.0,1460.0,1460.0,1452.0,1460.0,1460.0,...,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,56.89726,70.049958,10516.828082,6.099315,5.575342,1971.267808,1984.865753,103.685262,443.639726,46.549315,...,94.244521,46.660274,21.95411,3.409589,15.060959,2.758904,43.489041,6.321918,2007.815753,180921.19589
std,42.300571,24.284752,9981.264932,1.382997,1.112799,30.202904,20.645407,181.066207,456.098091,161.319273,...,125.338794,66.256028,61.119149,29.317331,55.757415,40.177307,496.123024,2.703626,1.328095,79442.502883
min,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,34900.0
25%,20.0,59.0,7553.5,5.0,5.0,1954.0,1967.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,2007.0,129975.0
50%,50.0,69.0,9478.5,6.0,5.0,1973.0,1994.0,0.0,383.5,0.0,...,0.0,25.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,163000.0
75%,70.0,80.0,11601.5,7.0,6.0,2000.0,2004.0,166.0,712.25,0.0,...,168.0,68.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,214000.0
max,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,1474.0,...,857.0,547.0,552.0,508.0,480.0,738.0,15500.0,12.0,2010.0,755000.0


In [None]:
# Resumen estadistico de la data 
fullTestData.describe() 

Unnamed: 0,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,BsmtFinSF2,...,GarageArea,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold
count,1459.0,1232.0,1459.0,1459.0,1459.0,1459.0,1459.0,1444.0,1458.0,1458.0,...,1458.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0
mean,57.378341,68.580357,9819.161069,6.078821,5.553804,1971.357779,1983.662783,100.709141,439.203704,52.619342,...,472.768861,93.174777,48.313914,24.243317,1.79438,17.064428,1.744345,58.167923,6.104181,2007.769705
std,42.74688,22.376841,4955.517327,1.436812,1.11374,30.390071,21.130467,177.6259,455.268042,176.753926,...,217.048611,127.744882,68.883364,67.227765,20.207842,56.609763,30.491646,630.806978,2.722432,1.30174
min,20.0,21.0,1470.0,1.0,1.0,1879.0,1950.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0
25%,20.0,58.0,7391.0,5.0,5.0,1953.0,1963.0,0.0,0.0,0.0,...,318.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4.0,2007.0
50%,50.0,67.0,9399.0,6.0,5.0,1973.0,1992.0,0.0,350.5,0.0,...,480.0,0.0,28.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0
75%,70.0,80.0,11517.5,7.0,6.0,2001.0,2004.0,164.0,753.5,0.0,...,576.0,168.0,72.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0
max,190.0,200.0,56600.0,10.0,9.0,2010.0,2010.0,1290.0,4010.0,1526.0,...,1488.0,1424.0,742.0,1012.0,360.0,576.0,800.0,17000.0,12.0,2010.0


***
**3. Pre-procesamiento de la data**

In [None]:
# Verificando las columnas que tienen valores vacios y eliminando esas columnas de la data de entrenamiento
fullTrainData.dropna(axis=0, subset=['SalePrice'], inplace=True)

# Estableciendo la variable de entrenamiento a predecir
trainTarget = fullTrainData['SalePrice']

# Eliminando la variable de entrenamiento a predecir, de la data usada para entrenar el modelo
fullTrainData.drop(['SalePrice'], axis = 1, inplace= True)

In [None]:
# Verificando cuales son las columnas categoricas

# Lista de columnas categoricas de la data
cats = fullTrainData.dtypes == object
catColumns = list(cats[cats].index)

#### (a) Manejo de los valores nulos en la data

En esta siguiente parte hay 3 opciones para manejar los valores nulos:
1. Eliminar las columnas con valores nulos
2. Rellenar los valores nulos con el promedio de la columna
3. Rellenar los valores nulos con el promedio de la columna y crear una columna de control que indique que esa variable estaba vacia

Para seleccionar las diferentes opciones, la variable nullControl, se indica como 1, 2 o 3

In [None]:
# Modificar la variable entre 1 o 2 o 3 en función de la técnica a utilizar para eliminar los valores nulos
nullControl = 3

In [None]:
# Copiando la data completa de entrenamiento
xTrain = fullTrainData.copy()

if nullControl == 1:
    # Reduciendo un poco más la data, eliminando la data con valores nulos
    colWithNull = []

    # Iterando sobre todas las columnas de la data de entrenamiento
    for currCol in fullTrainData.columns:

        # Si la columna tiene algun valor nulo, entonces anota la columna en la lista de columnas
        # con valores nulos
        if xTrain[currCol].isnull().any():
            colWithNull.append(currCol)

    # Eliminando las columnas con los valores nulos
    xTrain.drop(colWithNull, axis = 1)

    # Creando las variables pre-procesadas de salida luego de eliminadas las columnas con valores nulos
    PreProcxTrain = xTrain

elif nullControl == 2:
    # El proceso solo se hace en columnas numericas
    numXTrain = xTrain.select_dtypes(exclude=['object'])

    # Creando la imputación
    imputVar = SimpleImputer()

    # Modificando los valores de las variables de entrenanmiento y de prueba
    imputedXTrain = pd.DataFrame(imputVar.fit_transform(numXTrain))
    
    # Creando las variables pre-procesadas de salida luego creadas las columnas con la imputación
    imputedXTrain.columns = numXTrain.columns
    imputedXTrain = imputedXTrain.reset_index(drop = True) 

    # Data con las columnas categoricas
    catXTrain = xTrain[catColumns]
    catXTrain = catXTrain.reset_index(drop = True) 
    
    # Juntando las columnas categoricas y las columnas numericas
    PreProcxTrain = pd.concat([catXTrain, imputedXTrain], axis=1)

elif nullControl == 3:

    # El proceso solo se hace en columnas numericas
    numXTrain = xTrain.select_dtypes(exclude=['object'])

    colWithNull = []
    # Iterando sobre todas las columnas de la data de entrenamiento
    for currCol in numXTrain.columns:
        
        # Si la columna tiene algun valor nulo, entonces anota la columna en la lista de columnas
        # con valores nulos
        if numXTrain[currCol].isnull().any():
            colWithNull.append(currCol)

    # Creando la imputación
    imputVar = SimpleImputer()

    #Creando las columnas adicionales
    for currCol in colWithNull:
        numXTrain['No ' + currCol] = numXTrain[currCol].isnull()


    # Modificando los valores de las variables de entrenanmiento y de prueba
    imputedXTrain = pd.DataFrame(imputVar.fit_transform(numXTrain))

    # Creando las variables pre-procesadas de salida luego creadas las columnas con la imputación
    imputedXTrain.columns = numXTrain.columns
    imputedXTrain = imputedXTrain.reset_index(drop = True) 

    # Data con las columnas categoricas
    catXTrain = xTrain[catColumns]
    catXTrain = catXTrain.reset_index(drop = True) 
    
    # Juntando las columnas categoricas y las columnas numericas
    PreProcxTrain = pd.concat([catXTrain, imputedXTrain], axis=1)

else:
    # Si no se eliminan los valores nulos, la data se copia tal cual
    PreProcxTrain = xTrain.copy()

#### (b) Manejo de las variables categoricas de la data

En esta parte se manejan las variables categoricas, Se proponen 3 maneras de manejarlas:
1. Eliminando la variables categoricas
2. MOdificando las variables categoricas como numeros en una sola columna
3. Modificando las variables categoricas de cada columna, dividiendo esta en varias columnas con el nombre de cada categoria

In [None]:
# Modificar la variable entre 1 o 2 o 3 en función de la técnica a utilizar para manejar las variables categoricas
catControl = 3

In [None]:
# Copiando la data completa de entrenamiento
xTrain = PreProcxTrain.copy()

# Lista de columnas categoricas de la data
cats = xTrain.dtypes == object
catColumns = list(cats[cats].index)

if catControl == 1:
    print("Columnas categoricas que se eliminaran de la data " + str(catColumns))

    # Se eliminan las variables categoricas de todas las columnas
    catXTrain = xTrain.select_dtypes(exclude=['object'])

elif catControl == 2:

    print("Columnas categoricas que se pondrán en data numerica de la data " + str(catColumns))

    # La data de entrenamiento original se copia en otro dataframe
    catXTrain = xTrain.copy()

    # Se modifican las variables categoricas por numeros ordinales, en un orden especifico utilizando OriginalEncoder()
    OrdEncode = OrdinalEncoder()
    catXTrain[catColumns] = OrdEncode.fit_transform(xTrain[catColumns])

elif catControl == 3:

    # Llamando el metodo de SkLearn para el one hot encoder
    OrdEncode = OneHotEncoder(handle_unknown='ignore', sparse=False)
    
    # Creando el nuevo dataframe con las columnas adicionales para la data de entrenamiento
    OHcatXTrain = pd.DataFrame(OrdEncode.fit_transform(xTrain[catColumns]))
    OHcatXTrain.columns = OrdEncode.get_feature_names_out()

    # Recuperando los indices de la tabla inicial de prueba y de entrenamiento
    OHcatXTrain.index = xTrain.index

    # Se eliminan las variables categoricas de todas las columnas
    noCatXTrain = xTrain.select_dtypes(exclude=['object'])

    # Juntando las columnas con el encoder con las columnas numericas
    catXTrain = pd.concat([noCatXTrain, OHcatXTrain], axis=1)

else:
    catXTrain = PreProcxTrain.copy()

***
**4. Configuración del modelo**

In [None]:
# Variables o columnas de la tabla que se van a utilizar para crear el modelo
features = ["LotArea","YearBuilt","1stFlrSF","2ndFlrSF","FullBath","BedroomAbvGr","TotRmsAbvGrd"]

# Dataframe solo con las columnas a utilizar para entrenar el modelo.
# Estos son los valores conocidos para todas las propiedades, incluyendo
# las propiedades que se les va a predecir el precio de venta
featuresVar = catXTrain[features]

In [None]:
# Dividiendo la data de entrenamiento y la data de prueba
# trainX: Variables conocidas para el entrenamiento
# testX: Variables conocidas para la prueba a realizar al modelo
# trainY: Precios de ventas conocidos para el entrenamiento
# testY: Precios de venta que van a ser comparados con los precios predecidos por el modelo
trainX, testX, trainY, testY = train_test_split(featuresVar, trainTarget, random_state=2, train_size=0.8, test_size=0.2)

In [None]:
# Configurando los modelos a utilizar,
# El primero es el modelo de un árbol de decisión de regresión
# Se coloca estado random 0, para mantener un estado aleatorio fijo
Model1 = RandomForestRegressor(n_estimators = 50, random_state=0)
Model2 = RandomForestRegressor(n_estimators = 100, random_state=0)
Model3 = RandomForestRegressor(n_estimators=100, max_depth=7, random_state=0)

# Lista para iterar sobre todos los modelos configurados
allModels = [Model1, Model2, Model3]

In [None]:
# Iterando sobre los 5 modelos
for i in range(len(allModels)):
    currentModel = allModels[i]
    currentModel.fit(trainX, trainY)
    ValorPredecidos = currentModel.predict(testX)
    print('El error obtenido con el modelo ' + str(allModels[i]) + ' es: ' + str(mean_absolute_error(testY, ValorPredecidos)))

El error obtenido con el modelo RandomForestRegressor(n_estimators=50, random_state=0) es: 23722.333016960212
El error obtenido con el modelo RandomForestRegressor(random_state=0) es: 23214.092183626875
El error obtenido con el modelo RandomForestRegressor(max_depth=7, random_state=0) es: 23596.410736405433
