<a href="https://colab.research.google.com/github/David-BA-LMO/Machine-Learning-con-ScikitLearn/blob/main/Regresi%C3%B3n_Lineal.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Regresión supervisada**

La regresión es una técnica utilizada para predecir un valor numérico continuo en función de una o más variables independientes. Estas variable a predecir se denomina *variable objetivo* (*target* en literatura inglesa). Variables objetivo típicas pueden ser el precio de un inmueble, la temperatura en una zona determinada del país, la altura media de una población, y en general toda característica que pueda tomar un valor cualquiera dentro de un rango numérico.

Esta predicción se realiza a partir de un conjunto *variables predictoras* (*features*), como pueden ser el barrio, la superficie en metros cuadrados o el número de habitaciones en el caso de que busquemos estimar el precio de un piso. El objetivo de la Regresión supervisada es entrenar un algoritmo de Machine Learning  que le permitan realizar la predicción. Para ello se le pasan ejemplos de datos en los que conocemos el valor real de la variables objetivo de manera que descubra patrones que le permitan realizar la predicción con nuevos datos.

# **Modelo de Regresión Lineal**

 El modelo más simple para predicción de variables numéricas continuas es sin duda la **Regresión Lineal**. La técnica es muy simple y se basa en lograr ajustar un modelo lineal, definido formalmente de la siguiente manera.

$$\hat{y} = w_{0} + w_{1}x_{1} + w_{2}x_{2} \cdots + w_{k}x_{k}$$

Aquí $x_{i}$ son las diferentes valores de las variables predictoras. Para realizar la predicción el modelo debe aprender unos pesos $w_{i}$ los cuales ponderan cada característica. El sumatorio de las ponderaciones es la predicción final $\hat{y}$. También se incluye un *interceptor* o *sesgo* $w_{0}$ el cual se considera un valor base o valor de $\hat{y}$ cuando el resto de coeficientes es $0$.

<div style="display: flex; justify-content: center;">
<img src="https://drive.google.com/uc?export=view&id=1ue5tLu9aKh9wt8_2vQcYGAxAw92vmrsV" width="400">
</div>

Desde un perspectiva geométrica, un modelo de regresión genera un plano. Si tenemos una sola variable predictora ese plano es una línea. El interceptor nos indica el punto de corte de esa línea sobre el eje $y$. En caso de contar con dos variables predictoras se trataría de un plano o superficie, e hiperplanos de mayores dimensiones para más de tres variables. Cada distinta combinación de coeficientes $w$ generará un plano con diferentes pendientes y por tanto distintas predicciones que podrá ser más o menos acertadas. En la imagen de arriba vemos una regresión para una única variable. En la grandísima mayoría de los casos no tendremos contaremos con mucho más de un solo coeficiente por lo que la visualización no va ser factible.

Pongamos el ejemplo de un modelo para predecir precios de viviendas. Tal modelo tiene dos columnas predictoras: superficie en metros cuadrados y año de construcción. Supongamos una vivienda con $87$ metros cuadrados y construida en $1978$. Tras ser entrenado, los coeficientes del modelo para esas respectivas columnas son $507.38$ y $-9.46$, con un interceptor de $97474.56$. El modelo final sería:

$$97474.56 + 507.38\times 87 + (-9.46)\times 1978$$

Esto nos devolvería una predicción para ese piso de $122904.74$. Evidentemente la dificultad de esta tarea es localizar los valores de esos coeficientes que mejorar nuestra estimación del precio.

# **Función de pérdida**

Ya tenemos un modelo matemático que devuelve una predicción. Inicialmente, y con los coeficientes inicializados de forma aletatoria, las predicciones no serán nada precisas. Notemos que $\hat{y}$ es simplemente el resultado de nuestro modelo, el cual puede ser más o menos errado. Es aquí donde entra en juego la variable objetivo. Su utilidad radica en que sirve de ejemplo o referencia real a la que queremos aproximar dichas predicciones. Cada dato para el entrenamiento tendrá un valor $y$ en dicha variable objetivo. La idea es minimizar las diferencias $(y - \hat{y})$ entre las predicciones $\hat{y}$ que realiza nuestro modelo y dicha variable objetivo. Se muestran en la imagen como líneas punteadas

<div style="display: flex; justify-content: center;">
<img src="https://drive.google.com/uc?export=view&id=1RYoUHZsL_FtyvKhkC4lvRVdfc9XZB9k7" width="400">

Estas diferencias son cuantificadas en la llamada **función de pérdida**: ese error o distancia entre nuestras predicciones y la variable objetivo. La meta final es que el modelo encuentre los coeficientes óptimos que hagan esa función de pérdida lo mínima posible. La función de pérdida suele denotarse como $L$. Debería ahora quedar claro que todo gira en torno a estos coeficientes del modelo: su valor es el que determina si nuestra predicción es más o menos acertada.

Existen múltiples métodos para evaluar el error, aunque uno de los más comunes en Regresión Lineal es el de **Mínimos Cuadrados**, o el sumatorio de las diferencias al cuadrado entre el valor predicho y el valor real. Elevar al cuadrado esas diferencias implica simplificar cálculos posteriores y eliminar la influencia de valores negativos.

$$L= \sum_{i=1}^{n}(\hat{y}-y)^{2}$$

También es usual encontrarse una versión alternativa que calcula la media de esas diferencias al cuadrado:

$$L= \frac{1}{n}\sum_{i=1}^{n}(\hat{y}-y)^{2}$$

Indistintamente, y dado que esta función cuantifica el error, el objetivo será que debamos de minimizar esta función de pérdida para afinar nuestras predicciones.

# **Descenso del Gradiente**

La tercera pieza para dar forma a un estimador capaz de realizar predicciones es entrenarlo. En Regresión Lineal entrenar equivale a encontrar los coeficientes del modelo que minimicen la función de pérdida. Existen muchas formas de realizar este paso, algunas de ellas de tipo analítico (como las Ecuación Normal). Pero aprovechando el poder de cálculo de una computadora, suele optarse por una estrategia iterativa. Este método iterativo es llamado **Descenso del Gradiente**. El término descenso hace referencia a la necesidad de encontrar los puntos "hundidos" en los que la función de pérdida es más pequeña. Para ello es necesario calcular la derivada parcial de dicha función de pérdida respecto al valor del coeficiente. Recordemos que las derivadas miden la tendencia de la función y nos interesa saber si esta desciende o no, siendo el objetivo final el punto en el que dicha derivada es cercana a $0$, o plana, indicando un punto mínimo. No es lo mismo que la derivada sea $0$ a que los sea la función de pérdida; raramente esta última tendrá un valor $0$.

<div style="display: flex; justify-content: center;">
<img src="https://drive.google.com/uc?export=view&id=1mLAdH9bthVNZeH7DMLHtEkDZcV5oyGH4" width="400">

En cada iteración, el algoritmo del descenso del gradiente calculará la función de pérdida para unos coeficientes específicos, para luego obtener la derivada parcial de dicha función respecto a cada coeficiente ($\frac{\partial L}{\partial  w_{i}}$), y así poder decidir la actualización de los valores de estos últimos, aumentándo el coeficiente si la derivada es negativa y reduciéndolo si la derivada es positiva. Así, el nuevo valor $w'_{i}$ del coeficiente será:

$$w'_{i} = w_{i} - \alpha\frac{\partial L}{\partial  w_{i}}$$

El parámetro $\alpha$ indica cómo de grande será la actualización del peso en cada iteración. Es un metaparámetro muy importante porque determina la rapidez con el que el algoritmo aprende.

Para grupos de datos grandes, normalmente no es necesario que en cada pase se calcule la función de pérdida con todos los datos. El **Descenso del Gradiente Estocástico** (SGD) es una alternativa que hace uso de una pequeña parte del dataset para obtener dicha función. Esto mejora bastante la eficiencia computacional del algoritmo y su capacidad de generalización a datos novedosos. Es aconsejable su uso para dataset especialmente grandes por lo que no lo veremos desplegado aquí.

# **Evaluación de la Regresión Lineal**

La calidad de nuestro modelo de regresión puede ser medida de distintas manera. Estos son las principales métricas utilizadas.

- ***Mean Squared Error*** (MSE): promedio de los cuadrados de los errores entre las predicciones y los valores reales. Penaliza más fuertemente los errores grandes.
$$MSE = \frac{1}{n}\sum_{i=1}^{n} (y_{i} - \hat{y_{i}})^{2}$$

- ***Mean Absolute Error*** (MAE): el promedio de los valores absolutos de los errores entre las predicciones y los valores reales. Es menos sensible a valores atípicos en comparación con MSE.

$$MAE = \frac{1}{n}\sum_{i=1}^{n} \left | y_{i} - \hat{y_{i}}  \right |$$

- ***Root Mean Squared Error*** (RMSE): raíz cuadrada del MSE. Proporciona un error promedio en las mismas unidades que la variable objetivo.
$$RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (y_{i} - \hat{y_{i}})^{2}}$$

- **Coeficiente de Determinación** ($R^{2}$): indica la proporción de la variabilidad total de la variable dependiente que es explicada por el modelo. Toma valores entre $0$ y $1$. Un $R^{2}$ de $0$ indica que el modelo no explica ninguna variabilidad de la variable dependiente. Se calcula como uno menos el ratio entre la suma cuadrada de los errores $(y_{i} - \hat{y_{i}})^{2}$ entre la suma cuadrada de la variabilidad del modelo $(y_{i} - \bar{y_{i}})^{2}$ (siendo $\bar{y_{i}}$ la media).
$$R^{2} = 1 - \frac{\sum_{i=1}^{n} (y_{i} - \hat{y_{i}})^{2}}{\sum_{i=1}^{n} (y_{i} - \bar{y_{i}})^{2}}$$
Un $R^{2}$ muy alto en el conjunto de entrenamiento puede ser indicativo de sobreajuste.

#**Guía de uso de la Regresión Lineal**

Quizás la mayor ventaja de la Regresión Lineal sea su simplicidad y su facilidad de interpretación. Los coeficientes que obtenemos una vez entrenado el modelo nos indican el peso o importancia de cada una de las columnas y cuánto han contribuído estas en la predicción. Si es posible obtener buenos resultados con un modelo de Regresión Lineal, podría no ser necesario recurrir a algoritmos muy complejos.

Los inconvenientes son principalmente dos. Por un lado es un algoritmo basado en un *combinación lineal*, es decir: cualquier modificación de los coeficientes se transmite a la predicción de forma proporcional. Esto puede ser limitante cuando las relaciones entre las variables predictoras y la objetivo son no-lineales. La Regresión Lineal no es capaz de capturar combinaciones más complejas como interacciones entre las propias variables predictoras.


<div style="display: flex; justify-content: center;">
<img src="https://drive.google.com/uc?export=view&id=19J8LXZOySRntYQWfCTWbZv2fYLTBqjjA" width="600">


Esto a su vez está relacionado con el segundo inconveniente que es la presuposición de independencia entre las variables predictoras. El modelo de Regresión Lineal es especialmente sensible en casos de *colinealidad*, es decir, correlación entre variables predictoras. La razón de esto es que, tal y como está estructurado el modelo, un modelo de Regresión Lineal representa el cambio estimado en la variable objetivo a razón de un cambio en una variable predictora, manteniendo el resto constantes. La presencia de correlaciones implica que este cambio se refleja en alguna otra variable predictora, dificultando su tratamiento aislado. La multicolinealidad implica una hipersensibilidad del modelo hacia los cambios y un sesgo en el momento de interpretar los coeficientes asociados a cada variable, aunque no influye demasiado en su precisión.

# **Entrenamiento y testeo del modelo**

El proceso de entrenamiento de un modelo de regresión lineal involucra varios pasos clave para asegurar que el modelo no solo se ajuste bien a los datos de entrenamiento, sino que también generalice adecuadamente a datos no vistos. Buscamos que nuestro modelo sea capaz de realizar buenas predicciones, pero también queremos evitar el **sobreajuste** (*overfitting*), es decir, que dicho modelo aprenda demasiado bien de nuestros set de datos de entrenamiento de manera que mas tarde falle cuando se enfrente a nuevos datos fuera de dicho set. Recordemos que es importante que sea capaz de generalizar a casos no vistos durante el entrenamiento. Existen múltiples técnicas para evitar el sobreajuste. Veremos algunas.

El primer paso en el entrenamiento de un modelo de regresión lineal (y en general de cualquier modelo supervisado) es separar las variables predictoras de la variable objetivo . Esto es esencial para definir claramente qué información se utiliza para hacer predicciones y qué se está intentando predecir.

Una vez que se tienen las variables predictoras y la variable objetivo, el siguiente paso es dividir el dataset en un conjunto de entrenamiento (*train*) y un conjunto de prueba (*test*). Esto se hace para testear el modelo en datos que no fueron utilizados durante su entrenamiento, proporcionando una estimación de cómo se desempeñará en datos nuevos. Si nuestro modelo funciona bien con los datos de entrenamiento pero fracasa con este conjunto de prueba, estaremos ante un modelo sobreajustado.

<div style="display: flex; justify-content: center;">
<img src="https://drive.google.com/uc?export=view&id=1QzDwMInQwt6-tiYDXcF_2gzUqg-R-frk" width="500">

# **Validación Cruzada**

Otra estrategia para evitar sobreajuste es la **Validación Cruzada** (*Cross Validation*), la cual supone la tercera partición de datos. Normalmente, el entrenamiento exige pasar varias veces el mismo conjunto de datos. Podemos aprovechar esto para evaluar el rendimiento en cada pasada.. La Validación Cruzada permite reservar en cada iteración un conjunto de datos para su evaluación.

- ***K-Fold***: se parten los datos de entrenamiento en diferentes secciones o *folds*. En cada ronda un *fold* distinto se reserva para evaluar el resultado final de dicha ronda, mientras que el resto se utiliza para el entrenamiento mismo. Al final habrá tantas rondas como número de *folds* y todos los *folds* habrán servido al menos una vez como validadores.
- ***Leave-One-Out Cross-Validation*** (LOOCV): es un caso particular de la validación *K-Fold* donde es igual al número de muestras en el conjunto de datos. Es computacionalmente costosa, ya que supone tantas iteraciones como datos, asi que es útil solo para conjuntos de datos muy pequeños.

- ***Stratified K-Fold***: las validaciones anteriores asumen que las diferentes agrupaciones de datos estas distribuidas homogéneamente entre cada *fold*. Sin embargo esto puede no ser así. Es por ello que cuando tenemos valores muy desvalanceados en la columna objetivo podemos usar la versión estratificada, que genera folds con clases balanceadas. Es la que scikit-learn utiliza por defecto para tareas de clasificación.
- ***Group K-Fold***: en otros casos nos interesará que el entrenamiento de realice aislando los datos por grupos. Un mismo grupo nunca está en el conjunto de entrenamiento y de validación. Es útil para casos en los que existiese una agrupación de datos que podemos predecir a partir de otra.
- ***Time Series Splite***: este caso es específico de datos ordenados cronológicamente. Se utilizan datso de entrenamiento previos que luego se evalúan en los inmediatamente posteriores. En cada iteración, el conjunto de entrenamiento abarca más y más datos pasados.

# **Análisis del DataFrame**

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import math
from typing import List, Tuple, Dict
import seaborn as sns

url='https://drive.google.com/file/d/1gdk_ZEj5iRkBEYdJM2oX5jjBDQl0oqxz/view?usp=sharing'
file_id=url.split('/')[-2]
dwn_url='https://drive.google.com/uc?id=' + file_id
data = pd.read_csv(dwn_url)

data.head(6)

Unnamed: 0,SquareFeet,Bedrooms,Bathrooms,Neighborhood,YearBuilt,Price
0,2126,4,1,Rural,1969,215355.283618
1,2459,3,2,Rural,1980,195014.221626
2,1860,2,1,Suburb,1970,306891.012076
3,2294,2,1,Urban,1996,206786.787153
4,2130,5,2,Suburb,2001,272436.239065
5,2095,2,3,Suburb,2020,198208.803907


In [None]:
data.shape

(50000, 6)

In [None]:
num_columns = data.select_dtypes(include=["int64","float64"]).columns.tolist()
print("Columnas numéricas: ", num_columns)

cat_columns = data.select_dtypes(include=["object"]).columns.tolist()
print("Columnas categóricas: ", cat_columns)

Columnas numéricas:  ['SquareFeet', 'Bedrooms', 'Bathrooms', 'YearBuilt', 'Price']
Columnas categóricas:  ['Neighborhood']


In [None]:
target_column = "Price"

num_pred_columns = num_columns
num_pred_columns.remove(target_column)
print("Columnas numéricas predictoras: ", num_pred_columns)

Columnas numéricas predictoras:  ['SquareFeet', 'Bedrooms', 'Bathrooms', 'YearBuilt']


In [None]:
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SquareFeet,50000.0,2006.37468,575.513241,1000.0,1513.0,2007.0,2506.0,2999.0
Bedrooms,50000.0,3.4987,1.116326,2.0,3.0,3.0,4.0,5.0
Bathrooms,50000.0,1.99542,0.815851,1.0,1.0,2.0,3.0,3.0
YearBuilt,50000.0,1985.40442,20.719377,1950.0,1967.0,1985.0,2003.0,2021.0
Price,50000.0,224827.325151,76141.842966,-36588.165397,169955.860225,225052.141166,279373.630052,492195.259972


In [None]:
data.isnull().sum()

SquareFeet      0
Bedrooms        0
Bathrooms       0
Neighborhood    0
YearBuilt       0
Price           0
dtype: int64

In [None]:
data.drop_duplicates(subset="Price", inplace=True)

In [None]:
data["Neighborhood"].value_counts()

Neighborhood
Suburb    16721
Rural     16676
Urban     16603
Name: count, dtype: int64

# **Regresión Lineal**

Pipeline de ScikitLearn: https://scikit-learn.org/stable/modules/compose.html

In [None]:
"""
En scikit-learn existen diferente objetos que implementan dos métodos esenciales: fit() y transform().
    -fit() es responsable de "aprender" de los datos de entrenamiento, almacenando las métricas y parámetros necesarios
      para transformar o predecir en futuros datos. fit() no modifica los datos originales.
    -transform() se utiliza para aplicar la transformación aprendida a los datos. Utiliza los parámetros aprendidos
      durante el fit() para transformar los datos de entrada de manera consistente con el aprendizaje realizado.
      Objetos que incorporan este método se llaman transformadores, tales como los imputadores, rescaladores,
      codificadores o algoritmos de reducción de dimensionalidad.

Vamos a aprovechar para introducir el objeto pipeline de scikit-learn que hace uso de esta distinción. Este objeto
permite integrar un conjunto de ajustes y transformaciones en un mismo flujo. El objeto pipeline opera con
transformaciones anidadas. Es posible incorporar funciones personalizadas, siempre y cuando contengan un método fit()
y transform().

"""
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler, OneHotEncoder, MinMaxScaler, RobustScaler
from sklearn.compose import ColumnTransformer
from sklearn.decomposition import PCA

# CONSTRUCCIÓN DEL PIPELINE CON REGRESIÓN LINEAL
# Transformador para columnas numéricas.
numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler()) # Estandarización
])

# Transformador para columnas categóricas.
# Es importante indicarle como tratar nuevos datos una vez realizada la codificación. Esto es útil cuando existe la posibilidad
# de que los datos nuevos contengan categorías que no se vieron durante el entrenamiento.
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore')) # Codificación tipo one-hot
])

# Integramos ambos en un preprocesador con ColumnTransformer, indicando el transformador y la lista de columnas a aplicar.
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, num_pred_columns),
        ('cat', categorical_transformer, cat_columns)
    ]
)

# Creamos el pipeline completo incluyendo ahora sí el estimador, en este caso un Regresor Lineal.
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('lin_regressor', LinearRegression())
])

In [None]:
# DIVISIÓN ENTRE COLUMNAS PREDICTIVAS Y OBJETIVO
# Separar columnas predictoras de columna objetivo
X = data.drop(columns=target_column)
y = data[target_column]

In [None]:
from sklearn.model_selection import train_test_split, cross_val_score, KFold

# DIVISIÓN ENTRE DATOS DE ENTRENAMIENTO Y DATOS DE TESTEO
# Seleccionamos una proporción de 80% de los datos para entrenamiento y 20% para el testeo.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

print("Tamaño datos de entrenamiento:", X_train.shape)
print("Tamaño datos de testeo:", X_test.shape)

Tamaño datos de entrenamiento: (40000, 5)
Tamaño datos de testeo: (10000, 5)


In [None]:
# VALIDACIÓN CRUZADA
# Definimos un objeto de Validación cruzada, en este caso KFold, indicando el número de splits.
cv = KFold(n_splits=5, shuffle=True, random_state=42) #shuffle=True indica que el conjunto se baraja aleatoriamente antes de dividirse.
# Obtenemos las puntuaciones de validación cruzada con el objeto CV creado antes.
cv_scores = cross_val_score(model, X_train, y_train, cv=cv, scoring="neg_root_mean_squared_error")
print(f'Puntuaciones de Validación Cruzada: {np.round(cv_scores,2)}')
print(f'Promedio de las puntuaciones de Validación Cruzada: {round(np.mean(cv_scores),2)}')
print(f'Desviación Típica de las puntuaciones de Validación Cruzada: {round(np.std(cv_scores),2)}')

Puntuaciones de Validación Cruzada: [-50062.47 -49504.29 -49681.64 -50642.92 -49658.08]
Promedio de las puntuaciones de Validación Cruzada: -49909.88
Desviación Típica de las puntuaciones de Validación Cruzada: 410.03


In [None]:
# ENTRENAMIENTO DEL MODELO
# Entrenar el modelo final con todos los datos de entrenamiento.
model.fit(X_train, y_train)

In [None]:
# TESTEO DEL MODELO
# Realizar las predicciones con el conjunto de datos reservados de testeo.
y_pred = model.predict(X_test)

In [None]:
# COEFICIENTES FINALES
# Acceder al modelo de regresión dentro del pipeline
lin_regressor = model.named_steps['lin_regressor'] # Debe ser el mismo nombre indicado al declarar el pipeline

# Obtener los coeficientes y el interceptor
coefficients = np.round(lin_regressor.coef_)
intercept = np.round(lin_regressor.intercept_)
feature_names = preprocessor.get_feature_names_out() # Sacamos los nombres de las columnas.
coef_dict = dict(zip(feature_names, coefficients.flatten())) # Asociando los coeficientes con los nombres de las características
print("Interceptor del modelo:", intercept)
print("Coeficientes finales del modelo:", coef_dict)

Interceptor del modelo: 224976.0
Coeficientes finales del modelo: {'num__SquareFeet': 57209.0, 'num__Bedrooms': 5612.0, 'num__Bathrooms': 2063.0, 'num__YearBuilt': -344.0, 'cat__Neighborhood_Rural': -243.0, 'cat__Neighborhood_Suburb': -765.0, 'cat__Neighborhood_Urban': 1008.0}


In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# EVALUACIÓN DEL MODELO
# Evaluación del modelo en el conjunto de prueba. Notar como es necesario pasar tanto nuestras predicciones
# y_pred como los valores reales de la variable objetivo y_test.
mae = round(mean_absolute_error(y_test, y_pred),2)
mse = round(mean_squared_error(y_test, y_pred),2)
rmse = round(np.sqrt(mse),2)
r2 = round(r2_score(y_test, y_pred),3)

print(f"Mean Absolute Error (MAE) en el conjunto de testeo: {mae}")
print(f"Mean Squared Error (MSE) en el conjunto de testeo: {mse}")
print(f"Root Mean Squared Error (RMSE) en el conjunto de testeo: {rmse}")
print(f"R-squared (R2) en el conjunto de testeo: {r2}")

Mean Absolute Error (MAE) en el conjunto de testeo: 39972.89
Mean Squared Error (MSE) en el conjunto de testeo: 2497735875.76
Root Mean Squared Error (RMSE) en el conjunto de testeo: 49977.35
R-squared (R2) en el conjunto de testeo: 0.569


In [None]:
# Podemos hacer una predicción con una fila cualquiera del dataset.
sample_0 = X_train.iloc[[0]]
predict_0 = model.predict(sample_0) #Es necesario el doble corchete porque predict() espera una matriz bidimensional de entrada.
print("Predicción: ", predict_0)
print("Error de predicción: ", predict_0-y_train.iloc[0])

Predicción:  [314756.48480462]
Error de predicción:  [-39519.51891969]


In [None]:
# Incluso podemos pasarle datos inventados, siempre y cuando indiquemos correctamente las columnas.
# Para ello es necesario que lo que le pasemos a predict() sea un DataFrame.
sample_1 = {
    'SquareFeet': 2500,
    'Bedrooms': 3,
    'Bathrooms': 4,
    'Neighborhood': 'Urban',
    'YearBuilt': 1962
}

sample_1 = pd.DataFrame([sample_1])
predict_1 = model.predict(sample_1)
print("\nPredicción: ",predict_1)


Predicción:  [277962.52466949]
