In [3]:
import numpy as np
import pandas as pd
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [5]:
#Carga de datos y visualización de variables

df = pd.read_csv("/content/precio_casas.csv", sep=";")
df.sample(8)

Unnamed: 0,pies_cuadrados_casa,num_banios,num_habitaciones,num_cocinas,num_coches_garaje,pies_cuadrados_garaje,precio_dolares
1,1262,2,3,1,2,460,181500
1190,1074,1,3,1,2,495,153500
431,1604,2,3,1,2,470,181000
1146,1580,2,3,1,3,830,235128
1073,996,1,2,1,2,564,147000
166,1867,1,2,1,1,303,190000
1034,1733,2,4,1,2,452,139600
1334,2634,2,6,2,4,968,200000


In [6]:
#Cambio de estructura de datos a matricial

x = df[['pies_cuadrados_casa', 'num_banios', 'num_habitaciones', 'num_cocinas',
        'num_coches_garaje', 'pies_cuadrados_garaje']].values

y = df[['precio_dolares']].values

In [7]:
#Particionado de datos en entrenamiento y test

np.random.seed(2)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

In [8]:
#Generacion del modelo con los datos de entrenamiento

regr = linear_model.LinearRegression()
regr.fit(x_train, y_train)

In [9]:
#Evaluación del modelo con los datos de entrenamiento

y_predict = regr.predict(x_train)
mae_train = mean_absolute_error(y_true=y_train, y_pred=y_predict)
mse_train = mean_squared_error(y_true=y_train, y_pred=y_predict)
print("Error absoluto medio (MAE): {error}".format(error=mae_train))
print("Error cuadrático medio (MSE):{error}".format(error=mse_train))

Error absoluto medio (MAE): 27095.018731910644
Error cuadrático medio (MSE):1364236635.2082405


In [10]:
#Evalución del modelo con los datos de test

y_predict = regr.predict(x_test)
mae_test = mean_absolute_error(y_true=y_test, y_pred=y_predict)
mse_test = mean_squared_error(y_true=y_test, y_pred=y_predict)
print("Error absoluto medio (MAE): {error}".format(error=mae_test))
print("Error cuadrático medio (MSE): {error}".format(error=mse_test))

Error absoluto medio (MAE): 28389.328309291544
Error cuadrático medio (MSE): 1599024938.0037107


In [11]:
#Coeficientes

coe_df = pd.DataFrame({
    "variable": ['pies_cuadrados_casa', 'num_banios', 'num_habitaciones', 'num_cocinas', 'num_coches_garaje', 'pies_cuadrados_garaje'],
    "coeficiente": regr.coef_.flatten()
})

print(coe_df)

                variable   coeficiente
0    pies_cuadrados_casa     86.768745
1             num_banios  12975.733419
2       num_habitaciones -15849.877274
3            num_cocinas -51582.259018
4      num_coches_garaje  18584.528660
5  pies_cuadrados_garaje     53.906202


In [12]:
#Calcular R²

r2_train = regr.score(x_train, y_train)
print("Coeficiente de determinación R^2 train: {r2_train}".format(r2_train=r2_train))

r2_test = regr.score(x_test, y_test)
print("Coeficiente de determinación R^2 test: {r2_test}".format(r2_test=r2_test))

Coeficiente de determinación R^2 train: 0.7129533628012035
Coeficiente de determinación R^2 test: 0.7073478884826576
