In [35]:
# Librería para comando de sistema
import os
# Librerías para manejo de datos
import pandas as pd
import numpy as np
# Librerías de aprendizaje automático.
# Para realizar la separación del conjunto de aprendizaje en entrenamiento y test.
from sklearn.model_selection import train_test_split
# Para construir un modelo con el algoritmo de regresión lineal
from sklearn.linear_model import LinearRegression
# Para determinar el rendimiento del modelo con las métricas MSE, MAE y R2
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
# Para sacar un reporte estadístico que podemos usar para determinar las importancia de las variables explicativas.
import statsmodels.api as sm 
import joblib

In [5]:
#Se cargan los datos de la venta de inmuebles   
data = pd.read_excel("venta_inmuebles_data.xlsx")
dicc = pd.read_excel("venta_inmuebles_diccionario.xlsx")


In [None]:
#cantidad de datos y numeros de variables
data.shape

data.head()


(5466, 10)

In [19]:
data_t.dtypes

numero_cuartos                int64
numero_baños                  int64
area_de_ construcción_pie2    int64
area_del lote_pie2            int64
numero_pisos                  int64
condición                     int64
grado                         int64
superficie_sótano_pie2        int64
año_de_construcción           int64
precio                        int64
dtype: object

In [11]:
#copiar otro archivo para un correcto manejo de los datos
data_t = data 

#Datos faltantes
data_t.isnull().sum()

numero_cuartos                0
numero_baños                  0
area_de_ construcción_pie2    0
area_del lote_pie2            0
numero_pisos                  0
condición                     0
grado                         0
superficie_sótano_pie2        0
año_de_construcción           0
precio                        0
dtype: int64

In [12]:


# Verificar si hay filas duplicadas en el DataFrame
duplicados = data_t.duplicated()

# Contar el número de duplicados
num_duplicados = duplicados.sum()

# Mostrar el resultado
if num_duplicados > 0:
    print(f"Hay {num_duplicados} filas duplicadas en el DataFrame.")
else:
    print("No hay filas duplicadas en el DataFrame.")


Hay 1 filas duplicadas en el DataFrame.


In [14]:
filas_duplicadas = data_t[data_t.duplicated()]
filas_duplicadas


Unnamed: 0,numero_cuartos,numero_baños,area_de_ construcción_pie2,area_del lote_pie2,numero_pisos,condición,grado,superficie_sótano_pie2,año_de_construcción,precio
1193,2,2,1070,649,2,3,9,350,2008,259950


In [22]:
#Se selecciona la variable objetivo
Y = data_t["precio"]
#Se seleccionan las variables explicativas
X = data_t.drop(["precio"], axis=1)

In [23]:
#Se realizan la dividsion de los datos en entrenamiento y test se deja el 20% de los datos para test
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

In [25]:
#Se crea el objeto parea costruir el modelo
modelo_regresion = LinearRegression()
#para verificar que lo construimos 
modelo_regresion

In [26]:
#entrenamos el modelo utilizando el conjunto de entrenamiento
modelo_regresion.fit(X_train, Y_train)

In [30]:
# Se obtienen las predicciones del modelo sobre el conjunto de entrenamiento.
y_pred = modelo_regresion.predict(X_train)
# Se obtienen las métricas a partir de la predicción y la base de evaluación (valores reales).
print("MSE: %.2f" % mean_squared_error(Y_train, y_pred, squared=False))
print("MAE: %.2f" % mean_absolute_error(Y_train, y_pred))
print('R²: %.2f' % r2_score(Y_train, y_pred))

MSE: 126273.75
MAE: 96041.85
R²: 0.51




In [31]:
# Se obtienen las predicciones del modelo sobre el conjunto test.
y_pred = modelo_regresion.predict(X_test)
# Se obtienen las métricas a partir de la predicción y la base de evaluación (valores reales).
print("MSE: %.2f" % mean_squared_error(Y_test, y_pred, squared=False))
print("MAE: %.2f" % mean_absolute_error(Y_test, y_pred))
print('R²: %.2f' % r2_score(Y_test, y_pred))

MSE: 121787.52
MAE: 94037.65
R²: 0.51




In [32]:
# Ajustar el modelo con los datos de entrenamiento
modelo_regresion.fit(X,Y)

In [33]:
# Podemos visualizar los parámetros del modelos (coeficientes de regresión)
modelo_regresion.coef_

array([-1.70089493e+04,  3.19890053e+04,  7.92930857e+01,  1.09112144e-01,
        4.64647377e+04,  1.09664388e+04,  8.89664728e+04,  1.77705023e+01,
       -2.50855754e+03])

In [34]:
# Ajustar el modelo para ver el reporte
model = sm.OLS(Y, X).fit() ## sm.OLS(output, input)
# Mostrar las estadísticas del modelo
model.summary()

0,1,2,3
Dep. Variable:,precio,R-squared (uncentered):,0.9
Model:,OLS,Adj. R-squared (uncentered):,0.9
Method:,Least Squares,F-statistic:,5466.0
Date:,"Sun, 02 Mar 2025",Prob (F-statistic):,0.0
Time:,16:53:26,Log-Likelihood:,-72323.0
No. Observations:,5466,AIC:,144700.0
Df Residuals:,5457,BIC:,144700.0
Df Model:,9,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
numero_cuartos,-1.899e+04,2629.250,-7.222,0.000,-2.41e+04,-1.38e+04
numero_baños,-1628.1909,4191.634,-0.388,0.698,-9845.465,6589.083
area_de_ construcción_pie2,82.1671,5.751,14.288,0.000,70.893,93.441
area_del lote_pie2,0.0789,0.042,1.899,0.058,-0.003,0.160
numero_pisos,4.282e+04,5445.475,7.863,0.000,3.21e+04,5.35e+04
condición,2.541e+04,2642.317,9.616,0.000,2.02e+04,3.06e+04
grado,7.555e+04,2914.711,25.919,0.000,6.98e+04,8.13e+04
superficie_sótano_pie2,46.7043,6.751,6.918,0.000,33.470,59.939
año_de_construcción,-178.5279,10.486,-17.026,0.000,-199.084,-157.972

0,1,2,3
Omnibus:,873.107,Durbin-Watson:,1.991
Prob(Omnibus):,0.0,Jarque-Bera (JB):,2131.719
Skew:,0.899,Prob(JB):,0.0
Kurtosis:,5.476,Cond. No.,148000.0
