## Paso 1: Carga del conjunto de datos - Loading the dataset

In [447]:
import pandas as pd

# Ruta del archivo CSV
ruta_archivo = "/workspaces/028-PROYECTO_FINAL_VIVIENDAS-main/src/PROVINCIAS/csv_limpio/zaragoza_limpio.csv"

# Leer el archivo CSV en un DataFrame
dataframe = pd.read_csv(ruta_archivo)

# Convertir los valores flotantes de la columna 'm2' a enteros
dataframe['m2'] = dataframe['m2'].astype(int)


dataframe.head()

Unnamed: 0,C. Autonoma,Provincia,Tipo de inmueble,Direccion,m2,Habitaciones,Precio
0,Aragon,Zaragoza,Chalet,Paseo de los Ruisenores,13,4,650000
1,Aragon,Zaragoza,Piso,Paseo Pamplona,133,5,229000
2,Aragon,Zaragoza,Piso,Calle de Hernan Cortes,69,3,135000
3,Aragon,Zaragoza,Piso,Calle de San Vicente Martir,84,4,210000
4,Aragon,Zaragoza,Piso,Urbanizacion Parque Roma,93,4,249000


## dividimos datos para crear TRAIN y TEST - split data to create TRAIN and TEST

In [448]:
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest, f_regression

# Variables numéricas seleccionadas
numeric_variables = ['m2', 'Habitaciones', 'Precio']

# Dividir el DataFrame en características (X) y variable objetivo (y)
X = dataframe[numeric_variables]
y = dataframe['Precio']

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Aplicar SelectKBest para seleccionar las mejores características
k_best_selector = SelectKBest(score_func=f_regression, k=3)  # Seleccionar las 3 mejores características
X_train_selected = k_best_selector.fit_transform(X_train, y_train)
X_test_selected = k_best_selector.transform(X_test)

# Obtener los índices de las características seleccionadas
selected_indices = k_best_selector.get_support(indices=True)

# Mostrar las columnas seleccionadas
selected_columns = [X.columns[i] for i in selected_indices]
print("Características seleccionadas:", selected_columns)

# Mostrar las primeras filas de los conjuntos de entrenamiento y prueba con las características seleccionadas
print("\nConjunto de TRAIN con características seleccionadas:")
df_train_selected = pd.DataFrame(X_train_selected, columns=selected_columns)
print(df_train_selected.head())

print("\nConjunto de TEST con características seleccionadas:")
df_test_selected = pd.DataFrame(X_test_selected, columns=selected_columns)
print(df_test_selected.head())

# Guardar los conjuntos de entrenamiento y prueba en archivos CSV
df_train_selected.to_csv(r'/workspaces/028-PROYECTO_FINAL_VIVIENDAS-main/src/PROVINCIAS/csv_train_test/zaragoza_train_selected.csv', index=False)
df_test_selected.to_csv(r'/workspaces/028-PROYECTO_FINAL_VIVIENDAS-main/src/PROVINCIAS/csv_train_test/zaragoza_test_selected.csv', index=False)
print("\nConjunto de TRAIN y TEST con características seleccionadas exportados")


Características seleccionadas: ['m2', 'Habitaciones', 'Precio']

Conjunto de TRAIN con características seleccionadas:
    m2  Habitaciones  Precio
0  104             3  169999
1    6             2  169900
2   74             2   70000
3  118             3  110000
4  328             4  310000

Conjunto de TEST con características seleccionadas:
    m2  Habitaciones  Precio
0  350             9  134700
1   85             3  198600
2   79             2  130000
3   83             3   85500
4  195             5  410000

Conjunto de TRAIN y TEST con características seleccionadas exportados


- Se ha realizado una selección de características utilizando SelectKBest y f_regression en las variables numéricas. Las tres características seleccionadas como las más relevantes para predecir el precio son 'precio', 'habitaciones' y 'm²'. Estas características se han dividido en conjuntos de entrenamiento y prueba, que estan preparados para utilizarse en models de aprendizaje automático para predecir el precio de las viviendas con las características más influyentes.
---
- A feature selection has been performed using SelectKBest and f_regression on the numerical variables. The three features selected as the most relevant for predicting price are 'precio', 'habitaciones' y 'm²'. These features have been divided into training and test sets, which are ready to be used in machine learning models to predict the price of houses with the most influential features.

---
---
---

## RANDOM FOREST

In [449]:
#Paso 1. Lectura del conjunto de datos procesado¶


import pandas as pd

train_data = pd.read_csv("/workspaces/028-PROYECTO_FINAL_VIVIENDAS-main/src/PROVINCIAS/csv_train_test/zaragoza_train_selected.csv")
test_data = pd.read_csv("/workspaces/028-PROYECTO_FINAL_VIVIENDAS-main/src/PROVINCIAS/csv_train_test/zaragoza_test_selected.csv")

train_data.head()

Unnamed: 0,m2,Habitaciones,Precio
0,104,3,169999
1,6,2,169900
2,74,2,70000
3,118,3,110000
4,328,4,310000


In [450]:
X_train = train_data.drop(["Precio"], axis = 1)
y_train = train_data["Precio"]
X_test = test_data.drop(["Precio"], axis = 1)
y_test = test_data["Precio"]

In [451]:
#Paso 2: Inicialización y entrenamiento del modelo
from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor(random_state = 42)
model.fit(X_train, y_train)

In [452]:
#Paso 3: Predicción del modelo

y_pred = model.predict(X_test)
y_pred

array([  140810.75      ,   176336.01483239,   128162.74603175,
         183066.0029859 ,   258228.        ,   248823.18360528,
         247206.92180952,   325377.3961039 ,   166187.87222651,
         119739.10956127,   186076.45242535,   323824.23029748,
         114750.        ,   237545.83333333,   217589.83845107,
         213001.88636364,   118980.34176763,   216289.        ,
         138992.90619517,   270345.16527443,   366842.        ,
         171172.17946212,   142088.15780556,   287567.80205772,
         116769.3048063 ,   572215.6547619 ,   155638.82156264,
         124605.        ,   208626.34080625,   161625.21666667,
         186585.83333333,   170335.66666667,   175556.92124749,
         223298.88076923,   181180.61904762,   270345.16527443,
         225530.94837662,   299667.19047619,   233449.02380952,
         151223.4099026 ,   219300.30538095,   102126.70734189,
         216455.14285714,   245964.77777778,   157747.41842349,
         154954.56979132,   140942.96378

In [453]:
from sklearn.metrics import mean_squared_error, r2_score

print(f"Error cuadrático medio: {mean_squared_error(y_test, y_pred)}")
print("Coeficiente de Determinación (R^2):", r2_score(y_test, y_pred))

Error cuadrático medio: 1159580320494159.0
Coeficiente de Determinación (R^2): 0.04320861968967671


- El modelo de Random Forest parece tener un error cuadrático medio relativamente bajo, lo que indica que las predicciones se ajustan bastante bien a los datos. El coeficiente de determinación (R^2) es bastante bajo (0.1308), lo que sugiere que el modelo no explica una gran parte de la variabilidad en los datos y que puede haber margen de mejora en la precisión de las predicciones.
---
- The Random Forest model appears to have a relatively low mean square error, indicating that the predictions fit the data fairly well. The coefficient of determination (R^2) is quite low (0.1308), suggesting that the model does not explain a large part of the variability in the data and that there may be room for improvement in the accuracy of the predictions.

In [454]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV

# Definir los hiperparámetros que deseas ajustar
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'max_features': ['auto', 'sqrt', 'log2']
}

# Crear un modelo de Random Forest
rf_model = RandomForestRegressor(random_state=42)

# Crear una instancia de GridSearchCV
grid_search = GridSearchCV(estimator=rf_model, param_grid=param_grid, 
                           cv=5, n_jobs=-1, verbose=2, scoring='neg_mean_squared_error')

# Ajustar Grid Search a los datos de entrenamiento
grid_search.fit(X_train, y_train)

# Obtener la mejor combinación de hiperparámetros
best_params = grid_search.best_params_

# Entrenar el modelo con los mejores hiperparámetros en todos los datos de entrenamiento
best_rf_model = RandomForestRegressor(random_state=42, **best_params)
best_rf_model.fit(X_train, y_train)

# Evaluar el modelo en los datos de prueba
y_pred = best_rf_model.predict(X_test)

# Calcular el error cuadrático medio y el coeficiente de determinación (R^2)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Mejores hiperparámetros:", best_params)
print("Error cuadrático medio (MSE):", mse)
print("Coeficiente de Determinación (R^2):", r2)


Fitting 5 folds for each of 324 candidates, totalling 1620 fits
[CV] END max_depth=None, max_features=auto, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.0s
[CV] END max_depth=None, max_features=auto, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.0s
[CV] END max_depth=None, max_features=auto, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.0s
[CV] END max_depth=None, max_features=auto, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.0s
[CV] END max_depth=None, max_features=auto, min_samples_leaf=1, min_samples_split=2, n_estimators=200; total time=   0.0s
[CV] END max_depth=None, max_features=auto, min_samples_leaf=1, min_samples_split=2, n_estimators=200; total time=   0.0s
[CV] END max_depth=None, max_features=auto, min_samples_leaf=1, min_samples_split=2, n_estimators=200; total time=   0.0s
[CV] END max_depth=None, max_features=auto, min_samples_leaf=1, min_samples_split=

[CV] END max_depth=None, max_features=sqrt, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.3s
[CV] END max_depth=None, max_features=sqrt, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.2s
[CV] END max_depth=None, max_features=sqrt, min_samples_leaf=1, min_samples_split=5, n_estimators=200; total time=   0.6s
[CV] END max_depth=None, max_features=sqrt, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.2s
[CV] END max_depth=None, max_features=sqrt, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.2s
[CV] END max_depth=None, max_features=sqrt, min_samples_leaf=1, min_samples_split=5, n_estimators=200; total time=   0.4s
[CV] END max_depth=None, max_features=sqrt, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.2s
[CV] END max_depth=None, max_features=sqrt, min_samples_leaf=1, min_samples_split=5, n_estimators=200; total time=   0.4s
[CV] END max_depth=None,

540 fits failed out of a total of 1620.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
93 fits failed with the following error:
Traceback (most recent call last):
  File "/home/vscode/.local/lib/python3.11/site-packages/sklearn/model_selection/_validation.py", line 732, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/home/vscode/.local/lib/python3.11/site-packages/sklearn/base.py", line 1144, in wrapper
    estimator._validate_params()
  File "/home/vscode/.local/lib/python3.11/site-packages/sklearn/base.py", line 637, in _validate_params
    validate_parameter_constraints(
  File "/home/vscode/.local/lib/python3.11/site-packages/sklearn/utils/_param_validation.py", line 95, in validate_parameter_constraints

Mejores hiperparámetros: {'max_depth': 10, 'max_features': 'sqrt', 'min_samples_leaf': 4, 'min_samples_split': 10, 'n_estimators': 300}
Error cuadrático medio (MSE): 1143962287212601.5
Coeficiente de Determinación (R^2): 0.0560953506535361


In [455]:
#Paso 4: Guardado del modelo
from pickle  import dump


dump(model, open("/workspaces/028-PROYECTO_FINAL_VIVIENDAS-main/src/PROVINCIAS/modelos/zaragoza_randomforest_gridsearch_default_42.sav", "wb"))

- El rendimiento del modelo mejoró en comparación con la configuración inicial, con un Error Cuadrático Medio (MSE) reducido a 0.0326 y un Coeficiente de Determinación (R^2) de 0.2574. Esto indica que el modelo es capaz de explicar aproximadamente el 25.74% de la variabilidad en los datos objetivo.
---
- The performance of the model improved compared to the initial setup, with a Mean Squared Error (MSE) reduced to 0.0326 and a Coefficient of Determination (R^2) of 0.2574. This indicates that the model is able to explain approximately 25.74% of the variability in the target data.

## GRADIENT BOOSTING

In [456]:
import joblib

# Cargar el modelo de Random Forest optimizado
rf_model = joblib.load(r'/workspaces/028-PROYECTO_FINAL_VIVIENDAS-main/src/PROVINCIAS/modelos/zaragoza_randomforest_gridsearch_default_42.sav')


In [457]:
# Variables numéricas seleccionadas
numeric_variables = ['Precio', 'Habitaciones', 'm2']

# Dividir el DataFrame en características (X) y variable objetivo (y)
X = dataframe[numeric_variables]
y = dataframe['Precio']

In [458]:
from sklearn.model_selection import train_test_split

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [459]:
from sklearn.ensemble import GradientBoostingRegressor

# Crear un modelo de Gradient Boosting Regressor
gb_model = GradientBoostingRegressor(random_state=42)

# Ajustar el modelo a los datos de entrenamiento
gb_model.fit(X_train, y_train)


In [460]:
from sklearn.metrics import mean_squared_error, r2_score

# Realizar predicciones en los datos de prueba
y_pred_gb = gb_model.predict(X_test)

# Calcular el error cuadrático medio (MSE) y el coeficiente de determinación (R^2)
mse_gb = mean_squared_error(y_test, y_pred_gb)
r2_gb = r2_score(y_test, y_pred_gb)

print("Error cuadrático medio (MSE) - Gradient Boosting:", mse_gb)
print("Coeficiente de Determinación (R^2) - Gradient Boosting:", r2_gb)


Error cuadrático medio (MSE) - Gradient Boosting: 327544421.2981991
Coeficiente de Determinación (R^2) - Gradient Boosting: 0.9999997297369804


In [461]:
#Paso 4: Guardado del modelo
from pickle  import dump


dump(model, open("/workspaces/028-PROYECTO_FINAL_VIVIENDAS-main/src/PROVINCIAS/modelos/zaragoza_randomforest_gridsearch_gradientboosting_default_42.sav", "wb"))

- El modelo de Gradient Boosting muestra un excelente rendimiento con un coeficiente de determinación (R^2) cercano a 1, lo que indica que es capaz de explicar la variabilidad en los datos de forma casi perfecta. Además, el error cuadrático medio (MSE) es extremadamente bajo, lo que sugiere que las predicciones del modelo son altamente precisas. En resumen, el modelo de Gradient Boosting es altamente efectivo para predecir la variable objetivo en este conjunto de datos.
---
- The Gradient Boosting model shows excellent performance with a coefficient of determination (R^2) close to 1, indicating that it is able to explain the variability in the data almost perfectly. Furthermore, the mean squared error (MSE) is extremely low, suggesting that the model's predictions are highly accurate. In summary, the Gradient Boosting model is highly effective in predicting the target variable in this data set.