# Descripcion del problema
Objetivo del modelo
El modelo de machine learning tendrá como objetivo predecir el precio de venta de una casa basándose en varias características de la propiedad, como el número de dormitorios, baños, metros cuadrados, condiciones de la vivienda, entre otros factores.

Características (Variables) utilizadas
El modelo tomará las siguientes 14 variables para realizar la predicción del precio:

* Date: Fecha de la venta de la casa, que podría influir debido a la estacionalidad del mercado.
 
* Price (target): El precio de la vivienda que se usará como variable objetivo para el entrenamiento.

* Bedrooms: Número de habitaciones, un indicador común del tamaño de la propiedad.

* Bathrooms: Número de baños, otro indicador del tamaño y comodidad de la propiedad.

* Living_in_m2: Metros cuadrados del espacio interior, un factor directo del valor de la vivienda.

* Nice_view: Un indicador de la calidad de la vista, lo que puede incrementar el valor de la propiedad.

* Perfect_condition: Un flag que indica si la propiedad está en perfectas condiciones, lo que podría afectar positivamente el precio.

* Grade: Índice de calidad de construcción y diseño, un valor que va del 1 al 13 y refleja la calidad general de la propiedad.

* Has_basement: Indica si la propiedad tiene un sótano, lo que puede aumentar el espacio útil y, por ende, el valor.

* Renovated: Un flag que señala si la propiedad ha sido renovada, lo que puede hacerla más atractiva y costosa.

* Has_lavatory: Indica la presencia de lavatorios (baños secundarios), que pueden aumentar la funcionalidad de la propiedad.

* Single_floor: Un flag que indica si la propiedad es de un solo piso, lo que puede ser un factor deseable para ciertos compradores.

* Month: El mes en que se realizó la venta, que puede capturar efectos estacionales en los precios.

* Quartile_zone: Un índice que agrupa los códigos postales por nivel de precios, donde 1 es el más económico y 4 el más caro. Esto refleja la ubicación geográfica de la propiedad y su impacto en el valor.

# Preprocesamiento de Datos

In [50]:
#pip install kaggle
#pip install pandas
#pip install numpy
#pip install zipfile
#pip install IPython
#pip install scikit-learn

import os
import pandas as pd
import numpy as np
import zipfile
from IPython.display import display

#Preprocesamiento de datos
from sklearn.impute import SimpleImputer

# Especifica el directorio donde se guardarán los archivos
os.makedirs('datasets', exist_ok=True)

# Descarga el dataset desde Kaggle usando la línea de comandos
!kaggle datasets download -d aravinii/house-price-prediction-treated-dataset -p datasets

# Descomprime el archivo
with zipfile.ZipFile("datasets/house-price-prediction-treated-dataset.zip", 'r') as zip_ref:
    zip_ref.extractall("datasets")

# Cargar el archivo CSV en un DataFrame de Pandas
train_df = pd.read_csv('datasets/df_train.csv')   #Nuestro dataframe es el de entrenamiento
test_df = pd.read_csv('datasets/df_test.csv')     #Nuestro dataframe es el de prueba

# Mostrar las primeras filas del dataset
#print(train_df.dtypes)

#SELECCIONAMOS COLUMNAS NUMERICAS
df_train = train_df.select_dtypes(include=[int, float, bool])
df_test = test_df.select_dtypes(include=[int, float, bool])

# Convierte los valores booleanos en `0` y `1`
df_train = df_train.astype({col: int for col in df_train.select_dtypes('bool').columns})
df_test = df_test.astype({col: int for col in df_test.select_dtypes('bool').columns})

#df_train.head()

# Verifica que no haya valores nulos y que todas las columnas sean numéricas
print(df_train.isnull().sum())
print(df_test.isnull().sum())
print(df_train.dtypes)
print(df_test.dtypes)

#imprimimos el tamaño de los dataframes
#print(df_train.shape)
#print(df_test.shape)
#primer registro

Dataset URL: https://www.kaggle.com/datasets/aravinii/house-price-prediction-treated-dataset
License(s): CC0-1.0
house-price-prediction-treated-dataset.zip: Skipping, found more recently modified local copy (use --force to force download)
price                0
bedrooms             0
grade                0
has_basement         0
living_in_m2         0
renovated            0
nice_view            0
perfect_condition    0
real_bathrooms       0
has_lavatory         0
single_floor         0
month                0
quartile_zone        0
dtype: int64
price                0
bedrooms             0
grade                0
has_basement         0
living_in_m2         0
renovated            0
nice_view            0
perfect_condition    0
real_bathrooms       0
has_lavatory         0
single_floor         0
month                0
quartile_zone        0
dtype: int64
price                float64
bedrooms               int64
grade                  int64
has_basement           int32
living_in_m2         

# Entrenamiento

In [44]:
# Importa librerías para el modelado y evaluación
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.model_selection import train_test_split

#Dividimos el train_df en train y validation
df_training, df_validation = train_test_split(df_train, test_size=0.2, random_state=0)

#Dividimos el dataset en variables dependientes e independientes
x_training = df_training.drop(columns='price')
y_training = df_training['price']     #Nuestra variable objetivo es SalePrice para lograr predecir el precio de las casas

x_validation = df_validation.drop(columns='price')
y_validation = df_validation['price']       #Nuestra variable objetivo es SalePrice para lograr predecir el precio de las casas

x_test = df_test.drop(columns='price')
y_test = df_test['price']       #Nuestra variable objetivo es SalePrice para lograr predecir el precio de las casas

#Opcion 1: Entrenar un modelo de regresión lineal
linear_model = LinearRegression()
linear_model.fit(x_training, y_training)

#Opcion 2: Entrenar un modelo de Random Forest
random_forest_model = RandomForestRegressor()
random_forest_model.fit(x_training, y_training)


# Validación

In [45]:
# Predicciones en el conjunto de validación
y_pred_linear = linear_model.predict(x_validation)
y_pred_forest = random_forest_model.predict(x_validation)

# Evaluación del modelo en validación
mae_linear_val = mean_absolute_error(y_validation, y_pred_linear)
mae_forest_val = mean_absolute_error(y_validation, y_pred_forest)

print(f"MAE - Linear Model: {mae_linear_val}")
print(f"MAE - Random Forest: {mae_forest_val}")


MAE - Linear Model: 78880.22529472917
MAE - Random Forest: 76683.12714632411


### 1. MAE del modelo lineal: **78880.22**
Esto significa que, en promedio, el modelo de regresión lineal está cometiendo un error absoluto de **78880.22** unidades de la variable objetivo (el precio de las casas). Es decir, las predicciones de este modelo están, en promedio, a casi **79,000** unidades del valor real.

### 2. MAE del modelo Random Forest: **76683.12**
Esto significa que el modelo Random Forest está cometiendo un error absoluto de **76683.12** unidades de la variable objetivo en promedio. Las predicciones de este modelo están, en promedio, a poco más de *76,000* unidades del valor real.

### ¿Cuál modelo es mejor?
Random Forest tiene un MAE mucho **más bajo (76683.12)** comparado con el modelo de regresión lineal **(78880.22)**. Esto sugiere que el modelo Random Forest está realizando predicciones más precisas que el modelo de regresión lineal.

El modelo de regresión lineal tiene un error más alto, lo que indica que no está ajustando bien la relación entre las variables, probablemente porque la relación entre las variables predictoras y el precio no es estrictamente lineal, lo cual es común en datos de este tipo.

### ¿Está bien este desempeño?
El MAE en sí mismo es una métrica útil, pero siempre depende del contexto del problema. Es importante saber si el error de 76,000 unidades es razonable para el problema de predicción del precio de las casas. Si el precio de las casas en tu conjunto de datos varía entre 100,000 y 500,000, un error de 76,000 puede ser aceptable, pero si las casas tienen precios mucho más bajos, el error podría ser más significativo.

### Conclusión:
**Random Forest es el mejor modelo entre los dos** en este caso, ya que tiene un MAE  más bajo, lo que indica que hace predicciones más precisas.

# Entrenamiento Final

In [51]:
#Vamos a buscar mejores parametros para el metodo de random forest
from sklearn.model_selection import GridSearchCV


#variables independientes y dependientes
x_train = df_train.drop(columns='price')
y_train = df_train['price']

# Definir el conjunto de hiperparámetros a explorar
param_grid = {
    'n_estimators': [100, 200, 300],             # Cantidad de árboles en el bosque
    'max_depth': [10, 20, 30, None],             # Profundidad máxima de cada árbol
    'min_samples_split': [2, 5, 10],             # Mínimo de muestras necesarias para dividir un nodo
    'min_samples_leaf': [1, 2, 4],               # Mínimo de muestras necesarias en una hoja
    'max_features': ['auto', 'sqrt'],            # Número de características consideradas en cada división
    'bootstrap': [True, False]                   # Si se utiliza bootstrap para muestrear
}

# Inicializar el modelo
random_forest_model = RandomForestRegressor(random_state=42)

# Configurar GridSearchCV con validación cruzada de 5 pliegues
grid_search = GridSearchCV(estimator=random_forest_model, param_grid=param_grid, cv=5, scoring='neg_mean_absolute_error', n_jobs=-1, verbose=2)

# Entrenar GridSearchCV en el conjunto de entrenamiento
grid_search.fit(x_train, y_train)

# Mostrar los mejores hiperparámetros encontrados
print("Mejores parámetros:", grid_search.best_params_)

# Entrenamos el modelo Random Forest con todo el conjunto de entrenamiento
#random_forest_model_final = RandomForestRegressor(random_state=42)
#random_forest_model_final.fit(x_train, y_train)


Fitting 5 folds for each of 432 candidates, totalling 2160 fits


1080 fits failed out of a total of 2160.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
599 fits failed with the following error:
Traceback (most recent call last):
  File "c:\Users\ASUS\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\model_selection\_validation.py", line 888, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "c:\Users\ASUS\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\base.py", line 1466, in wrapper
    estimator._validate_params()
  File "c:\Users\ASUS\AppData\Local\Programs\Python\Python312\Lib\site-packages\sklearn\base.py", line 666, in _validate_params
    validate_parameter_constraints(
  File "c:\Users\ASUS\AppData\Local\Programs\Python\Python312\Lib

Mejores parámetros: {'bootstrap': True, 'max_depth': 20, 'max_features': 'sqrt', 'min_samples_leaf': 1, 'min_samples_split': 10, 'n_estimators': 200}


# Testeo

In [52]:
# Definir el modelo con los mejores parámetros
best_rf_model = RandomForestRegressor(
    bootstrap=True,
    max_depth=20,
    max_features='sqrt',
    min_samples_leaf=1,
    min_samples_split=10,
    n_estimators=200,
    random_state=42
)

# Entrenar el modelo en el conjunto de entrenamiento
best_rf_model.fit(x_train, y_train)

# Hacemos predicciones en el conjunto de prueba
y_pred_test = best_rf_model.predict(x_test)

# Evaluación del modelo en prueba
mae_test = mean_absolute_error(y_test, y_pred_test)
mse_test = mean_squared_error(y_test, y_pred_test)

print(f"MAE - Random Forest (test): {mae_test}")
print(f"MSE - Random Forest (test): {mse_test}")

MAE - Random Forest (test): 73689.34519691864
MSE - Random Forest (test): 10332201670.334171


# Despliegue

In [53]:
#pip install joblib
import joblib

joblib.dump(best_rf_model, 'random_forest_model.pkl')

['random_forest_model.pkl']