--Importación de librerias--

In [None]:
#Importando librerías necesarias
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import joblib
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    mean_absolute_error,
    mean_squared_error,
    r2_score,
    mean_absolute_percentage_error,
    explained_variance_score,
)

--Definiendo la ruta y asignando el dataset--

In [None]:
#Cargamos el dataset de Melbourne Housing
#URL del dataset: /kaggle/input/melbourne-housing-snapshot/melb_data.csv
melb_path = "D:\\Hacking\\Python\\AI_Learning\\Aprendizaje_Supervisado\\Melbourne_Housing\\melb_data.csv"
melb_data = pd.read_csv(melb_path)

--Marcando las caracteristicas de entrenamiento del modelo y la variable objetivo--

In [None]:
#Seleccionamos las características que vamos a utilizar (incluyendo categoricas y numéricas)
melb_features = [
    'Suburb', 'Rooms', 'Type', 'Method', 'SellerG', 'Distance',
    'Postcode', 'Bedroom2', 'Bathroom', 'Car', 'Landsize',
    'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
    'Longtitude', 'Regionname', 'Propertycount'
]
#Selecionamos la variable objetivo que queremos predecir
melb_target = 'Price'

--Filtrado de datos--

In [None]:
#Eliminamos las filas con valores nulos en las características y la variable objetivo
melb_data = melb_data[melb_features + [melb_target]].dropna()

--Asignacion de caracteristicas a las variables de entrenamiento y testeo--

In [None]:
#One-hot encoding de las variables categóricas
X = pd.get_dummies(melb_data[melb_features])
y = melb_data[melb_target]

In [None]:
#Dividimos los datos en conjuntos de entrenamiento y prueba
#test_size=0.2 significa que el 20% de los datos se utilizarán para pruebas
#random_state=12 asegura que la división sea reproducible
train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.2, random_state=12)

--Controlando el sobreajuste frente al subajuste--

In [None]:
#Calcula el error absoluto medio (MAE) para un modelo de árbol de decisión con un número máximo de nodos hoja.
def get_mae(max_leaf_nodes, train_X, train_y, test_X, test_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=12)
    model.fit(train_X, train_y)
    dt_preds = model.predict(test_X)
    mae = mean_absolute_error(test_y, dt_preds)
    return mae

In [None]:
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, train_y, test_X, test_y)
    print(f"Maximos nodos de hoja {max_leaf_nodes}: {my_mae:.2f}$")

--Definiendo y entrenando el Modelo de Árbol de Decisión--

In [None]:
#Definimos el modelo de Árbol de Decisión que vamos a utilizar
#El modelo DecisionTreeRegressor se utiliza para problemas de regresión
#En este caso, predecimos el precio de las casas
#random_state=12 asegura que el modelo sea reproducible
#Esto significa que cada vez que ejecutes el código, obtendrás los mismos resultados
melb_dt_model = DecisionTreeRegressor(max_leaf_nodes=500, random_state=12)
#Ajustamos el modelo a los datos de entrenamiento
melb_dt_model.fit(train_X, train_y)
#Realizamos predicciones con el modelo de Árbol de Decisión en el conjunto de prueba
melb_dt_model_preds = melb_dt_model.predict(test_X)

--Definiendo y entrenando el Modelo Random Forest--

In [None]:
#Definimos el modelo de Random Forest que vamos a utilizar
#El modelo RandomForestRegressor se utiliza para problemas de regresión
#En este caso, predecimos el precio de las casas
#Por defecto, Random Forest utiliza 100 árboles de decisión
#random_state=12 asegura que el modelo sea reproducible
melb_rf_model = RandomForestRegressor(random_state=12)
#Ajustamos el modelo a los datos de entrenamiento
melb_rf_model.fit(train_X, train_y)
#Realizamos predicciones con el modelo de Random Forest en el conjunto de prueba
melb_rf_model_preds = melb_rf_model.predict(test_X)

--Evaluación de los modelos (Métricas)--

In [None]:

#Evaluación del modelo de Árbol de Decisión
dt_mae = mean_absolute_error(test_y, melb_dt_model_preds)
dt_mse = mean_squared_error(test_y, melb_dt_model_preds)
dt_rmse = np.sqrt(dt_mse)
dt_r2 = r2_score(test_y, melb_dt_model_preds)
dt_mape = mean_absolute_percentage_error(test_y, melb_dt_model_preds)
dt_evs = explained_variance_score(test_y, melb_dt_model_preds)

#Evaluación del modelo de Random Forest
rf_mae = mean_absolute_error(test_y, melb_rf_model_preds)
rf_mse = mean_squared_error(test_y, melb_rf_model_preds)
rf_rmse = np.sqrt(rf_mse)
rf_r2 = r2_score(test_y, melb_rf_model_preds)
rf_mape = mean_absolute_percentage_error(test_y, melb_rf_model_preds)
rf_evs = explained_variance_score(test_y, melb_rf_model_preds)

In [None]:
#Mostrado los resultados de la evaluación del modelo de Árbol de Decisión
print("Resultados del modelo de Árbol de Decisión:")
print(f"MAE (Error promedio en dólares): {dt_mae:.2f}$")
#print(f"MSE (Mean Squared Error): {dt_mse:.2f}")
print(f"RMSE (Root Mean Squared Error): {dt_rmse:.2f}")
print(f"R2 (Variabilidad del precio): {dt_r2:.4f}")
print(f"MAPE (Porcentaje de error): {dt_mape:.2f}%")
#print(f"EVS (Explained Variance Score): {dt_evs:.4f}")

#Mostrado los resultados de la evaluación del modelo de Random Forest
print("\nResultados del modelo de Random Forest:")
print(f"MAE (Error promedio en dólares): {rf_mae:.2f}$")
#print(f"MSE (Mean Squared Error): {rf_mse:.2f}")
print(f"RMSE (Root Mean Squared Error): {rf_rmse:.2f}")
print(f"R2 (Variabilidad del precio): {rf_r2:.4f}")
print(f"MAPE (Porcentaje de error): {rf_mape:.2f}%")
#print(f"EVS (Explained Variance Score): {rf_evs:.4f}")

--Resumen de Métricas importantes en los dos modelos--

In [None]:
#Mostrando un resumen de las métricas de ambos modelos
results = pd.DataFrame({
    'Modelo': ['Árbol de Decisión', 'Random Forest'],
    'MAE ($)': [dt_mae, rf_mae],
    'RMSE': [dt_rmse, rf_rmse],
    'R²': [dt_r2, rf_r2],
    'MAPE (%)': [dt_mape * 100, rf_mape * 100]
})

print("\nResumen de métricas:")
print(results.to_string(index=False))

--Analizando que variables han sido más importantes--

In [None]:
#Función para representar gráficamente la importancia de las características
def plot_feature_importance(model, train_columns, top_n=20, title="Importancia de características"):
    
    #Obtener la importancia de las características del modelo
    importances = model.feature_importances_
    
    #Agrupar las columnas categoricas codificadas por su categoría original
    grouped_features = [col.split('_')[0] for col in train_columns]
    
    #Crear un DataFrame con las características y su importancia
    feature_df = pd.DataFrame({'Feature': grouped_features, 'Importance': importances})
    
    #Ordenar y seleccionar las características más importantes
    top_grouped = feature_df.groupby('Feature').sum().sort_values(by='Importance', ascending=False).head(top_n)

    #Representar gráficamente la importancia de las características
    plt.figure(figsize=(10, 8))
    plt.barh(top_grouped.index[::-1], top_grouped['Importance'][::-1], align='center', color='skyblue')
    plt.title(title)
    plt.xlabel("Importancia")
    plt.tight_layout()
    plt.show()

#Usando la función para mostrar la importancia de las características de los modelos entrenados
plot_feature_importance(melb_dt_model, train_X.columns, title="Importancia de las características - Árbol de Decisión")
plot_feature_importance(melb_rf_model, train_X.columns, title="Importancia de las características - Random Forest")


--Guardando los modelos entrenados--

In [None]:
#Guardamos los modelos entrenados
joblib.dump(melb_dt_model, 'melb_dt_model.pkl')
joblib.dump(melb_rf_model, 'melb_rf_model.pkl')

--Cargando los modelos entrenados--

In [None]:
#Cargamos los modelos entrenados
melb_dt_model_loaded = joblib.load('melb_dt_model.pkl')
melb_rf_model_loaded = joblib.load('melb_rf_model.pkl')

--Haciendo nuevas predicciones para ver el correcto funcionamiento del modelo--

In [None]:
#Definimos una función para crear un DataFrame con las características de un nuevo inmueble
def new_data(suburb, rooms, type,
            method, sellerG, distance, 
            postcode, bedroom2, bathroom, 
            car, landsize, buildingArea, 
            yearBuilt, councilArea, lattitude, 
            longtitude, regionname, propertycount):
    
    #Creamos un DataFrame con los datos del nuevo inmueble
    #Nos aseguramos de que las columnas coincidan con las del modelo
    df = pd.DataFrame({
        'Suburb': [suburb],
        'Rooms': [rooms],
        'Type': [type],
        'Method': [method],
        'SellerG': [sellerG],
        'Distance': [distance],
        'Postcode': [postcode],
        'Bedroom2': [bedroom2],
        'Bathroom': [bathroom],
        'Car': [car],
        'Landsize': [landsize],
        'BuildingArea': [buildingArea],
        'YearBuilt': [yearBuilt],
        'CouncilArea': [councilArea],
        'Lattitude': [lattitude],
        'Longtitude': [longtitude],
        'Regionname': [regionname],
        'Propertycount': [propertycount]
    })
    
    #Realizamos one-hot encoding de las variables categóricas
    df_encoded = pd.get_dummies(df)
    #Alineamos las columnas de los nuevos datos con las del modelo
    df_encoded = df_encoded.reindex(columns=train_X.columns, fill_value=0)
    #Devolvemos el DataFrame codificado
    return df_encoded

--Añadiendo un nuevo inmueble--

In [None]:
#Creamos un nuevo DataFrame con los datos de un inmueble específico
new_data_encoded = new_data(
    suburb='Richmond',
    rooms=2,
    type='h',
    method='S',
    sellerG='Biggin & Scott',
    distance=3.5,
    postcode=3121,
    bedroom2=2,
    bathroom=1,
    car=1,
    landsize=150,
    buildingArea=100,
    yearBuilt=2000,
    councilArea='Yarra',
    lattitude=-37.8000,
    longtitude=144.9900,
    regionname='Inner East',
    propertycount=5000,
)

--Realizando la prediccion del precio estimado sobre los dos modelos--

In [None]:
dt_prediction = melb_dt_model_loaded.predict(new_data_encoded)
rf_prediction = melb_rf_model_loaded.predict(new_data_encoded)

--Mostrando el resultado sobre el precio estimado en los dos modelos--

In [None]:
#Mostramos el resultado de la predicción del precio
print(f"Predicción del precio estimado con el modelo de Árbol de Decisión: {dt_prediction[0]:.2f}$")
print(f"Predicción del precio estimado con el modelo de Random Forest: {rf_prediction[0]:.2f}$")