# Análisis Exploratorio de Datos

Se realiza una carga inicial de los datos, seguida de una inspección general para comprender la estructura del dataset. Se revisan las columnas disponibles, su tipo de dato y las primeras filas para identificar posibles valores atípicos o inconsistencias.

In [70]:
import pandas as pd

In [71]:
from google.colab import files
from google.colab import drive
drive.mount('/content/drive')
ruta = "/content/drive/MyDrive/Proyects/Melb_Modelo/melb_data.csv"
df = pd.read_csv(ruta)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


#  Revisión de Datos 📈

Se consultan características adicionales del conjunto de datos, incluyendo el tamaño y la presencia de valores nulos.

In [72]:
df = df.drop(columns="Unnamed: 0")
df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


In [73]:
df.describe()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,18396.0,18396.0,18395.0,18395.0,14927.0,14925.0,14820.0,13603.0,7762.0,8958.0,15064.0,15064.0,18395.0
mean,2.93504,1056697.0,10.389986,3107.140147,2.913043,1.538492,1.61552,558.116371,151.220219,1965.879996,-37.809849,144.996338,7517.975265
std,0.958202,641921.7,6.00905,95.000995,0.964641,0.689311,0.955916,3987.326586,519.188596,37.013261,0.081152,0.106375,4488.416599
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,2.0,633000.0,6.3,3046.0,2.0,1.0,1.0,176.5,93.0,1950.0,-37.8581,144.931193,4294.0
50%,3.0,880000.0,9.7,3085.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.803625,145.00092,6567.0
75%,3.0,1302000.0,13.3,3149.0,3.0,2.0,2.0,651.0,174.0,2000.0,-37.75627,145.06,10331.0
max,12.0,9000000.0,48.1,3978.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


In [74]:
df.shape

(18396, 21)

## Limpieza de Datos
Se eliminan todas las filas que contienen valores nulos en cualquier columna del dataset.

In [75]:
df.dropna(axis=0, inplace=True)

In [76]:
df.shape

(6196, 21)

# 📦 Preparación de los Datos

Se separan las variables predictoras (`X`) y la variable objetivo (`y`) para poder entrenar los modelos supervisados. Posteriormente, se dividen los datos en conjuntos de entrenamiento y validación utilizando `train_test_split`, con un `random_state` definido para garantizar la reproducibilidad de resultados.

In [77]:
y = df['Price']
X = df[['Rooms','Bathroom', 'Landsize', 'Lattitude', 'Longtitude']]

# 🌳 Entrenamiento ML de Árbol de Decisión

Se entrena un modelo de Decision Tree Regressor utilizando el conjunto de entrenamiento. Luego se realizan predicciones sobre el conjunto de validación y se calcula el error absoluto medio (MAE) para evaluar su desempeño.

In [78]:
from sklearn.tree import DecisionTreeRegressor
melbourne_model = DecisionTreeRegressor( random_state=1)
melbourne_model.fit(X, y)

In [79]:
print("Predicciones para las 5 primeras casas:")
print(X.head())

print("El precio real es")
print(y.head())

print("Las predicciones son")
print(melbourne_model.predict(X.head()))

Predicciones para las 5 primeras casas:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
El precio real es
1    1035000.0
2    1465000.0
4    1600000.0
6    1876000.0
7    1636000.0
Name: Price, dtype: float64
Las predicciones son
[1035000. 1465000. 1600000. 1876000. 1636000.]


### MAE (Mean Absolute Error)

Se evalúa el desempeño del modelo utilizando el Mean Absolute Error (MAE), una métrica que mide el promedio de las diferencias absolutas entre los valores reales y las predicciones.
Un MAE bajo indica que, en promedio, las predicciones están cerca de los valores reales.

In [80]:
from sklearn.metrics import mean_absolute_error
predicted_home_prices = melbourne_model.predict(X)

valorMAE = mean_absolute_error(y, predicted_home_prices)
print('El MAE es de: ', valorMAE)

El MAE es de:  1115.7467183128902


En este caso, el valor de MAE obtenido es de aproximadamente 1115.75, lo cual representa un error extremadamente bajo considerando las escalas de precio manejadas en el dataset.
Este resultado sugiere la posibilidad de overfitting, ya que es muy poco común obtener un error tan pequeño en un problema de regresión con datos reales.
Cuando se presenta overfitting, el modelo aprende demasiado bien los datos de entrenamiento, pero pierde capacidad de generalización sobre nuevos datos.

##  División de Datos y Validación del Modelo
Para evaluar correctamente el desempeño del modelo y evitar sobreajuste, se divide el dataset en dos subconjuntos:

* Conjunto de entrenamiento: utilizado para ajustar los parámetros del modelo.

* Conjunto de validación: empleado para medir la capacidad predictiva del modelo sobre datos no vistos.

Posteriormente, se entrena un Decision Tree Regressor sobre el conjunto de entrenamiento y se evalúa su desempeño calculando el Mean Absolute Error (MAE) sobre el conjunto de validación.

In [81]:
from sklearn.model_selection import train_test_split
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state = 0)

melbourne_model = DecisionTreeRegressor()
melbourne_model.fit(train_X, train_y)

val_predictions = melbourne_model.predict(val_X)
print(mean_absolute_error(val_y, val_predictions))

274251.53066494514


En este caso, se obtuvo un MAE de aproximadamente 269,609.90, considerablemente más alto que el error sobre los datos completos, lo cual confirma que el modelo original presentaba overfitting.
Este resultado valida la importancia de separar los datos y realizar una prueba honesta de rendimiento.

## Comparación de Tamaños de Árbol
Se prueba cómo cambia el error al ajustar el número máximo de nodos hoja (max_leaf_nodes) en el árbol.

In [82]:
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes)
    model.fit(train_X, train_y)
    preds_val = model.predict(val_X)
    mae = mean_absolute_error(val_y, preds_val)
    return(mae)

In [83]:
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

Max leaf nodes: 5  		 Mean Absolute Error:  385696
Max leaf nodes: 50  		 Mean Absolute Error:  279794
Max leaf nodes: 500  		 Mean Absolute Error:  261824
Max leaf nodes: 5000  		 Mean Absolute Error:  272783


A medida que se permite que el árbol tenga más nodos, el MAE baja bastante, pasando de más de 385K a unos 260K.

Esto muestra que un árbol muy pequeño se queda corto, y uno más grande mejora la precisión, aunque hay que cuidar no pasarse para evitar overfitting.

# 🌲 Entrenamiento ML de Random Forest
Después de probar con el árbol de decisión, se busca mejorar los resultados usando Random Forest, que en vez de hacer un solo árbol, construye varios y promedia sus predicciones.
Esto suele reducir el error porque disminuye la varianza del modelo y evita que se sobreentrene tan fácil como un solo árbol.

La idea es comparar ambos modelos con el MAE y ver si realmente se gana precisión.

In [84]:
from sklearn.ensemble import RandomForestRegressor

forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print('El MAE es:',mean_absolute_error(val_y, melb_preds))

El MAE es: 207190.6873773146


### Búsqueda de Hiperparámetros con GridSearchCV
Para sacarle mejor provecho al Random Forest, se ajustan varios hiperparámetros como la cantidad de árboles, profundidad máxima y tamaño mínimo de muestras por hoja.

Se usa GridSearchCV, que prueba todas las combinaciones posibles de los valores definidos en param_grid, usando validación cruzada, y se queda con la que dé el MAE más bajo. Así se optimiza el modelo sin tener que ir tanteando valores manualmente.

In [85]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

X_train, X_valid, y_train, y_valid = train_test_split(X, y, random_state=1)


param_grid = {
    'n_estimators': [100, 300, 500],
    'max_depth': [10, 15, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Crear modelo base
rf = RandomForestRegressor(random_state=1)

# Configurar GridSearch
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=3, scoring='neg_mean_absolute_error')


grid_search.fit(X_train, y_train)

print("Mejores parámetros:")
print(grid_search.best_params_)
print("Mejor MAE:", -grid_search.best_score_)


Mejores parámetros:
{'max_depth': 20, 'min_samples_leaf': 2, 'min_samples_split': 2, 'n_estimators': 500}
Mejor MAE: 192875.44119861265


### ✅ Entrenar el Modelo RF Final con los Mejores Parámetros
Después de encontrar la mejor combinación con GridSearchCV, se entrena un nuevo Random Forest usando esos hiperparámetros optimizados.

Se ajusta el modelo sobre el conjunto de entrenamiento y se calcula el MAE final sobre el conjunto de validación para ver cuánto mejoró respecto a las pruebas anteriores.

In [88]:
# Sacar los mejores parámetros
best_params = grid_search.best_params_

final_model = RandomForestRegressor(
    n_estimators=best_params['n_estimators'],
    max_depth=best_params['max_depth'],
    min_samples_split=best_params['min_samples_split'],
    min_samples_leaf=best_params['min_samples_leaf'],
    random_state=1
)

final_model.fit(X_train, y_train)
final_preds = final_model.predict(X_valid)
mae_final = mean_absolute_error(y_valid, final_preds)
print("MAE final es:", mae_final)


MAE final es: 190037.38048565137


In [89]:
mae_final / y.mean()

np.float64(0.17779974379263566)

# 📌 Conclusiones Finales
* Se exploraron y prepararon los datos correctamente, eliminando valores nulos y separando las variables predictoras de la variable objetivo.

* Se probó inicialmente un árbol de decisión, el cual presentó un MAE alto y mostró síntomas de overfitting.

* Al ajustar el hiperparámetro max_leaf_nodes, se logró reducir el error, pero seguía siendo considerable.

* Se implementó un Random Forest Regressor, mejorando notablemente el desempeño respecto al árbol individual.

* Mediante una búsqueda exhaustiva de hiperparámetros con GridSearchCV, se optimizó el modelo encontrando la mejor configuración.

* El MAE final obtenido fue de aproximadamente 17.78% respecto al valor promedio de los precios, lo cual representa un margen de error aceptable para este tipo de problema.

* Este resultado confirma que el modelo de Random Forest optimizado es una buena opción para predecir precios en este conjunto de datos.

**Recomendación:**
*Si se desea reducir aún más el error, se podrían explorar otras técnicas como Gradient Boosting, ajuste de variables, tratamiento de outliers, o incorporación de nuevas variables relevantes.*

