# ML : Regresi√≥n

## Objetivos acad√©micos

1. **Comprender los fundamentos de la regresi√≥n en Machine Learning**, diferenciando entre tareas de regresi√≥n y clasificaci√≥n, y reconociendo aplicaciones pr√°cticas de la regresi√≥n.

2. **Aplicar y comparar distintos modelos de regresi√≥n** (regresi√≥n lineal, √°rbol de decisi√≥n y random forest) para predecir valores num√©ricos a partir de datos reales.

3. **Evaluar el desempe√±o de modelos de regresi√≥n** utilizando m√©tricas como el error cuadr√°tico medio (ECM) y la ra√≠z del error cuadr√°tico medio (RECM), interpretando sus resultados.

4. **Optimizar modelos mediante el ajuste de hiperpar√°metros con GridSearchCV**, identificando los par√°metros clave y comprendiendo su impacto en la precisi√≥n y generalizaci√≥n del modelo.

## üü¢ 1. ¬øQu√© es una tarea de regresi√≥n?

En Machine Learning, una **tarea de regresi√≥n** consiste en predecir un **valor num√©rico continuo**. A diferencia de la clasificaci√≥n (donde elegimos una categor√≠a como ‚Äúbenigno‚Äù o ‚Äúmaligno‚Äù), aqu√≠ el objetivo es predecir una cantidad: un n√∫mero real.

---

### üç° Ejemplos del mundo real

* ¬øCu√°l ser√° el precio de esta vivienda? üè°  
* ¬øCu√°ntas bicicletas se rentar√°n ma√±ana? üö¥‚Äç‚ôÇÔ∏è  
* ¬øCu√°nto ganar√° este cliente el pr√≥ximo mes? üíµ  
* ¬øQu√© temperatura habr√° la semana que viene? üå°Ô∏è

En todos estos casos, no buscamos etiquetar, sino **estimar una cantidad**. Y eso es regresi√≥n.

---

### üåº Diferencia clave: clasificaci√≥n vs regresi√≥n

| Tipo de problema | Objetivo                  | Ejemplo                         |
|------------------|---------------------------|----------------------------------|
| Clasificaci√≥n    | Predecir una categor√≠a    | ¬øEl tumor es benigno o maligno? |
| Regresi√≥n        | Predecir un n√∫mero real   | ¬øCu√°nto cuesta una casa?        |

> En resumen: **Clasificaci√≥n = ¬øQu√© clase? / Regresi√≥n = ¬øCu√°nto?**


## üîµ 2. Nuestro reto: predecir el precio medio de una vivienda en California üè°

Vamos a usar un dataset real llamado **California Housing**, que contiene informaci√≥n sobre viviendas y distritos en California. Cada fila representa una zona residencial, y las columnas contienen datos agregados de esa zona.

---

### üìä Caracter√≠sticas del dataset

| Columna     | Descripci√≥n                                       |
|-------------|---------------------------------------------------|
| `MedInc`    | Ingreso medio del distrito (en decenas de miles) |
| `HouseAge`  | Antig√ºedad media de las viviendas (en a√±os)      |
| `AveRooms`  | N√∫mero promedio de habitaciones por casa         |
| `AveOccup`  | Promedio de personas por vivienda                |
| `Latitude`  | Latitud del distrito                             |
| `Longitude` | Longitud del distrito                            |
| `MedHouseVal` | Valor medio de las casas (*target*)           |


### üì• Cargar datos y librer√≠as

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV
import joblib

In [None]:
# Cargar el dataset
housing = fetch_california_housing(as_frame=True)
df = housing.frame

# Separar features y target
X = df.drop(columns=['MedHouseVal'])
y = df['MedHouseVal']

## ‚úÇÔ∏è Preparaci√≥n de los datos

In [None]:
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.25, random_state=42)

### üç• ¬øCu√°l es nuestro objetivo?

Vamos a construir un modelo que, a partir de variables como el ingreso medio y el n√∫mero de habitaciones, sea capaz de predecir el **valor promedio de una vivienda** en esa zona.

* **Entrada (`X`)**: caracter√≠sticas num√©ricas como `MedInc`, `HouseAge`, etc.
* **Salida (`y`)**: `MedHouseVal`, el precio medio.


## üü° 3. ¬øC√≥mo se mide el error en regresi√≥n?

En problemas de clasificaci√≥n usamos m√©tricas como *accuracy*, *precision* o *recall* porque las respuestas correctas eran categor√≠as: s√≠/no, A/B, 0/1.

Pero en regresi√≥n, **nunca esperamos acertar exactamente el valor real**, sino estar lo m√°s cerca posible.

Por eso, las m√©tricas de regresi√≥n se enfocan en medir **qu√© tan lejos** est√°n nuestras predicciones de los valores reales.


### üç• ¬øQu√© es el *error*?

Es simplemente la diferencia entre lo que predice el modelo y el valor correcto:

$$
\text{Error} = \hat{y}_i - y_i
$$

Donde:
* $(\hat{y}_i)$: es el valor predicho por el modelo para la observaci√≥n $(i)$ 
* $(y_i)$: es el valor real


### üìÑ Error Cuadr√°tico Medio (ECM / MSE)

El ECM mide el promedio de los cuadrados de los errores:

$$
\text{ECM} = \frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2
$$

**Interpretaci√≥n:**
- Penaliza m√°s los errores grandes (porque los eleva al cuadrado).
- Siempre es un n√∫mero positivo.
- Cuanto m√°s bajo, mejor.

> Pero sus unidades son ‚Äúd√≥lares al cuadrado‚Äù si est√°s prediciendo precios, lo cual no es tan intuitivo.


### üóÇÔ∏è Ra√≠z del ECM (RECM / RMSE)

Para volver a las mismas unidades del valor original (por ejemplo, d√≥lares), tomamos la ra√≠z cuadrada del ECM. A esto se le llama:

$$
\text{RECM} = \sqrt{\text{ECM}}
$$

**Ejemplo pr√°ctico:**

- Si el RECM es `0.45`, significa que en promedio, nos equivocamos unos **$45,000 d√≥lares** (recordando que los valores est√°n en cientos de miles).


## üî¥ 4. √Årbol de decisi√≥n para regresi√≥n üå≥

Ya vimos que un √°rbol de decisi√≥n funciona como una serie de preguntas del tipo:

> ‚Äú¬øEl ingreso medio es mayor a 5.5?‚Äù  
> ‚Äú¬øLa antig√ºedad de la vivienda es menor a 20 a√±os?‚Äù

En clasificaci√≥n, cada hoja del √°rbol conten√≠a una **clase** (por ejemplo, ‚Äúmaligno‚Äù).  
En regresi√≥n, cada hoja contiene un **valor promedio**, calculado con los ejemplos que caen en ese nodo.

---

### üß† Intuici√≥n del √°rbol regresor

Un **√°rbol de regresi√≥n** divide el espacio de los datos en regiones donde las predicciones son constantes. Es decir:

- Cada regi√≥n termina con un promedio de los valores verdaderos de entrenamiento.
- Es como decir: *‚Äúsi el ingreso medio est√° entre 2 y 4 y la ubicaci√≥n es tal, entonces predice \$120,000‚Äù*.

Esto lo convierte en un modelo muy f√°cil de interpretar y visualizar.


In [None]:
tree_reg = DecisionTreeRegressor(max_depth=4, random_state=42)
tree_reg.fit(X_train, y_train)
preds_tree = tree_reg.predict(X_valid)

mse = mean_squared_error(y_valid, preds_tree)
rmse = mse ** 0.5
print("ECM (√Årbol):", mse)
print("RECM (√Årbol):", rmse)

In [None]:
plt.figure(figsize=(6,6))
plt.scatter(y_valid, preds_tree, alpha=0.5)
plt.plot([y_valid.min(), y_valid.max()], [y_valid.min(), y_valid.max()], '--r')
plt.xlabel("Valor real")
plt.ylabel("Predicci√≥n")
plt.title("√Årbol de decisi√≥n: Real vs Predicci√≥n")
plt.grid(True)
plt.show()

> Si los puntos est√°n muy cerca de la l√≠nea roja diagonal (real = predicci√≥n), ¬°vamos por buen camino!



## üü£ 5. Regresi√≥n Lineal üìà

La **regresi√≥n lineal** es uno de los modelos m√°s simples y potentes para predecir valores num√©ricos. A pesar de su simplicidad, muchas veces es sorprendentemente efectiva y es un excelente punto de partida en cualquier problema de regresi√≥n.

---

### üßæ ¬øQu√© significa ‚Äúlineal‚Äù?

Significa que el modelo intenta **ajustar una l√≠nea (o un plano, o un hiperplano)** que se aproxime lo mejor posible a los datos. Esa l√≠nea sigue esta f√≥rmula:

$$
\hat{y} = b_0 + b_1 x_1 + b_2 x_2 + \cdots + b_n x_n
$$

**Donde:**
- $\hat{y}$ es el valor predicho.
- $x_1, x_2, ..., x_n$ son las caracter√≠sticas (por ejemplo, ingreso, habitaciones, edad).
- $b_0$ es la intersecci√≥n con el eje y.
- $b_1, ..., b_n$ son los coeficientes o **pesos** que determinan la influencia de cada caracter√≠stica.

---

### üß† Intuici√≥n

Cada caracter√≠stica ‚Äúempuja‚Äù el valor final hacia arriba o hacia abajo.

Por ejemplo:

- Si `MedInc` tiene un peso positivo, a mayor ingreso medio, mayor ser√° el precio de la vivienda.
- Si `HouseAge` tiene un peso negativo, a mayor antig√ºedad, menor el valor.


In [None]:
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)
preds_lin = lin_reg.predict(X_valid)

mse_lin = mean_squared_error(y_valid, preds_lin)
rmse_lin = mse_lin ** 0.5
print("ECM (Lineal):", mse_lin)
print("RECM (Lineal):", rmse_lin)

In [None]:
plt.figure(figsize=(6,6))
plt.scatter(y_valid, preds_lin, alpha=0.5, color="orange")
plt.plot([y_valid.min(), y_valid.max()], [y_valid.min(), y_valid.max()], '--r')
plt.xlabel("Valor real")
plt.ylabel("Predicci√≥n")
plt.title("Regresi√≥n lineal: Real vs Predicci√≥n")
plt.grid(True)
plt.show()

> Una buena regresi√≥n debe concentrar sus puntos cerca de la l√≠nea roja. Si vemos mucho ‚Äúabanico‚Äù, probablemente necesitamos un modelo m√°s flexible.

## üü§ 6. Random Forest para regresi√≥n üå≤

Ya trabajamos con:

* √Årbol de decisi√≥n, que es f√°cil de interpretar, pero puede sobreajustarse.
* Regresi√≥n lineal, que es simple y r√°pida, pero puede no capturar relaciones complejas.

Ahora presentamos un modelo que combina **lo mejor de ambos mundos**: el **Random Forest**.

---

### üß† ¬øQu√© es un Random Forest?

Un **bosque aleatorio** es un conjunto de muchos √°rboles de decisi√≥n entrenados con **subconjuntos aleatorios** de los datos y las caracter√≠sticas.

> Cada √°rbol hace su predicci√≥n, y el resultado final es el **promedio** de todas las predicciones (en regresi√≥n) o el **voto mayoritario** (en clasificaci√≥n).

---

### üç• Ventajas del Random Forest

‚úÖ Generaliza bien: no se queda atrapado en los datos de entrenamiento.  
‚úÖ Maneja relaciones no lineales.  
‚úÖ No necesita mucho ajuste.  
‚úÖ Resistente al ruido.

---

### ‚öôÔ∏è Hiperpar√°metros clave

* `n_estimators`: n√∫mero de √°rboles en el bosque.
* `max_depth`: profundidad m√°xima de cada √°rbol (opcional).
* `random_state`: semilla para reproducibilidad.


In [None]:
rf_reg = RandomForestRegressor(n_estimators=100, random_state=42)
rf_reg.fit(X_train, y_train)
preds_rf = rf_reg.predict(X_valid)

mse_rf = mean_squared_error(y_valid, preds_rf)
rmse_rf = mse_rf ** 0.5
print("ECM (RF):", mse_rf)
print("RECM (RF):", rmse_rf)

In [None]:
plt.figure(figsize=(6,6))
plt.scatter(y_valid, preds_rf, alpha=0.5, color="green")
plt.plot([y_valid.min(), y_valid.max()], [y_valid.min(), y_valid.max()], '--r')
plt.xlabel("Valor real")
plt.ylabel("Predicci√≥n")
plt.title("Random Forest: Real vs Predicci√≥n")
plt.grid(True)
plt.show()

## üìä Comparaci√≥n de modelos

In [None]:
modelos = ['√Årbol', 'Lineal', 'Random Forest']
mse_scores = [mse, mse_lin, mse_rf]
rmse_scores = [rmse, rmse_lin, rmse_rf]

for modelo, mse_val, rmse_val in zip(modelos, mse_scores, rmse_scores):
    print(f"{modelo}")
    print(f"  ECM: {mse_val:.4f}")
    print(f"  RECM: {rmse_val:.4f}\n")

In [None]:
x = range(len(modelos))
plt.figure(figsize=(10,5))
plt.bar(x, rmse_scores, tick_label=modelos, color=["skyblue", "orange", "green"])
plt.ylabel("RECM")
plt.title("Comparaci√≥n de modelos - RECM")
plt.ylim(0, max(rmse_scores) + 0.2)
plt.grid(axis='y')
plt.xticks(rotation=15)
plt.show()

### üß† ¬øC√≥mo interpretar los resultados?

* El modelo con **RECM m√°s bajo** es el que se **equivoca menos** en promedio.
* Si el **Random Forest** obtiene el mejor resultado (lo m√°s com√∫n), puedes justificar su elecci√≥n aunque no sea tan interpretable como la regresi√≥n lineal.

> Elegir un modelo no siempre es solo por precisi√≥n: a veces se valora tambi√©n la **interpretabilidad**, **velocidad** o **robustez** seg√∫n el contexto.


## üíæ 8. Guardar el modelo final

Una vez que tenemos un modelo bien evaluado (por ejemplo, el **Random Forest** que obtuvo el menor RECM), podemos **guardarlo en un archivo** para:

* Reutilizarlo m√°s tarde sin tener que reentrenar.
* Integrarlo en una aplicaci√≥n real.
* Compartirlo con otros miembros del equipo.
* Versionarlo como parte de un flujo de trabajo reproducible.


In [None]:
joblib.dump(rf_reg, "modelo_valor_vivienda.joblib")

# Cargar el modelo desde archivo
modelo_cargado = joblib.load("modelo_valor_vivienda.joblib")

# Usar el modelo cargado para hacer predicciones
nuevas_predicciones = modelo_cargado.predict(X_valid)

## üß© 9. Ajuste de hiperpar√°metros con GridSearch

Para mejorar el rendimiento de un modelo como Random Forest, es fundamental ajustar sus hiperpar√°metros, es decir, aquellos valores que controlan el comportamiento del algoritmo (por ejemplo, el n√∫mero de √°rboles, la profundidad m√°xima, etc.). Una t√©cnica muy utilizada es **GridSearch**, que consiste en probar de manera sistem√°tica todas las combinaciones posibles de un conjunto de valores para los hiperpar√°metros seleccionados. Usando `GridSearchCV` de `scikit-learn`, podemos automatizar este proceso: el m√©todo entrena y valida el modelo con cada combinaci√≥n, utilizando validaci√≥n cruzada, y al final nos indica cu√°l es la mejor configuraci√≥n seg√∫n la m√©trica elegida (por ejemplo, el menor RECM). As√≠, GridSearch nos ayuda a encontrar el modelo m√°s preciso de forma eficiente y reproducible.



### üîß Principales hiperpar√°metros para ajustar en Random Forest

Al utilizar GridSearch para optimizar un modelo Random Forest, es importante considerar los hiperpar√°metros m√°s relevantes que influyen en su desempe√±o. Entre los principales se encuentran:

- **`n_estimators`**: n√∫mero de √°rboles en el bosque. M√°s √°rboles suelen mejorar la precisi√≥n, pero aumentan el tiempo de c√≥mputo.
- **`max_depth`**: profundidad m√°xima de cada √°rbol. Limitarla ayuda a evitar el sobreajuste.
- **`min_samples_split`**: n√∫mero m√≠nimo de muestras necesarias para dividir un nodo interno.
- **`min_samples_leaf`**: n√∫mero m√≠nimo de muestras requeridas en una hoja.
- **`max_features`**: n√∫mero m√°ximo de caracter√≠sticas consideradas al buscar la mejor divisi√≥n en cada nodo.
- **`bootstrap`**: indica si se usan muestras con reemplazo para construir los √°rboles.
- **`random_state`**: semilla para asegurar la reproducibilidad de los resultados.

Ajustar estos hiperpar√°metros permite encontrar el equilibrio √≥ptimo entre precisi√≥n, generalizaci√≥n y eficiencia computacional del modelo.

In [None]:

# Definir el diccionario de hiperpar√°metros a probar
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 3],
    'max_features': ['log2', 'sqrt']
}

# Crear el modelo base
rf = RandomForestRegressor(random_state=42)

# Configurar GridSearchCV
grid_search = GridSearchCV(
    estimator=rf,
    param_grid=param_grid,
    cv=3,  # 3-fold cross-validation
    scoring='neg_root_mean_squared_error',  # Para minimizar el RECM
    n_jobs=-1,  # Usar todos los n√∫cleos disponibles
    verbose=2
)

# Ajustar el modelo
grid_search.fit(X_train, y_train)

# Mostrar los mejores hiperpar√°metros encontrados
print("Mejores hiperpar√°metros:", grid_search.best_params_)
print("Mejor RECM (validaci√≥n cruzada):", -grid_search.best_score_)

In [None]:
best_gridsearch = grid_search.best_estimator_
predict_gridsearch = best_gridsearch.predict(X_valid)
mse_rf = mean_squared_error(y_valid, predict_gridsearch)
rmse_rf = mse_rf ** 0.5
print("ECM (RF):", mse_rf)
print("RECM (RF):", rmse_rf)


In [None]:
plt.figure(figsize=(6,6))
plt.scatter(y_valid, predict_gridsearch, alpha=0.5, color="green")
plt.plot([y_valid.min(), y_valid.max()], [y_valid.min(), y_valid.max()], '--r')
plt.xlabel("Valor real")
plt.ylabel("Predicci√≥n")
plt.title("Random Forest GridSearch: Real vs Predicci√≥n")
plt.grid(True)
plt.show()

# En resumen

1. **Regresi√≥n :**  Es una tarea donde el objetivo es predecir valores num√©ricos continuos, a diferencia de la clasificaci√≥n que predice categor√≠as.

2. **M√©tricas de evaluaci√≥n:** : El error cuadr√°tico medio (ECM) y la ra√≠z del error cuadr√°tico medio (RECM) son m√©tricas clave para medir la precisi√≥n de los modelos de regresi√≥n.

3. **Ajuste de hiperpar√°metros:** :El uso de GridSearchCV permite encontrar la mejor combinaci√≥n de hiperpar√°metros para mejorar el rendimiento del modelo, especialmente en random forest.

4. **Interpretaci√≥n y visualizaci√≥n de resultados:** : Analizar gr√°ficamente las predicciones frente a los valores reales ayuda a identificar el ajuste del modelo y posibles √°reas de mejora.

