
# Comparación de Modelos de Regresión con Scikit-Learn

## Objetivo
Aplicar distintos modelos de regresión para estimar el valor de una vivienda, utilizando un conjunto de datos reales. Compararemos el desempeño de:

- Regresión Lineal
- Árboles de Decisión
- K-Vecinos más Cercanos (KNN)
- Support Vector Regression (SVR)

---

## Contexto del problema

Usaremos el dataset `California Housing`, que incluye información sobre zonas residenciales de California como:

- Ingreso medio del vecindario
- Cantidad promedio de habitaciones
- Edad promedio de las viviendas
- Población
- Ubicación geográfica

---

## Desafío

> **¿Cuál es el valor estimado de una vivienda si el ingreso promedio del vecindario es de $35.000 dólares y tiene 4 habitaciones?**

---

## 1. Cargar y explorar el dataset
```python
from sklearn.datasets import fetch_california_housing
import pandas as pd

data = fetch_california_housing(as_frame=True)
df = data.frame

df.head()
```

---

## 2. Preparar los datos
- Separamos las variables predictoras (`X`) y la variable objetivo (`y`).
- Dividimos en entrenamiento y prueba.
- Escalamos los datos si es necesario.
```python
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X = df
y = data.target

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Escalador para modelos que lo requieren
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

---

## 3. Entrenar los modelos

Entrenaremos los siguientes modelos:

- Regresión Lineal (`LinearRegression`)
- Árbol de Decisión (`DecisionTreeRegressor`)
- K-Vecinos (`KNeighborsRegressor`)
- Máquinas de Soporte Vectorial (`SVR`)
```python
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR

# Modelos
lr = LinearRegression().fit(X_train, y_train)
tree = DecisionTreeRegressor(max_depth=5).fit(X_train, y_train)
knn = KNeighborsRegressor(n_neighbors=5).fit(X_train_scaled, y_train)
svm = SVR().fit(X_train_scaled, y_train)
```

---

## 4. Crear la observación de prueba

Simularemos una vivienda con las siguientes características:

- Ingreso promedio del vecindario: $35.000 → `MedInc = 3.5`
- Promedio de habitaciones: 4
- Edad de la vivienda: 25 años
- Promedio de dormitorios: 1
- Población: 1000
- Promedio de ocupantes por hogar: 3
- Ubicación geográfica: latitud 34, longitud -118
```python
sample = pd.DataFrame([{
    'MedInc': 3.5,
    'HouseAge': 25,
    'AveRooms': 4,
    'AveBedrms': 1,
    'Population': 1000,
    'AveOccup': 3,
    'Latitude': 34,
    'Longitude': -118
}])

sample_scaled = scaler.transform(sample)  # para KNN y SVR
```

---

## 5. Hacer las predicciones

Recuerda: el valor predicho está en cientos de miles de dólares, así que lo multiplicamos por 100.000.
```python
print("🔵 Regresión Lineal:", round(lr.predict(sample)[0] * 100000, 2), "USD")
print("🌳 Árbol de Decisión:", round(tree.predict(sample)[0] * 100000, 2), "USD")
print("📍 KNN:", round(knn.predict(sample_scaled)[0] * 100000, 2), "USD")
print("📊 SVR:", round(svm.predict(sample_scaled)[0] * 100000, 2), "USD")
```

---

## 6. Reflexión por grupos

1. ¿Qué modelo predijo el valor más alto? ¿Cuál el más bajo?
2. ¿Qué diferencias observas en los resultados?
3. ¿Crees que hay algún modelo más confiable para este tipo de predicción? ¿Por qué?

---

## ✍Entrega

Cada grupo debe entregar:

- El código usado para entrenar su modelo
- La predicción de la vivienda con las características dadas
- Un análisis breve (3-5 líneas) explicando su resultado y opinión sobre el modelo

---

¡Buena suerte explorando y comparando modelos de regresión!


# EJERCICIO EN GRUPOS

# Crea un ejercicio para el curso

> Crea un ejercicio y expone tus conclusiones a la clase 

Este cuaderno contiene tres ejercicios para comparar distintos modelos de regresión usando `scikit-learn`. En cada caso se trabaja con un dataset real y se aplican cuatro modelos: Regresión Lineal, Árbol de Decisión, K-Vecinos y SVR.

---

## 1. Dataset: Diabetes

### Objetivo
Predecir la progresión de la enfermedad de la diabetes en base a 10 variables fisiológicas de pacientes.

### Variables
- `age`: edad normalizada
- `sex`: sexo (codificado)
- `bmi`: índice de masa corporal
- `bp`: presión arterial media
- `s1` a `s6`: medidas bioquímicas (colesterol, azúcar, etc.)

### Código base
```python
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, r2_score
import pandas as pd

# Carga de datos
data = load_diabetes()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target, name="target")

# División y escalado
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Modelos
modelos = {
    "Regresión Lineal": LinearRegression(),
    "Árbol de Decisión": DecisionTreeRegressor(max_depth=5),
    "KNN": KNeighborsRegressor(n_neighbors=5),
    "SVR": SVR()
}

# Entrenamiento y evaluación
for nombre, modelo in modelos.items():
    if nombre in ["KNN", "SVR"]:
        modelo.fit(X_train_scaled, y_train)
        pred = modelo.predict(X_test_scaled)
    else:
        modelo.fit(X_train, y_train)
        pred = modelo.predict(X_test)

    print(f"{nombre} -> MSE: {mean_squared_error(y_test, pred):.2f}, R²: {r2_score(y_test, pred):.2f}")
```

---

## 2. Dataset: Bike Sharing Demand

### Objetivo
Predecir la cantidad de bicicletas alquiladas por hora en función del clima, fecha y hora.

### Variables clave
- `temp`, `atemp`: temperatura real y percibida
- `humidity`: humedad
- `windspeed`: velocidad del viento
- `season`, `hour`, `workingday`, `holiday`: variables temporales y contextuales

### Código de carga
```python
from sklearn.datasets import fetch_openml

# Cargar datos
bike = fetch_openml(name="Bike_Sharing_Demand", version=2, as_frame=True)
df_bike = bike.frame
df_bike = df_bike.drop(columns=["instant", "dteday", "casual", "registered", "count"])
df_bike = df_bike.dropna()
```

*Luego se sigue un flujo similar al anterior para entrenamiento y comparación de modelos.*

---

## 3. Dataset: Auto MPG

### Objetivo
Estimar cuántas millas por galón (mpg) rinde un automóvil en función de sus características físicas.

### Variables clave
- `cylinders`: cantidad de cilindros
- `horsepower`: caballos de fuerza
- `weight`: peso del auto
- `acceleration`: aceleración
- `model_year`: año del modelo

### Código de carga
```python
import seaborn as sns

df_auto = sns.load_dataset("mpg").dropna()
df_auto = df_auto.drop(columns=["name", "origin"])
```

*Recuerda convertir variables categóricas como `cylinders` y `model_year` si es necesario, usando `pd.get_dummies`.*
