
# Comparaci√≥n de Modelos de Regresi√≥n con Scikit-Learn

## Objetivo
Aplicar distintos modelos de regresi√≥n para estimar el valor de una vivienda, utilizando un conjunto de datos reales. Compararemos el desempe√±o de:

- Regresi√≥n Lineal
- √Årboles de Decisi√≥n
- K-Vecinos m√°s Cercanos (KNN)
- Support Vector Regression (SVR)

---

## Contexto del problema

Usaremos el dataset `California Housing`, que incluye informaci√≥n sobre zonas residenciales de California como:

- Ingreso medio del vecindario
- Cantidad promedio de habitaciones
- Edad promedio de las viviendas
- Poblaci√≥n
- Ubicaci√≥n geogr√°fica

---

## Desaf√≠o

> **¬øCu√°l es el valor estimado de una vivienda si el ingreso promedio del vecindario es de $35.000 d√≥lares y tiene 4 habitaciones?**

---

## 1. Cargar y explorar el dataset
```python
from sklearn.datasets import fetch_california_housing
import pandas as pd

data = fetch_california_housing(as_frame=True)
df = data.frame

df.head()
```

---

## 2. Preparar los datos
- Separamos las variables predictoras (`X`) y la variable objetivo (`y`).
- Dividimos en entrenamiento y prueba.
- Escalamos los datos si es necesario.
```python
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X = df
y = data.target

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Escalador para modelos que lo requieren
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

---

## 3. Entrenar los modelos

Entrenaremos los siguientes modelos:

- Regresi√≥n Lineal (`LinearRegression`)
- √Årbol de Decisi√≥n (`DecisionTreeRegressor`)
- K-Vecinos (`KNeighborsRegressor`)
- M√°quinas de Soporte Vectorial (`SVR`)
```python
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR

# Modelos
lr = LinearRegression().fit(X_train, y_train)
tree = DecisionTreeRegressor(max_depth=5).fit(X_train, y_train)
knn = KNeighborsRegressor(n_neighbors=5).fit(X_train_scaled, y_train)
svm = SVR().fit(X_train_scaled, y_train)
```

---

## 4. Crear la observaci√≥n de prueba

Simularemos una vivienda con las siguientes caracter√≠sticas:

- Ingreso promedio del vecindario: $35.000 ‚Üí `MedInc = 3.5`
- Promedio de habitaciones: 4
- Edad de la vivienda: 25 a√±os
- Promedio de dormitorios: 1
- Poblaci√≥n: 1000
- Promedio de ocupantes por hogar: 3
- Ubicaci√≥n geogr√°fica: latitud 34, longitud -118
```python
sample = pd.DataFrame([{
    'MedInc': 3.5,
    'HouseAge': 25,
    'AveRooms': 4,
    'AveBedrms': 1,
    'Population': 1000,
    'AveOccup': 3,
    'Latitude': 34,
    'Longitude': -118
}])

sample_scaled = scaler.transform(sample)  # para KNN y SVR
```

---

## 5. Hacer las predicciones

Recuerda: el valor predicho est√° en cientos de miles de d√≥lares, as√≠ que lo multiplicamos por 100.000.
```python
print("üîµ Regresi√≥n Lineal:", round(lr.predict(sample)[0] * 100000, 2), "USD")
print("üå≥ √Årbol de Decisi√≥n:", round(tree.predict(sample)[0] * 100000, 2), "USD")
print("üìç KNN:", round(knn.predict(sample_scaled)[0] * 100000, 2), "USD")
print("üìä SVR:", round(svm.predict(sample_scaled)[0] * 100000, 2), "USD")
```

---

## 6. Reflexi√≥n por grupos

1. ¬øQu√© modelo predijo el valor m√°s alto? ¬øCu√°l el m√°s bajo?
2. ¬øQu√© diferencias observas en los resultados?
3. ¬øCrees que hay alg√∫n modelo m√°s confiable para este tipo de predicci√≥n? ¬øPor qu√©?

---

## ‚úçEntrega

Cada grupo debe entregar:

- El c√≥digo usado para entrenar su modelo
- La predicci√≥n de la vivienda con las caracter√≠sticas dadas
- Un an√°lisis breve (3-5 l√≠neas) explicando su resultado y opini√≥n sobre el modelo

---

¬°Buena suerte explorando y comparando modelos de regresi√≥n!
