#  Entrenamiento y evaluación usando Pandas


In [6]:
# prompt: ejemplo simple de regresion lineal usando california housing

import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Load the California Housing dataset
housing = fetch_california_housing()
df = pd.DataFrame(housing.data, columns=housing.feature_names)
df['precio'] = housing.target
print(df.shape)
print(df.head())



# Prepare the data
X = df.drop('precio', axis=1)
y = df['precio']
print(f"Forma de las características: {X.shape}")
print(f"Forma del objetivo: {y.shape}")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"Forma de las características para entrenamiento: {X_train.shape}")
print(f"Forma de las características para prueba: {X_test.shape}")

# Create and train the linear regression model
model = LinearRegression()
model.fit(X_train, y_train)

# Make predictions on the test set
y_pred = model.predict(X_test)

# Evaluate the model
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f'Mean Squared Error: {mse:.2f}')
print(f'R-squared: {r2:.2f}')





(20640, 9)
   MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0  8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1  8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2  7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3  5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4  3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   

   Longitude  precio  
0    -122.23   4.526  
1    -122.22   3.585  
2    -122.24   3.521  
3    -122.25   3.413  
4    -122.25   3.422  
Forma de las características: (20640, 8)
Forma del objetivo: (20640,)
Forma de las características para entrenamiento: (16512, 8)
Forma de las características para prueba: (4128, 8)
Mean Squared Error: 0.56
R-squared: 0.58


# Entrenamiento y evaluación sin usar Pandas

In [7]:
from sklearn.datasets import fetch_california_housing

# Cargar el dataset de California Housing
california_housing = fetch_california_housing()

# Obtener las dimensiones de las características (X) y del objetivo (y)
print(f"Forma de las características: {california_housing.data.shape}")
print(f"Forma del objetivo: {california_housing.target.shape}")

from sklearn.model_selection import train_test_split

# Dividir en conjunto de entrenamiento y conjunto de prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(california_housing.data,
                                                    california_housing.target, test_size=0.2, random_state=42)

print(f"Forma de las características para entrenamiento: {X_train.shape}")
print(f"Forma de las características para prueba: {X_test.shape}")

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Crear y entrenar el modelo de Regresión Lineal
modelo_lr = LinearRegression()
modelo_lr.fit(X_train, y_train)

# Hacer predicciones
y_pred_lr = modelo_lr.predict(X_test)

# Evaluar el modelo
mse_lr = mean_squared_error(y_test, y_pred_lr)
r2_lr = r2_score(y_test, y_pred_lr)

print(f"Resultado MSE de Regresión Lineal: {mse_lr:.2f}")
print(f"Resultado R² de Regresión Lineal: {r2_lr:.2f}")


Forma de las características: (20640, 8)
Forma del objetivo: (20640,)
Forma de las características para entrenamiento: (16512, 8)
Forma de las características para prueba: (4128, 8)
Resultado MSE de Regresión Lineal: 0.56
Resultado R² de Regresión Lineal: 0.58


# Evaluando varios modelos


In [None]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Cargar el dataset de California Housing
dataset = fetch_california_housing()

# Dividir en conjunto de entrenamiento y conjunto de prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(dataset.data, dataset.target, test_size=0.2, random_state=42)
print(f"Forma de las características para entrenamiento: {X_train.shape}")
print(f"Forma de las características para prueba: {X_test.shape}")
# Lista de modelos a evaluar
modelos = {
    "Regresión Lineal": LinearRegression(),
    "Árbol de Decisión": DecisionTreeRegressor(max_depth=5, random_state=42),
    "Bosque Aleatorio": RandomForestRegressor(n_estimators=100, random_state=42),
    "Gradient Boosting": GradientBoostingRegressor(n_estimators=100, random_state=42),
    "Máquinas de Vectores de Soporte": SVR(),
    "K-Vecinos Más Cercanos": KNeighborsRegressor()
}

# Evaluar todos los modelos
for nombre, modelo in modelos.items():
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    print(f"\n{nombre}:")
    print(f"MSE: {mse:.2f}")
    print(f"R²: {r2:.2f}")


Forma de las características para entrenamiento: (16512, 8)
Forma de las características para prueba: (4128, 8)

Regresión Lineal:
MSE: 0.56
R²: 0.58

Árbol de Decisión:
MSE: 0.52
R²: 0.60

Bosque Aleatorio:
MSE: 0.26
R²: 0.81

Gradient Boosting:
MSE: 0.29
R²: 0.78

Máquinas de Vectores de Soporte:
MSE: 1.33
R²: -0.02

K-Vecinos Más Cercanos:
MSE: 1.12
R²: 0.15


# **Interpretación**
---

## 📊 **Métricas usadas**

- **MSE (Error Cuadrático Medio)**: mide el promedio de los errores al cuadrado. Cuanto **más bajo**, mejor.
- **R² (Coeficiente de determinación)**: mide qué tan bien el modelo explica la variabilidad de los datos. Va de **-∞ a 1**, donde:
  - `1.0`: predicción perfecta.
  - `0.0`: el modelo no mejora respecto a predecir simplemente el promedio.
  - `< 0`: el modelo es peor que una línea horizontal (promedio).

---

## 📈 **Interpretación de los modelos**

### 1. **Regresión Lineal**
- `MSE: 0.56`, `R²: 0.58`
- ✔️ Bastante decente para un modelo simple.
- ❗ Suponiendo que la relación entre las variables y el precio es lineal, lo cual puede no ser del todo cierto.

---

### 2. **Árbol de Decisión**
- `MSE: 0.52`, `R²: 0.60`
- ✔️ Mejora un poco a la regresión lineal.
- ❗ Puede estar empezando a sobreajustar si lo dejas crecer demasiado.

---

### 3. **Random Forest (Bosque Aleatorio)**
- `MSE: 0.26`, `R²: 0.81`
- 🔥 **El mejor modelo por ahora**.
- ✔️ Combina muchos árboles débiles para hacer uno fuerte.
- ✔️ Generaliza bien, evita sobreajuste.
- ✅ Muy usado en producción.

---

### 4. **Gradient Boosting**
- `MSE: 0.29`, `R²: 0.78`
- ⚡ Muy buen modelo también.
- ✔️ Corrige errores de modelos anteriores en cadena.
- ✅ Suele ser más preciso pero más lento que Random Forest.

---

### 5. **SVR (Máquinas de Vectores de Soporte)**
- `MSE: 1.33`, `R²: -0.02`
- 🚫 Muy mal desempeño aquí.
- ❗ SVR no escala bien sin normalización previa.
- ❗ No está diseñado para datasets grandes sin ajuste.

---

### 6. **K-Vecinos Más Cercanos**
- `MSE: 1.12`, `R²: 0.15`
- 🐢 Bastante flojo.
- ❗ Muy sensible a la escala y distribución de los datos.
- ❗ Requiere mucha memoria y no aprende patrones generales.

---

## 🎯 Conclusión

- **Ganador claro**: 🔥 **Random Forest**.
- **Gradient Boosting** es una gran segunda opción.
- **Regresión Lineal** y **Árbol de Decisión** son buenos como base.
- ❌ **SVR** y **KNN** necesitan mucha más preparación de datos para brillar (normalización, ajuste de hiperparámetros, etc.).

# Más modelos y medidas de error


In [None]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor

from sklearn.metrics import (
    mean_absolute_error, mean_squared_error,
    median_absolute_error, r2_score, max_error
)
import numpy as np
import pandas as pd

# Cargar dataset
dataset = fetch_california_housing()
X_train, X_test, y_train, y_test = train_test_split(
    dataset.data, dataset.target, test_size=0.2, random_state=42
)

# Diccionario de modelos
modelos = {
    "Regresión Lineal": LinearRegression(),
    "Árbol de Decisión": DecisionTreeRegressor(max_depth=5, random_state=42),
    "Bosque Aleatorio": RandomForestRegressor(n_estimators=100, random_state=42),
    "Gradient Boosting": GradientBoostingRegressor(n_estimators=100, random_state=42),
    "SVM": SVR(),
    "K-Vecinos": KNeighborsRegressor()
}

# Lista para guardar los resultados
resultados = []

# Evaluación en bucle
for nombre, modelo in modelos.items():
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)

    errores = {
        "Modelo": nombre,
        "MAE": mean_absolute_error(y_test, y_pred),
        "MSE": mean_squared_error(y_test, y_pred),
        "RMSE": np.sqrt(mean_squared_error(y_test, y_pred)),
        "MedAE": median_absolute_error(y_test, y_pred),
        "Max Error": max_error(y_test, y_pred),
        "R2": r2_score(y_test, y_pred)
    }
    resultados.append(errores)

# Crear DataFrame ordenado por R²
df_resultados = pd.DataFrame(resultados)
df_resultados = df_resultados.sort_values(by="R2", ascending=False)

# Mostrar
print("\n🔎 Resultados comparativos de todos los modelos:\n")
print(df_resultados.to_string(index=False))



🔎 Resultados comparativos de todos los modelos:

           Modelo      MAE      MSE     RMSE    MedAE  Max Error        R2
 Bosque Aleatorio 0.327543 0.255368 0.505340 0.201020   3.045841  0.805123
Gradient Boosting 0.371643 0.293997 0.542215 0.251555   4.011418  0.775645
Árbol de Decisión 0.522259 0.524515 0.724234 0.381186   3.835414  0.599732
 Regresión Lineal 0.533200 0.555892 0.745581 0.410233   9.875331  0.575788
        K-Vecinos 0.812798 1.118682 1.057678 0.658200   3.892010  0.146310
              SVM 0.859951 1.332012 1.154128 0.661748   3.506065 -0.016485


# Explicación
Vamos a analizar tus resultados con una mirada comparativa y explicativa para entender **cuál modelo funciona mejor** y **por qué**. Te detallo cada métrica y lo que podemos concluir:

---

### 📊 **Resumen del Rendimiento de Modelos**

| Modelo               | R² Score ↑ | RMSE ↓ | MAE ↓ | Max Error ↓ |
|----------------------|------------|--------|-------|--------------|
| 🌟 **Bosque Aleatorio** | **0.805**  | **0.505** | **0.327** | ✅ **3.05** |
| Gradient Boosting    | 0.776      | 0.542  | 0.372 | 4.01        |
| Árbol de Decisión    | 0.600      | 0.724  | 0.522 | 3.83        |
| Regresión Lineal     | 0.576      | 0.746  | 0.533 | 🔴 9.87      |
| K-Vecinos            | 0.146      | 1.058  | 0.813 | 3.89        |
| ❌ SVM               | **-0.016** | 1.154  | 0.860 | 3.50        |

---

### 🧠 ¿Qué significan las métricas?

- **R² (coeficiente de determinación)**: entre 0 y 1 (idealmente cercano a 1). Indica qué tan bien el modelo explica la variabilidad de los datos. Negativo = peor que adivinar la media.
- **MAE (Error Absoluto Medio)**: Promedio del error absoluto. Intuitivo, fácil de interpretar.
- **MSE / RMSE**: Penalizan más los errores grandes. RMSE tiene la misma unidad que la variable objetivo (precios en miles de dólares).
- **MedAE**: Similar a MAE, pero menos sensible a *outliers*.
- **Max Error**: El peor caso en el test.

---

### ✅ **Conclusiones**

1. **🏆 Bosque Aleatorio** es el claro ganador:
   - Mejor R² (0.805): explica más del 80% de la variabilidad.
   - Menor MAE, MSE y RMSE → errores más bajos en promedio.
   - **Menor error máximo** también → más robusto.

2. **Gradient Boosting** es muy competitivo, aunque ligeramente por detrás:
   - Casi mismo rendimiento, pero más error máximo.

3. **Árbol de Decisión y Regresión Lineal**:
   - Resultados aceptables, pero claramente superados por los ensambles (Random Forest, Gradient Boosting).
   - Regresión Lineal tiene un *max error* muy alto (9.8) → un outlier muy mal predicho.

4. **SVM y KNN**:
   - Mal rendimiento. R² negativo en SVM → **predice peor que simplemente usar la media**.
   - Estos modelos suelen necesitar **más ajuste de hiperparámetros** o **normalización de datos**.

---

# Ejemplo para examen escrito

In [None]:
from sklearn.datasets import fetch_california_housing
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, median_absolute_error, max_error, r2_score

# Cargar dataset
dataset = fetch_california_housing()
X = dataset.data
y = dataset.target
df = pd.DataFrame(X, columns=dataset.feature_names)
df["MEDV"] = y

# Imprimir estructura y estadísticas
print(df.shape)
for col in df.columns:
    print(col)
for col in df.columns:
    print(df[col].nunique())
print(df.describe().round(2))

# Separar features y target
X = df.drop(columns=["MEDV"])
y = df["MEDV"]

# Dividir conjuntos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

# Modelos
modelos = [
    LinearRegression(),
    DecisionTreeRegressor(max_depth=5, random_state=42),
    RandomForestRegressor(n_estimators=100, random_state=42),
    GradientBoostingRegressor(n_estimators=100, random_state=42),
    SVR(),
    KNeighborsRegressor()
]

# Evaluación de cada modelo
for modelo in modelos:
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    print(round(mean_absolute_error(y_test, y_pred), 6))
    print(round(mean_squared_error(y_test, y_pred), 6))
    print(round(np.sqrt(mean_squared_error(y_test, y_pred)), 6))
    print(round(median_absolute_error(y_test, y_pred), 6))
    print(round(max_error(y_test, y_pred), 6))
    print(round(r2_score(y_test, y_pred), 6))
    # imprime una linea horizontal
    print("-" * 50)


(20640, 9)
MedInc
HouseAge
AveRooms
AveBedrms
Population
AveOccup
Latitude
Longitude
MEDV
12928
52
19392
14233
3888
18841
862
844
3842
         MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  \
count  20640.00  20640.00  20640.00   20640.00    20640.00  20640.00   
mean       3.87     28.64      5.43       1.10     1425.48      3.07   
std        1.90     12.59      2.47       0.47     1132.46     10.39   
min        0.50      1.00      0.85       0.33        3.00      0.69   
25%        2.56     18.00      4.44       1.01      787.00      2.43   
50%        3.53     29.00      5.23       1.05     1166.00      2.82   
75%        4.74     37.00      6.05       1.10     1725.00      3.28   
max       15.00     52.00    141.91      34.07    35682.00   1243.33   

       Latitude  Longitude      MEDV  
count  20640.00   20640.00  20640.00  
mean      35.63    -119.57      2.07  
std        2.14       2.00      1.15  
min       32.54    -124.35      0.15  
25%       33.93    -1