#  Entrenamiento y evaluaci√≥n usando Pandas


In [6]:
# prompt: ejemplo simple de regresion lineal usando california housing

import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Load the California Housing dataset
housing = fetch_california_housing()
df = pd.DataFrame(housing.data, columns=housing.feature_names)
df['precio'] = housing.target
print(df.shape)
print(df.head())



# Prepare the data
X = df.drop('precio', axis=1)
y = df['precio']
print(f"Forma de las caracter√≠sticas: {X.shape}")
print(f"Forma del objetivo: {y.shape}")
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"Forma de las caracter√≠sticas para entrenamiento: {X_train.shape}")
print(f"Forma de las caracter√≠sticas para prueba: {X_test.shape}")

# Create and train the linear regression model
model = LinearRegression()
model.fit(X_train, y_train)

# Make predictions on the test set
y_pred = model.predict(X_test)

# Evaluate the model
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f'Mean Squared Error: {mse:.2f}')
print(f'R-squared: {r2:.2f}')





(20640, 9)
   MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0  8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1  8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2  7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3  5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4  3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   

   Longitude  precio  
0    -122.23   4.526  
1    -122.22   3.585  
2    -122.24   3.521  
3    -122.25   3.413  
4    -122.25   3.422  
Forma de las caracter√≠sticas: (20640, 8)
Forma del objetivo: (20640,)
Forma de las caracter√≠sticas para entrenamiento: (16512, 8)
Forma de las caracter√≠sticas para prueba: (4128, 8)
Mean Squared Error: 0.56
R-squared: 0.58


# Entrenamiento y evaluaci√≥n sin usar Pandas

In [7]:
from sklearn.datasets import fetch_california_housing

# Cargar el dataset de California Housing
california_housing = fetch_california_housing()

# Obtener las dimensiones de las caracter√≠sticas (X) y del objetivo (y)
print(f"Forma de las caracter√≠sticas: {california_housing.data.shape}")
print(f"Forma del objetivo: {california_housing.target.shape}")

from sklearn.model_selection import train_test_split

# Dividir en conjunto de entrenamiento y conjunto de prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(california_housing.data,
                                                    california_housing.target, test_size=0.2, random_state=42)

print(f"Forma de las caracter√≠sticas para entrenamiento: {X_train.shape}")
print(f"Forma de las caracter√≠sticas para prueba: {X_test.shape}")

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Crear y entrenar el modelo de Regresi√≥n Lineal
modelo_lr = LinearRegression()
modelo_lr.fit(X_train, y_train)

# Hacer predicciones
y_pred_lr = modelo_lr.predict(X_test)

# Evaluar el modelo
mse_lr = mean_squared_error(y_test, y_pred_lr)
r2_lr = r2_score(y_test, y_pred_lr)

print(f"Resultado MSE de Regresi√≥n Lineal: {mse_lr:.2f}")
print(f"Resultado R¬≤ de Regresi√≥n Lineal: {r2_lr:.2f}")


Forma de las caracter√≠sticas: (20640, 8)
Forma del objetivo: (20640,)
Forma de las caracter√≠sticas para entrenamiento: (16512, 8)
Forma de las caracter√≠sticas para prueba: (4128, 8)
Resultado MSE de Regresi√≥n Lineal: 0.56
Resultado R¬≤ de Regresi√≥n Lineal: 0.58


# Evaluando varios modelos


In [None]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Cargar el dataset de California Housing
dataset = fetch_california_housing()

# Dividir en conjunto de entrenamiento y conjunto de prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(dataset.data, dataset.target, test_size=0.2, random_state=42)
print(f"Forma de las caracter√≠sticas para entrenamiento: {X_train.shape}")
print(f"Forma de las caracter√≠sticas para prueba: {X_test.shape}")
# Lista de modelos a evaluar
modelos = {
    "Regresi√≥n Lineal": LinearRegression(),
    "√Årbol de Decisi√≥n": DecisionTreeRegressor(max_depth=5, random_state=42),
    "Bosque Aleatorio": RandomForestRegressor(n_estimators=100, random_state=42),
    "Gradient Boosting": GradientBoostingRegressor(n_estimators=100, random_state=42),
    "M√°quinas de Vectores de Soporte": SVR(),
    "K-Vecinos M√°s Cercanos": KNeighborsRegressor()
}

# Evaluar todos los modelos
for nombre, modelo in modelos.items():
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    print(f"\n{nombre}:")
    print(f"MSE: {mse:.2f}")
    print(f"R¬≤: {r2:.2f}")


Forma de las caracter√≠sticas para entrenamiento: (16512, 8)
Forma de las caracter√≠sticas para prueba: (4128, 8)

Regresi√≥n Lineal:
MSE: 0.56
R¬≤: 0.58

√Årbol de Decisi√≥n:
MSE: 0.52
R¬≤: 0.60

Bosque Aleatorio:
MSE: 0.26
R¬≤: 0.81

Gradient Boosting:
MSE: 0.29
R¬≤: 0.78

M√°quinas de Vectores de Soporte:
MSE: 1.33
R¬≤: -0.02

K-Vecinos M√°s Cercanos:
MSE: 1.12
R¬≤: 0.15


# **Interpretaci√≥n**
---

## üìä **M√©tricas usadas**

- **MSE (Error Cuadr√°tico Medio)**: mide el promedio de los errores al cuadrado. Cuanto **m√°s bajo**, mejor.
- **R¬≤ (Coeficiente de determinaci√≥n)**: mide qu√© tan bien el modelo explica la variabilidad de los datos. Va de **-‚àû a 1**, donde:
  - `1.0`: predicci√≥n perfecta.
  - `0.0`: el modelo no mejora respecto a predecir simplemente el promedio.
  - `< 0`: el modelo es peor que una l√≠nea horizontal (promedio).

---

## üìà **Interpretaci√≥n de los modelos**

### 1. **Regresi√≥n Lineal**
- `MSE: 0.56`, `R¬≤: 0.58`
- ‚úîÔ∏è Bastante decente para un modelo simple.
- ‚ùó Suponiendo que la relaci√≥n entre las variables y el precio es lineal, lo cual puede no ser del todo cierto.

---

### 2. **√Årbol de Decisi√≥n**
- `MSE: 0.52`, `R¬≤: 0.60`
- ‚úîÔ∏è Mejora un poco a la regresi√≥n lineal.
- ‚ùó Puede estar empezando a sobreajustar si lo dejas crecer demasiado.

---

### 3. **Random Forest (Bosque Aleatorio)**
- `MSE: 0.26`, `R¬≤: 0.81`
- üî• **El mejor modelo por ahora**.
- ‚úîÔ∏è Combina muchos √°rboles d√©biles para hacer uno fuerte.
- ‚úîÔ∏è Generaliza bien, evita sobreajuste.
- ‚úÖ Muy usado en producci√≥n.

---

### 4. **Gradient Boosting**
- `MSE: 0.29`, `R¬≤: 0.78`
- ‚ö° Muy buen modelo tambi√©n.
- ‚úîÔ∏è Corrige errores de modelos anteriores en cadena.
- ‚úÖ Suele ser m√°s preciso pero m√°s lento que Random Forest.

---

### 5. **SVR (M√°quinas de Vectores de Soporte)**
- `MSE: 1.33`, `R¬≤: -0.02`
- üö´ Muy mal desempe√±o aqu√≠.
- ‚ùó SVR no escala bien sin normalizaci√≥n previa.
- ‚ùó No est√° dise√±ado para datasets grandes sin ajuste.

---

### 6. **K-Vecinos M√°s Cercanos**
- `MSE: 1.12`, `R¬≤: 0.15`
- üê¢ Bastante flojo.
- ‚ùó Muy sensible a la escala y distribuci√≥n de los datos.
- ‚ùó Requiere mucha memoria y no aprende patrones generales.

---

## üéØ Conclusi√≥n

- **Ganador claro**: üî• **Random Forest**.
- **Gradient Boosting** es una gran segunda opci√≥n.
- **Regresi√≥n Lineal** y **√Årbol de Decisi√≥n** son buenos como base.
- ‚ùå **SVR** y **KNN** necesitan mucha m√°s preparaci√≥n de datos para brillar (normalizaci√≥n, ajuste de hiperpar√°metros, etc.).

# M√°s modelos y medidas de error


In [None]:
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor

from sklearn.metrics import (
    mean_absolute_error, mean_squared_error,
    median_absolute_error, r2_score, max_error
)
import numpy as np
import pandas as pd

# Cargar dataset
dataset = fetch_california_housing()
X_train, X_test, y_train, y_test = train_test_split(
    dataset.data, dataset.target, test_size=0.2, random_state=42
)

# Diccionario de modelos
modelos = {
    "Regresi√≥n Lineal": LinearRegression(),
    "√Årbol de Decisi√≥n": DecisionTreeRegressor(max_depth=5, random_state=42),
    "Bosque Aleatorio": RandomForestRegressor(n_estimators=100, random_state=42),
    "Gradient Boosting": GradientBoostingRegressor(n_estimators=100, random_state=42),
    "SVM": SVR(),
    "K-Vecinos": KNeighborsRegressor()
}

# Lista para guardar los resultados
resultados = []

# Evaluaci√≥n en bucle
for nombre, modelo in modelos.items():
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)

    errores = {
        "Modelo": nombre,
        "MAE": mean_absolute_error(y_test, y_pred),
        "MSE": mean_squared_error(y_test, y_pred),
        "RMSE": np.sqrt(mean_squared_error(y_test, y_pred)),
        "MedAE": median_absolute_error(y_test, y_pred),
        "Max Error": max_error(y_test, y_pred),
        "R2": r2_score(y_test, y_pred)
    }
    resultados.append(errores)

# Crear DataFrame ordenado por R¬≤
df_resultados = pd.DataFrame(resultados)
df_resultados = df_resultados.sort_values(by="R2", ascending=False)

# Mostrar
print("\nüîé Resultados comparativos de todos los modelos:\n")
print(df_resultados.to_string(index=False))



üîé Resultados comparativos de todos los modelos:

           Modelo      MAE      MSE     RMSE    MedAE  Max Error        R2
 Bosque Aleatorio 0.327543 0.255368 0.505340 0.201020   3.045841  0.805123
Gradient Boosting 0.371643 0.293997 0.542215 0.251555   4.011418  0.775645
√Årbol de Decisi√≥n 0.522259 0.524515 0.724234 0.381186   3.835414  0.599732
 Regresi√≥n Lineal 0.533200 0.555892 0.745581 0.410233   9.875331  0.575788
        K-Vecinos 0.812798 1.118682 1.057678 0.658200   3.892010  0.146310
              SVM 0.859951 1.332012 1.154128 0.661748   3.506065 -0.016485


# Explicaci√≥n
Vamos a analizar tus resultados con una mirada comparativa y explicativa para entender **cu√°l modelo funciona mejor** y **por qu√©**. Te detallo cada m√©trica y lo que podemos concluir:

---

### üìä **Resumen del Rendimiento de Modelos**

| Modelo               | R¬≤ Score ‚Üë | RMSE ‚Üì | MAE ‚Üì | Max Error ‚Üì |
|----------------------|------------|--------|-------|--------------|
| üåü **Bosque Aleatorio** | **0.805**  | **0.505** | **0.327** | ‚úÖ **3.05** |
| Gradient Boosting    | 0.776      | 0.542  | 0.372 | 4.01        |
| √Årbol de Decisi√≥n    | 0.600      | 0.724  | 0.522 | 3.83        |
| Regresi√≥n Lineal     | 0.576      | 0.746  | 0.533 | üî¥ 9.87      |
| K-Vecinos            | 0.146      | 1.058  | 0.813 | 3.89        |
| ‚ùå SVM               | **-0.016** | 1.154  | 0.860 | 3.50        |

---

### üß† ¬øQu√© significan las m√©tricas?

- **R¬≤ (coeficiente de determinaci√≥n)**: entre 0 y 1 (idealmente cercano a 1). Indica qu√© tan bien el modelo explica la variabilidad de los datos. Negativo = peor que adivinar la media.
- **MAE (Error Absoluto Medio)**: Promedio del error absoluto. Intuitivo, f√°cil de interpretar.
- **MSE / RMSE**: Penalizan m√°s los errores grandes. RMSE tiene la misma unidad que la variable objetivo (precios en miles de d√≥lares).
- **MedAE**: Similar a MAE, pero menos sensible a *outliers*.
- **Max Error**: El peor caso en el test.

---

### ‚úÖ **Conclusiones**

1. **üèÜ Bosque Aleatorio** es el claro ganador:
   - Mejor R¬≤ (0.805): explica m√°s del 80% de la variabilidad.
   - Menor MAE, MSE y RMSE ‚Üí errores m√°s bajos en promedio.
   - **Menor error m√°ximo** tambi√©n ‚Üí m√°s robusto.

2. **Gradient Boosting** es muy competitivo, aunque ligeramente por detr√°s:
   - Casi mismo rendimiento, pero m√°s error m√°ximo.

3. **√Årbol de Decisi√≥n y Regresi√≥n Lineal**:
   - Resultados aceptables, pero claramente superados por los ensambles (Random Forest, Gradient Boosting).
   - Regresi√≥n Lineal tiene un *max error* muy alto (9.8) ‚Üí un outlier muy mal predicho.

4. **SVM y KNN**:
   - Mal rendimiento. R¬≤ negativo en SVM ‚Üí **predice peor que simplemente usar la media**.
   - Estos modelos suelen necesitar **m√°s ajuste de hiperpar√°metros** o **normalizaci√≥n de datos**.

---

# Ejemplo para examen escrito

In [None]:
from sklearn.datasets import fetch_california_housing
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, median_absolute_error, max_error, r2_score

# Cargar dataset
dataset = fetch_california_housing()
X = dataset.data
y = dataset.target
df = pd.DataFrame(X, columns=dataset.feature_names)
df["MEDV"] = y

# Imprimir estructura y estad√≠sticas
print(df.shape)
for col in df.columns:
    print(col)
for col in df.columns:
    print(df[col].nunique())
print(df.describe().round(2))

# Separar features y target
X = df.drop(columns=["MEDV"])
y = df["MEDV"]

# Dividir conjuntos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

# Modelos
modelos = [
    LinearRegression(),
    DecisionTreeRegressor(max_depth=5, random_state=42),
    RandomForestRegressor(n_estimators=100, random_state=42),
    GradientBoostingRegressor(n_estimators=100, random_state=42),
    SVR(),
    KNeighborsRegressor()
]

# Evaluaci√≥n de cada modelo
for modelo in modelos:
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    print(round(mean_absolute_error(y_test, y_pred), 6))
    print(round(mean_squared_error(y_test, y_pred), 6))
    print(round(np.sqrt(mean_squared_error(y_test, y_pred)), 6))
    print(round(median_absolute_error(y_test, y_pred), 6))
    print(round(max_error(y_test, y_pred), 6))
    print(round(r2_score(y_test, y_pred), 6))
    # imprime una linea horizontal
    print("-" * 50)


(20640, 9)
MedInc
HouseAge
AveRooms
AveBedrms
Population
AveOccup
Latitude
Longitude
MEDV
12928
52
19392
14233
3888
18841
862
844
3842
         MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  \
count  20640.00  20640.00  20640.00   20640.00    20640.00  20640.00   
mean       3.87     28.64      5.43       1.10     1425.48      3.07   
std        1.90     12.59      2.47       0.47     1132.46     10.39   
min        0.50      1.00      0.85       0.33        3.00      0.69   
25%        2.56     18.00      4.44       1.01      787.00      2.43   
50%        3.53     29.00      5.23       1.05     1166.00      2.82   
75%        4.74     37.00      6.05       1.10     1725.00      3.28   
max       15.00     52.00    141.91      34.07    35682.00   1243.33   

       Latitude  Longitude      MEDV  
count  20640.00   20640.00  20640.00  
mean      35.63    -119.57      2.07  
std        2.14       2.00      1.15  
min       32.54    -124.35      0.15  
25%       33.93    -1