<!-- # Regresi√≥n y Selecci√≥n de Modelos

## Aplicaciones en Ingenier√≠a Electr√≥nica

Este notebook contiene ejemplos pr√°cticos y aplicaciones de regresi√≥n y selecci√≥n de modelos en el contexto de ingenier√≠a electr√≥nica.

<a id="contenido"></a>

### Temas Cubiertos:

[**Ejemplos de Aplicaciones Pr√°cticas**](#x)

1. [**Calibraci√≥n de Sensores**](#calibracion-sensores)
2. [**Predicci√≥n de Fallas en Circuitos**](#prediccion-fallas)
3. [**Optimizaci√≥n de Par√°metros de Fabricaci√≥n**](#optimizacion-parametros)
4. [**Selecci√≥n de Modelos y Validaci√≥n Cruzada**](#seleccion-modelos)
5. [**Control de Procesos Industriales**](#control-procesos)

[**Resumen y Conclusiones**](#resumen) -->

<a id="contenido"></a>


# Regresi√≥n y Selecci√≥n de Modelos en Machine Learning


## Aplicaciones Pr√°cticas

1. **[Calibraci√≥n de Sensores de Temperatura](#calibracion-sensores)**
2. **[Optimizaci√≥n de Par√°metros de Fabricaci√≥n de Resistencias](#optimizacion-parametros)**
3. **[Selecci√≥n de Modelos y Validaci√≥n Cruzada](#seleccion-modelos)**

---

### Objetivos de Aprendizaje

- Aplicar modelos de regresi√≥n lineal a problemas reales de ingenier√≠a
- Comparar diferentes algoritmos: Linear, Ridge, Lasso, Random Forest
- Implementar t√©cnicas de validaci√≥n cruzada y optimizaci√≥n de hiperpar√°metros
- Evaluar modelos usando m√©tricas apropiadas (RMSE, R¬≤, MAE)
- Interpretar resultados y seleccionar el mejor modelo

---

### Importar librer√≠as necesarias

In [None]:
# Importar librer√≠as necesarias
import numpy as np               # Operaciones num√©ricas y arrays
import pandas as pd              # Manipulaci√≥n de datos tabulares
import matplotlib.pyplot as plt  # Visualizaci√≥n de datos
import seaborn as sns            # Visualizaci√≥n estad√≠stica avanzada

# Modelos de Machine Learning
from sklearn.linear_model import LinearRegression, Ridge, Lasso, LogisticRegression
# StandardScaler: Estandarizaci√≥n, PolynomialFeatures: Crear t√©rminos polinomiales
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
# train_test_split: Dividir datos, cross_val_score: Validaci√≥n cruzada, GridSearchCV: Optimizaci√≥n
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
# M√©tricas para evaluaci√≥n de modelos
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error, classification_report, confusion_matrix
# Modelos de ensemble (combinaci√≥n de m√∫ltiples modelos)
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier

# Suprimir advertencias para visualizaci√≥n limpia
import warnings
warnings.filterwarnings('ignore')

# Configurar estilo de gr√°ficos
plt.style.use('seaborn-v0_8')   # Estilo visual moderno
sns.set_palette("husl")         # Paleta de colores armoniosa

print("Librer√≠as importadas correctamente")

<a id="calibracion-sensores"></a>

## 1. Calibraci√≥n de Sensores de Temperatura [‚¨Ü](#contenido)

### Problema:
Un sensor de temperatura tiene desgaste y no linealidad. Necesitamos crear un modelo de calibraci√≥n que convierta la lectura del sensor (voltaje) a temperatura real.

### Datos:
- Temperatura real (¬∞C): 5, 25, 50, 75, 100
- Lectura del sensor (V): 0.1, 1.2, 2.4, 3.6, 4.8


In [None]:
# Crear datos de calibraci√≥n del sensor

# Puntos de referencia conocidos (medidos con term√≥metro de precisi√≥n)
temperatura_real = np.array([5, 25, 50, 75, 100])     # ¬∞C, temperatura real medida
lectura_sensor = np.array([0.1, 1.2, 2.4, 3.6, 4.8])  #  V, voltaje de salida del sensor

# Crear DataFrame para organizar los datos de manera tabular
df_sensor = pd.DataFrame({
    'lectura_sensor': lectura_sensor,
    'temperatura_real': temperatura_real,
})

print("Datos del sensor:")
print(df_sensor)

# Visualizar la relaci√≥n
plt.figure(figsize=(10, 6))
plt.scatter(lectura_sensor, temperatura_real, s=100, alpha=0.7, color='blue')
plt.xlabel('Lectura del Sensor (V)')
plt.ylabel('Temperatura Real (¬∞C)')
plt.title('Calibraci√≥n de Sensor de Temperatura')
plt.grid(True, alpha=0.3)
plt.show()


In [None]:
# Ajustar modelo de regresi√≥n lineal

# Reshape(-1, 1): Convierte el array 1D en matriz columna (necesario para sklearn)
X_sensor = lectura_sensor.reshape(-1, 1)
y_sensor = temperatura_real

# Modelo lineal simple
modelo_lineal = LinearRegression()
# fit(): Entrena el modelo encontrando los coeficientes que minimizan el error cuadr√°tico
modelo_lineal.fit(X_sensor, y_sensor)

# Predecir temperaturas
# predict(): Aplica la ecuaci√≥n T = intercept + coef * V a los datos de entrada
y_pred_lineal = modelo_lineal.predict(X_sensor)

# Calcular m√©tricas

# MSE: Error cuadr√°tico medio, penaliza errores grandes
mse_lineal = mean_squared_error(y_sensor, y_pred_lineal)

# RMSE: Ra√≠z del MSE, en las mismas unidades que la variable objetivo
rmse_lineal = np.sqrt(mse_lineal)

# R¬≤: Coeficiente de determinaci√≥n, mide qu√© tan bien el modelo explica la variabilidad (0-1)
r2_lineal = r2_score(y_sensor, y_pred_lineal)

print(f"Modelo Lineal:")
print(f"Ecuaci√≥n: T = {modelo_lineal.intercept_:.2f} + {modelo_lineal.coef_[0]:.2f} * V")
print(f"RMSE: {rmse_lineal:.2f} ¬∞C")
print(f"R¬≤: {r2_lineal:.4f}")

# Visualizar resultados
plt.figure(figsize=(12, 5))

# Subgr√°fico 1: Ajuste del modelo
plt.subplot(1, 2, 1)

plt.scatter(lectura_sensor, temperatura_real, s=100, alpha=0.7, color='blue', label='Datos reales')
    # s: tama√±o de puntos, alpha: transparencia

# L√≠nea de regresi√≥n (predicciones del modelo)
plt.plot(lectura_sensor, y_pred_lineal, 'r-', linewidth=2, label='Modelo lineal')

plt.xlabel('Lectura del Sensor (V)')
plt.ylabel('Temperatura Real (¬∞C)')
plt.title('Calibraci√≥n Lineal')
plt.legend()
plt.grid(True, alpha=0.3)

# Subgr√°fico 2: An√°lisis de residuos
plt.subplot(1, 2, 2)

# Residuos: Diferencia entre valor real y predicci√≥n (e_i = y_i - ≈∑_i)
residuos = temperatura_real - y_pred_lineal
plt.scatter(y_pred_lineal, residuos, s=100, alpha=0.7, color='green')

# L√≠nea horizontal en y=0 (residuos ideales deben estar alrededor de 0)
plt.axhline(y=0, color='r', linestyle='--')

plt.xlabel('Temperatura Predicha (¬∞C)')
plt.ylabel('Residuos (¬∞C)')
plt.title('An√°lisis de Residuos')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

<a id="optimizacion-parametros"></a>

## 2. Optimizaci√≥n de Par√°metros de Fabricaci√≥n de Resistencias [‚¨Ü](#contenido)

### Problema:
Optimizar los par√°metros de fabricaci√≥n para obtener resistencias con valores espec√≠ficos.

### Variables:
- **Temperatura de cocci√≥n** (¬∞C)
- **Tiempo de cocci√≥n** (minutos)
- **Espesor del material** (Œºm)
- **Concentraci√≥n de dopante** (%)
- **Objetivo**: Resistencia (Œ©)


In [None]:
# Generar datos de fabricaci√≥n de resistencias

np.random.seed(127)
n_resistencias = 150

# Par√°metros de fabricaci√≥n

# uniform(min, max, n): Distribuci√≥n uniforme (todos los valores igualmente probables)
temp_coccion = np.random.uniform(800, 1200, n_resistencias)          # ¬∞C, rango de cocci√≥n t√≠pico
tiempo_coccion = np.random.uniform(30, 120, n_resistencias)          # min
espesor = np.random.uniform(10, 50, n_resistencias)                  # Œºm, espesor de pel√≠cula
concentracion_dopante = np.random.uniform(0.1, 5.0, n_resistencias)  # %, dopaje del material

# Modelo f√≠sico simplificado para resistencia
# Basado en ley de Ohm: R = œÅ * L / A, donde œÅ depende de temperatura y dopante
# exp(): Funci√≥n exponencial, modela efecto no lineal de temperatura
resistividad_base = 0.1                             # Œ©¬∑Œºm, resistividad base del material
factor_temp = np.exp(-(temp_coccion - 1000) / 200)  # Efecto de temperatura (Arrhenius)
factor_dopante = 1 / (1 + concentracion_dopante)    # Dopante reduce resistencia
factor_espesor = 1 / espesor                        # Menor espesor = mayor resistencia

# Calcular resistencia con modelo f√≠sico m√°s ruido gaussiano (simula imperfecciones)
resistencia = (resistividad_base * factor_temp * factor_dopante * factor_espesor *
               (1 + 0.1 * np.random.normal(0, 1, n_resistencias)))  # 10% de ruido

# Crear DataFrame
df_resistencias = pd.DataFrame({
    'temp_coccion':          temp_coccion,
    'tiempo_coccion':        tiempo_coccion,
    'espesor':               espesor,
    'concentracion_dopante': concentracion_dopante,
    'resistencia':           resistencia
})

print("Datos de fabricaci√≥n de resistencias:")

In [None]:
print(f"\nMuestras:")
df_resistencias.head()

In [None]:
print(f"\nEstad√≠sticas descriptivas:")
df_resistencias.describe()

In [None]:
# An√°lisis exploratorio de datos de resistencias

plt.figure(figsize=(15, 12))

# Relaciones entre variables independientes y la variable objetivo (resistencia)
variables = ['temp_coccion', 'tiempo_coccion', 'espesor', 'concentracion_dopante']
for i, var in enumerate(variables):
    plt.subplot(2, 2, i+1)  # Grid 2x2 para visualizar todas las variables

    # Gr√°fico de dispersi√≥n para identificar relaciones lineales o no lineales
    plt.scatter(df_resistencias[var], df_resistencias['resistencia'], alpha=0.6)

    plt.xlabel(var)
    plt.ylabel('Resistencia (Œ©)')
    plt.title(f'Resistencia vs {var}')
    plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

plt.figure(figsize=(10, 8))

# Matriz de correlaci√≥n: Identificar multicolinealidad entre variables
correlation_matrix = df_resistencias.corr()
    # Valores cercanos a 1/-1: Fuerte correlaci√≥n positiva/negativa
    # Valores cercanos a 0: No hay correlaci√≥n lineal

sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0,
            square=True, fmt='.2f')
plt.title('Matriz de Correlaci√≥n - Resistencias')
plt.show()


In [None]:
# Entrenar y comparar diferentes modelos de regresi√≥n

# Separar variables predictoras (X) y variable objetivo (y)
X_resistencias = df_resistencias[['temp_coccion', 'tiempo_coccion', 'espesor', 'concentracion_dopante']]
y_resistencias = df_resistencias['resistencia']

# Dividir datos: 70% entrenamiento, 30% prueba
# test_size=0.3: 30% para test, random_state: Reproducibilidad
X_train_r, X_test_r, y_train_r, y_test_r = train_test_split(X_resistencias, y_resistencias,
                                                           test_size=0.3, random_state=42)

# Estandarizar: Transformar datos a media=0 y desviaci√≥n=1
# Cr√≠tico para Ridge, Lasso y otros modelos sensibles a la escala
scaler_r = StandardScaler()
X_train_r_scaled = scaler_r.fit_transform(X_train_r)    # Ajustar y transformar train
X_test_r_scaled = scaler_r.transform(X_test_r)          # Solo transformar test (no ajustar)

# Modelos a comparar
modelos = {
    'Regresi√≥n Lineal': LinearRegression(),             # Regresi√≥n sin regularizaci√≥n
    'Ridge (Œ±=0.1)':    Ridge(alpha=0.1),               # Regularizaci√≥n L2 leve (penaliza coef. grandes)
    'Ridge (Œ±=1.0)':    Ridge(alpha=1.0),               # Regularizaci√≥n L2 moderada
    'Lasso (Œ±=0.01)':   Lasso(alpha=0.01),              # Regularizaci√≥n L1 leve (puede hacer coef. = 0)
    'Lasso (Œ±=0.1)':    Lasso(alpha=0.1),               # Regularizaci√≥n L1 moderada
    'Random Forest':    RandomForestRegressor(n_estimators=100, random_state=42)  # Ensemble de 100 √°rboles
}

resultados = {}

print("Comparaci√≥n de Modelos de Regresi√≥n:")
print("=" * 50)

for nombre_modelo, modelo in modelos.items():
    # Entrenar modelo seg√∫n su tipo
    if nombre_modelo == 'Random Forest':
        # Random Forest: No necesita estandarizaci√≥n (basado en √°rboles)
        modelo.fit(X_train_r, y_train_r)
        y_pred = modelo.predict(X_test_r)
    else:
        # Modelos lineales: Requieren datos estandarizados para convergencia √≥ptima
        modelo.fit(X_train_r_scaled, y_train_r)
        y_pred = modelo.predict(X_test_r_scaled)

    # Calcular m√©tricas de regresi√≥n
    mse = mean_squared_error(y_test_r, y_pred)   # Error cuadr√°tico medio
    rmse = np.sqrt(mse)                          # Ra√≠z del MSE (mismas unidades que objetivo)
    mae = mean_absolute_error(y_test_r, y_pred)  # Error absoluto medio (robusto a outliers)
    r2 = r2_score(y_test_r, y_pred)              # R¬≤ (proporci√≥n de varianza explicada, 0-1)

    resultados[nombre_modelo] = {'RMSE': rmse, 'MAE': mae, 'R¬≤': r2}
    # print(f"{nombre_modelo:20} | RMSE: {rmse:.4f} | MAE: {mae:.4f} | R¬≤: {r2: .4f} |")

# Crear DataFrame de resultados
df_resultados = pd.DataFrame(resultados).T
print(df_resultados.round(4))


In [None]:
# Visualizar comparaci√≥n de modelos
plt.figure(figsize=(15, 5))

# Gr√°fico de barras para RMSE (menor es mejor)
plt.subplot(1, 3, 1)
df_resultados['RMSE'].plot(kind='bar', color='skyblue')
plt.title('Comparaci√≥n de RMSE')
plt.ylabel('RMSE')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Gr√°fico de barras para R¬≤ (m√°s cercano a 1 es mejor)
plt.subplot(1, 3, 2)
df_resultados['R¬≤'].plot(kind='bar', color='lightgreen')
plt.title('Comparaci√≥n de R¬≤')
plt.ylabel('R¬≤')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Gr√°fico de dispersi√≥n: Predicho vs Real (mejor modelo)
# idxmax(): Retorna el √≠ndice del valor m√°ximo (mejor R¬≤)
mejor_modelo = df_resultados['R¬≤'].idxmax()
# Reentrenar el mejor modelo para generar predicciones
if mejor_modelo == 'Random Forest':
    modelo_mejor = RandomForestRegressor(n_estimators=100, random_state=42)
    modelo_mejor.fit(X_train_r, y_train_r)
    y_pred_mejor = modelo_mejor.predict(X_test_r)
else:
    modelo_mejor = Ridge(alpha=0.1)
    modelo_mejor.fit(X_train_r_scaled, y_train_r)
    y_pred_mejor = modelo_mejor.predict(X_test_r_scaled)

plt.subplot(1, 3, 3)
plt.scatter(y_test_r, y_pred_mejor, alpha=0.6, color='red')
# L√≠nea diagonal perfecta (y=x): Si predicci√≥n = real, punto cae en esta l√≠nea
plt.plot([y_test_r.min(), y_test_r.max()], [y_test_r.min(), y_test_r.max()], 'k--', lw=2)
plt.xlabel('Resistencia Real (Œ©)')
plt.ylabel('Resistencia Predicha (Œ©)')
plt.title(f'Predicci√≥n vs Real - {mejor_modelo}')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\nMejor modelo: {mejor_modelo}")
print(f"R¬≤ = {df_resultados.loc[mejor_modelo, 'R¬≤']:.4f}")
print(f"RMSE = {df_resultados.loc[mejor_modelo, 'RMSE']:.4f}")


<a id="seleccion-modelos"></a>

## 3. Selecci√≥n de Modelos y Validaci√≥n Cruzada [‚¨Ü](#contenido)

### Problema:
Implementar t√©cnicas de selecci√≥n de modelos y validaci√≥n cruzada para encontrar el mejor modelo.


In [None]:
# Validaci√≥n cruzada para selecci√≥n de hiperpar√°metros

# Definir rangos de hiperpar√°metros para Ridge
# alpha: Par√°metro de regularizaci√≥n (valores m√°s altos = m√°s regularizaci√≥n)
param_grid_ridge = {
    'alpha': [0.001, 0.01, 0.1, 1.0, 10.0, 100.0]
}

# Grid Search con validaci√≥n cruzada
# cv=5: Divide datos en 5 partes, entrena con 4 y valida con 1 (repite 5 veces)
# scoring: M√©trica a optimizar (negativo porque sklearn maximiza)
ridge_cv = GridSearchCV(
    Ridge(),                           # Modelo a optimizar
    param_grid_ridge,                  # Grade de par√°metros
    cv=5,                              # 5-fold cross-validation
    scoring='neg_mean_squared_error'   # M√©trica a optimizar
)

# Prueba todas las combinaciones de hiperpar√°metros y selecciona la mejor
ridge_cv.fit(X_train_r_scaled, y_train_r)

print("Mejores par√°metros para Ridge:")

# best_params_: Diccionario con los hiperpar√°metros √≥ptimos encontrados
print(ridge_cv.best_params_)

# best_score_: Mejor score promedio obtenido en validaci√≥n cruzada
print(f"Mejor score (negativo MSE): {ridge_cv.best_score_:.4f}")

# Comparar modelos con validaci√≥n cruzada usando mejores hiperpar√°metros
modelos_cv = {
    'Linear Regression': LinearRegression(),
    'Ridge (CV)':        Ridge(alpha=ridge_cv.best_params_['alpha']),  # Usar alpha √≥ptimo
    'Lasso':             Lasso(alpha=0.01),
    'Random Forest':     RandomForestRegressor(n_estimators=100, random_state=42)
}

print("\nValidaci√≥n Cruzada (5-fold):")
print("=" * 40)

cv_scores = {}
for nombre, modelo in modelos_cv.items():
    # cross_val_score: Eval√∫a el modelo usando validaci√≥n cruzada k-fold
    # Divide datos en k partes, entrena k veces y promedia resultados
    if nombre == 'Random Forest':
        # Random Forest no requiere estandarizaci√≥n (invariante a escala)
        scores = cross_val_score(modelo, X_train_r, y_train_r, cv=5, scoring='neg_mean_squared_error')
    else:
        # Modelos lineales requieren datos estandarizados
        scores = cross_val_score(modelo, X_train_r_scaled, y_train_r, cv=5, scoring='neg_mean_squared_error')

    # Almacenar resultados de validaci√≥n cruzada
    cv_scores[nombre] = {
        'mean_score': scores.mean(),        # Promedio de scores entre los k folds
        'std_score': scores.std(),          # Desviaci√≥n est√°ndar (mide variabilidad)
        'rmse_cv': np.sqrt(-scores.mean())  # Convertir MSE negativo a RMSE positivo
    }

    # Mostrar RMSE ¬± desviaci√≥n (menor RMSE y menor desviaci√≥n = mejor modelo)
    print(f"{nombre:20} | RMSE: {np.sqrt(-scores.mean()):.4f} ¬± {np.sqrt(scores.std()):.4f}")

# Visualizar resultados de validaci√≥n cruzada
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
nombres = list(cv_scores.keys())
rmse_values = [cv_scores[n]['rmse_cv'] for n in nombres]
std_values = [cv_scores[n]['std_score'] for n in nombres]

# Gr√°fico de barras con barras de error (yerr) para mostrar variabilidad entre folds
# capsize: Tama√±o de las "tapas" en las barras de error
plt.bar(nombres, rmse_values, yerr=std_values, capsize=5, alpha=0.7, color='lightcoral')
plt.title('RMSE con Validaci√≥n Cruzada')
plt.ylabel('RMSE')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

plt.subplot(1, 2, 2)
# Scores negativos porque sklearn maximiza, pero MSE se minimiza
plt.bar(nombres, [cv_scores[n]['mean_score'] for n in nombres],
        yerr=[cv_scores[n]['std_score'] for n in nombres],
        capsize=5, alpha=0.7, color='lightblue')
plt.title('Score Promedio (Negativo MSE)')
plt.ylabel('Score')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()



In [None]:
scores


---

## Resumen: Caso 1 - Calibraci√≥n de Sensores

### Problema de Ingenier√≠a Electr√≥nica
- **Sensor de temperatura con desgaste** ‚Üí Relaci√≥n voltaje-temperatura distorsionada
- **Soluci√≥n**: Modelo de regresi√≥n lineal para calibraci√≥n

### Resultados Obtenidos
- **Ecuaci√≥n**: `T = -1.26 + 21.18 √ó V`
- **RMSE**: 0.60¬∞C (excelente precisi√≥n)
- **R¬≤**: 0.9997 (99.97% de varianza explicada)

### Aplicaciones Pr√°cticas
- Sistemas de control de temperatura
- Instrumentaci√≥n industrial
- Monitoreo ambiental

---


## Resumen: Caso 2 - Fabricaci√≥n de Resistencias

### Problema de Manufactura Compleja
- **4 Variables de proceso**: Temperatura, tiempo, espesor, dopante
- **Objetivo**: Optimizar resistencia del componente

### Comparaci√≥n de Modelos

| Modelo              | RMSE       | R¬≤         | Caracter√≠sticas        |
|---------------------|-----------:|-----------:|------------------------|
| Regresi√≥n Lineal    | 0.0005     |     0.7478 | Simple, interpretable  |
| Ridge (Œ±=0.1)       | 0.0005     |     0.7479 | Regularizaci√≥n L2      |
| Lasso (Œ±=0.01)      | 0.0009     |     -0.0859| Selecci√≥n de variables |
| **Random Forest**   | **0.0004** | **0.8202** | **Mejor rendimiento**  |

### Lecciones Aprendidas
- **Estandarizaci√≥n crucial** para modelos lineales
- **Random Forest** maneja relaciones no lineales
- **Lasso** puede fallar con m√∫ltiples variables importantes

---


## T√©cnicas Avanzadas: Validaci√≥n Cruzada y Grid Search

### ¬øPor qu√© Validaci√≥n Cruzada?
- **Problema**: Una sola divisi√≥n train/test puede ser sesgada
- **Soluci√≥n**: K-Fold CV divide datos en K partes, entrena K veces
- **Beneficio**: Estimaci√≥n m√°s robusta del rendimiento

### Grid Search con CV
```python
param_grid = {'alpha': [0.001, 0.01, 0.1, 1.0, 10.0, 100.0]}
grid_search = GridSearchCV(Ridge(), param_grid, cv=5)
grid_search.fit(X_train_scaled, y_train)
```

### Resultados de CV (5-fold)
- **Linear Regression**: RMSE = 0.0006 ¬± 0.0004
- **Ridge (optimizado)**: RMSE = 0.0006 ¬± 0.0005  
- **Random Forest**: RMSE = 0.0006 ¬± 0.0005

### Interpretaci√≥n
- **¬±** indica **variabilidad** entre folds (menor = m√°s estable)
- **Todos los modelos** muestran rendimiento similar y estable

---


## M√©tricas de Evaluaci√≥n en Regresi√≥n

### Principales M√©tricas Utilizadas

#### 1. **RMSE (Root Mean Square Error)**

- **F√≥rmula**: $\sqrt{\sum (y_\textsf{real} - y_\textsf{pred})^2 / n}$
- **Ventajas**: Mismas unidades que variable objetivo, penaliza errores grandes
- **Interpretaci√≥n**: Menor = mejor

#### 2. **R¬≤ (Coeficiente de Determinaci√≥n)**

- **Rango**: 0 a 1 (puede ser negativo si modelo es muy malo)
- **Interpretaci√≥n**: % de varianza explicada por el modelo
- **R¬≤ = 0.82** ‚Üí Modelo explica 82% de la variabilidad

#### 3. **MAE (Mean Absolute Error)**

- **F√≥rmula**: $\sum |y_\textsf{real} - y_\textsf{pred}| / n$
- **Ventaja**: Menos sensible a outliers que RMSE
- **Uso**: Complementa RMSE para an√°lisis completo

### An√°lisis de Residuos

- **Residuos**: $y_\textsf{real} - y_\textsf{pred}$
- **Ideal**: Distribuidos aleatoriamente alrededor de 0
- **Problemas**: Patrones indican falta de ajuste del modelo

---


## Comparaci√≥n de Algoritmos de Regresi√≥n

### **Linear Regression**
- ‚úì Simple e interpretable
- ‚úì R√°pido de entrenar
- ‚úï Asume relaci√≥n lineal
- ‚úï Sensible a outliers y multicolinealidad

### **Ridge Regression (L2)**
- ‚úì Controla sobreajuste con regularizaci√≥n  
- ‚úì Maneja multicolinealidad
- ‚úì Todos los coeficientes se mantienen (‚â† 0)
- ‚úï No elimina variables irrelevantes

### **Lasso Regression (L1)**  
- ‚úì Selecci√≥n autom√°tica de variables (coef ‚Üí 0)
- ‚úì Produce modelos m√°s simples
- ‚úï Puede eliminar variables importantes
- ‚úï Inestable con variables correlacionadas

### **Random Forest**
- ‚úì Maneja relaciones no lineales
- ‚úì Robusto a outliers
- ‚úì No requiere estandarizaci√≥n
- ‚úï Menos interpretable ("caja negra")

---


## Conclusiones y Recomendaciones

### üéØ **Principales Aprendizajes**

1. **Preprocesamiento es cr√≠tico**
   - Estandarizaci√≥n obligatoria para Ridge/Lasso
   - An√°lisis exploratorio revela patrones importantes

2. **No hay modelo universalmente mejor**
   - Linear: Simplicidad e interpretabilidad
   - Random Forest: Mejor rendimiento en datos complejos  
   - Ridge: Equilibrio entre sesgo y varianza

3. **Validaci√≥n cruzada es esencial**
   - Una sola divisi√≥n train/test puede enga√±ar
   - Grid Search automatiza optimizaci√≥n de hiperpar√°metros

### üí° **Recomendaciones Pr√°cticas**

- **Empezar simple**: Linear Regression como baseline
- **Probar regularizaci√≥n**: Ridge si hay multicolinealidad  
- **Considerar ensemble**: Random Forest para relaciones complejas
- **Siempre validar**: Cross-validation + m√©tricas m√∫ltiples
- **Interpretar residuos**: Detecta problemas del modelo

### üöÄ **Pr√≥ximos Pasos**
- Explorar otros algoritmos (SVM, Neural Networks)
- T√©cnicas de feature engineering m√°s avanzadas
- Optimizaci√≥n bayesiana de hiperpar√°metros

---

### ¬°Gracias por su atenci√≥n!
### ¬øPreguntas?
