# Regresi√≥n Lineal con el Dataset de Diabetes 

## üìö Contenido del Curso

Este notebook comprende una gu√≠a educativa completa sobre regresi√≥n lineal con 3 partes:

1. **Parte 1**: Regresi√≥n Lineal Simple B√°sica
2. **Parte 2**: Regresi√≥n Lineal con EDA (An√°lisis Exploratorio de Datos)
3. **Parte 3**: Comparaci√≥n de Modelos - Lineal, Polin√≥mico y Logar√≠tmico

Aprenderemos desde lo m√°s b√°sico hasta t√©cnicas avanzadas de modelado.

---

# Parte 1: Regresi√≥n Lineal Simple B√°sica

Comenzaremos con un ejercicio simple usando una sola caracter√≠stica para predecir la progresi√≥n de la diabetes.

## Paso 1: Importar las librer√≠as necesarias

In [None]:
# 1. Importamos las librer√≠as necesarias
import numpy as np                      # Para manejo num√©rico de arreglos
import pandas as pd                     # Para manejo de estructuras tipo DataFrame
import matplotlib.pyplot as plt         # Para crear gr√°ficas
from sklearn import datasets, linear_model  # Para cargar datos y crear el modelo
from sklearn.metrics import mean_squared_error, r2_score  # Para evaluar el modelo

print("‚úì Librer√≠as importadas exitosamente")

## Paso 2: Cargar el dataset de Diabetes

El dataset contiene informaci√≥n m√©dica de 442 pacientes con diferentes par√°metros (edad, IMC, presi√≥n, etc.).

In [None]:
# 2. Cargamos el dataset real de diabetes desde scikit-learn
# Este dataset contiene informaci√≥n m√©dica de pacientes.
# Cada fila representa un paciente con distintos par√°metros (edad, IMC, presi√≥n, etc.)
diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)

# Mostramos el tama√±o original del dataset
print("Dimensiones originales de X:", diabetes_X.shape)  # (442, 10): 442 muestras y 10 caracter√≠sticas
print("Dimensiones de y:", diabetes_y.shape)              # Vector de 442 valores objetivos

## Paso 3: Seleccionar una caracter√≠stica

Para mantener el ejemplo simple, usaremos solo una caracter√≠stica (la tercera: √≠ndice 2).

In [None]:
# 3. Usamos solo UNA caracter√≠stica (por ejemplo la tercera: √≠ndice 2)
# As√≠ lo convertimos en un problema de regresi√≥n lineal simple (una sola variable)
diabetes_X = diabetes_X[:, np.newaxis, 2]  # np.newaxis agrega una dimensi√≥n
print("Nueva forma de X:", diabetes_X.shape)  # Ahora solo una columna

## Paso 4: Dividir en entrenamiento y prueba

In [None]:
# 4. Dividimos los datos en entrenamiento y prueba
# Usamos las primeras 422 observaciones para entrenar y las √∫ltimas 20 para probar
diabetes_X_train = diabetes_X[:-20]  # Datos de entrenamiento
diabetes_X_test = diabetes_X[-20:]   # Datos de prueba
diabetes_y_train = diabetes_y[:-20]  # Etiquetas de entrenamiento
diabetes_y_test = diabetes_y[-20:]   # Etiquetas de prueba

print(f"Datos de entrenamiento: {len(diabetes_X_train)} muestras")
print(f"Datos de test: {len(diabetes_X_test)} muestras")

## Paso 5: Crear y entrenar el modelo

In [None]:
# 5. Creamos el modelo de regresi√≥n lineal
model = linear_model.LinearRegression()  # Creamos el objeto del modelo
model.fit(diabetes_X_train, diabetes_y_train)  # Entrenamos el modelo con los datos

print("‚úì Modelo entrenado exitosamente")

## Paso 6: Hacer predicciones

In [None]:
# 6. Realizamos predicciones con los datos de prueba
diabetes_y_pred = model.predict(diabetes_X_test)

## Paso 7: Evaluar el rendimiento del modelo

In [None]:
# 7. Evaluamos el rendimiento del modelo
print("‚ïî" + "‚ïê" * 48 + "‚ïó")
print("‚ïë" + "EVALUACI√ìN DEL MODELO LINEAL SIMPLE".center(48) + "‚ïë")
print("‚ïö" + "‚ïê" * 48 + "‚ïù")
print(f"Coeficiente (pendiente): {model.coef_[0]:.4f}")
print("  ‚Üí Indica la relaci√≥n entre la variable independiente y la dependiente")
print(f"\nIntercepto: {model.intercept_:.4f}")
print("  ‚Üí Valor de la recta cuando X=0")

mse = mean_squared_error(diabetes_y_test, diabetes_y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(diabetes_y_test, diabetes_y_pred)

print(f"\nError cuadr√°tico medio (MSE): {mse:.4f}")
print(f"Ra√≠z del error (RMSE): {rmse:.4f}")
print(f"Coeficiente de determinaci√≥n (R¬≤): {r2:.4f}")
print("‚ïê" * 50)

## Paso 8: Visualizar los resultados

Graficaremos los puntos reales (en negro) y la l√≠nea ajustada por el modelo (en azul).

In [None]:
# 8. Visualizamos los resultados
plt.figure(figsize=(10, 6))
plt.scatter(diabetes_X_test, diabetes_y_test, color="black", label="Datos reales", s=80)
plt.plot(diabetes_X_test, diabetes_y_pred, color="blue", linewidth=2, label="Ajuste lineal")
plt.xlabel("Variable explicativa (caracter√≠stica del paciente)", fontsize=11)
plt.ylabel("Progresi√≥n de la enfermedad", fontsize=11)
plt.title("Regresi√≥n lineal simple - Dataset Diabetes", fontsize=13, fontweight='bold')
plt.legend(fontsize=10)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

---

# Parte 2: Regresi√≥n Lineal con EDA (An√°lisis Exploratorio de Datos)

Ahora exploraremos el dataset m√°s a fondo usando an√°lisis exploratorio antes de modelar.

## Paso 1: Cargar dataset como DataFrame

In [None]:
# 1. Importar librer√≠as adicionales
import seaborn as sns
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# 2. Cargar dataset real desde scikit-learn
# 'as_frame=True' devuelve un DataFrame con nombres de columnas y el target separado
diabetes = load_diabetes(as_frame=True)
df = diabetes.frame  # Contiene 10 variables + target ('y')

print("‚úì Primeras filas del dataset:")
print(df.head())

## Paso 2: Informaci√≥n general del dataset

In [None]:
# 3. Informaci√≥n general del dataset
print("Dimensiones del dataset:", df.shape)     # 442 registros, 11 columnas (10 features + target)
print("\nColumnas disponibles:", df.columns.tolist())
print("\nDescripci√≥n estad√≠stica general:")
print(df.describe())

## Paso 3: Renombrar variable objetivo para claridad

In [None]:
# 4. Renombramos la variable objetivo para m√°s claridad
df.rename(columns={"target": "disease_progression"}, inplace=True)
print("‚úì Variable objetivo renombrada a 'disease_progression'")

## Paso 4: Visualizar distribuciones de variables

In [None]:
# 5. Visualizar distribuciones de las variables m√°s importantes
# Seleccionamos algunas para analizar su comportamiento
cols_to_plot = ['bmi', 'bp', 's5', 'disease_progression']

plt.figure(figsize=(12, 6))
df[cols_to_plot].hist(bins=20, figsize=(12, 6), color='lightblue', edgecolor='black')
plt.suptitle("Distribuciones de variables relevantes", fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

## Paso 5: Matriz de correlaci√≥n

In [None]:
# 6. Matriz de correlaci√≥n para ver relaciones entre variables
corr = df.corr(method='pearson')

plt.figure(figsize=(10, 8))
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt=".2f", cbar=True)
plt.title("Matriz de correlaci√≥n del dataset Diabetes", fontsize=13, fontweight='bold')
plt.tight_layout()
plt.show()

# Mostrar las variables m√°s correlacionadas con disease_progression
print("\nCorrelaciones con 'disease_progression':")
print(corr['disease_progression'].sort_values(ascending=False))

## Paso 6: Seleccionar variable m√°s correlacionada

BMI (Body Mass Index) suele tener alta correlaci√≥n con la progresi√≥n de la diabetes.

In [None]:
# 7. Elegimos la variable m√°s correlacionada con la enfermedad (disease_progression)
# BMI (√≠ndice de masa corporal) suele tener alta correlaci√≥n con la progresi√≥n
plt.figure(figsize=(8, 5))
sns.scatterplot(x=df['bmi'], y=df['disease_progression'], color='steelblue', s=80, alpha=0.6)
plt.title("Relaci√≥n entre 'BMI' y la progresi√≥n de la enfermedad", fontsize=12, fontweight='bold')
plt.xlabel("BMI (√çndice de masa corporal)", fontsize=11)
plt.ylabel("Progresi√≥n de la enfermedad", fontsize=11)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## Paso 7: Preparar datos y entrenar modelo

In [None]:
# 8. Selecci√≥n de variable independiente (X) y dependiente (y)
X = df[['bmi']]                   # Variable predictora
y = df['disease_progression']     # Variable objetivo

# 9. Divisi√≥n de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42)

print(f"Datos de entrenamiento: {len(X_train)} muestras")
print(f"Datos de test: {len(X_test)} muestras")

## Paso 8: Crear y entrenar modelo

In [None]:
# 10. Crear y entrenar modelo lineal
model_eda = LinearRegression()
model_eda.fit(X_train, y_train)

print("‚úì Modelo entrenado exitosamente")

## Paso 9: Evaluar coeficientes

In [None]:
# 11. Evaluar coeficientes del modelo
print("‚ïê" * 50)
print("COEFICIENTES DEL MODELO")
print("‚ïê" * 50)
print(f"Intercepto (Œ≤‚ÇÄ): {model_eda.intercept_:.4f}")
print(f"Coeficiente (Œ≤‚ÇÅ): {model_eda.coef_[0]:.4f}")
print("\nEcuaci√≥n del modelo:")
print(f"y = {model_eda.intercept_:.4f} + {model_eda.coef_[0]:.4f} * X")
print("‚ïê" * 50)

## Paso 10: Hacer predicciones y evaluar

In [None]:
# 12. Realizar predicciones
y_pred_eda = model_eda.predict(X_test)

# 13. Evaluaci√≥n cuantitativa del modelo
mse_eda = mean_squared_error(y_test, y_pred_eda)
rmse_eda = np.sqrt(mse_eda)
r2_eda = r2_score(y_test, y_pred_eda)

print("‚ïê" * 50)
print("M√âTRICAS DE EVALUACI√ìN")
print("‚ïê" * 50)
print(f"Error cuadr√°tico medio (MSE): {mse_eda:.4f}")
print(f"Ra√≠z del error (RMSE): {rmse_eda:.4f}")
print(f"Coeficiente de determinaci√≥n (R¬≤): {r2_eda:.4f}")
print(f"\nInterpretaci√≥n: El modelo explica {r2_eda*100:.2f}% de la varianza")
print("‚ïê" * 50)

## Paso 11: Visualizaci√≥n del ajuste

In [None]:
# 14. Visualizaci√≥n del ajuste del modelo
plt.figure(figsize=(10, 6))
plt.scatter(X_test, y_test, color='gray', alpha=0.6, label='Datos reales', s=80)
plt.plot(X_test.sort_values('bmi'), model_eda.predict(X_test.sort_values('bmi')), 
         color='red', linewidth=3, label='L√≠nea de regresi√≥n')
plt.xlabel("BMI", fontsize=11)
plt.ylabel("Progresi√≥n de la enfermedad", fontsize=11)
plt.title("Regresi√≥n Lineal Simple: BMI vs Progresi√≥n", fontsize=13, fontweight='bold')
plt.legend(fontsize=10)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

---

# Parte 3: Comparaci√≥n de Modelos - Lineal, Polin√≥mico y Logar√≠tmico

Ahora compararemos tres enfoques diferentes para ver cu√°l se ajusta mejor a los datos: lineal, logar√≠tmico y polin√≥mico.

## Paso 1: Importar librer√≠as adicionales

In [None]:
from sklearn.preprocessing import PolynomialFeatures

print("‚úì Librer√≠as de comparaci√≥n de modelos cargadas")

## Paso 2: Preparar datos para comparaci√≥n

In [None]:
# Los datos ya est√°n preparados: X_train, X_test, y_train, y_test
print(f"Datos listos para comparaci√≥n:")
print(f"  - Entrenamiento: {len(X_train)} muestras")
print(f"  - Test: {len(X_test)} muestras")

## Paso 3: Modelo 1 - Regresi√≥n Lineal

In [None]:
# Modelo lineal tradicional
print("\n" + "="*60)
print("MODELO 1: REGRESI√ìN LINEAL")
print("="*60)

model_linear = LinearRegression()
model_linear.fit(X_train, y_train)
y_pred_linear = model_linear.predict(X_test)

mse_linear = mean_squared_error(y_test, y_pred_linear)
rmse_linear = np.sqrt(mse_linear)
r2_linear = r2_score(y_test, y_pred_linear)

print(f"Coeficiente: {model_linear.coef_[0]:.6f}")
print(f"Intercepto: {model_linear.intercept_:.6f}")
print(f"\nMSE:  {mse_linear:.4f}")
print(f"RMSE: {rmse_linear:.4f}")
print(f"R¬≤:   {r2_linear:.6f}")
print("="*60)

## Paso 4: Modelo 2 - Regresi√≥n Polin√≥mica (Grado 2)

In [None]:
# Modelo polin√≥mico de grado 2
print("\n" + "="*60)
print("MODELO 2: REGRESI√ìN POLIN√ìMICA (GRADO 2)")
print("="*60)

# Crear features polin√≥micas de grado 2
poly_features_2 = PolynomialFeatures(degree=2, include_bias=False)
X_train_poly2 = poly_features_2.fit_transform(X_train)
X_test_poly2 = poly_features_2.transform(X_test)

# Entrenar modelo
model_poly2 = LinearRegression()
model_poly2.fit(X_train_poly2, y_train)
y_pred_poly2 = model_poly2.predict(X_test_poly2)

mse_poly2 = mean_squared_error(y_test, y_pred_poly2)
rmse_poly2 = np.sqrt(mse_poly2)
r2_poly2 = r2_score(y_test, y_pred_poly2)

print(f"Coeficientes: {model_poly2.coef_}")
print(f"Intercepto: {model_poly2.intercept_:.6f}")
print(f"\nMSE:  {mse_poly2:.4f}")
print(f"RMSE: {rmse_poly2:.4f}")
print(f"R¬≤:   {r2_poly2:.6f}")
print("="*60)

## Paso 5: Modelo 3 - Regresi√≥n Polin√≥mica (Grado 3)

In [None]:
# Modelo polin√≥mico de grado 3
print("\n" + "="*60)
print("MODELO 3: REGRESI√ìN POLIN√ìMICA (GRADO 3)")
print("="*60)

# Crear features polin√≥micas de grado 3
poly_features_3 = PolynomialFeatures(degree=3, include_bias=False)
X_train_poly3 = poly_features_3.fit_transform(X_train)
X_test_poly3 = poly_features_3.transform(X_test)

# Entrenar modelo
model_poly3 = LinearRegression()
model_poly3.fit(X_train_poly3, y_train)
y_pred_poly3 = model_poly3.predict(X_test_poly3)

mse_poly3 = mean_squared_error(y_test, y_pred_poly3)
rmse_poly3 = np.sqrt(mse_poly3)
r2_poly3 = r2_score(y_test, y_pred_poly3)

print(f"Coeficientes: {model_poly3.coef_}")
print(f"Intercepto: {model_poly3.intercept_:.6f}")
print(f"\nMSE:  {mse_poly3:.4f}")
print(f"RMSE: {rmse_poly3:.4f}")
print(f"R¬≤:   {r2_poly3:.6f}")
print("="*60)

## Paso 6: Modelo 4 - Regresi√≥n Logar√≠tmica

In [None]:
# Modelo logar√≠tmico
print("\n" + "="*60)
print("MODELO 4: REGRESI√ìN LOGAR√çTMICA")
print("="*60)

# Transformar X a logaritmo
X_train_log = np.log(X_train + np.abs(X_train.min()) + 1)  # Evitar log(0)
X_test_log = np.log(X_test + np.abs(X_test.min()) + 1)

# Entrenar modelo
model_log = LinearRegression()
model_log.fit(X_train_log, y_train)
y_pred_log = model_log.predict(X_test_log)

mse_log = mean_squared_error(y_test, y_pred_log)
rmse_log = np.sqrt(mse_log)
r2_log = r2_score(y_test, y_pred_log)

print(f"Coeficiente: {model_log.coef_[0]:.6f}")
print(f"Intercepto: {model_log.intercept_:.6f}")
print(f"\nMSE:  {mse_log:.4f}")
print(f"RMSE: {rmse_log:.4f}")
print(f"R¬≤:   {r2_log:.6f}")
print("="*60)

## Paso 7: Tabla Comparativa de Modelos

In [None]:
# Crear tabla comparativa
print("\n" + "="*80)
print("TABLA COMPARATIVA DE MODELOS")
print("="*80)

comparison_df = pd.DataFrame({
    'Modelo': ['Lineal', 'Polin√≥mico (Grado 2)', 'Polin√≥mico (Grado 3)', 'Logar√≠tmico'],
    'MSE': [mse_linear, mse_poly2, mse_poly3, mse_log],
    'RMSE': [rmse_linear, rmse_poly2, rmse_poly3, rmse_log],
    'R¬≤': [r2_linear, r2_poly2, r2_poly3, r2_log]
})

print(comparison_df.to_string(index=False))

# Encontrar el mejor modelo
best_model_idx = comparison_df['R¬≤'].idxmax()
best_model_name = comparison_df.loc[best_model_idx, 'Modelo']
best_r2 = comparison_df.loc[best_model_idx, 'R¬≤']

print(f"\nüèÜ MEJOR MODELO: {best_model_name}")
print(f"   R¬≤ = {best_r2:.6f}")
print("="*80)

## Paso 8: Visualizaci√≥n Comparativa - Todos los Modelos

In [None]:
# Visualizaci√≥n comparativa de todos los modelos
fig, axes = plt.subplots(2, 2, figsize=(14, 10))
fig.suptitle('Comparaci√≥n de Modelos de Regresi√≥n', fontsize=16, fontweight='bold')

# Ordenar X_test para graficar l√≠neas suave
X_test_sorted = np.sort(X_test.values.flatten())
X_test_sorted_df = pd.DataFrame(X_test_sorted, columns=['bmi'])

# 1. Modelo Lineal
axes[0, 0].scatter(X_test, y_test, color='gray', alpha=0.6, s=50)
y_pred_linear_sorted = model_linear.predict(X_test_sorted_df)
axes[0, 0].plot(X_test_sorted, y_pred_linear_sorted, color='blue', linewidth=2.5, label=f'R¬≤={r2_linear:.4f}')
axes[0, 0].set_title('Modelo Lineal', fontsize=12, fontweight='bold')
axes[0, 0].set_xlabel('BMI')
axes[0, 0].set_ylabel('Progresi√≥n')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# 2. Modelo Polin√≥mico Grado 2
axes[0, 1].scatter(X_test, y_test, color='gray', alpha=0.6, s=50)
X_test_sorted_poly2 = poly_features_2.transform(X_test_sorted_df)
y_pred_poly2_sorted = model_poly2.predict(X_test_sorted_poly2)
axes[0, 1].plot(X_test_sorted, y_pred_poly2_sorted, color='green', linewidth=2.5, label=f'R¬≤={r2_poly2:.4f}')
axes[0, 1].set_title('Modelo Polin√≥mico (Grado 2)', fontsize=12, fontweight='bold')
axes[0, 1].set_xlabel('BMI')
axes[0, 1].set_ylabel('Progresi√≥n')
axes[0, 1].legend()
axes[0, 1].grid(True, alpha=0.3)

# 3. Modelo Polin√≥mico Grado 3
axes[1, 0].scatter(X_test, y_test, color='gray', alpha=0.6, s=50)
X_test_sorted_poly3 = poly_features_3.transform(X_test_sorted_df)
y_pred_poly3_sorted = model_poly3.predict(X_test_sorted_poly3)
axes[1, 0].plot(X_test_sorted, y_pred_poly3_sorted, color='orange', linewidth=2.5, label=f'R¬≤={r2_poly3:.4f}')
axes[1, 0].set_title('Modelo Polin√≥mico (Grado 3)', fontsize=12, fontweight='bold')
axes[1, 0].set_xlabel('BMI')
axes[1, 0].set_ylabel('Progresi√≥n')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# 4. Modelo Logar√≠tmico
axes[1, 1].scatter(X_test, y_test, color='gray', alpha=0.6, s=50)
X_test_sorted_log = np.log(X_test_sorted_df + np.abs(X_test_sorted_df.min()) + 1)
y_pred_log_sorted = model_log.predict(X_test_sorted_log)
axes[1, 1].plot(X_test_sorted, y_pred_log_sorted, color='red', linewidth=2.5, label=f'R¬≤={r2_log:.4f}')
axes[1, 1].set_title('Modelo Logar√≠tmico', fontsize=12, fontweight='bold')
axes[1, 1].set_xlabel('BMI')
axes[1, 1].set_ylabel('Progresi√≥n')
axes[1, 1].legend()
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## Paso 9: Gr√°fico de M√©tricas

In [None]:
# Visualizar m√©tricas en gr√°ficos de barras
fig, axes = plt.subplots(1, 3, figsize=(15, 4))
fig.suptitle('Comparaci√≥n de M√©tricas entre Modelos', fontsize=14, fontweight='bold')

modelos = ['Lineal', 'Poly\n(Grado 2)', 'Poly\n(Grado 3)', 'Logar√≠tmico']
colores = ['blue', 'green', 'orange', 'red']

# MSE
mses = [mse_linear, mse_poly2, mse_poly3, mse_log]
axes[0].bar(modelos, mses, color=colores, alpha=0.7, edgecolor='black')
axes[0].set_ylabel('MSE (Error Cuadr√°tico Medio)', fontsize=10)
axes[0].set_title('Error Cuadr√°tico Medio', fontsize=11, fontweight='bold')
axes[0].grid(True, alpha=0.3, axis='y')
for i, v in enumerate(mses):
    axes[0].text(i, v, f'{v:.2f}', ha='center', va='bottom')

# RMSE
rmses = [rmse_linear, rmse_poly2, rmse_poly3, rmse_log]
axes[1].bar(modelos, rmses, color=colores, alpha=0.7, edgecolor='black')
axes[1].set_ylabel('RMSE (Ra√≠z del MSE)', fontsize=10)
axes[1].set_title('Ra√≠z del Error Cuadr√°tico', fontsize=11, fontweight='bold')
axes[1].grid(True, alpha=0.3, axis='y')
for i, v in enumerate(rmses):
    axes[1].text(i, v, f'{v:.2f}', ha='center', va='bottom')

# R¬≤
r2s = [r2_linear, r2_poly2, r2_poly3, r2_log]
axes[2].bar(modelos, r2s, color=colores, alpha=0.7, edgecolor='black')
axes[2].set_ylabel('R¬≤ (Coeficiente de Determinaci√≥n)', fontsize=10)
axes[2].set_title('R¬≤ Score', fontsize=11, fontweight='bold')
axes[2].set_ylim([0, 1])
axes[2].grid(True, alpha=0.3, axis='y')
for i, v in enumerate(r2s):
    axes[2].text(i, v, f'{v:.4f}', ha='center', va='bottom')

plt.tight_layout()
plt.show()

---

## Conclusiones y Recomendaciones Finales

### üìä An√°lisis Comparativo:

#### 1. **Mejor Desempe√±o**
El modelo **Polin√≥mico de Grado 3** generalmente captura mejor la relaci√≥n no-lineal entre BMI y progresi√≥n de diabetes.

#### 2. **Complejidad vs Rendimiento**
- **Modelo Lineal**: Simple pero puede ser insuficiente para datos complejos
- **Polin√≥mio Grado 2**: Balance entre complejidad y rendimiento
- **Polin√≥mio Grado 3**: Mejor rendimiento pero riesgo de overfitting
- **Logar√≠tmico**: √ötil si hay relaci√≥n logar√≠tmica en los datos

#### 3. **Principios Clave**
- **Empieza simple**: Comienza siempre con modelos simples (lineal)
- **Prueba y mejora**: Si el ajuste es pobre, prueba modelos m√°s complejos
- **Validaci√≥n**: Valida el modelo con datos de test independientes
- **M√©tricas**: Observa R¬≤ y MSE para tomar decisiones informadas

#### 4. **‚ö†Ô∏è Importante**
**Mayor complejidad ‚â† mejor modelo**
- El modelo m√°s simple que explique bien los datos es el mejor (Principio de Occam)
- Ten cuidado con el **overfitting** (modelo memoriza datos en lugar de aprender patrones)
- La complejidad excesiva puede causar malo rendimiento en datos nuevos

### üéì Lecciones Pedag√≥gicas:

1. El an√°lisis exploratorio de datos (EDA) es fundamental
2. Diferentes modelos capturan diferentes relaciones
3. Las m√©tricas de evaluaci√≥n son esenciales para la comparaci√≥n
4. La divisi√≥n entrenamiento-test previene el overfitting
5. La visualizaci√≥n ayuda a entender el comportamiento del modelo

### üìà Recomendaciones Futuras:

- Prueba con m√°s caracter√≠sticas (modelo multivariado)
- Implementa regularizaci√≥n (Ridge, Lasso) para combatir overfitting
- Usa validaci√≥n cruzada para evaluaci√≥n m√°s robusta
- Experimenta con otros algoritmos (Random Forest, Gradient Boosting, etc.)
- Considera t√©cnicas de feature engineering para mejorar modelos