# 📊 Regresión Lineal con Scikit-Learn 🤖

---

## 📋 Índice de Contenidos

1. [🎯 Introducción](#introduccion)
2. [📦 Importación de Librerías](#importacion)
3. [📈 Carga y Exploración de Datos](#datos)
4. [🔧 Implementación de Regresión Lineal](#implementacion)
   - 4.1 [📊 Definición de Variables](#variables)
   - 4.2 [⚙️ Ajuste del Modelo](#ajuste)
   - 4.3 [🔮 Predicciones](#predicciones)
   - 4.4 [📋 Evaluación del Modelo](#evaluacion)
5. [📊 Interpretación de Resultados](#interpretacion)
6. [🎯 Conclusiones](#conclusiones)

---

## 🎯 Introducción <a id="introduccion"></a>

En este notebook exploraremos la **regresión lineal** utilizando la librería **Scikit-Learn**. 📚

### ¿Qué es la Regresión Lineal? 🤔

La regresión lineal es un método estadístico que nos permite:
- 📈 Modelar la relación entre variables
- 🔮 Predecir valores continuos
- 📊 Entender cómo las variables independientes afectan a la variable dependiente

### Dataset: Precios de Casas en Boston 🏠

Utilizaremos un dataset sintético basado en el famoso dataset de Boston Housing que incluye:
- 🏠 **Rooms**: Número de habitaciones
- 📍 **Distance_to_Center**: Distancia al centro de la ciudad
- 📅 **House_Age**: Edad de la casa
- 🚨 **Crime_Rate**: Tasa de criminalidad
- 👨‍🏫 **Student_Teacher_Ratio**: Ratio estudiante-profesor
- 🏘️ **Neighborhood**: Tipo de vecindario
- 🏗️ **House_Type**: Tipo de casa
- 💰 **House_Price**: Precio de la casa (variable objetivo)

---

## 📦 Importación de Librerías <a id="importacion"></a>

Comenzamos importando las librerías necesarias para nuestro análisis:

In [None]:
# 📊 Manipulación de datos
import pandas as pd
import numpy as np

# 🤖 Machine Learning
from sklearn import linear_model
from sklearn.metrics import mean_squared_error, r2_score

# 📈 Visualización
import matplotlib.pyplot as plt
import seaborn as sns

# ⚙️ Configuración de visualización
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("✅ Librerías importadas correctamente!")

## 📈 Carga y Exploración de Datos <a id="datos"></a>

Carguemos nuestro dataset y exploremos su estructura:

In [None]:
# 📂 Carga del dataset
df_boston = pd.read_csv("boston_sintetico.csv")

print("🎉 Dataset cargado exitosamente!")
print(f"📊 Dimensiones del dataset: {df_boston.shape}")
print(f"🏠 Número de casas: {df_boston.shape[0]}")
print(f"📋 Número de características: {df_boston.shape[1]}")

In [None]:
# 👀 Primeras 5 filas del dataset
print("🔍 Primeras 5 filas del dataset:")
df_boston.head()

In [None]:
# 📊 Información general del dataset
print("📋 Información del dataset:")
df_boston.info()

print("\n📈 Estadísticas descriptivas:")
df_boston.describe()

## 🔧 Implementación de Regresión Lineal <a id="implementacion"></a>

Ahora implementaremos nuestro modelo de regresión lineal paso a paso:

### 📊 4.1 Definición de Variables <a id="variables"></a>

Definimos nuestras variables independientes (X) y dependiente (y):

In [None]:
# 🎯 Variable dependiente (lo que queremos predecir)
y = df_boston["House_Price"]
print(f"🏠 Variable objetivo: House_Price")
print(f"💰 Precio promedio: ${y.mean():.2f}")
print(f"📊 Rango de precios: ${y.min():.2f} - ${y.max():.2f}")

# 📈 Variables independientes (características que usaremos para predecir)
X = df_boston[["Rooms", "Distance_to_Center"]]
print(f"\n📋 Variables independientes seleccionadas:")
print(f"🏠 Rooms: Número de habitaciones")
print(f"📍 Distance_to_Center: Distancia al centro")

print(f"\n✅ Variables definidas correctamente!")
print(f"📊 Forma de X: {X.shape}")
print(f"📊 Forma de y: {y.shape}")

### ⚙️ 4.2 Ajuste del Modelo <a id="ajuste"></a>

Creamos y entrenamos nuestro modelo de regresión lineal:

In [None]:
# 🤖 Crear el modelo de regresión lineal
lm = linear_model.LinearRegression()

print("🔧 Modelo de regresión lineal creado")
print("⚙️ Entrenando el modelo...")

# 🎯 Entrenar el modelo
lm.fit(X, y)

print("✅ ¡Modelo entrenado exitosamente!")
print("🎉 El modelo ha aprendido la relación entre las variables")

# Mostrar el modelo entrenado
lm

### 🔮 4.3 Predicciones <a id="predicciones"></a>

Utilizamos nuestro modelo entrenado para hacer predicciones:

In [None]:
# 🔮 Realizar predicciones
y_pred = lm.predict(X)

print("🔮 Predicciones realizadas!")
print(f"📊 Número de predicciones: {len(y_pred)}")
print(f"💰 Precio promedio predicho: ${y_pred.mean():.2f}")
print(f"📈 Rango de predicciones: ${y_pred.min():.2f} - ${y_pred.max():.2f}")

# Mostrar algunas predicciones
print("\n🎯 Primeras 10 predicciones:")
for i in range(10):
    print(f"Casa {i+1}: Real=${y.iloc[i]:.2f}, Predicho=${y_pred[i]:.2f}, Diferencia=${abs(y.iloc[i] - y_pred[i]):.2f}")

### 📋 4.4 Evaluación del Modelo <a id="evaluacion"></a>

Evaluamos qué tan bien funciona nuestro modelo:

In [None]:
# 📊 Coeficiente de determinación (R²)
r2 = lm.score(X, y)
print(f"📈 Coeficiente R² (R-squared): {r2:.4f}")
print(f"📊 El modelo explica el {r2*100:.2f}% de la variabilidad en los precios")

# 📉 Error cuadrático medio
mse = mean_squared_error(y, y_pred)
rmse = np.sqrt(mse)
print(f"\n📉 Error Cuadrático Medio (MSE): {mse:.2f}")
print(f"📐 Raíz del Error Cuadrático Medio (RMSE): ${rmse:.2f}")

# 🎯 Interpretación del R²
if r2 > 0.8:
    print("\n🎉 ¡Excelente! El modelo tiene un muy buen ajuste")
elif r2 > 0.6:
    print("\n👍 Buen ajuste del modelo")
elif r2 > 0.4:
    print("\n⚠️ Ajuste moderado del modelo")
else:
    print("\n❌ El modelo necesita mejoras")

## 📊 Interpretación de Resultados <a id="interpretacion"></a>

Analicemos los coeficientes y el intercepto de nuestro modelo:

In [None]:
# 📊 Coeficientes del modelo
coeficientes = lm.coef_
intercepto = lm.intercept_

print("🔍 Análisis de Coeficientes:")
print("=" * 50)

# Intercepto
print(f"🎯 Intercepto: ${intercepto:.2f}")
print(f"   📝 Precio base cuando Rooms=0 y Distance_to_Center=0")

# Coeficientes
variables = ["Rooms", "Distance_to_Center"]
for i, (var, coef) in enumerate(zip(variables, coeficientes)):
    print(f"\n📊 {var}: {coef:.2f}")
    if var == "Rooms":
        if coef > 0:
            print(f"   📈 Por cada habitación adicional, el precio aumenta ${coef:.2f}")
        else:
            print(f"   📉 Por cada habitación adicional, el precio disminuye ${abs(coef):.2f}")
    elif var == "Distance_to_Center":
        if coef > 0:
            print(f"   📈 Por cada unidad de distancia al centro, el precio aumenta ${coef:.2f}")
        else:
            print(f"   📉 Por cada unidad de distancia al centro, el precio disminuye ${abs(coef):.2f}")

print("\n" + "=" * 50)
print(f"📐 Ecuación del modelo:")
print(f"💰 Precio = {intercepto:.2f} + {coeficientes[0]:.2f} × Rooms + {coeficientes[1]:.2f} × Distance_to_Center")

In [None]:
# 📈 Visualización de resultados
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('📊 Análisis de Regresión Lineal', fontsize=16, fontweight='bold')

# Gráfico 1: Valores reales vs predichos
axes[0, 0].scatter(y, y_pred, alpha=0.6, color='blue')
axes[0, 0].plot([y.min(), y.max()], [y.min(), y.max()], 'r--', lw=2)
axes[0, 0].set_xlabel('🏠 Precios Reales')
axes[0, 0].set_ylabel('🔮 Precios Predichos')
axes[0, 0].set_title('Valores Reales vs Predichos')
axes[0, 0].grid(True, alpha=0.3)

# Gráfico 2: Residuos
residuos = y - y_pred
axes[0, 1].scatter(y_pred, residuos, alpha=0.6, color='green')
axes[0, 1].axhline(y=0, color='r', linestyle='--')
axes[0, 1].set_xlabel('🔮 Precios Predichos')
axes[0, 1].set_ylabel('📊 Residuos')
axes[0, 1].set_title('Análisis de Residuos')
axes[0, 1].grid(True, alpha=0.3)

# Gráfico 3: Relación Rooms vs Precio
axes[1, 0].scatter(X['Rooms'], y, alpha=0.6, color='orange', label='Datos reales')
axes[1, 0].scatter(X['Rooms'], y_pred, alpha=0.6, color='red', label='Predicciones')
axes[1, 0].set_xlabel('🏠 Número de Habitaciones')
axes[1, 0].set_ylabel('💰 Precio')
axes[1, 0].set_title('Habitaciones vs Precio')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# Gráfico 4: Relación Distance vs Precio
axes[1, 1].scatter(X['Distance_to_Center'], y, alpha=0.6, color='purple', label='Datos reales')
axes[1, 1].scatter(X['Distance_to_Center'], y_pred, alpha=0.6, color='red', label='Predicciones')
axes[1, 1].set_xlabel('📍 Distancia al Centro')
axes[1, 1].set_ylabel('💰 Precio')
axes[1, 1].set_title('Distancia vs Precio')
axes[1, 1].legend()
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("📈 Gráficos generados exitosamente!")

### 🎯 Ejemplo de Predicción

Hagamos una predicción para una casa específica:

In [None]:
# 🏠 Ejemplo: Predecir el precio de una casa nueva
nueva_casa = {
    'Rooms': 7.5,
    'Distance_to_Center': 2.0
}

# Crear DataFrame para la predicción
nueva_casa_df = pd.DataFrame([nueva_casa])

# Realizar predicción
precio_predicho = lm.predict(nueva_casa_df)[0]

print("🏠 Predicción para una nueva casa:")
print("=" * 40)
print(f"🏠 Habitaciones: {nueva_casa['Rooms']}")
print(f"📍 Distancia al centro: {nueva_casa['Distance_to_Center']} km")
print(f"💰 Precio predicho: ${precio_predicho:.2f}")
print("=" * 40)

# Mostrar el cálculo paso a paso
print("\n🔍 Cálculo detallado:")
print(f"💰 Precio = {intercepto:.2f} + {coeficientes[0]:.2f} × {nueva_casa['Rooms']} + {coeficientes[1]:.2f} × {nueva_casa['Distance_to_Center']}")
print(f"💰 Precio = {intercepto:.2f} + {coeficientes[0] * nueva_casa['Rooms']:.2f} + {coeficientes[1] * nueva_casa['Distance_to_Center']:.2f}")
print(f"💰 Precio = ${precio_predicho:.2f}")

## 🎯 Conclusiones <a id="conclusiones"></a>

### 📊 Resumen del Análisis

En este notebook hemos implementado exitosamente un modelo de regresión lineal para predecir precios de casas. Aquí están nuestros hallazgos principales:

### 🔍 Hallazgos Clave:

1. **📈 Rendimiento del Modelo:**
   - R² Score: Indica qué porcentaje de la variabilidad explica nuestro modelo
   - RMSE: Nos da una idea del error promedio en nuestras predicciones

2. **🏠 Impacto de las Variables:**
   - **Habitaciones**: Cada habitación adicional afecta el precio
   - **Distancia al Centro**: La ubicación impacta significativamente el valor

3. **⚡ Ventajas de la Regresión Lineal:**
   - ✅ Fácil de interpretar
   - ✅ Rápida de entrenar
   - ✅ Buena línea base para modelos más complejos
   - ✅ Transparente en sus predicciones

4. **⚠️ Limitaciones:**
   - Solo captura relaciones lineales
   - Sensible a outliers
   - Asume independencia entre variables

### 🚀 Próximos Pasos:

Para mejorar nuestro modelo, podríamos:
- 📊 Incluir más variables predictoras
- 🔄 Probar transformaciones de variables
- 🤖 Explorar modelos más complejos (Random Forest, XGBoost)
- 📈 Realizar validación cruzada
- 🎯 Analizar y tratar outliers

---

### 🎉 ¡Felicidades!

Has completado exitosamente tu primer modelo de regresión lineal con Scikit-Learn. Este es el primer paso en tu journey de Machine Learning! 🚀

---

*📚 Creado con ❤️ para el aprendizaje de Data Science*