In [None]:
# =================================================================================
# EJERCICIO 1: REGRESIÓN LINEAL PARA PREDECIR PRECIOS DE VIVIENDAS DE CALIFORNIA
# Este ejercicio muestra cómo implementar un modelo de regresión lineal para
# predecir valores numéricos continuos (precios), en lugar de categorías.
# =================================================================================

# ---- 1. IMPORTACIÓN DE LIBRERÍAS ----
# NumPy: para operaciones matemáticas y manipulación de arrays

# Matplotlib: para visualización de datos y resultados

# Pandas: para manipulación y análisis de datos tabulares

# Módulos de scikit-learn que necesitamos:
from sklearn.datasets import fetch_california_housing  # Dataset de viviendas de California
from sklearn.model_selection import train_test_split   # Para dividir los datos
from sklearn.preprocessing import StandardScaler       # Para normalizar características
from sklearn.linear_model import LinearRegression      # Algoritmo de regresión lineal
from sklearn.metrics import mean_squared_error, r2_score  # Métricas de evaluación para regresión

In [None]:
# ---- 2. CARGA DE DATOS ----
# Cargamos el dataset de viviendas de California (precios y características)
housing = fetch_california_housing()
# X contiene las características de las viviendas
X = housing.data    # Características como ingresos medios, edad de las casas, etc.
# y contiene el valor objetivo: precio mediano de las viviendas (en cientos de miles de dólares)
y = housing.target  # Ej: 4.526 significa $452,600

In [None]:
# ---- 3. EXPLORACIÓN INICIAL DE DATOS ----
# Imprimimos información básica sobre el dataset

 # Cuántas viviendas hay en el dataset
 # Cuántas propiedades medimos de cada vivienda
  # Qué representa cada columna
  # Primeros 500 caracteres de la descripción

In [None]:
# ---- 4. DIVISIÓN DE DATOS ----
# Dividimos en conjunto de entrenamiento (80%) y prueba (20%)
# random_state=42 asegura que la división sea reproducible

# Mostramos el tamaño de cada conjunto para verificar


In [None]:
# ---- 5. PREPROCESAMIENTO: NORMALIZACIÓN ----
# En regresión lineal, la normalización es importante para:
# - Acelerar la convergencia del algoritmo
# - Hacer que los coeficientes sean comparables entre sí

# Ajustamos el scaler con los datos de entrenamiento y transformamos

# Para los datos de prueba, solo aplicamos la transformación (no recalculamos parámetros)


In [None]:
# ---- 6. CREACIÓN Y ENTRENAMIENTO DEL MODELO ----
# Creamos una instancia del modelo de regresión lineal

# Entrenamos el modelo con los datos de entrenamiento
# fit() calcula los coeficientes óptimos para la ecuación y = mx + b


In [None]:
# ---- 7. PREDICCIÓN ----
# Usamos el modelo entrenado para predecir los precios de las viviendas de prueba

# y_pred ahora contiene las predicciones de precios para cada vivienda

In [None]:
# ---- 8. EVALUACIÓN DEL MODELO ----
# Calculamos diferentes métricas de error para evaluar el rendimiento:

# MSE (Error Cuadrático Medio): promedio de las diferencias al cuadrado
# Un valor menor indica mejor rendimiento

# RMSE (Raíz del Error Cuadrático Medio): raíz cuadrada del MSE
# Tiene las mismas unidades que la variable objetivo (precios)


# R² (Coeficiente de determinación): qué proporción de la varianza es explicada por el modelo
# Varía de 0 a 1, donde 1 indica predicción perfecta


# Mostramos los resultados de la evaluación
print("\nResultados de la evaluación del modelo:")

# Interpretación: un R² de 0.65 significa que el modelo explica el 65% de la variación en los precios

In [None]:
# ---- 9. VISUALIZACIÓN DE LOS COEFICIENTES ----
# Los coeficientes nos indican cuánto influye cada característica en el precio
plt.figure(figsize=(10, 6))
# Convertimos los coeficientes en una serie de pandas para facilitar la visualización

# Ordenamos y graficamos como barras para ver qué características tienen mayor influencia

plt.show()
# Interpretación: coeficientes positivos aumentan el precio, negativos lo disminuyen
# El tamaño absoluto indica la magnitud del impacto

In [None]:
# ---- 10. VISUALIZACIÓN DE PREDICCIONES VS VALORES REALES ----
plt.figure(figsize=(10, 6))
# Graficamos cada punto como (precio real, precio predicho)

# Línea diagonal perfecta (si todas las predicciones fueran exactas)

plt.show()
# Interpretación: puntos cerca de la línea diagonal indican buenas predicciones
# Dispersión alrededor de la línea muestra el error del modelo

In [None]:
# ---- 11. PREDICCIÓN CON NUEVOS DATOS ----
# Simulamos una casa nueva con características específicas
nueva_casa = np.array([[
    3.5,    # MedInc: Ingreso medio del bloque (en $10,000s)
    30.0,   # HouseAge: Edad media de las casas en el bloque (años)
    5.0,    # AveRooms: Número medio de habitaciones por hogar
    1.0,    # AveBedrms: Número medio de dormitorios por hogar
    1500,   # Population: Población del bloque
    500,    # AveOccup: Media de ocupación por hogar
    34.0,   # Latitude: Latitud del bloque
    -118.0  # Longitude: Longitud del bloque
]])

# Importante: debemos normalizar los nuevos datos con el mismo scaler
nueva_casa_scaled = scaler.transform(nueva_casa)

# Hacemos la predicción con el modelo entrenado
precio_pred = modelo.predict(nueva_casa_scaled)[0]
# Convertimos el resultado a dólares (multiplicando por 100,000)
print(f"\nPrecio predicho para la casa de ejemplo: ${precio_pred*100000:.2f}")
# Nota: el dataset original tiene los precios en cientos de miles