# Tarea 2: Regresión Lineal Múltiple (Predecir Precio de Vivienda)

Una corredora de propiedades en Santiago quiere predecir el precio (en UF) de departamentos. Tienen los siguientes datos:

datos = 
{'Superficie_m2': [50, 70, 65, 90, 45],
'Num_Habitaciones': [1, 2, 2, 3, 1],
'Distancia_Metro_km': [0.5, 1.2, 0.8, 0.2, 2.0],
'Precio_UF': [2500, 3800, 3500, 5200, 2100]}

Construye un modelo de regresión lineal múltiple para predecir el 'Precio_UF' y evalúa su rendimiento.

# Importar, datos y librerias

In [101]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
datos = {'Superficie_m2': [50, 70, 65, 90, 45], 'Num_Habitaciones': [1, 2, 2, 3, 1], 'Distancia_Metro_km': [0.5, 1.2, 0.8, 0.2, 2.0], 'Precio_UF': [2500, 3800, 3500, 5200, 2100]}

# Validacion de datos

In [102]:
# Validación básica de datos
try:
    # Crear DataFrame
    df = pd.DataFrame(datos)
    
    # Verificaciones básicas
    print("=== VALIDACIÓN BÁSICA ===")
    
    # 1. Verificar que hay datos
    if df.empty:
        print("❌ ERROR: No hay datos")
        raise ValueError("DataFrame vacío")
    else:
        print(f"✅ Datos cargados: {len(df)} filas")
    
    # 2. Verificar valores nulos
    nulos = df.isnull().sum().sum()
    if nulos > 0:
        print(f"⚠️ ADVERTENCIA: {nulos} valores nulos")
    else:
        print("✅ Sin valores nulos")
    
    # 3. Verificar que los números son válidos
    nums_validos = True
    for col in df.columns:
        if not pd.api.types.is_numeric_dtype(df[col]):
            print(f"❌ ERROR: {col} no es numérico")
            nums_validos = False
    
    if nums_validos:
        print("✅ Todos los valores son numéricos")
    
    # 4. Verificar rangos básicos
    errores_rango = []
    
    if (df['Superficie_m2'] <= 0).any():
        errores_rango.append("❌ ERROR: Superficie debe ser mayor a 0")
    
    if (df['Num_Habitaciones'] <= 0).any():
        errores_rango.append("❌ ERROR: Habitaciones debe ser mayor a 0")
        
    if (df['Distancia_Metro_km'] < 0).any():
        errores_rango.append("❌ ERROR: Distancia no puede ser negativa")
    
    if (df['Precio_UF'] <= 0).any():
        errores_rango.append("❌ ERROR: Precio debe ser mayor a 0")
    
    if errores_rango:
        for error in errores_rango:
            print(error)
    else:
        print("✅ Rangos válidos")
    
    # 5. Verificar que tenemos suficientes datos para el modelo
    if len(df) < 3:
        print("⚠️ ADVERTENCIA: Pocos datos para un modelo confiable")
    else:
        print("✅ Suficientes datos para el modelo")
    
    print("\n=== DATOS LISTOS ===")
    print(df)
    
except Exception as e:
    print(f"❌ ERROR CRÍTICO: {e}")
    print("No se puede continuar con el análisis")

=== VALIDACIÓN BÁSICA ===
✅ Datos cargados: 5 filas
✅ Sin valores nulos
✅ Todos los valores son numéricos
✅ Rangos válidos
✅ Suficientes datos para el modelo

=== DATOS LISTOS ===
   Superficie_m2  Num_Habitaciones  Distancia_Metro_km  Precio_UF
0             50                 1                 0.5       2500
1             70                 2                 1.2       3800
2             65                 2                 0.8       3500
3             90                 3                 0.2       5200
4             45                 1                 2.0       2100


# Sacando datos

In [103]:
# Entrenamiento del modelo con manejo de errores
try:
    # Preparar variables X (features) e y (target)
    X = df[['Superficie_m2', 'Num_Habitaciones', 'Distancia_Metro_km']]
    y = df['Precio_UF']
    
    print("=== ENTRENANDO MODELO ===")
    print(f"Variables predictoras: {list(X.columns)}")
    print(f"Variable objetivo: {y.name}")
    
    # Crear y entrenar modelo
    model = LinearRegression()
    model.fit(X, y)
    
    # Hacer predicciones
    predicciones = model.predict(X).round(1)
    
    # Verificar que las predicciones son válidas
    if np.isnan(predicciones).any():
        raise ValueError("El modelo produjo predicciones NaN")
    
    # Calcular métricas
    rmse = np.sqrt(mean_squared_error(y, predicciones))
    r2 = r2_score(y, predicciones)
    mae = mean_absolute_error(y, predicciones)
    
    print("✅ Modelo entrenado exitosamente")
    
except Exception as e:
    print(f"❌ ERROR en entrenamiento: {e}")
    print("Verificar que los datos estén correctos")

=== ENTRENANDO MODELO ===
Variables predictoras: ['Superficie_m2', 'Num_Habitaciones', 'Distancia_Metro_km']
Variable objetivo: Precio_UF
✅ Modelo entrenado exitosamente


# Imprimiendo resultados de datos

In [104]:
print("Precios actuales vs Predicciones:")
for actual, pred in zip(y, predicciones):
    print(f"Actual: {actual} UF, Predicción: {pred} UF")

print("Coeficientes del modelo:")
for feature, coef in zip(X.columns, model.coef_):
    print(f"  {feature}: {coef:.2f}")
print(f"Intercepto: {model.intercept_:.2f}")

print("=== EVALUACIÓN DEL MODELO ===")
print(f"R² (coeficiente de determinación): {r2:.3f}")
print(f"RMSE (error cuadrático medio): {rmse:.2f} UF")
print(f"MAE (error absoluto medio): {mae:.2f} UF")


Precios actuales vs Predicciones:
Actual: 2500 UF, Predicción: 2499.7 UF
Actual: 3800 UF, Predicción: 3803.0 UF
Actual: 3500 UF, Predicción: 3502.5 UF
Actual: 5200 UF, Predicción: 5197.3 UF
Actual: 2100 UF, Predicción: 2097.5 UF
Coeficientes del modelo:
  Superficie_m2: 64.39
  Num_Habitaciones: 52.89
  Distancia_Metro_km: -53.47
Intercepto: -746.10
=== EVALUACIÓN DEL MODELO ===
R² (coeficiente de determinación): 1.000
RMSE (error cuadrático medio): 2.40 UF
MAE (error absoluto medio): 2.20 UF
