In [1]:
# Importamos las herramientas necesarias
from sklearn.datasets import fetch_california_housing # El dataset (la cantera)
from sklearn.model_selection import train_test_split # Para dividir la parcela
from sklearn.linear_model import LinearRegression    # La m√°quina (el modelo)
from sklearn.metrics import mean_squared_error       # El metro para medir errores
import pandas as pd                                  # Para manejar tablas (Excel vitaminado)
import numpy as np                                   # Matem√°ticas de alto rendimiento

print("Herramientas cargadas correctamente.")

Herramientas cargadas correctamente.


In [4]:
# CELDA 2: Generaci√≥n de Datos Sint√©ticos (Modo Offline)
import pandas as pd
import numpy as np

print("‚ö†Ô∏è Acceso a internet bloqueado. Iniciando generador de datos sint√©ticos...")

# 1. Definimos las columnas EXACTAS del dataset original de California
# Esto es crucial para que el resto de tu c√≥digo no se rompa.
columnas = [
    "MedInc",      # Ingreso medio
    "HouseAge",    # Edad de la casa
    "AveRooms",    # Habitaciones promedio
    "AveBedrms",   # Dormitorios promedio
    "Population",  # Poblaci√≥n
    "AveOccup",    # Ocupaci√≥n promedio
    "Latitude",    # Latitud
    "Longitude",   # Longitud
    "MedHouseVal"  # PRECIO (Objetivo)
]

# 2. Fabricamos 1000 filas de datos aleatorios
# Usamos una semilla (42) para que siempre salgan los mismos n√∫meros
np.random.seed(42)
datos_falsos = np.random.rand(1000, 9)

# 3. Ajustamos un poco los valores para que parezcan reales (escalado)
# El precio (MedHouseVal) en el original va de 0 a 5.
df = pd.DataFrame(datos_falsos, columns=columnas)
df["MedHouseVal"] = df["MedHouseVal"] * 5  
df["HouseAge"] = df["HouseAge"] * 50       # Casas de 0 a 50 a√±os
df["MedInc"] = df["MedInc"] * 10           # Ingresos de 0 a 10

print("‚úÖ Datos sint√©ticos generados en sitio.")
print(f"üì¶ Dimensiones del terreno simulado: {df.shape}")
print("Columnas:", df.columns.tolist())

‚ö†Ô∏è Acceso a internet bloqueado. Iniciando generador de datos sint√©ticos...
‚úÖ Datos sint√©ticos generados en sitio.
üì¶ Dimensiones del terreno simulado: (1000, 9)
Columnas: ['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude', 'MedHouseVal']


In [5]:
# Muestra las primeras 5 filas para ver qu√© tipo de datos tenemos
df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,3.745401,47.535715,0.731994,0.598658,0.156019,0.155995,0.058084,0.866176,3.005575
1,7.080726,1.029225,0.96991,0.832443,0.212339,0.181825,0.183405,0.304242,2.623782
2,4.31945,14.561457,0.611853,0.139494,0.292145,0.366362,0.45607,0.785176,0.998369
3,5.142344,29.620728,0.04645,0.607545,0.170524,0.065052,0.948886,0.965632,4.041987
4,3.046138,4.883606,0.684233,0.440152,0.122038,0.495177,0.034389,0.90932,1.2939


In [6]:
# 1. Separamos X (Caracter√≠sticas) de y (Objetivo/Precio)
X = df.drop("MedHouseVal", axis=1)  # Todo MENOS el precio
y = df["MedHouseVal"]               # SOLO el precio

# 2. Dividimos: 80% para entrenar (Train), 20% para examen final (Test)
# random_state=42 es la "semilla" para que la divisi√≥n sea siempre id√©ntica (reproducibilidad)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Datos de entrenamiento: {X_train.shape}")
print(f"Datos de prueba: {X_test.shape}")

Datos de entrenamiento: (800, 8)
Datos de prueba: (200, 8)


In [7]:
# Inicializamos el modelo (Regresi√≥n Lineal simple)
model = LinearRegression()

# Entrenamos el modelo con los datos de entrenamiento (fit = ajustar/entrenar)
print("Entrenando modelo...")
model.fit(X_train, y_train)
print("¬°Modelo entrenado!")

Entrenando modelo...
¬°Modelo entrenado!


In [8]:
# Hacemos predicciones sobre los datos de prueba
predictions = model.predict(X_test)

# Calculamos el error (Diferencia entre la realidad y la predicci√≥n)
mse = mean_squared_error(y_test, predictions)
rmse = np.sqrt(mse) # Ra√≠z cuadrada para tenerlo en las mismas unidades (d√≥lares/100k)

print(f"Error Cuadr√°tico Medio (MSE): {mse:.4f}")
print(f"Error Medio (RMSE): {rmse:.4f}")

# Explicaci√≥n del resultado
print("\nInterpretaci√≥n:")
print(f"El modelo se equivoca, en promedio, en {rmse:.4f} unidades de valor.")
print("(Recordatorio: 1 unidad = $100,000, as√≠ que el error es de unos $" + str(int(rmse*100000)) + ")")

Error Cuadr√°tico Medio (MSE): 2.5383
Error Medio (RMSE): 1.5932

Interpretaci√≥n:
El modelo se equivoca, en promedio, en 1.5932 unidades de valor.
(Recordatorio: 1 unidad = $100,000, as√≠ que el error es de unos $159321)
