In [None]:
# Importar las bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Cargar el conjunto de datos de Boston Housing
boston = load_boston()
data = pd.DataFrame(boston.data, columns=boston.feature_names)
data['PRICE'] = boston.target

# Seleccionar características y la variable objetivo
X = data[['RM']]  # Usaremos solo la característica 'RM' (número de habitaciones)
y = data['PRICE']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train, y_train)

# Realizar predicciones
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)

# Calcular el error cuadrático medio
train_mse = mean_squared_error(y_train, y_train_pred)
test_mse = mean_squared_error(y_test, y_test_pred)

# Imprimir los resultados
print(f'Error cuadrático medio en el conjunto de entrenamiento: {train_mse}')
print(f'Error cuadrático medio en el conjunto de prueba: {test_mse}')

# Gráfico de dispersión de los datos de entrenamiento y la línea de regresión
plt.figure(figsize=(10, 6))
plt.scatter(X_train, y_train, color='blue', label='Datos de entrenamiento')
plt.scatter(X_test, y_test, color='green', label='Datos de prueba')
plt.plot(X_train, y_train_pred, color='red', linewidth=2, label='Línea de regresión')
plt.xlabel('Número de habitaciones (RM)')
plt.ylabel('Precio de la casa (PRICE)')
plt.title('Regresión lineal en el conjunto de datos de Boston Housing')
plt.legend()
plt.show()
