In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import statsmodels.api as sm
from scipy import stats

In [None]:
# Cargar el dataset de Boston Housing
boston = load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['MEDV'] = boston.target  # MEDV es el precio medio de la vivienda (variable dependiente)

# Seleccionar una variable independiente para regresión lineal simple (puedes experimentar con otras)
X = df[['LSTAT']]  # Porcentaje de población de bajo estatus
y = df['MEDV']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Resultados de la Regresión Lineal:")
print(f"Error Cuadrático Medio (MSE): {mse:.2f}")
print(f"Coeficiente de Determinación (R^2): {r2:.2f}")
print(f"Intercepto (beta_0): {model.intercept_:.2f}")
print(f"Pendiente (beta_1): {model.coef_[0]:.2f}")

# Comprobación de algunos supuestos (visualización)

# 1. Linealidad (Gráfico de dispersión)
plt.figure(figsize=(8, 6))
sns.scatterplot(x=X_test['LSTAT'], y=y_test)
plt.plot(X_test['LSTAT'], y_pred, color='red', linewidth=2)
plt.title('Relación entre LSTAT y MEDV (con línea de regresión)')
plt.xlabel('Porcentaje de población de bajo estatus (LSTAT)')
plt.ylabel('Precio medio de la vivienda (MEDV)')
plt.show()

# 2. Linealidad (Gráfico de residuos vs. valores ajustados)
residuals = y_test - y_pred
plt.figure(figsize=(8, 6))
sns.scatterplot(x=y_pred, y=residuals)
plt.axhline(y=0, color='red', linestyle='--')
plt.title('Gráfico de Residuos vs. Valores Ajustados')
plt.xlabel('Valores Ajustados')
plt.ylabel('Residuos')
plt.show()

# 3. Homocedasticidad (Visualización de la dispersión de residuos)
plt.figure(figsize=(8, 6))
sns.scatterplot(x=y_pred, y=np.abs(residuals)) # Usamos el valor absoluto para ver la dispersión
plt.title('Gráfico de Dispersión de Residuos (para Homocedasticidad)')
plt.xlabel('Valores Ajustados')
plt.ylabel('|Residuos|')
plt.show()

# 4. Normalidad de los residuos (Histograma y Q-Q plot)
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
sns.histplot(residuals, kde=True)
plt.title('Histograma de Residuos')
plt.xlabel('Residuos')
plt.ylabel('Frecuencia')

plt.subplot(1, 2, 2)
stats.probplot(residuals, plot=plt)
plt.title('Gráfico de Probabilidad Normal (Q-Q Plot)')
plt.show()

# También puedes obtener un resumen más completo del modelo con statsmodels para una inspección más detallada de los supuestos
X_train_sm = sm.add_constant(X_train) # Agregar una constante para el intercepto
model_sm = sm.OLS(y_train, X_train_sm).fit()
print("\nResumen del modelo con statsmodels:")
print(model_sm.summary())