# Regresión Lineal Simple

In [None]:
# Librerías necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import KFold



In [None]:
# Configuración inicial

np.random.seed(42)
n_samples = 100
X = 2 * np.random.rand(n_samples, 1)
y = 4 + 3 * X + np.random.randn(n_samples, 1)
data = pd.DataFrame(data=np.hstack((X, y)), columns=['X', 'y'])


In [None]:
# Visualización de los datos
plt.scatter(data['X'], data['y'])
plt.xlabel('X')
plt.ylabel('y')
plt.title('Datos Sintéticos para Regresión Lineal Simple')
plt.show()

In [None]:
# Recta lineal de ejemplo generada manualmente
plt.scatter(data['X'], data['y'])
plt.plot([0, 2], [4, 10], color='red', linestyle='--')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Ejemplo de Regresión Lineal')
plt.show()

In [None]:
# Visualización de los residuos de la línea dibujada manualmente
for i in range(len(data)):
    plt.plot([data['X'][i], data['X'][i]], [data['y'][i], 4 + 3 * data['X'][i]], color='gray', linestyle='--', linewidth=0.5)
plt.scatter(data['X'], data['y'])
plt.plot([0, 2], [4, 10], color='red', linestyle='--')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Ejemplo de Regresión Lineal con Residuos')
plt.show()

In [None]:
# Suma de los errores al cuadrado (SSE) a la linea que dibujamos
sse = np.sum((data['y'] - (4 + 3 * data['X']))**2)
print(f'Suma de los errores al cuadrado (SSE) para la línea dibujada: {sse:.2f}')


In [None]:
# Mejor línea de ajuste usando regresión lineal de sklearn vs la línea dibujada manualmente
model = LinearRegression()
model.fit(data[['X']], data['y'])
y_pred = model.predict(data[['X']])
plt.scatter(data['X'], data['y'])
plt.plot(data['X'], y_pred, color='blue', label='Mejor ajuste (Regresión Lineal)')
plt.plot([0, 2], [4, 10], color='red', linestyle='--', label='Línea dibujada inicialmente')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Mejor Ajuste vs Línea Dibujada')
plt.legend()
plt.show()


In [None]:
# Comparación SSE de la línea dibujada vs la recta de mejor ajuste
sse_best = np.sum((data['y'] - y_pred)**2)

print(f'Suma de los errores al cuadrado (SSE) para la línea dibujada: {sse:.2f}')
print(f'Suma de los errores al cuadrado (SSE) para la mejor línea de ajuste: {sse_best:.2f}')
print(f'Reducción en SSE al usar la mejor línea de ajuste: {sse - sse_best:.2f}')


In [None]:
# Residuos para la mejor línea de ajuste
residuals = data['y'] - y_pred
plt.scatter(data['X'], residuals)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel('X')
plt.ylabel('Residuos')
plt.title('Residuos de la Mejor Línea de Ajuste')
plt.show()


In [None]:
# Verificación de suspuestos de los residuos

# 1. Promedio de los residuos es cero
print(f'Promedio de los residuos: {np.mean(residuals):.2f}')

# 2. Varianza de los residuos es constante (homocedasticidad)
print(f'Varianza de los residuos: {np.var(residuals):.2f}')

# 3. Los residuos siguen una distribución normal (se puede verificar con un histograma o un Q-Q plot)
plt.hist(residuals, bins=15, edgecolor='k', alpha=0.7)
plt.xlabel('Residuos')
plt.ylabel('Frecuencia')
plt.title('Histograma de los Residuos')
plt.show()



In [None]:
# División del dataset en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(data[['X']], data['y'], test_size=0.2, random_state=42)
print(f'Tamaño del conjunto de entrenamiento: {X_train.shape[0]} muestras')
print(f'Tamaño del conjunto de prueba: {X_test.shape[0]} muestras')


In [None]:
# Ajuste del modelo de regresión lineal al conjunto de entrenamiento
model = LinearRegression()
model.fit(X_train, y_train)

# Predicciones en el conjunto de prueba
y_pred_test = model.predict(X_test)

# Evaluación del modelo
mse = mean_squared_error(y_test, y_pred_test)
r2 = r2_score(y_test, y_pred_test)
print(f'Mean Squared Error (MSE) en el conjunto de prueba: {mse:.2f}')
print(f'R² en el conjunto de prueba: {r2:.2f}')

# Visualización de las predicciones vs valores reales en el conjunto de prueba
plt.scatter(X_test, y_test, color='blue', label='Valores Reales')
plt.scatter(X_test, y_pred_test, color='red', label='Predicciones', marker='x')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Predicciones vs Valores Reales en el Conjunto de Prueba')
plt.legend()
plt.show()


In [None]:
# Línea desde la recta de mejor ajuste y el conjunto de prueba

for i in range(len(X_test)):
    plt.plot([X_test.iloc[i, 0], X_test.iloc[i, 0]], [y_test.iloc[i], y_pred_test[i]], color='gray', linestyle='--', linewidth=0.5)
plt.scatter(X_test, y_test, color='blue', label='Valores Reales')
plt.scatter(X_train, y_train, color='lightgray', label='Datos de Entrenamiento', alpha=0.5)
plt.plot(data['X'], y_pred, color='blue', label='Mejor ajuste (Regresión Lineal)')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Predicciones vs Valores Reales en el Conjunto de Prueba')
plt.legend()
plt.show()



In [None]:
# Comparativa entre métricas calculadas en el conjunto de prueba y el conjunto de entrenamiento
mse_train = mean_squared_error(y_train, model.predict(X_train))
r2_train = r2_score(y_train, model.predict(X_train))
print(f'Mean Squared Error (MSE) en el conjunto de entrenamiento: {mse_train:.2f}')
print(f'R² en el conjunto de entrenamiento: {r2_train:.2f}')
print(f'Mean Squared Error (MSE) en el conjunto de prueba: {mse:.2f}')
print(f'R² en el conjunto de prueba: {r2:.2f}')


In [None]:
# Grafico del ground truth vs las predicciones del conjunto de prueba
plt.scatter(y_pred_test, y_test, color='blue', label='Valores Reales')
plt.xlabel('Predicted Values')
plt.ylabel('Ground Truth')
plt.title('Predicciones vs Valores Reales en el Conjunto de Prueba')
plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test )], color='red', linestyle='--', label='y = x')
plt.legend()
plt.show()


In [None]:
# Visualización del R^2 en la regresión lineal
plt.scatter(data['X'], data['y'], label='Datos Reales')
# Dibujo de la media de y
plt.axhline(y=np.mean(data['y']), color='green', linestyle='--',
            label='Media de y')
# Para uno de los puntos arbitrarios, dibuja la línea desde el punto hasta la media de y y desde el punto hasta la predicción
for i in range(len(data)):
    plt.plot([data['X'][i], data['X'][i]], [data['y'][i], np.mean(data['y'])], color='orange', linestyle='--', linewidth=0.5)
    plt.plot([data['X'][i], data['X'][i]], [data['y'][i], y_pred[i]], color='gray', linestyle='--', linewidth=0.5)

plt.plot(data['X'], y_pred, color='blue', label='Mejor ajuste (Regresión Lineal)')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Visualización del R² en la Regresión Lineal')
plt.legend()
plt.show()

In [None]:
# Ejecución de un cross-validation con K-Fold de 5 pliegues y cálculo de la métrica MSE para cada pliegue
kf = KFold(n_splits=5, shuffle=True, random_state=42)
mse_scores = []
r2_scores = []
for train_index, test_index in kf.split(data):
    X_train_kf, X_test_kf = data[['X']].iloc[train_index], data[['X']].iloc[test_index]
    y_train_kf, y_test_kf = data['y'].iloc[train_index], data['y'].iloc[test_index]
    model_kf = LinearRegression()
    model_kf.fit(X_train_kf, y_train_kf)
    y_pred_kf = model_kf.predict(X_test_kf)
    mse_kf = mean_squared_error(y_test_kf, y_pred_kf)
    mse_scores.append(mse_kf)
    r2_kf = r2_score(y_test_kf, y_pred_kf)
    r2_scores.append(r2_kf)
print(f'MSE para cada pliegue: {mse_scores}')
print(f'MSE promedio en los 5 pliegues: {np.mean(mse_scores):.2f}')

print(f'\n')

# R^2 para cada pliegue    
print(f'R^2 para cada pliegue: {r2_scores}')
print(f'R^2 promedio en los 5 pliegues: {np.mean(r2_scores):.2f}')

# Grafico comparativo de los MSE en cada pliegue
plt.bar(range(1, 6), mse_scores, color='skyblue')
plt.axhline(y=np.mean(mse_scores), color='red', linestyle='--', label='MSE Promedio')
plt.xlabel('Pliegue')
plt.ylabel('Mean Squared Error (MSE)')
plt.title('MSE en cada pliegue del K-Fold Cross-Validation')
plt.xticks(range(1, 6))
plt.ylim(0, max(mse_scores) + 1)
plt.show()

# Grafico comparativo de los R^2 en cada pliegue
plt.bar(range(1, 6), r2_scores, color='lightgreen')

plt.axhline(y=np.mean(r2_scores), color='red', linestyle='--', label='R² Promedio')
plt.xlabel('Pliegue')
plt.ylabel('R^2 Score')
plt.title('R^2 en cada pliegue del K-Fold Cross-Validation')
plt.xticks(range(1, 6))
plt.ylim(0, 1)
plt.show()