# 29_REGRESIÓN LINEAL

### Ley de Hooke 

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Generar datos: Fuerza (N) vs. Elongación (m)
np.random.seed(100)
X = np.linspace(1, 10, 50)  # Fuerza (N)
Y = 0.1 * X + np.random.normal(0, 0.02, 50)  # Elongación (m) con ruido

# Cálculo de los coeficientes
n = len(X)
X_mean, Y_mean = np.mean(X), np.mean(Y)
beta1 = np.sum((X - X_mean) * (Y - Y_mean)) / np.sum((X - X_mean) ** 2)
beta0 = Y_mean - beta1 * X_mean

# Predicciones
Y_pred = beta0 + beta1 * X

# Residuos
residuos = Y - Y_pred

# Gráfica
plt.scatter(X, Y, color="blue", label="Datos observados")
plt.plot(X, Y_pred, color="red", label="Línea de regresión")
plt.xlabel("Fuerza (N)")
plt.ylabel("Elongación (m)")
plt.legend()
plt.title("Regresión Lineal: Ley de Hooke")
plt.show()

print(f"Ecuación: Y = {beta0:.2f} + {beta1:.2f}X")
print(f"Residuos: {residuos}")

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Generar datos sintéticos: Fuerza (N) vs. Elongación (m)
np.random.seed(100)
X = np.linspace(1, 10, 50)  # Fuerza (N)
Y = 0.1 * X + np.random.normal(0, 0.02, 50)  # Elongación (m) con ruido

# Crear y entrenar el modelo
modelo = LinearRegression()
modelo.fit(X.reshape(-1, 1), Y)

# Predicciones y residuos
Y_pred = modelo.predict(X.reshape(-1, 1))
residuos = Y - Y_pred

print(f"Ecuación: Y = {modelo.intercept_:.2f} + {modelo.coef_[0]:.2f}X")
print(f"Residuos: {residuos}")
print()

# Gráfica
plt.scatter(X, Y, color="blue", label="Datos observados")
plt.plot(X, Y_pred, color="red", label="Línea de regresión")
plt.xlabel("Fuerza (N)")
plt.ylabel("Elongación (m)")
plt.legend()
plt.title("Regresión Lineal: Ley de Hooke")
plt.show()

In [None]:
# Gráfica de residuos
plt.scatter(X, residuos, color="gold", label="Residuos")
plt.axhline(y=0, color="green", linestyle="--", label="Línea de referencia")
plt.xlabel("Fuerza (N)")
plt.ylabel("Residuos")
plt.legend()
plt.title("Análisis de Residuos: Ley de Hooke")
plt.show()

# Histograma de residuos
plt.hist(residuos, bins=5, color="khaki", edgecolor="black")
plt.xlabel("Residuos")
plt.ylabel("Frecuencia")
plt.title("Distribución de Residuos")
plt.show()

### Cinética química

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Generamos datos. Concentración (mol/L) y Velocidad (mol/l·s)
np.random.seed(89)
X = np.linspace(0.1, 1.0, 50)  # Concentración
Y = 0.5 * X + np.random.normal(0, 0.05, 50)  # Velocidad con ruido

# Creamos el objeto y lo entrenamos
modelo = LinearRegression()
modelo.fit(X.reshape(-1, 1), Y)

# Coeficiente del modelo de regresión simple
beta0 = modelo.intercept_
beta1 = modelo.coef_[0]

# Predicción y residuos
Y_pred = modelo.predict(X.reshape(-1, 1))
residuos = Y - Y_pred

# Resultados
print(f"Ecuación: Y = {beta0:.2f} + {beta1:.2f}X")
print(f"Residuos: {residuos}")
print()

# Gráfica de la regresión lineal
plt.scatter(X, Y, color="blue", label="Datos observados")
plt.plot(X, Y_pred, color="orange", label="Línea de regresión")
plt.xlabel("Concentración (mol/L)")
plt.ylabel("Velocidad (mol/L·s)")
plt.legend()
plt.title("Regresión Lineal: Cinética Química")
plt.show()

# Gráfica de residuos
plt.scatter(X, residuos, color="green", label="Residuos")
plt.axhline(y=0, color="red", linestyle="--", label="Línea de referencia")
plt.xlabel("Concentración (mol/L)")
plt.ylabel("Residuos")
plt.legend()
plt.title("Análisis de Residuos: Cinética Química")
plt.show()

# Histograma de residuos
plt.hist(residuos, bins=10, color="orange", edgecolor="black")
plt.xlabel("Residuos")
plt.ylabel("Frecuencia")
plt.title("Distribución de Residuos")
plt.show()

### Regresión lineal inadecuada en Medicina

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from scipy import stats
import seaborn as sns

# Generamos datos no lineales para IMC y presión arterial sistólica
np.random.seed(42)
n_pacientes = 100

# Generamos IMC con distribución no normal
imc = np.concatenate(
    [
        np.random.normal(22, 2, 50),  # IMC normal
        np.random.normal(30, 3, 20),  # Sobrepeso/obesidad
        np.random.normal(35, 4, 30),  # Obesidad severa
    ]
)

# Modificamos la generación de presión para obtener r ≈ 0.7
ruido = np.random.normal(0, 10, n_pacientes) * (imc / 20)  # Ruido heterocedástico
presion = (
    90 + 2.5 * imc + (imc - 38) ** 2 * 0.1 + ruido
)  # Combinación lineal y no lineal

# Creamos DataFrame
datos = pd.DataFrame({"IMC": imc, "Presion_Sistolica": presion})

# Ajustamos regresión lineal
X = datos["IMC"].values.reshape(-1, 1)
y = datos["Presion_Sistolica"].values
modelo = LinearRegression()
modelo.fit(X, y)
y_pred = modelo.predict(X)

# Calculamos residuos
residuos = y - y_pred

# Calculamos coeficiente de correlación de Pearson
r = stats.pearsonr(imc, presion)[0]

# Creamos visualización con 3 gráficos
fig = plt.figure(figsize=(15, 5))
gs = plt.GridSpec(1, 3, figure=fig)

# 1. Gráfico de dispersión con línea de regresión
ax1 = fig.add_subplot(gs[0, 0])
ax1.scatter(X, y, alpha=0.5, color="blue")
ax1.plot(X, y_pred, color="red", linewidth=2)
ax1.set_xlabel("IMC")
ax1.set_ylabel("Presión Sistólica (mmHg)")
ax1.set_title(f"Dispersión y Regresión Lineal\nr = {r:.3f}")
ax1.grid(True, alpha=0.3)

# 2. Gráfico de residuos vs valores ajustados
ax2 = fig.add_subplot(gs[0, 1])
ax2.scatter(y_pred, residuos, alpha=0.5, color="green")
ax2.axhline(y=0, color="red", linestyle="--")
ax2.set_xlabel("Valores Predichos")
ax2.set_ylabel("Residuos")
ax2.set_title("Residuos vs Valores Predichos\nHeterocedasticidad")
ax2.grid(True, alpha=0.3)

# 3. Histograma de residuos
ax3 = fig.add_subplot(gs[0, 2])
sns.histplot(residuos, kde=True, ax=ax3, color="purple")
ax3.axvline(
    x=np.mean(residuos),
    color="red",
    linestyle="--",
    label=f"Media = {np.mean(residuos):.2f}",
)
ax3.set_xlabel("Residuos")
ax3.set_title("Distribución de Residuos\n(No es Normal)")
ax3.legend()

plt.suptitle(
    "Análisis de Regresión Lineal Inadecuada\nIMC vs Presión Arterial Sistólica",
    fontsize=14,
)
plt.tight_layout()
plt.show()

# Imprimimos estadísticas
print("\nEstadísticas del modelo:")
print(f"Coeficiente de correlación de Pearson (r): {r:.3f}")
print(f"Coeficiente de determinación (R²): {modelo.score(X, y):.3f}")
print(f"Pendiente: {modelo.coef_[0]:.3f}")
print(f"Intercepto: {modelo.intercept_:.3f}")
print(f"\nEstadísticas de residuos:")
print(f"Media de residuos: {np.mean(residuos):.3f}")
print(f"Desviación estándar de residuos: {np.std(residuos):.3f}")

## REGRESIÓN LINEAL MÚLTIPLE

### Rendimiento de un motor

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from mpl_toolkits.mplot3d import Axes3D

# Generar datos dispersos
np.random.seed(67)  # Fijar semilla para reproducibilidad
temp = np.random.uniform(80, 320, 35)  # Temperaturas entre 80°C y 320°C
pres = np.random.uniform(0.8, 3.5, 35)  # Presiones entre 0.8 atm y 3.5 atm
rend = (
    30 + 0.25 * temp + 5 * pres + np.random.normal(0, 5, 35)
)  # Rendimiento con variabilidad

# Convertir a formato adecuado para el modelo
X = np.column_stack((temp, pres))
Y = rend

# Crear y entrenar el modelo
modelo = LinearRegression()
modelo.fit(X, Y)

# Coeficientes del modelo
beta0 = modelo.intercept_  # Intercepto (beta0)
beta1, beta2 = modelo.coef_  # Coeficientes de temperatura y presión

# Predicciones
Y_pred = modelo.predict(X)
residuos = Y - Y_pred  # Cálculo de residuos

# Crear una malla para visualizar el plano de regresión
temp_range = np.linspace(80, 320, 25)  # Rango de temperatura más amplio
pres_range = np.linspace(0.8, 3.5, 25)  # Rango de presión más amplio
temp_mesh, pres_mesh = np.meshgrid(temp_range, pres_range)
rend_mesh = beta0 + beta1 * temp_mesh + beta2 * pres_mesh  # Plano de regresión

# Gráfica 3D con residuos
fig = plt.figure(figsize=(14, 10))
ax = fig.add_subplot(111, projection="3d")

# Puntos observados
ax.scatter(X[:, 0], X[:, 1], Y, color="blue", s=80, label="Datos observados")

# Plano de regresión
ax.plot_surface(temp_mesh, pres_mesh, rend_mesh, color="red", alpha=0.5)

# Dibujar los residuos como líneas desde los puntos observados al plano
for i in range(len(Y)):
    ax.plot(
        [X[i, 0], X[i, 0]],
        [X[i, 1], X[i, 1]],
        [Y[i], Y_pred[i]],
        color="black",
        linestyle="dashed",
    )

# Etiquetas
ax.set_xlabel("Temperatura (°C)")
ax.set_ylabel("Presión (atm)")
ax.set_title("Regresión Lineal en Dos Variables: Rendimiento del Motor con Residuos")
ax.legend()

plt.show()

# Resultados
print(
    f"Ecuación del plano: Rendimiento = {beta0:.2f} + {beta1:.2f}·Temperatura + {beta2:.2f}·Presión"
)
print(f"Residuos: {residuos}")