
# Regresión Lineal: Conceptos Claves y Modelado

## 1. Asociación entre Variables

En estadística, la correlación mide la fuerza de asociación entre dos variables. Sin embargo, en muchas aplicaciones prácticas, es necesario evaluar la relación entre una variable y un conjunto de variables predictoras. 

En los mercados financieros, los operadores pueden estimar los cambios de precios utilizando información previa, como el historial de volumen y variaciones de precios. Para ello, se construyen modelos matemáticos que relacionan una variable dependiente (respuesta) con varias variables independientes (predictoras). El modelo más utilizado es el **modelo de regresión lineal**.

## 2. Modelo de Regresión Lineal Simple

El modelo de regresión lineal simple considera una sola variable predictora. La ecuación general del modelo es:

$$
Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i
$$

donde:
- $Y_i$ es la variable de respuesta.
- $X_i$ es la variable predictora.
- $\beta_0$ es el intercepto.
- $\beta_1$ es el coeficiente de pendiente.
- $\varepsilon_i$ es el término de error.



Se hacen ciertas **suposiciones** sobre el modelo:
1. **Linealidad**: la media de \(Y\) está linealmente determinada por \(X\).
2. **Independencia**: los valores de \(Y\) son independientes entre sí.
3. **Normalidad**: los residuos \(\varepsilon\) siguen una distribución normal.
4. **Varianza constante (homocedasticidad)**: la varianza de \(Y\) es constante para todos los valores de \(X\).

## 3. Estimación de Parámetros

Como no conocemos los verdaderos valores de $\beta_0$ y $\beta_1$, se estiman a partir de una muestra usando el **método de mínimos cuadrados ordinarios (OLS)**, que minimiza la suma de los errores cuadráticos:

$$
SSE = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2
$$

Donde:
- $SSE$ es la **suma de los errores al cuadrado**.
- $Y_i$ es el valor **real** de la variable dependiente.
- $ \hat{Y}_i $ (GuessResponse) es el valor **estimado** por el modelo.
- $n$ es el **número de observaciones**.


Las estimaciones para $\beta_0$ y $\beta_1$ son:

$$
\hat{\beta}_1 = \frac{\sum (X_i - \bar{X}) (Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2}
$$

$$
\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}
$$

## 4. Bondad de Ajuste: Coeficiente de Determinación $R^2$

El coeficiente \$R^2$ mide la proporción de la variabilidad de \(Y\) explicada por el modelo:

$$
R^2 = 1 - \frac{SSE}{SST}
$$

donde:
- $SSE$ es la suma de los errores cuadráticos.
- $SST = \sum (Y_i - \bar{Y})^2$ es la variabilidad total de $Y$.
- $SSR = \sum (\hat{Y}_i - \bar{Y})^2$ es la variabilidad explicada por el modelo.

Si $R^2$ es cercano a 1, significa que el modelo explica bien la variabilidad de los datos.

La relación entre estos términos se expresa como: SST=SSR+SSE

## 5. Inferencia Estadística sobre los Coeficientes

Para evaluar si $X$ es un buen predictor de $Y$, se realiza una prueba de hipótesis sobre $\hat{\beta}_1$:

- **Hipótesis nula**: $H_0: \beta_1 = 0$ (no hay relación lineal).
- **Hipótesis alternativa**: $H_1: \beta_1 \neq 0$.

Se calcula el estadístico de prueba:

$$
T = \frac{\hat{\beta}_1}{S_{\hat{\beta}_1}}
$$

donde $S_{\hat{\beta}_1}$ es el error estándar de $\hat{\beta}_1$. Este estadístico sigue una distribución \(t\) con $(n - 2)$ grados de libertad.

Si el valor $p$ asociado es pequeño (menor que 0.05), se rechaza $H_0$, indicando que $X$ tiene un impacto significativo en $Y$.


## 6. Implementación en Python con `statsmodels`

Usamos la librería `statsmodels` para estimar los parámetros del modelo:

```python
import statsmodels.api as sm
import pandas as pd

# Cargar datos (ejemplo ficticio)
data = pd.read_csv("housing_data.csv")
X = data["RM"]  # Variable predictora
Y = data["MEDV"]  # Variable de respuesta

# Agregar constante para el intercepto
X = sm.add_constant(X)

# Ajustar modelo
model = sm.OLS(Y, X).fit()
print(model.summary())
```

## 7. Interpretación de Resultados

1. **Coeficiente de pendiente**: Indica el cambio esperado en \(Y\) por cada unidad de cambio en \(X\).
2. **P-valor**: Si es menor a 0.05, el predictor es significativo.
3. **R-cuadrado**: Cuanto mayor sea, mejor explica el modelo la variabilidad de \(Y\).

Si el modelo tiene un $R^2$ bajo, puede ser necesario agregar más variables predictoras y usar **regresión lineal múltiple**.


