# Sesión 7: Introducción a la Regresión Lineal

\begin{equation}
    y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k + \epsilon
\end{equation}

donde:

$y$ es la variable dependiente que queremos predecir o explicar.

$x_1, x_2, \ldots, x_k$ son las variables independientes o explicativas.

$\beta_0, \beta_1, \beta_2, \ldots, \beta_k$ son los coeficientes del modelo que necesitamos estimar.

$\epsilon$ es el término de error que encapsula todos los otros factores que influyen en $y$ pero no están incluidos en el modelo.


El coeficiente $\beta_0$ representa el valor esperado de $y$ cuando todas las variables independientes son igual a cero. Los coeficientes $\beta_1, \beta_2, \ldots, \beta_k$ representan el cambio esperado en la variable dependiente $y$ por cada unidad de cambio en las variables independientes $x_1, x_2, \ldots, x_k$, respectivamente.

El método más común para estimar los coeficientes del modelo de regresión lineal es el método de mínimos cuadrados ordinarios (MCO). Este método busca minimizar la suma de los cuadrados de los errores, es decir, la diferencia entre los valores observados y los valores predichos por el modelo.

### Paquetes que usaremos en la sesión

In [None]:
%pip install pandas
%pip install scikit-learn
%pip install numpy
%pip install statsmodels

In [None]:
import pandas as pd
import statsmodels.api as sm

# Simular datos para el ejemplo
# Supongamos que estos son los precios y las demandas correspondientes
data = {
    'Precio': [10, 20, 30, 40, 50],
    'Demanda': [100, 80, 60, 40, 20]
}

# Crear un DataFrame usando pandas
df = pd.DataFrame(data)

# Definir la variable independiente y dependiente
X = df['Precio']  # Variable independiente (Precio)
Y = df['Demanda']  # Variable dependiente (Demanda)

# Añadir una constante a la variable independiente
X = sm.add_constant(X)

# Crear el modelo de regresión lineal
modelo = sm.OLS(Y, X).fit()

# Mostrar el resumen del modelo
print(modelo.summary())


In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Cargando los datos
df = pd.read_stata('graduation_rate.dta')

# Seleccionando las variables predictoras y la variable objetivo
x = df[['Parental_income']]  # Asegúrate de que X sea un DataFrame, no una Serie
y = df['college_gpa']

# Crear el modelo de regresión lineal para regresión simple
model = LinearRegression()
model.fit(x, y)

# Realizar predicciones sobre el mismo conjunto de datos
Y_pred = model.predict(x)

# Evaluar el modelo
mse = mean_squared_error(y, Y_pred)
r2 = r2_score(y, Y_pred)

# Mostrar los resultados de la evaluación
print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")

In [None]:
import statsmodels.api as sm
# Regresión lineal simple
X_simple = df[['Parental_income']]
X_simple = sm.add_constant(X_simple)
Y = df['college_gpa']
model_simple = sm.OLS(Y, X_simple).fit()
print("Resumen de la regresión lineal simple:")
print(model_simple.summary())

# Consideraciones sobre los modelos de regresión lineal

La regresión lineal es uno de los métodos estadísticos más utilizados en el análisis de datos. Este modelo es apreciado por su simplicidad y eficacia en describir relaciones lineales entre variables. Sin embargo, para que los resultados sean válidos, es crucial entender y verificar varias suposiciones subyacentes:

## Suposiciones clave de la regresión lineal

1. **Linearidad**: La relación entre las variables dependientes e independientes debe ser lineal.
2. **Homocedasticidad**: La varianza de los errores residuales debe ser constante en todos los niveles de las variables predictoras.
3. **Independencia de los errores**: Los errores en la predicción deben ser independientes entre sí.
4. **Normalidad de los errores**: Los errores deben distribuirse normalmente.

## Problemas comunes y soluciones

- **Multicolinealidad**: La correlación entre variables independientes puede distorsionar los estimados. Herramientas como el Factor de Inflación de la Varianza (VIF) pueden diagnosticar estas condiciones.
- **Outliers**: Puntos de datos atípicos pueden influir excesivamente en el modelo, requiriendo técnicas de detección y posiblemente su exclusión del análisis.
- **Errores no normales y heterocedásticos**: Transformaciones de datos o modelos robustos pueden ser necesarios para abordar estas cuestiones.