# Regresión Lineal

\begin{equation}
    y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k + \epsilon
\end{equation}

donde:

$y$ es la variable dependiente que queremos predecir o explicar.

$x_1, x_2, \ldots, x_k$ son las variables independientes o explicativas.

$\beta_0, \beta_1, \beta_2, \ldots, \beta_k$ son los coeficientes del modelo que necesitamos estimar.

$\epsilon$ es el término de error que encapsula todos los otros factores que influyen en $y$ pero no están incluidos en el modelo.


El coeficiente $\beta_0$ representa el valor esperado de $y$ cuando todas las variables independientes son igual a cero. Los coeficientes $\beta_1, \beta_2, \ldots, \beta_k$ representan el cambio esperado en la variable dependiente $y$ por cada unidad de cambio en las variables independientes $x_1, x_2, \ldots, x_k$, respectivamente.

El método más común para estimar los coeficientes del modelo de regresión lineal es el método de mínimos cuadrados ordinarios (MCO). Este método busca minimizar la suma de los cuadrados de los errores, es decir, la diferencia entre los valores observados y los valores predichos por el modelo.

In [None]:
%pip install scikit-learn

In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
df = pd.read_stata('graduation_rate.dta')
df.columns

# Seleccionando las variables predictoras y la variable objetivo
x = df[['Parental_income']]  # Asegúrate de que X sea un DataFrame, no una Serie
y = df['college_gpa']

# Crear el modelo de regresión lineal para regresión simple
model = LinearRegression()
model.fit(x, y)

# Realizar predicciones sobre el mismo conjunto de datos
Y_pred= model_simple.predict(x)

# Evaluar el modelo simple
mse = mean_squared_error(y, Y_pred_simple)
r2 = r2_score(y, Y_pred_simple)


In [None]:
%pip install statsmodels

In [32]:
import statsmodels.api as sm
# Regresión lineal simple
X_simple = df[['Parental_income']]  # Asegúrate de añadir una constante para el intercepto
X_simple = sm.add_constant(X_simple)
Y = df['college_gpa']
model_simple = sm.OLS(Y, X_simple).fit()
print("Resumen de la regresión lineal simple:")
print(model_simple.summary())

Resumen de la regresión lineal simple:
                            OLS Regression Results                            
Dep. Variable:            college_gpa   R-squared:                       0.215
Model:                            OLS   Adj. R-squared:                  0.215
Method:                 Least Squares   F-statistic:                     547.1
Date:                Fri, 19 Apr 2024   Prob (F-statistic):          3.78e-107
Time:                        10:45:01   Log-Likelihood:                 283.03
No. Observations:                2000   AIC:                            -562.1
Df Residuals:                    1998   BIC:                            -550.9
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                      coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------
con