# Regresión lineal múltiple

Un modelo estadístico lineal que relaciona una respuesta aleatoria $Y$ con un conjunto de medidas independientes $x_1, x_2,\dots, x_n$ se expresa de la forma

$$
Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon
$$

donde $\beta_0, \beta_1, \dots \beta_n$ son parámetros desconocidos, $\epsilon$ es una variable aleatoria y las variables $x_1, x_2, \dots, x_n$ toman valores conocidos. 

Se supone que $E[ \epsilon ]=0$ y $V[ \epsilon ] = \sigma^2$. Por tanto:

$$
E [Y] = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n
$$

Para ajustar el modelo se deben estimar los parámetros.

= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =           CÓMO ?            = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =

#### Método de Mínimos Cuadrados

###### Caso Simple

$$
E [Y] = \beta_0 + \beta_1 x_1 
$$

Si $\hat{\beta_0}$ y $\hat{\beta_1}$ son los estimadores de los parámetros $\beta_0$ y $\beta_1$ entonces  

$$
\hat{Y} = \hat{\beta_0} + \hat{\beta_0} x 
$$

es un estimador de $E[Y]$.

#### Suma de cuadrados del error - SSE

$$
\mbox{SSE} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} [y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i)]^2 
$$

#### Ecuaciones de mínimos cuadrados SSE

$$
\frac{\partial \; \mbox{SSE}}{\partial \hat{\beta_0}} = 0 \;\;\;\; \mbox{y} \;\;\;\; \frac{\partial \; \mbox{SSE}}{\partial \hat{\beta_1}} = 0
$$

#### Estimadores de mínimos cuadrados caso SIMPLE

$$
\hat{\beta_1} = \frac{S_{xy}}{S_{xx}}
$$

$$
\hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x}
$$

donde 

$$
S_{xy} = \sum_{i=1}^n (x_i - \bar{x})\;(y_i - \bar{y}) \;\;\;\; \mbox{y} \;\;\;\; S_{xx} = \sum_{i=1}^n (x_i - \bar{x})^2
$$

# Quis

###### 1.

Use el método de mínimos cuadrados para ajustar una recta a los $n=5$ puntos de datos dados en la tabla (los datos están disponibles en dataframe o en array):

In [1]:
import pandas as pd

In [2]:
d = {'col1': [-2, -1, 0, 1, 2], 
     'col2': [ 0,  0, 1, 1, 3]
    }

In [3]:
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,-2,0
1,-1,0
2,0,1
3,1,1
4,2,3


In [4]:
dd = np.array([[-2,0],
              [-1, 0],
              [ 0, 1],
              [ 1, 1],
              [ 2, 3]]
             )
dd

NameError: name 'np' is not defined

###### 2.

Los datos de la muestra presentan suficiente evidencia para indicar que la pendiente
difiere de 0? Pruebe usando $\alpha = 0.05$ y establezca los límites para el nivel de significancia
alcanzado.

# Extensión a más dimensiones

Paquete principal de python para este módulo: "statsmodels"

"statsmodels" usa internamente otro paquete llamado " patsy " 

https://patsy.readthedocs.io/en/latest/

In [2]:
import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.graphics.api as smg

In [3]:
import patsy

In [4]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

In [5]:
from scipy import stats

#### Situación problema

Se tienen los siguientes datos observados de la variable respuesta y = [1, 2, 3, 4, 5]

con dos variables independientes con los siguientes valores $x_1$ = [6, 7, 8, 9, 10] y $x_2$ = [11, 12, 13, 14, 15],

Se desea ajustar el siguiente modelo:

$$
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_1 X_2
$$

Entonces la matriz de diseño para el lado derecho de la ecuación es $X = [{\bf{1}} , X_1, X_2, X_1 X_2]$

Construcción de la matriz de diseño:

In [10]:
y = np.array([1, 2, 3, 4, 5])
x1 = np.array([6, 7, 8, 9, 10])
x2 = np.array([11, 12, 13, 14, 15])
X  = np.vstack((np.ones(5), x1, x2, x1*x2)).T
X

array([[  1.,   6.,  11.,  66.],
       [  1.,   7.,  12.,  84.],
       [  1.,   8.,  13., 104.],
       [  1.,   9.,  14., 126.],
       [  1.,  10.,  15., 150.]])

In [12]:
#solucion usando solamente numpy https://numpy.org/doc/stable/reference/generated/numpy.linalg.lstsq.html
beta, res, rank, sval = np.linalg.lstsq(X,y)

  from ipykernel import kernelapp as app


In [13]:
beta

array([-5.55555556e-01,  1.88888889e+00, -8.88888889e-01, -1.11022302e-15])

In [17]:
y = np.array([0, 0, 1, 1, 3])
x1 = np.array([-2, -1, 0, 1, 2])
X  = np.vstack((np.ones(5), x1)).T
X

array([[ 1., -2.],
       [ 1., -1.],
       [ 1.,  0.],
       [ 1.,  1.],
       [ 1.,  2.]])

In [18]:
beta, res, rank, sval = np.linalg.lstsq(X,y)
beta

  if __name__ == '__main__':


array([1. , 0.7])

In [19]:
res

array([1.1])

In [24]:
((y - X.dot(beta))**2).sum()

1.1000000000000003

In [27]:
dat = pd.DataFrame({"x1":x1 , "y":y})

#### Pasos para el uso de patsy

1. crear un instacia del modelo

2. ajustar el modelo a los datos

3. presentar los resultados

4. analizar los parámetros y los residuos

5. visualizar los resultados del ajuste (en caso que sea posible)

In [31]:
# No hay que ingresarle el vector de 1
model = smf.ols("y ~ x1", dat)

In [29]:
result = model.fit()

In [30]:
print(result.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.817
Model:                            OLS   Adj. R-squared:                  0.756
Method:                 Least Squares   F-statistic:                     13.36
Date:                Fri, 22 May 2020   Prob (F-statistic):             0.0354
Time:                        21:08:33   Log-Likelihood:                -3.3094
No. Observations:                   5   AIC:                             10.62
Df Residuals:                       3   BIC:                             9.838
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      1.0000      0.271      3.693      0.0



El resultado producido por en la pantalla de resumen es bastante detallado, y una descripción detallada de toda la información 
proporcionada por este método se escapa de nuestro alcance. Especial atención de debe tomar en el parámtero $R^2$.

El valor R cuadrado es una estadística que indica qué tan bien el modelo se ajusta a los datos. Puede tomar valores entre 0 y 1, donde una estadística R al cuadrado de 1 corresponde a un ajuste perfecto.

In [32]:
result.rsquared

0.8166666666666667

In [0]:
La columna $p>|t|$ proporciona el valor $p$. 

En la siguiente tabla tabulada la variable respuesta $Y$ es la primera columna y las otras siete variables $X_1, X_2, X_3, X_4, X_5, X_6, X_7$ son las variables independientes.


Se requiere calcular la regresión de la variable $X_2$ con respecto a $X_3, X_4, X_5, X_6, X_7$. Y encontrar el estadístico de ajuste $R^2$. 

In [6]:
Data = [[0, 159, 49,   36,     68,     42,   57,   40],
        [1, 164, 62,   39,     73,     44,   55,   44],
        [0, 172, 65,   38,     75,     48,   58,   44],
        [0, 167, 52,   37,     73,   41.5,   58,   44],
        [0, 164, 51,   36,     71,   44.5,   54,   40], 
        [0, 161, 67,   38,     71,     44,   56,   42], 
        [0, 168, 48,   39,   72.5,     41,   54.5, 43], 
        [1, 181, 74,   43,     74,     50,   60,   47],
        [1, 183, 74,   41,     79,   47.5,   59.5, 47],
        [0, 158, 50,   36,   68.5,     44,   57,   41],
        [0, 156, 65,   36,     68,     46,   58,   41],
        [1, 173, 64,   40,     79,     48,   56.5, 47],
        [0, 158, 43,   36,     68,     43,   55,   39], 
        [1, 178, 74,   42,     75,     50,   59,   45], 
        [1, 181, 76,   43,     83,     51,   57,   43], 
        [1, 182, 91,   41,     83,     53,   59,   43], 
        [1, 176, 73,   42,     78,     48,   58,   45], 
        [0, 162, 68,   39,     72,     44,   59,   42], 
        [0, 156, 52,   36,     67,     36,   56,   41], 
        [0, 152, 45,   34,     66,     40,   55,   38], 
        [1, 181, 80,   43,     76,     49,   57,   46], 
        [1, 173, 69,   41,     74,     48,   56,   44], 
        [0, 155, 53,   36,     67,     43,   56,   38], 
        [1, 189, 87,   45,     82,     53,   61,   52], 
        [0, 170, 70,   38,     73,     45,   56,   43], 
        [1, 170, 67,   40,     77,   46.5,   58,   44.5],
        [0, 168, 56, 37.5,   70.5,     48,   60,   40]
       ]

# SOLUCION : 

In [7]:
data = np.array(Data)
x1 = data[:,1]
data = pd.DataFrame({"x1":data[:,1], "x2":data[:,2],"x3":data[:,3], "x4":data[:,4], "x5":data[:,5], "x6":data[:,6], "x7":data[:,7]})
model = smf.ols("x1 ~ x2 + x3 + x4 + x5 + x6 + x7", data)
result = model.fit()
print(result.summary())

OLS Regression Results                            
Dep. Variable:                     x1   R-squared:                       0.930
Model:                            OLS   Adj. R-squared:                  0.910
Method:                 Least Squares   F-statistic:                     44.56
Date:                Sat, 23 May 2020   Prob (F-statistic):           1.55e-10
Time:                        07:33:00   Log-Likelihood:                -64.518
No. Observations:                  27   AIC:                             143.0
Df Residuals:                      20   BIC:                             152.1
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.9164     26.215      0.035      0.972     -53.768      55.600
x