Existe una diferencia sustancial en el enfoque entre las pruebas de hipótesis y el modelado estadístico. Con las pruebas de hipótesis, normalmente uno comienza con una hipótesis nula.

Con base en la pregunta y los datos, se selecciona la prueba estadística apropiada, así como el nivel de significancia deseado, y se acepta o rechaza la hipótesis nula.

Por el contrario, el modelado estadístico generalmente implica un análisis más interactivo de los datos. Se comienza con una inspección visual de los datos, buscando correlaciones y / o relaciones. Con base en esta primera inspección, se selecciona un modelo estadístico que puede describir los datos. En casos simples, la relación en los datos se puede describir con un modelo lineal:

$y=k*x+d$

Luego

* se determinan los parámetros del modelo (por ejemplo, k y d),
* se evalúa la calidad del modelo,
* y se inspeccionan los residuos (es decir, los errores restantes) para verificar si el modelo propuesto ha omitido características esenciales en los datos.

Si los residuos son demasiado grandes, o si la inspección visual de los residuos muestra valores atípicos o sugiere otro modelo, el modelo se modifica. Este procedimiento se repite hasta que los resultados sean satisfactorios.

# Introduccion

La regresion lineal es un metodo que busca establecer una relacion lineal entre una variable llamada dependiente y una o mas variables llamadas independientes o regresores. Cuando se trata de una unica variable independiente, la llamaremos _regresion lineal simple_ , pero cuando tenemos mas de una variable independiente, la llamaremos _regresion lineal multiple_.

Dentro del campo de la ciencia de datos, los valores independientes recibiran tambien el nombre de _caracteristicas de entrada_ , y la variable dependiente se llamara _variable respuesta_ o simplemente _respuesta_.

##### Modelos de regresión lineal en Python

Dos de las implementaciones de modelos de regresión lineal más utilizadas en Python son: scikit-learn y statsmodels. Aunque ambas están muy optimizadas, Scikit-learn está orientada principalmente a la predicción, por lo que no dispone de apenas funcionalidades que muestren las muchas características del modelo que se deben analizar para hacer inferencia. Statsmodels es mucho más completo en este sentido. Adicionalmente, scikit-learn se usa principalmente en algoritmos de _machine learning_ en donde la seleccion de los parametros dependera de los patrones aprendidos por el algoritmo a partir de los datos de entrada.

**`ACLARACION`**

Llamaremos **_parametros_** a aquellos valores determinados por el algoritmo para realizar el mejor ajuste, ya sea este lineal o de otro tipo.

Llamaremos **_hiperparametros_** a aquellos valores que afectan al algoritmo, que no se pueden obtener a partir de los datos, y que por lo tanto tendremos que aprender a manipular para que el modelo se ajuste lo mejor posible. El tema de hiperparametros se manejara mas ampliamente en las tematicas de _machine learning_ y _deep learning_ , sin embargo en el tema actual no se manejara.

# Definicion matematica

El modelo de regresión lineal (Legendre, Gauss, Galton y Pearson) considera que, dado un conjunto de observaciones $\{ y_i,x_{i1},...,x_{np}\}_{i=1}^n$ , la variable respuesta  $y$  se relaciona de forma lineal con la o las variables independientes  $x_1  ...  x_p$  acorde a la ecuación:

$$y_i=\beta_0+\beta_1 x_{i1}+\beta_2 x_{i2}+...+\beta_p x_{ip}+\epsilon_i$$

En donde con la letra $i$ se hace referencia a una observacion concreta. El valor $\epsilon$ se agrega ya que la regresion nuca va a ser exacta.

La interpretación de los elementos es:

$\beta_0$ : es la ordenada en el origen o el corte en el eje $y$, se corresponde con el valor promedio de la variable respuesta  $y$  cuando todas  las variables independientes son cero.

$\beta_j$ : es el efecto promedio que tiene sobre la variable $y$ el incremento en una unidad de la variable independiente  $x_j$ , manteniéndose constantes el resto de variables. Se conocen como coeficientes parciales de regresión.

$\epsilon$ : es el residuo o error, la diferencia entre el valor observado y el estimado por el modelo. Recoge el efecto de todas aquellas variables que influyen en  $y$  pero que no se incluyen en el modelo como predictores. Lo usual es que sea mayor a cero, pero lo que se busca es que sea lo mas cercana a cero.

Los valores  $\beta_0$  y  $\beta_j$  poblacionales se desconocen, por lo que, a partir de una muestra, se obtienen sus estimaciones  $\hat{\beta}_0$  y  $\hat{\beta}_j$ . Ajustar el modelo consiste en estimar, a partir de los datos disponibles, los valores de los coeficientes de regresión que maximizan la verosimilitud (likelihood), es decir, los que dan lugar al modelo que con mayor probabilidad puede haber generado los datos observados. En resumidas cuentas, buscamos reducir el valor de $\epsilon$.

El método empleado con más frecuencia es el ajuste por mínimos cuadrados ordinarios (OLS), que identifica como mejor modelo la recta (o plano si es regresión múltiple) que minimiza la suma de las desviaciones verticales entre cada dato de entrenamiento y la recta, elevadas al cuadrado.

1. Demostracion de regresion lineal simple: http://www.educaplus.org/game/ecuacion-de-la-recta-pendiente-y-punto-de-corte
2. Regresion lineal multiple:
![image.png](attachment:image.png)

3. Valores que representa a $\epsilon$

![image.png](attachment:image.png)

Hay que recordar que lo que se busca hallar son los valores de los coeficientes de los regresores ($\beta$s) para los cuales la recta se ajusta de la mejor manera a los datos.

Si bien los coeficientes de regresión suelen ser el primer objetivo de la interpretación de un modelo lineal, existen muchos otros aspectos (significancia del modelo en su conjunto, significancia de los predictores, condición de normalidad...). Estos últimos suelen ser tratados con poca detalle cuando el único objetivo del modelo es realizar predicciones, sin embargo, son muy relevantes si se quiere realizar inferencia, es decir, explicar las relaciones entre los predictores y la variable respuesta. 

Adicionalmente, la palabra lineal se refiere a que la relacion entre los coeficientes y la respuesta es estrictamente lineal, sin importar la relacion con los regresores; por ejemplo, el siguiente modelo es lineal:

$$y=\beta_0+\beta_1 x_1+\beta_2\log(x_1)+\epsilon$$

El siguiente modelo no es lineal:

$$y=\beta_0+\beta_1 x_1^{\beta_2}+\epsilon$$

# Bondad de Ajuste

Lo siguiente es evaluar que tan bien se ajusta la recta a los datos, ya que aunque sera la mejor recta de ajuste, esta puede presentar un gran error, mostrando asi que los datos no se relacionan linealmente. Los mas utilizados son el coeficiente de correlacion $R^2$ y el error estandar de los residuos.

##### Error estándar de los residuos (Residual Standar Error, RSE)

Mide la desviación promedio de cualquier punto estimado por el modelo respecto de la recta de regresión. Tiene las mismas unidades que la variable respuesta. Una forma de saber si el valor del RSE es elevado consiste en dividirlo entre el valor medio de la variable respuesta, obteniendo así un % de la desviación. La siguiente formula nos srive para calcular el  _RSE_ :

$$RSE=\sqrt{\frac{1}{n-p-1}RSS}$$

Siendo _RSS_ la suma de los residuos cuadrados:

$$RSS = \sum_{i=1}^n(y_i-\hat{y}_i)^2$$

Y ademas, siendo $n$ el tamaño de la muestra y $p$ el número de predictores introducidos en el modelo.

##### Coeficiente de correlacion

El coeficiente de correlación entre dos variables responde a la pregunta: “¿Están relacionadas las dos variables? Es decir, si una variable cambia, ¿la otra también cambia? "

Si las dos variables tienen una distribución normal, la medida estándar para determinar el coeficiente de correlación, a menudo atribuida a Pearson, es

$$r=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i-\bar{X})^2}\sqrt{\sum_{i=1}^{n}(Y_i-\bar{Y})^2}}$$

Definiendo la covanrianza de la muestra $s_{xy}$ como

$$s_{xy}=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{n-1}$$

y $s_x$, $s_y$ las desviacions estandar muestrales de $x$ y $y$, la ecuacion de $r$ se puede escribir como:

$$r=\frac{s_{xy}}{s_x s_y}$$

El coeficiente de correlación de Pearson, a veces también denominado coeficiente de correlación poblacional o correlación muestral, puede tomar cualquier valor de -1 a +1.

![image.png](attachment:image.png)

El coeficiente de correlacion asi definido no es util para las regresiones lineales multiples, pues no tiene en cuenta las posibles relaciones existentes entre pares de variables independientes. En su lugar, el coeficiente de correlacion se define el $R_{ajustado}^2$ como: 

$$R_{ajustado}^2=1−\frac{SSE}{SST}\times \frac{n−1}{n−p−1}=R^2−(1−R^2)\frac{n−1}{n−p−1}=1−\frac{SSE/dfe}{SST/dft}$$

siendo  SSE  la variabilidad explicada por el modelo (Sum of Squares Explained),  SST  la variabilidad total de  $y$  (Sum of Squares Total),  $n$  el tamaño de la muestra y  $p$  el número de predictores introducidos en el modelo.

##### Correlacion de rango


Si la distribución de datos no es normal, es necesario un enfoque diferente. En ese caso, se puede clasificar el conjunto de datos para cada variable y comparar los ordenamientos. Hay dos métodos de uso común para calcular la correlación de rango.

El de Spearman ($\rho$) es exactamente el mismo que el coeficiente de correlación de Pearson $r$, pero calculado sobre los rangos de las observaciones y no sobre los números originales.

El de Kendall ($\tau$) también es un coeficiente de correlación de rango, que mide la asociación entre dos cantidades medidas. Es más difícil de calcular que el de Spearman, pero se ha argumentado que los intervalos de confianza para los de Spearman son menos confiables y menos interpretables que los intervalos de confianza para los parámetros de Kendall.

In [5]:
from scipy import stats
import numpy as np
def correlation():
    '''Pearson correlation, and two types of rank correlation (Spearman, Kendall)
    comparing age and %fat (measured by dual-photon absorptiometry) for 18 normal adults.
    '''
    inFile = 'altman_11_1.txt'
    data = np.genfromtxt(inFile, delimiter=',')
    
    x = data[:,0]
    y = data[:,1]
    
    print(f'Esta x distribuida normalmente?: {stats.shapiro(x)}')
    print(f'Esta y distribuida normalmente?: {stats.shapiro(y)}')
    # --- >>> START stats <<< ---
    corr = {}
    corr['pearson'], _ = stats.pearsonr(x,y) 
    corr['spearman'], _ = stats.spearmanr(x,y) 
    corr['kendall'], _ = stats.kendalltau(x,y)
    # --- >>> STOP stats <<< ---
    
    print(corr)    
    
    return corr['pearson'] 

correlation()

Esta x distribuida normalmente?: ShapiroResult(statistic=0.8569426536560059, pvalue=0.01091799233108759)
Esta y distribuida normalmente?: ShapiroResult(statistic=0.8929553627967834, pvalue=0.043379876762628555)
{'pearson': 0.7920862321784912, 'spearman': 0.7538795855376156, 'kendall': 0.5762094850891228}


0.7920862321784912

NameError: name 'x' is not defined

In [6]:
import matplotlib.pyplot as plt
%matplotlib notebook
fig, ax = plt.subplots()
inFile = 'altman_11_1.txt'
data = np.genfromtxt(inFile, delimiter=',')
    
x = data[:,0]
y = data[:,1]
ax.scatter(x, y)

ax.set_xlabel("Glucose")
ax.set_ylabel("Vcf")

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Vcf')

# Significancia de los predictores ($x_i$)

Aunque el estudio de regresión se aplica a una muestra, el objetivo es obtener un modelo lineal que explique la relación entre las variables en toda la población. Esto significa que, el modelo generado, es una estimación de la relación poblacional a partir de la relación que se observa en la muestra. Para cada uno de los coeficientes de la ecuación de regresión lineal ( $\beta_j$ ) se puede calcular su significancia ($p-value$) y su intervalo de confianza. 

El test de significancia para los coeficientes ( $\beta_j$ ) del modelo lineal considera como hipótesis:

1. $H_0$ : el predictor  $x_j$  no contribuye al modelo ( $\beta_j=0$ ), en presencia del resto de predictores. En el caso de regresión lineal simple, se puede interpretar también como que no existe relación lineal entre ambas variables por lo que la pendiente del modelo es cero  $\beta_j=0$.

2. $H_1$ : el predictor  $x_j$  sí contribuye al modelo ( $\beta_j≠0$ ), en presencia del resto de predictores. En el caso de regresión lineal simple, se puede interpretar también como que sí existe relación lineal entre ambas variables por lo que la pendiente del modelo es distinta de cero  $\beta_j≠0$.

# Condiciones para la regresión lineal 
##### Basado en: https://www.cienciadedatos.net/


Para que un modelo de regresión lineal por mínimos cuadrados, y las conclusiones derivadas de él, sean completamente válidas, se deben verificar que se cumplen las asunciones sobre las que se basa su desarrollo matemático. En la práctica, rara vez se cumplen, o se puede demostrar que se cumplen todas, sin embargo esto no significa que el modelo no sea útil. Lo importante es ser consciente de ellas y del impacto que esto tiene en las conclusiones que se extraen del modelo.


##### No colinealidad o multicolinealidad:

En los modelos lineales múltiples, los predictores deben ser independientes, no debe de haber colinealidad entre ellos. La colinealidad ocurre cuando un predictor está linealmente relacionado con uno o varios de los otros predictores del modelo. Como consecuencia de la colinealidad, no se puede identificar de forma precisa el efecto individual que tiene cada predictor sobre la variable respuesta, lo que se traduce en un incremento de la varianza de los coeficientes de regresión estimados hasta el punto de que resulta imposible establecer su significancia estadística. Además, pequeños cambios en los datos, provocan grandes cambios en las estimaciones de los coeficientes. Si bien la colinealidad propiamente dicha existe solo si el coeficiente de correlación simple o múltiple entre predictores es 1, cosa que raramente ocurre en la realidad, es frecuente encontrar la llamada casi-colinealidad o multicolinealidad no perfecta.

No existe un método estadístico concreto para determinar la existencia de colinealidad o multicolinealidad entre los predictores de un modelo de regresión, sin embargo, se han desarrollado numerosas reglas prácticas que tratan de determinar en qué medida afectan al modelo. 

Los pasos recomendados a seguir son:

1. Si el coeficiente de determinación  $R^2$  es alto pero ninguno de los predictores resulta significativo, hay indicios de colinealidad.

2. Crear una matriz de correlación en la que se calcula la relación lineal entre cada par de predictores. Es importante tener en cuenta que, a pesar de no obtenerse ningún coeficiente de correlación alto, no está asegurado que no exista multicolinealidad. Se puede dar el caso de tener una relación lineal casi perfecta entre tres o más variables y que las correlaciones simples entre pares de estas mismas variables no sean mayores que $0.5$.

3. Generar un modelo de regresión lineal simple entre cada uno de los predictores frente al resto. Si en alguno de los modelos el coeficiente de determinación  $R^2$  es alto, estaría señalando a una posible colinealidad.

4. Tolerancia (TOL) y Factor de Inflación de la Varianza (VIF). Se trata de dos parámetros que vienen a cuantificar lo mismo (uno es el inverso del otro). El VIF de cada predictor se calcula según la siguiente fórmula:

$$VIF_{\hat{\beta}_j}=\frac{1}{1−R^2}$$
 
$$Tolerancia_{\hat{\beta}_j}=\frac{1}{VIF_{\hat{\beta}_j}}$$
 
Donde  $R^2$  se obtiene de la regresión del predictor  $x_j$  sobre los otros predictores. Esta es la opción más recomendada, los límites de referencia que se suelen emplear son:

* VIF = 1: ausencia total de colinealidad

* 1 < VIF < 5: la regresión puede verse afectada por cierta colinealidad.

* 5 < VIF < 10: la regresión puede verse altamente afectada por cierta colinealidad.

* El término tolerancia es  $\frac{1}{VIF}$  por lo que los límites recomendables están entre 1 y 0.1.

En caso de encontrar colinealidad entre predictores, hay dos posibles soluciones. 

* La primera es excluir uno de los predictores problemáticos intentando conservar el que, a juicio del investigador, está influyendo realmente en la variable respuesta. Esta medida no suele tener mucho impacto en el modelo en cuanto a su capacidad predictiva ya que, al existir colinealidad, la información que aporta uno de los predictores es redundante en presencia del otro. 

* La segunda opción consiste en combinar las variables colineales en un único predictor, aunque con el riesgo de perder su interpretación.

Cuando se intenta establecer relaciones causa-efecto, la colinealidad puede llevar a conclusiones muy erróneas, haciendo creer que una variable es la causa cuando, en realidad, es otra la que está influenciando sobre ese predictor.


##### Relación lineal entre los predictores numéricos y la variable respuesta

Cada predictor numérico tiene que estar linealmente relacionado con la variable respuesta y mientras los demás predictores se mantienen constantes, de lo contrario no se deben introducir en el modelo. La forma más recomendable de comprobarlo es representando los residuos del modelo frente a cada uno de los predictores. Si la relación es lineal, los residuos se distribuyen de forma aleatoria en torno a cero. Estos análisis son solo aproximados, ya que no hay forma de saber si realmente la relación es lineal cuando el resto de predictores se mantienen constantes.

##### Distribución normal de la variable respuesta

La variable respuesta se tiene que distribuir de forma normal. Para comprobarlo se recurre a histogramas, a los cuantiles normales o a test de hipótesis de normalidad.

##### Varianza constante de la variable respuesta (homocedasticidad)

La varianza de la variable respuesta debe ser constante en todo el rango de los predictores. Para comprobarlo suelen representarse los residuos del modelo frente a cada predictor. Si la varianza es constante, se distribuyen de forma aleatoria manteniendo una misma dispersión y sin ningún patrón específico. Una distribución cónica es un claro identificador de falta de homocedasticidad. También se puede recurrir a contrastes de homocedasticidad como el test de Breusch-Pagan.

La razón de esta condición reside en lo siguiente: los modelos lineales asumen que la variable respuesta  $y$  sigue una distribución normal, cuya media  $\mu$  puede ser modelada en función de otras variables (predictores) y cuya varianza  $\sigma$  se calcula mediante una constante de dispersión y una función  $\eta(\mu)$ . Esto último significa que, la varianza, no se modela directamente en función de las variables predictoras sino de forma indirecta a través de su relación con la media y es un valor único.
 
¿Qué impacto puede tener esto en la práctica? Si bien la estimación de la media obtenida por estos modelos son buenas, no lo son tanto las incertidumbres asociadas y, en consecuencia, los intervalos de confianza y de predicción que se puedan calcular.

![image.png](attachment:image.png)

##### No autocorrelación (Independencia)

Los valores de cada observación son independientes de los otros. Esto es especialmente importante de comprobar cuando se trabaja con mediciones temporales. Se recomienda representar los residuos ordenados acorde al tiempo de registro de las observaciones, si existe un cierto patrón hay indicios de autocorrelación. También se puede emplear el test de hipótesis de Durbin-Watson.

##### Valores atípicos, con alto leverage o influyentes

Es importante identificar observaciones que sean atípicas o que puedan estar influenciando al modelo. La forma más fácil de detectarlas es a través de los residuos.

##### Tamaño de la muestra

No se trata de una condición de por sí pero, si no se dispone de suficientes observaciones, predictores que no son realmente influyentes podrían parecerlo. Un recomendación frecuente es que el número de observaciones sea como mínimo entre 10 y 20 veces el número de predictores del modelo.

##### Parsimonia

Este término hace referencia a que, el mejor modelo, es aquel capaz de explicar con mayor precisión la variabilidad observada en la variable respuesta empleando el menor número de predictores, por lo tanto, con menos asunciones.

La gran mayoría de condiciones se verifican utilizando los residuos, por lo tanto, se suele generar primero el modelo y posteriormente validar las condiciones. De hecho, el ajuste de un modelo debe verse como un proceso iterativo en el que se ajusta el modelo, se evalúan sus residuos y se mejora. Así hasta llegar a un modelo óptimo.

# Ejemplo de regresion lineal simple

Supónga que un analista de deportes quiere saber si existe una relación entre el número de veces que batean los jugadores de un equipo de béisbol y el número de runs que consigue. En caso de existir y de establecer un modelo, podría predecir el resultado del partido

In [7]:
# Tratamiento de datos
# ==============================================================================
import pandas as pd
import numpy as np

# Gráficos
# ==============================================================================
import matplotlib.pyplot as plt
import seaborn as sns

# Preprocesado y modelado
# ==============================================================================
from scipy import stats
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error
import statsmodels.api as sm
import statsmodels.formula.api as smf

# Configuración matplotlib
# ==============================================================================
%matplotlib notebook
plt.style.use('ggplot')

# Configuración warnings
# ==============================================================================
import warnings
warnings.filterwarnings('ignore')

In [8]:
# Datos
# ==============================================================================
equipos = ["Texas","Boston","Detroit","Kansas","St.","New_S.","New_Y.",
           "Milwaukee","Colorado","Houston","Baltimore","Los_An.","Chicago",
           "Cincinnati","Los_P.","Philadelphia","Chicago","Cleveland","Arizona",
           "Toronto","Minnesota","Florida","Pittsburgh","Oakland","Tampa",
           "Atlanta","Washington","San.F","San.I","Seattle"]
bateos = [5659,  5710, 5563, 5672, 5532, 5600, 5518, 5447, 5544, 5598,
          5585, 5436, 5549, 5612, 5513, 5579, 5502, 5509, 5421, 5559,
          5487, 5508, 5421, 5452, 5436, 5528, 5441, 5486, 5417, 5421]

runs = [855, 875, 787, 730, 762, 718, 867, 721, 735, 615, 708, 644, 654, 735,
        667, 713, 654, 704, 731, 743, 619, 625, 610, 645, 707, 641, 624, 570,
        593, 556]

datos = pd.DataFrame({'equipos': equipos, 'bateos': bateos, 'runs': runs})
datos.head(3)

Unnamed: 0,equipos,bateos,runs
0,Texas,5659,855
1,Boston,5710,875
2,Detroit,5563,787


In [20]:
# Gráfico
# ==============================================================================
fig, ax = plt.subplots(figsize=(6, 3.84))

datos.plot(x = 'bateos', y = 'runs', c = 'firebrick', kind = "scatter", ax = ax)
ax.set_title('Distribución de bateos y runs');

x = np.arange(min(datos['bateos']), max(datos['bateos']))
y = 0.638974790968429*x-2837.7768748647118
ax.plot(x, y)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x1f857c8ee80>]

In [10]:
# Prueba de normalidad para las variables 'bateos' y 'runs'
# ==============================================================================
stats.shapiro(datos['bateos']), stats.shapiro(datos['runs'])

(ShapiroResult(statistic=0.947971522808075, pvalue=0.14914315938949585),
 ShapiroResult(statistic=0.9481529593467712, pvalue=0.15082716941833496))

In [11]:
# Correlación lineal entre las dos variables
# ==============================================================================
corr_test = stats.pearsonr(x = datos['bateos'], y =  datos['runs'])
print("Coeficiente de correlación de Pearson: ", corr_test[0])
print("P-value: ", corr_test[1])

Coeficiente de correlación de Pearson:  0.6106270467206687
P-value:  0.0003388351359791978


In [18]:
# División de los datos en train y test
# ==============================================================================
X = datos.iloc[:,1].values
y = datos.iloc[:,2].values

X_train, X_test, y_train, y_test = train_test_split(X.reshape(30, 1), y, test_size = 0.2, random_state = 0,
                                                   shuffle = True)
                                        

# Creación del modelo usando scikit learn
# ==============================================================================
modelo = LinearRegression()
modelo.fit(X_train, y_train)

LinearRegression()

In [19]:
# Información del modelo
# ==============================================================================
print("Intercept:", modelo.intercept_)
print("Coeficiente:", ['Bateos', modelo.coef_[0]])
print("Coeficiente de determinación R^2:", modelo.score(X.reshape(30, 1), y))

Intercept: -2837.7768748647118
Coeficiente: ['Bateos', 0.638974790968429]
Coeficiente de determinación R^2: 0.37219079148675316


In [21]:
# Error de test del modelo 
# ==============================================================================
predicciones = modelo.predict(X = X_test)
print(predicciones[0:3,])

rmse = mean_squared_error(
        y_true  = y_test,
        y_pred  = predicciones,
        squared = False
       )
print("")
print(f"El error (rmse) de test es: {rmse}")

[716.83988729 623.54956781 748.14965205]

El error (rmse) de test es: 44.458940325480015


In [23]:
df = pd.DataFrame({'prediccion': predicciones, 'reales': y_test})
df
modelo.predict([[5550]])

array([708.53321501])

##### Usando statsmodels

In [26]:
# Creación del modelo 
# ==============================================================================
X_train = sm.add_constant(X_train, prepend=True)
modelo = sm.OLS(endog=y_train, exog=X_train)
modelo = modelo.fit()
print(modelo.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.347
Model:                            OLS   Adj. R-squared:                  0.317
Method:                 Least Squares   F-statistic:                     11.69
Date:                Thu, 21 Jan 2021   Prob (F-statistic):            0.00246
Time:                        20:29:17   Log-Likelihood:                -135.43
No. Observations:                  24   AIC:                             274.9
Df Residuals:                      22   BIC:                             277.2
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const      -2837.7769   1033.181     -2.747      0.0

La columna (coef) devuelve el valor estimado para los dos parámetros de la ecuación del modelo lineal ( $\beta_0$  y  $\beta_1$ ) que equivalen a la ordenada en el origen (intercept o const) y a la pendiente. Se muestran también los errores estándar, el valor del estadístico t y el p-value (dos colas) de cada uno de los dos parámetros. Esto permite determinar si los predictores son significativamente distintos de 0, es decir, que tienen importancia en el modelo. Para el modelo generado, tanto la ordenada en el origen como la pendiente son significativas ($p-values < 0.05$).

El valor de R-squared indica que el modelo es capaz de explicar el 34.7% de la variabilidad observada en la variable respuesta (runs). 

El modelo lineal generado sigue la ecuación:

$$runs = -2837.7769  + 0.6390\; bateos$$
 
Por cada unidad que se incrementa el número de bateos, el número de runs aumenta en promedio 0.6390 unidades.

In [27]:
# Intervalos de confianza para los coeficientes del modelo
# ==============================================================================
modelo.conf_int(alpha=0.05)

array([[-4.98046396e+03, -6.95089785e+02],
       [ 2.51345744e-01,  1.02660384e+00]])

In [28]:
# Predicciones con intervalo de confianza del 95%
# ==============================================================================
predicciones = modelo.get_prediction(exog = X_train).summary_frame(alpha=0.05)
predicciones.head(4)

Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper
0,667.638828,16.468085,633.48611,701.791547,515.779532,819.498125
1,635.690089,22.410032,589.214527,682.16565,480.593939,790.786238
2,682.335249,14.952904,651.324824,713.345673,531.151638,833.518859
3,626.105467,24.608439,575.070689,677.140245,469.582669,782.628265


Para graficar, además de la línea de mínimos cuadrados, es recomendable incluir los límites superior e inferior del intervalo de confianza. Esto permite identificar la región en la que, según el modelo generado y para un determinado nivel de confianza, se encuentra el valor promedio de la variable respuesta.

In [29]:
# Predicciones con intervalo de confianza del 95%
# ==============================================================================
predicciones['x'] = X_train[:, 1]
predicciones['y'] = y_train
predicciones = predicciones.sort_values('x')

# Gráfico del modelo
# ==============================================================================
fig, ax = plt.subplots(figsize=(6, 3.84))

ax.scatter(predicciones['x'], predicciones['y'], marker='o', color = "gray")
ax.plot(predicciones['x'], predicciones["mean"], linestyle='-', label="OLS")
ax.plot(predicciones['x'], predicciones["mean_ci_lower"], linestyle='--', color='red', label="95% CI")
ax.plot(predicciones['x'], predicciones["mean_ci_upper"], linestyle='--', color='red')
ax.fill_between(predicciones['x'], predicciones["mean_ci_lower"], predicciones["mean_ci_upper"], alpha=0.1)
ax.legend();

<IPython.core.display.Javascript object>

In [30]:
# Error de test del modelo 
# ==============================================================================
X_test = sm.add_constant(X_test, prepend=True)
predicciones = modelo.predict(exog = X_test)
rmse = mean_squared_error(
        y_true  = y_test,
        y_pred  = predicciones,
        squared = False
       )
print(f"\nEl error (rmse) de test es: {rmse}")


El error (rmse) de test es: 44.45894032547998


El error de test del modelo es de 44.46. Las predicciones del modelo final se alejan en promedio 44.46 unidades del valor real.

<span class="burk">EJERCICIO</span>

Usando el archivo 'housing.csv', determine los pares de variables que pueden llegar a tener una relacion lineal simple. Para esto, lo mas conveniente es hacerlo por medio de una visualizacion usando seaborn y su funcion pairplot.

Una vez exploradas las variables, realice la comprobacion de normalidad y genere el modelo de regresion lineal utilizando los dos metodos visto. Evalue los errores correspondientes y grafique las rectas con sus correspondientes intervalos de confianza.