## Regresión múltiple en R

#### Importar librerías requeridas

In [2]:
# Tidyverse para manipular y visualizar datos
library(tidyverse)

# Datarium para importar los datos
library(datarium)

#### Importar datos

R tiene muchos datasets predefinidos en muchas librerías, en este caso usamos una que se llama 'datarium' para importar el dataset de la presentación: 'marketing'

In [4]:
# Usamos la función 'data' para cargar datos en el ambiente de R
data("marketing", package = "datarium")

# Utilizamos head para mostrar un preview del dataset, las primeras x lineas (acorde con el 2do parámetro)
# En nuestro caso visualizamos 5 lineas
head(marketing, 5)

Unnamed: 0_level_0,youtube,facebook,newspaper,sales
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>
1,276.12,45.36,83.04,26.52
2,53.4,47.16,54.12,12.48
3,20.64,55.08,83.16,11.16
4,181.8,49.56,70.2,22.2
5,216.96,12.96,70.08,15.48


#### Crear el modelo de regresión múltiple

Dado que tenemos solo 3 variables, no tenemos que hacer una selección particularmente detallada de variables.

Los datasets de ejemplo sencillos tienden a no tener demasiadas variables. 

En nuestro caso, las utilizaremos todas.

##### Fórmulas de modelos en R

La fórmula `sales ~ youtube + facebook + newspaper` significa lo siguiente:

- Estamos tratando de predecir el valor de `sales`

- Estamos utilizando las variables `youtube`, `facebook` y `newspaper` por sí solas

- Dada diferente notación, es posible incluir interacciones entre variables independientes, de la manera siguiente por ejemplo `youtube:facebook`, donde incluímos la interaccion entre las variables `youtube` y `facebook`

In [5]:
# Utilizar la función 'lm' (linear model) para crear el modelo y asignarselo a la variable 'model'
model <- lm(sales ~ youtube + facebook + newspaper, data = marketing)

#### Vemos el resumen del modelo

In [6]:
summary(model)


Call:
lm(formula = sales ~ youtube + facebook + newspaper, data = marketing)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.5932  -1.0690   0.2902   1.4272   3.3951 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.526667   0.374290   9.422   <2e-16 ***
youtube      0.045765   0.001395  32.809   <2e-16 ***
facebook     0.188530   0.008611  21.893   <2e-16 ***
newspaper   -0.001037   0.005871  -0.177     0.86    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.023 on 196 degrees of freedom
Multiple R-squared:  0.8972,	Adjusted R-squared:  0.8956 
F-statistic: 570.3 on 3 and 196 DF,  p-value: < 2.2e-16


#### Intrepretación del resumen

- Residuales: vemos un desglose por cuartiles, max y minimo, donde podemos interpretar si los valores se alejan demasiado de la realidad
- Coeficientes: Podemos ver en `Estimate` los coeficientes de la ecuación de regresión

In [10]:
print(summary(model)$coefficients[,1])

 (Intercept)      youtube     facebook    newspaper 
 3.526667243  0.045764645  0.188530017 -0.001037493 


- P-value de la tabla de coeficientes (`Pr(>|t|)`): Muestra el nivel de variabilidad que explica cada variable, vemos que `facebook` y `youtube` son las variables más relevantes. 

In [12]:
print(summary(model)$coefficients[,4])

 (Intercept)      youtube     facebook    newspaper 
1.267295e-17 1.509960e-81 1.505339e-54 8.599151e-01 


- R-cuadrado y R-cuadrado ajustado: una medida entre -1 y 1 de relación entre las variables de predicción y la de respuesta para describir la calidad del modelo 

En nuestro caso vemos que el R-cuadrado es bastante elevado (cerca de 1 o de -1), por lo que podemos decir que en la configuración de este modelo, las variables predicen razonablemente bien la respuesta.

Si las variables de predicción no tuviesen absolutamente ninguna correlación con la variable de respuesta, el R-cuadrado no sería tan alto.

In [13]:
print(summary(model)$r.squared)

[1] 0.8972106
