# 6.4 Modelado Estadístico con R

Tanto R, como Python, tienen paquetes que nos serán útiles para *modelar*; es decir, para crear versiones más sencillas de los sucesos a analizar. Por ejemplo, crear un mapa = crear un modelo sobre una región.

Eso sí; como son versiones simplificadas, nunca serán del todo correctas.

"Todos los modelos están equiovcados...pero algunos son útiles" - George Box.

Creamos modelos estadísticos por varias razones:

* Para analizar la relación entre variables.
* Para generar predicciones.
* Para tomar decisiones más informadas.
Etc.

Existen un sinfin de formas de modelar. Para cada una de ellas existen distintos algoritmos (¿Recuerdas? Algoritmo = serie de pasos). Por fortuna, los paquetes de R y Python simplifican el proceso para que, con el uso de unas pocas funciones, se puedan generar los modelos.

¿Cuál es la diferencia entre ambos lenguajes? Normalmente, hay mayor capacidad de manipulación en los paquetes existentes en R, así como mayor facilidad para obtener información estadística. 

## La regresión lineal

Vamos a conocer uno de los modelos estadísticos más básicos: la Regresión Lineal. De hecho, de ella, se desprenden muchos otros algoritmos.

Una **regresión lineal** es un modelo estadístico que analiza la relación entre una variable respuesta (llamada Y, o variable dependiente) y una o varias variables (llamadas X, o variables independientes/predictoras). 

Es muy similar a la forma en la que el ser humano suele crear relaciones. Por ejemplo, al calcular la edad en "años perro" de tu mascota.

$\hat{Y} = \hat{\beta}_{0} + \sum \limits _{j=1} ^{p} X_{j}\hat{\beta}_{j} $

Donde:

$\hat{Y}$ representa mi variable dependiente o respuesta.

$\hat{\beta}_{0}$ representa el _intercepto_ o valor de $\hat{Y}$ cuando la(s) variable(s) independiente(s) son igual a 0.

$ X_{j}$ son mis distintas variables independientes.

$\hat{\beta}_{j}$ son los pesos de cada una de esas variables predictoras.

Al correr el código que veremos a continuación, la computadora busca los mejores valores para las _beta_ de tal manera que el error (la diferencia entre los valores reales y los predichos con esta fórmula), sea lo menor posible.

## Regresión lineal en R

Para este ejercicio, dividiremos nuestros datos en dos partes: un set para entrenar nuestra Regresión Lineal, y un set separado para probar que el modelado fue bueno.

In [4]:
library(tidyverse)

-- [1mAttaching packages[22m --------------------------------------- tidyverse 1.2.1 --
[32mv[39m [34mggplot2[39m 3.1.0     [32mv[39m [34mreadr  [39m 1.3.1
[32mv[39m [34mtibble [39m 2.1.1     [32mv[39m [34mpurrr  [39m 0.3.2
[32mv[39m [34mtidyr  [39m 0.8.3     [32mv[39m [34mstringr[39m 1.4.0
[32mv[39m [34mggplot2[39m 3.1.0     [32mv[39m [34mforcats[39m 0.4.0
-- [1mConflicts[22m ------------------------------------------ tidyverse_conflicts() --
[31mx[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31mx[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()


In [43]:
# read.csv también es una opción, pero se recomienda más read_csv, que pertenece a readr (del tidyverse)

train <- read_csv("sample_data/california_housing_train.csv")
test <- read_csv("sample_data/california_housing_test.csv")

train %>% head()

Parsed with column specification:
cols(
  longitude = [32mcol_double()[39m,
  latitude = [32mcol_double()[39m,
  housing_median_age = [32mcol_double()[39m,
  total_rooms = [32mcol_double()[39m,
  total_bedrooms = [32mcol_double()[39m,
  population = [32mcol_double()[39m,
  households = [32mcol_double()[39m,
  median_income = [32mcol_double()[39m,
  median_house_value = [32mcol_double()[39m
)
Parsed with column specification:
cols(
  longitude = [32mcol_double()[39m,
  latitude = [32mcol_double()[39m,
  housing_median_age = [32mcol_double()[39m,
  total_rooms = [32mcol_double()[39m,
  total_bedrooms = [32mcol_double()[39m,
  population = [32mcol_double()[39m,
  households = [32mcol_double()[39m,
  median_income = [32mcol_double()[39m,
  median_house_value = [32mcol_double()[39m
)


longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
-114.31,34.19,15,5612,1283,1015,472,1.4936,66900
-114.47,34.4,19,7650,1901,1129,463,1.82,80100
-114.56,33.69,17,720,174,333,117,1.6509,85700
-114.57,33.64,14,1501,337,515,226,3.1917,73400
-114.57,33.57,20,1454,326,624,262,1.925,65500
-114.58,33.63,29,1387,236,671,239,3.3438,74000


Supongamos que ya limpiamos nuestros datos y la única manipulación necesaria es la siguiente: *median_income* necesita ser multiplicado por 10,000 para tener el valor real. 

In [102]:
train["median_income"] = train["median_income"] * 10000 
test["median_income"] = test["median_income"] * 10000 

Vamos a tratar de estimar cuál es el valor medio de las casas (*median_house_value*), usando la demás información a nuestro alcance.

Antes de empezar, veamos cuál es la correlación lineal entre esa y las demás variables.

In [46]:
train %>% cor()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
longitude,1.0,-0.92520828,-0.1142503,0.04701044,0.07180196,0.1016742646,0.059627704,-0.0154849614,-0.0449817
latitude,-0.92520828,1.0,0.0164539,-0.03877257,-0.06937292,-0.1112613615,-0.074902297,-0.0803030138,-0.14491672
housing_median_age,-0.11425031,0.0164539,1.0,-0.36098417,-0.32043408,-0.2958898054,-0.302754191,-0.1159316246,0.10675771
total_rooms,0.04701044,-0.03877257,-0.3609842,1.0,0.92840299,0.8601703408,0.919018298,0.1953828074,0.13099147
total_bedrooms,0.07180196,-0.06937292,-0.3204341,0.92840299,1.0,0.8811685744,0.980920092,-0.0134946823,0.04578305
population,0.10167426,-0.11126136,-0.2958898,0.86017034,0.88116857,1.0,0.90924653,-0.0006376291,-0.02785006
households,0.0596277,-0.0749023,-0.3027542,0.9190183,0.98092009,0.9092465299,1.0,0.0076437162,0.06103063
median_income,-0.01548496,-0.08030301,-0.1159316,0.19538281,-0.01349468,-0.0006376291,0.007643716,1.0,0.6918706
median_house_value,-0.0449817,-0.14491672,0.1067577,0.13099147,0.04578305,-0.0278500611,0.061030634,0.6918706038,1.0


Si te fijas, *median_income* es la variable con la mejor correlación lineal, con respecto a nuestra variable respuesta (*median_house_value*).

Entonces, esa variable es _candidata_ a ser una buena variable estimadora.

¿Cómo se hace una regresión lineal en R, entonces?

Usando la siguiente función:

```
lm(<variable dependiente> ~ <variable independiente1> +  <variable independiente2> + ..., data=<dataFrame>) 
```

In [56]:
model <- lm(median_house_value ~ median_income, data=train)
model


Call:
lm(formula = median_house_value ~ median_income, data = train)

Coefficients:
  (Intercept)  median_income  
    4.398e+04      4.205e-04  


¡Tenemos nuestro primer modelo! De momento, nuestra estimación quedaría así:



$medianhousevalue =  43981 + 4.205 (median income) $

Es decir; el precio estimado de las casas es de 43981 + 4.2054 por el valor medio de los ingresos en esa región.

Dicho de otra forma, el valor inicial de las casas es de 4,3981 USD, y por cada dólar extra de los ingresos medios, el valor de las casas se incrementa en 4.205 USD.

Si quiero ver información estadística extra, basta con usar la función `summary()`

In [48]:
summary(model)


Call:
lm(formula = median_house_value ~ median_income, data = train)

Residuals:
    Min      1Q  Median      3Q     Max 
-543496  -55851  -17276   36878  434998 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)   4.398e+04  1.457e+03    30.2   <2e-16 ***
median_income 4.205e-04  3.366e-06   124.9   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 83750 on 16998 degrees of freedom
Multiple R-squared:  0.4787,	Adjusted R-squared:  0.4787 
F-statistic: 1.561e+04 on 1 and 16998 DF,  p-value: < 2.2e-16


La más importante es, posiblemente, el valor de la $R^2$ = 0.4787. Eso significa que, por sí sóla, *median_income* explica el 47.87% de la variabilidad de *median_house_value*.

Por cierto, ¿recuerdas cuál era la correlación entre las dos variables?

In [49]:
train %>% select(median_income, median_house_value)  %>% cor()

Unnamed: 0,median_income,median_house_value
median_income,1.0,0.6918706
median_house_value,0.6918706,1.0


In [50]:
0.691870608 * 0.691870608 

## Prediciendo con valores nuevos.

¿Qué pasa si quiero tener una estimación del valor de las casas en un vecindario nuevo, donde el ingreso medio es de $21,000?

Bueno, podría probar reemplazando en mi fórmula...

$medianhousevalue =  43981 + 4.205 (21000) $

In [51]:
prediccion <- 43981 + 4.2054 * 21000
prediccion

Aunque es más exacto (y más sencillo, con modelos más complejos) si usamos la función `predict()`...

In [52]:
new_data <- data_frame(median_income=21000)

predict(model, new_data)

## Midiendo la efectividad

Dependiendo del tipo de problema, hay un sinfin de métricas que se pueden usar para determinar si nuestro modelo es bueno.
En el caso de la regresión, el Error Cuadrático Medio (RMSE), el F1 score y la R^2 son de las más comunes, mas no las únicas. 

Cada métrica tiene sus distintas ventajas y desventas, por lo que escoger una depende de haber entendido la meta en el problema concreto. En caso de poner a comparar distintos modelos, difícilmente uno será el mejor en tooodas las métricas.

¿Recuerdas?

Todos los modelos están equivocados, pero algunos son útiles...

Por cierto; las métricas se calculan sobre datos distintos a los de entrenamiento. ¿Qué chiste tendría evaluar sobre los datos originales? Por ello, a veces se dividen en un 50%-80% para entrenar, y 20%-50% para evaluar.

Suponiendo que la R2 es mi métrica escogida:

In [53]:
# caret tiene funciones que me ayudan a calcular el resultado de las métricas
library(caret)

In [69]:
predicciones_test <- predict(model, test["median_income"]) 
 
# R2 mide, en cierta forma, qué tanto se separan mis predicciones de los valores reales.
evalua <- R2(test["median_house_value"], predicciones_test) 
evalua

median_house_value
0.4525188


## Modelos más complejos
La regresión lineal, al ser un modelo simple, permite agregar un poco de complejidad para mejorar nuestro modelo.

Sólo recuerda: modelos demasiado complejos tampoco son buena idea.

In [107]:
# Puedo crear un segundo modelo con una variable extra...
model2 <- lm(median_house_value ~ median_income + total_rooms, data=train)
summary(model2)


Call:
lm(formula = median_house_value ~ median_income + total_rooms, 
    data = train)

Residuals:
    Min      1Q  Median      3Q     Max 
-544632  -55892  -17312   36982  434615 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)    4.439e+04  1.551e+03  28.616   <2e-16 ***
median_income  4.211e-08  3.432e-10 122.673   <2e-16 ***
total_rooms   -2.317e-01  3.004e-01  -0.771    0.441    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 83750 on 16997 degrees of freedom
Multiple R-squared:  0.4787,	Adjusted R-squared:  0.4786 
F-statistic:  7804 on 2 and 16997 DF,  p-value: < 2.2e-16


In [109]:
# E incluso, ¡con todas!
model3 <- lm(median_house_value ~ ., data=train)
summary(model3)


Call:
lm(formula = median_house_value ~ ., data = train)

Residuals:
    Min      1Q  Median      3Q     Max 
-565474  -43649  -11525   30220  801097 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)        -3.621e+06  6.921e+04 -52.312  < 2e-16 ***
longitude          -4.314e+04  7.896e+02 -54.637  < 2e-16 ***
latitude           -4.293e+04  7.458e+02 -57.556  < 2e-16 ***
housing_median_age  1.151e+03  4.758e+01  24.186  < 2e-16 ***
total_rooms        -8.378e+00  8.628e-01  -9.711  < 2e-16 ***
total_bedrooms      1.176e+02  7.687e+00  15.305  < 2e-16 ***
population         -3.849e+01  1.186e+00 -32.456  < 2e-16 ***
households          4.544e+01  8.445e+00   5.380 7.54e-08 ***
median_income       4.051e-08  3.682e-10 110.022  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 69480 on 16991 degrees of freedom
Multiple R-squared:  0.6413,	Adjusted R-squared:  0.6412 
F-statistic:  3798 on 8 and 

In [111]:
# O a lo mejor, con todas excepto total_rooms
model4 <- lm(median_house_value ~ .-total_rooms, data=train)
summary(model4)


Call:
lm(formula = median_house_value ~ . - total_rooms, data = train)

Residuals:
    Min      1Q  Median      3Q     Max 
-543195  -44143  -11693   30585  858678 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)        -3.725e+06  6.857e+04 -54.321  < 2e-16 ***
longitude          -4.458e+04  7.776e+02 -57.329  < 2e-16 ***
latitude           -4.464e+04  7.267e+02 -61.421  < 2e-16 ***
housing_median_age  1.179e+03  4.762e+01  24.764  < 2e-16 ***
total_bedrooms      8.277e+01  6.815e+00  12.146  < 2e-16 ***
population         -4.176e+01  1.140e+00 -36.624  < 2e-16 ***
households          4.826e+01  8.463e+00   5.702  1.2e-08 ***
median_income       3.837e-08  2.961e-10 129.585  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 69670 on 16992 degrees of freedom
Multiple R-squared:  0.6393,	Adjusted R-squared:  0.6392 
F-statistic:  4303 on 7 and 16992 DF,  p-value: < 2.2e-16


Y, ¿por qué no? También se puede modelar con variables transformadas, si creemos que la relación es más compleja...

In [113]:
model5 <- lm(median_house_value ~ median_income + log(population), data=train)
summary(model5)


Call:
lm(formula = median_house_value ~ median_income + log(population), 
    data = train)

Residuals:
    Min      1Q  Median      3Q     Max 
-551579  -55768  -17240   37197  429314 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)      6.317e+04  6.343e+03   9.959  < 2e-16 ***
median_income    4.204e-08  3.366e-10 124.917  < 2e-16 ***
log(population) -2.723e+03  8.762e+02  -3.108  0.00189 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 83720 on 16997 degrees of freedom
Multiple R-squared:  0.479,	Adjusted R-squared:  0.4789 
F-statistic:  7813 on 2 and 16997 DF,  p-value: < 2.2e-16


El determinar qué variables ocupar es un tema qué requiere más horas de estudio, pero que es vital para volverse un buen modelador estadístico.