# Identificando y modelando relaciones entre más de dos variables

![correlation](https://upload.wikimedia.org/wikipedia/en/7/78/Correlation_plots_of_double_knockout_distribution_across_subsystems_in_M.tb_and_E.coli.png)

> Como vimos anteriormente, el coeficiente de correlación se calcula por pares de variables, y es bastante útil para identificar cuando dos variables están relacionadas. 

> Una vez identificamos la relación entre dos variables, digamos $x$ (independiente / explicativa) y $y$ (dependiente / objetivo), vimos un método para modelar esta relación, con el cual podemos predecir el valor de la variable objetivo $y$ ante un nuevo valor de la variable explicativa $x$.

> Pero, ¿Qué pasa si la variable objetivo depende de más de una variable explicativa $x$?

# 1. Visualizando la correlación entre múltiples variables

Incluso con dos variables, vimos que al calcular la correlación obteníamos una matriz:

In [None]:
# Importar pandas


In [None]:
# Cargamos datos de las casas


In [None]:
# Corrleación entre precio y tamaño


La interpretación de esta matriz es sencilla. La entrada $i$, $j$ corresponde  la correlación de la variable $i$ con la variable $j$.

En general, podemos calcular esta matriz para un número arbitrario de variables:

In [None]:
# Matriz de correlación entre las variables de número de cuartos, tamaño y precio


Para este ejemplo particular, dado que tenemos pocos datos, es fácil identificar las relaciones observando directamente los números de la matriz. Sin embargo, cuando tenemos muchas variables, resulta complejo visualizar todas las correlaciones numéricas entre pares de variables.

Una manera práctica de identificar la relación entre más de dos variables es por medio de una visualización por mapa de calor:

In [None]:
# Importamos seaborn


In [None]:
# Mapa de calor de correlaciones
sns.heatmap(data.corr())

Veamos un ejemplo con más variables [Boston house prices dataset](https://scikit-learn.org/stable/datasets/toy_dataset.html):

In [None]:
# Dataset de precios de casas en Boston


In [None]:
# Encapsulamos en un data frame


In [None]:
# Mapa de calor de correlaciones


# 2. Regresión lineal con múltiples variables

El modelo de regresión lineal que vimos con una variable es fácilmente generalizable para considerar múltiples variables.

En el caso de dos variables, el objetivo de la regresión lineal es encontrar un modelo de un plano:

$$
y = \alpha_0 + \alpha_1 x^1 + \alpha_2 x^2
$$

que **"mejor" (en el sentido de mínimos cuadrados) se ajuste a los puntos**.

Matemáticamente, si los puntos son

$$
\{(x^1_1, x^2_1, y_1), (x^1_2, x^2_2, y_2), \dots, (x^1_n, x^2_n, y_n)\},
$$

lo que queremos es estimar los valores de los parámetros $m$ y $b$ que minimizan la siguiente función:

$$
J(m, b) = \sum_{i=1}^{n}(y_i - \alpha_0 - \alpha_1 x^1_i - \alpha_2 x^2_i)^2
$$

La buena noticia es que el código no se modifica en lo absoluto:

In [None]:
# Importar sklearn.linear_model.LinearRegression


In [None]:
# Ajustar el mejor plano a los datos de precios vs. tamaños, número de recámaras


In [None]:
# Obtener parámetros ajustados


Podemos comparar los scores ($R^2$: % de variación que explica el modelo) de ambos modelos:

In [None]:
# Coeficiente de determinación de modelo con una variable


In [None]:
# Coeficiente de determinación de modelo con dos variables


### ¡De esta manera, podemos incluir en nuestro sistema de avalúos automáticos, la variable de número de cuartos!