# Capítulo 17. Introducción a la estadistica multivariable

## Valor esperado y media

Se puede usar la funcion mean() de NumPy, acepta un segundo parámetro donde se puede definir el eje de la media.

In [1]:
# vector mean
from numpy import array
from numpy import mean

# define vector
v = array([1,2,3,4,5,6])

# calculate mean
result = mean(v)
result

3.5

In [2]:
# define matrix
M = array([
[1,2,3,4,5,6],
[1,2,3,4,5,6]])

# column means
col_mean = mean(M, axis=0)
col_mean

array([1., 2., 3., 4., 5., 6.])

In [3]:
# row means
row_mean = mean(M, axis=1)
row_mean

array([3.5, 3.5])

## Varianza y desviación estándar

En probabilidad, la varianza de alguna variable aleatoria X es una medida de la cantidad de valores en la distribución varían en promedio con respecto a la media. La varianza se denota como la función var() de NumPy.

Por defecto Numpy calcula la varianza de población (population variance), para muesta de varianza (sample variance), deberemos establecer el argumento ddof a 1. Al igual que la función mean() puede calcular la varianza por ejes.

In [4]:
# vector variance
from numpy import var

# calculate variance
result = var(v, ddof=1)
result

3.5

In [5]:
# column variances
col_var = var(M, ddof=1, axis=0)
col_var

array([0., 0., 0., 0., 0., 0.])

In [6]:
# row variances
row_var = var(M, ddof=1, axis=1)

La desviación estándar se calcula usando la raiz cuadrada de la varianza. Al igual que la función var() se debe establecer el argumento ddof a 1 y se puede definir el eje que se desea calcular.

In [7]:
from numpy import std

# column standard deviations
col_std = std(M, ddof=1, axis=0)
col_std

array([0., 0., 0., 0., 0., 0.])

In [8]:
# row standard deviations
row_std = std(M, ddof=1, axis=1)
row_std

array([1.87082869, 1.87082869])

## Covarianza y correlación

En probabilidad, la covarianza es la medida de la probabilidad conjunta para dos variables aleatorias. Describe cómo las dos variables cambian juntas. Se denota como la función cov(X, Y), donde X e Y son las dos variables aleatorias que se consideran.

El signo de la covarianza se puede interpretar como si las dos variables aumentan juntas (positivas) o disminuyen juntas (negativas). La magnitud de la covarianza no se interpreta fácilmente. Un valor de covarianza de cero indica que ambas variables son completamente independientes.

NumPy no tiene una función para calcular la covarianza entre dos variables directamente.

En cambio, tiene una función para calcular una matriz de covarianza llamada cov() que podemos usar para recuperar la covarianza. Por defecto, la función cov() calculará la covarianza imparcial o de muestra entre las variables aleatorias proporcionadas.
El siguiente ejemplo define dos vectores de igual longitud, uno creciente y uno decreciente.

Es de esperar que la covarianza entre estas variables sea negativa.

In [9]:
# vector covariance
from numpy import cov

# define first vector
x = array([1,2,3,4,5,6,7,8,9])

# define second covariance
y = array([9,8,7,6,5,4,3,2,1])

# calculate covariance
Sigma = cov(x,y)
Sigma

array([[ 7.5, -7.5],
       [-7.5,  7.5]])

### Coeficiente de correlación de Pearson

La covarianza se puede normalizar en una puntuación de entre -1 y 1 para hacer la magnitud interpretable dividiéndola por la desviación estándar de X e Y. El resultado se llama correlación de las variables, también llamado coeficiente de correlación de Pearson, nombrado para el desarrollador del método.

NumPy proporciona la función corrcoef() para calcular la correlación entre dos variables directamente. Al igual que cov(), devuelve una matriz, en este caso una matriz de correlación.

In [10]:
# vector correlation
from numpy import corrcoef

# calculate correlation
corr = corrcoef(x,y)
corr

array([[ 1., -1.],
       [-1.,  1.]])

## Matriz de covarianza

La matriz de covarianza es una matriz cuadrada y simétrica que describe la covarianza entre dos o más variables aleatorias. La diagonal de la matriz de covarianza son las varianzas de cada una de las variables aleatorias, como tal a menudo se denomina matriz de varianza-covarianza. Una matriz de covarianza es una generalización de la covarianza de dos variables y captura la forma en que todas las variables en el conjunto de datos pueden cambiar juntas. La matriz de covarianza se denota como la letra griega mayúscula Sigma, p. Σ.

La matriz de covarianza proporciona una herramienta útil para separar las relaciones estructuradas en una matriz de variables aleatorias. Esto puede usarse para descorrelacionar variables o aplicarse como una transformación a otras variables. Es un elemento clave utilizado en el método de reducción de datos del Análisis de componentes principales, o PCA para abreviar.

La matriz de covarianza se puede calcular en NumPy usando la función cov(). Por defecto, esta función calculará la matriz de covarianza de la muestra. La función cov() se puede invocar con una única matriz 2D donde cada sub-array contiene una característica (por ejemplo, una columna). Si se llama a esta función con los datos definidos en un formato de matriz normal (filas y columnas), se deberá proporcionar una trasposición de la matriz para la función para calcular correctamente la covarianza de las columnas.

A continuación se muestra un ejemplo que define un conjunto de datos con 5 observaciones a través de 3 características y calcula la matriz de covarianza.

In [11]:
# define matrix of observations
X = array([
[1, 5, 8],
[3, 5, 11],
[2, 4, 9],
[3, 6, 10],
[1, 5, 10]])

X.T

array([[ 1,  3,  2,  3,  1],
       [ 5,  5,  4,  6,  5],
       [ 8, 11,  9, 10, 10]])

In [12]:
# calculate covariance matrix
Sigma = cov(X.T)
Sigma

array([[1.  , 0.25, 0.75],
       [0.25, 0.5 , 0.25],
       [0.75, 0.25, 1.3 ]])