In [1]:
import numpy as np

# Valor esperado y Media

En probabilidad, el valor promedio de una variable aleatoria X se le conoce como el valor esperado $$E[X] = \sum x_1p_1, x_2p_2, x_3p_3,...,x_np_n$$

En los casos más simples como lanzar una moneda al aire o lanzar el dado, la probabilidad de cada evento es equiprobable, el valor esperado puede ser calculado como la suma de todos los valores multiplicados por su recíproco. $$E[X] = \frac{1}{n}\sum x_1,x_2,x_3,...,x_n$$

En estadística, la media, o más técnicamente dicho la media aritmética o la media muestral, es estimada a partir de una muestra. Este concepto es bastante confuso y mucha gente suele usar media o valor esperado de igual forma. La principal diferencia es que la media o media aritmética es calculada a partir de una muestra en lugar de a partir de todos los valores posibles.
$$\mu = \frac{1}{n}\sum x_1,x_2,x_3,...,x_n$$


Python dispone de la función **mean()** que nos permite calcula la media aritmética de un array determinado.

In [4]:
#Generamos un array
v = np.array([1,2, 3, 4, 5])

#Calculamos la media 
v_mean = np.mean(v)
print(v_mean)

3.0


Esta función también nos permite calcular los promedios por fila o columna de una matriz, para ello dispone del argumento **axis**, si toma el valor de 0 la media se hace por columna si toma el valor de 1 se hace la media por fila.

In [6]:
#Generamos array
M = np.array([[1,2,3,4,5,6],[1,2,3,4,5,6]])

#Hacemos la media por columna
mean_col = np.mean(M, axis = 0)
print(mean_col)

[1. 2. 3. 4. 5. 6.]


In [7]:
#Hacemos la medio por fila
mean_row = np.mean(M, axis = 1)
print(mean_row)

[3.5 3.5]


# Varianza y desviación estándar

En probabilidad, la varianza de una variable aleatoria X es una medidad de como lo valores de una distribución varían en promedio con respecto a la media. Es calculada como: $$Var[X] = E[(X - E[X])^2]$$

También puede ser calculada como: $$Var[X] = \sum p(x_1)(x_1 - E[X])^2, p(x_2)(x_2 - E[X])^2,...,p(x_n)(x_n - E[X])^2$$

Si la probabilidad es igual para cada uno de los ejemplos de nuestra distribución: 
$$Var[X] = \frac{1}{n}\sum(x_1 - E[X])^2, (x_2 - E[X])^2,...,(x_n - E[X])^2$$

En estadística, la varianza puede ser estimada mediante una muestra, mediante la expresión:

$$\sigma^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i - \mu)^2$$

En Python podemos calcular la varianza de un vector o de una matriz haciendo uso de la función **var()**. Por defecto esta función calcula la varianza de una población. Para calcular la varianza de una muestra, debemos dar el valor de 1 al parámetro **ddof**.

In [8]:
#Generamos un array
v = np.array([1, 2, 3, 4, 5])

#Calculamos la varianza
v_var = np.var(v, ddof = 1)
print(v_var)

2.5


Podemos calcular la varianza de una matriz a nivel de fila o columna, de la misma forma que hemos visto para la función **mean()**, haciendo uso de la parámetro **axis**.

In [11]:
#Generamos la matriz
M = np.array([[1,2,3,4,5,6],[1,2,3,4,5,6]])

#Calculamos la varianza a nivel de columna
var_col = np.var(M, ddof = 1, axis = 0)
print(var_col)

[0. 0. 0. 0. 0. 0.]


In [12]:
row_var = np.var(M, ddof = 1, axis = 1)
print(row_var)

[3.5 3.5]


La desviación estándar es calculada como la raíz cuadrade la varianza, esta medida suele ser más usada que la varianza ya que nos da el resultado en las misma unidades que la variable.
$$s= \sqrt{\sigma^{2}}$$

Python dispone de la función **std()** que nos permite calcular la desviación estándar. Igual que para la varianza dispone del parámetro **ddof** que nos permite ajustar el cálculo para una población o para una muestra. Además también dispone del argumento **axis** que nos permite obtener el valor de la desviación estándar para una matriz a nivel de columna o de fila (con valores 0 y 1 respectivamente).

In [3]:
#Generamos una matriz
M = np.array([[1,2,3,4,5,6], [1,2,3,4,5,6]])

#Obtenemos la desviación de estándar a nivel de columna
M_std_col = np.std(M, axis = 0, ddof = 1)
print(M_std_col)

[0. 0. 0. 0. 0. 0.]


In [4]:
#Obtenemos la desviación estándar a nivel de fila
M_std_row = np.std(M, axis = 1, ddof = 1)
print(M_std_row)

[1.87082869 1.87082869]


# Covarianza y Correlación

En probabilidad, la covarianza es la medida conjunta para dos variables aleatorias. Esta medida nos indica como dos variables varían conjuntamente. Se denota por **cov(X,Y)**, donde X e Y son dos variables aleatorias.

$$cov(X,Y) = E[(X - E[X])(Y - E[Y])]$$

Asumiendo que los valores esperados de X e Y pueden ser calculados, la covarianza puede ser calculada como

$$cov(X,Y) = \frac{1}{n}\sum (x - E[X])(y - E[Y])$$

En estadística la covarianza de una muestra puede ser calculada como

$$cov(X,Y) = \frac{1}{n-1}\sum(x - E[X])(y - E[Y])$$

El signo de la covarianza puede ser interpretado como que dos variables incrementan juntas (positva) o decrecen juntas (negativa). La magnitud de la covarianza no es fácil de interpretar. Si el valor de la covarianza es cero indica que ambas variables son completamente independientes.

Python no dispone de un función que nos permita calcular la covarianza de dos variables de forma directa. En su lugar, dispone de una función que nos permite calcular la matriz de covarianza **cov()**  que puede ser usada para obtener la convarianza. Por defecto, la función **cov()** cálcula la matriz de covarianza para una muesta.

In [3]:
#Generamos un array
x = np.array([1,2,3,4,5,6,7,8,9])
y = np.array([9,8,7,6,5,4,3,2,1])

#Calculamos la matriz de covarianza 
covar = np.cov(x, y)[0,1]
print(covar)

-7.5


La covarianza puede ser normalizada entres los valores [-1,1] para hacer que la magnitud sea interpretable. Para ello dividimos la covarianza entre el producto de las desviaciones estándar de X e Y. El resultado se le conoce como correlación de las variables, también llamado como coeficiente de correlación de Pearson.

$$r = \frac{cov(X,Y)}{s_Xs_Y}$$

Donde r es conocido como el coeficiente de correlación entre X e Y. Python dispone de la función **corrcoef()** para calcular la matriz de correlación entre dos variables, al igual que para la covarianza para obtener el coeficiente de correlación podemos acceder al elemento [0,1].

In [4]:
#Calculamos la matriz de correlación
m_correlation = np.corrcoef(x, y)
print(m_correlation[0,1])

-1.0


# Matriz de Covarianza

La matriz de covarianza se trata de una matriz cuadrada simétrica que describe la covarianza entres dos o más variables aleatorias. La diagonal principal de la matriz de covarianza son las varianzas de cada una de las variables.
Una matriz de covarianza es una generalización de la covarianza de dos variables y captura la forma en la cual todas las variables de un conjunto de datos varían de forma conjunta.

In [7]:
#Generamos nuestra matriz de variables donde cada columna es una variable
X = np.array([
[1, 5, 8],
[3, 5, 11],
[2, 4, 9],
[3, 6, 10],
[1, 5, 10]])

#Calculamos la matriz de convarianza
print(np.cov(X.T))

[[1.   0.25 0.75]
 [0.25 0.5  0.25]
 [0.75 0.25 1.3 ]]
