In [1]:
%matplotlib inline

In [2]:
import matplotlib.pyplot as plt

In [3]:
import numpy as np
from numpy import linalg as LA

In [39]:
'''probabilidades: 1 variable aleatoria "x"''' 

x0 = -1.
x1 = 1.

p0 = 0.5
p1 = 1 - p0

Ex = p0*x0 + p1*x1
print("E(x) = ", Ex)
Exx = p0*x0**2 + p1*x1**2
Vx = Exx - Ex**2
print("Vax(x) = ", Vx)

E(x) =  0.0
Vax(x) =  1.0


In [40]:
# Estimacion empirica de los valores esperados y matriz varianza-covarianza
# m es en numero de datos

m = 100
X = np.zeros((m,1))
One = np.ones((m,1))

Z = np.random.rand(m,1)

# Generacion de datos:
for i in range(m):
    if Z[i,0] < p0:
        X[i,0] = x0
    else:
        X[i,0] = x1
print("Datos empiricos de x = \n", X[:10]) # los primeros 10

Ex_emp = np.dot(One.T,X)/m # probar que esta forma vectorizada estima la media de x
print("Estimacion empirica de la media de x = ", Ex_emp) 

Mx = np.mean(X, axis=0) # esta operacion hace lo mismo que Ex_emp
print("Estimacion empirica de la media de x con np.mean = ", Mx) 

# jugar con el valor de m y ver como converge Ex_emp a Ex cuando m se hace grande (error ~ 1 / sqrt(m))

Datos empiricos de x = 
 [[-1.]
 [-1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]]
Estimacion empirica de la media de x =  [[0.1]]
Estimacion empirica de la media de x con np.mean =  [0.1]


In [41]:
# "centrar" los datos
XM = X - np.mean(X, axis=0) # esto es Python 'broadcasting'
print("XM.shape = ", XM.shape)

# probar que esta forma vectorizada genera la estimacion empirica de la varianza
Vx_emp = np.dot(XM.T,XM)/m # estrictamente deberia dividir por (m-1), por que es irrelevante cuando m es grande?

Verror = Vx - Vx_emp # error de estimacion

print("Vx_emp = ", Vx_emp)
print("Verror = Vx - Vx_emp = ", Verror)

XM.shape =  (100, 1)
Vx_emp =  [[0.99]]
Verror = Vx - Vx_emp =  [[0.01]]


In [38]:
'''probabilidades: 2 variables aleatorias "x, y"''' 

# joint probability distribution of the random variables x and y

p00 = 0.1 # = p(x0,y0)
p01 = 0.4 # = p(x0,y1)
p10 = 0.3 # = p(x1,y0)
p11 = 1.0 - p00 - p01 - p10 # = p(x1,y1) # Chequear que no de negativo!
print("p11 =", p11)

# values of the random variables
x0 = -1.
x1 = 1.
y0 = -1.
y1 = 1.

# Marginal probability distributions

px0 = p00 + p01
px1 = p10 + p11

py0 = p00 + p10
py1 = p01 + p11

p11 = 0.2


In [19]:
# Valores esperados y varianza-covarianza exactos
Ex = x0*px0 + x1*px1
Ey = y0*py0 + y1*py1
print("E(x) = ", Ex)
print("E(y) = ", Ey)
M_exact = np.array([Ex,Ey])
print(M_exact)

Exx = x0*x0*px0 + x1*x1*px1
Eyy = y0*y0*py0 + y1*y1*py1
print("E(xx) = ", Exx)
print("E(yy) = ", Eyy)

Exy = x0*y0*p00 + x0*y1*p01 + x1*y0*p10 + x1*x1*p11
# Notar que aca es necesario usar la joint probability distribution, las marginales no tienen la informacion necesaria
print("E(xy) = ", Exy)

Vxx = Exx - Ex**2
Vyy = Eyy - Ey**2
Vxy = Exy - Ex*Ey
print("Var(x) = ", Vxx)
print("Var(y) = ", Vyy)
print("CoVar(x,y) = ", Vxy)

VC_exact = np.array([[Vxx,Vxy],[Vxy,Vyy]])
print("Matriz Varianza-Covarianza exacta = \n", VC_exact)

E(x) =  0.0
E(y) =  0.20000000000000007
[0.  0.2]
E(xx) =  1.0
E(yy) =  1.0
E(xy) =  -0.4000000000000001
Var(x) =  1.0
Var(y) =  0.96
CoVar(x,y) =  -0.4000000000000001
Matriz Varianza-Covarianza exacta = 
 [[ 1.   -0.4 ]
 [-0.4   0.96]]


Reemplazando las probabilidades marginales por su expresión en termino de las "joint", encontrar la expresión para las distintas expresiones en la celta de mas arriba. Notar que cuando queremos calcular términos cruzados, como E(xy) o CoVar(x,y), las marginales no alcanzan y hay que apelar si o si a la joint probability distributions (notar que las marginales tienen 2 parámetros libres mientras que la joint 3).

In [24]:
# Estimacion empirica de los valores esperados y matriz varianza-covarianza
# m es en numero de datos

m = 100
X = np.zeros((m,1))
Y = np.zeros((m,1))

Z = np.random.rand(m,1)

# Generacion de datos:
for i in range(m):
    if Z[i,0] < p00:
        X[i,0] = x0
        Y[i,0] = y0
    elif Z[i,0] < p00 + p01:
        X[i,0] = x0
        Y[i,0] = y1
    elif Z[i,0] < p00 + p01 + p10:
        X[i,0] = x1
        Y[i,0] = y0
    else:
        X[i,0] = x1
        Y[i,0] = y1

# Matrix de datos:
D = np.concatenate((X, Y), axis=1)

#restandole la media tanto a X como a Y
M = np.mean(D, axis=0)
print("Mean(X,Y) = ", M)
# Diferencia entre los means exacta y empiricos
print("Error(Mean) = M_exact - M_emp = \n", M_exact - M)



DM = D - M  # DM es la matriz de datos "centrados".
# Notar que a un array de shape (m,2) le restamos uno de shape (2,). Python interpreta corractamente lo que
# queremos hacer. Esto se llama "Broadcasting"
print("DM.shape = ", DM.shape)

# Chequeamos que los datos en DM estan "centrados"
print ("Mean de DM = ", np.mean(DM, axis=0))

# Calculamos la matrix Varianza-Covarianza (probar que este es, efectivamente, dicha matriz):
VC_emp = (1/m)*np.dot(DM.T,DM)
print("Matriz Varianza-Covarianza empirica = \n", VC_emp)

# Diferencia entre la matriz varianza covarianza exacta y la empirica
print("Error(VC) = VC_exact - VC_emp = \n", VC_exact - VC_emp)

Mean(X,Y) =  [0.  0.2]
Error(Mean) = M_exact - M_emp = 
 [0.00000000e+00 5.55111512e-17]
DM.shape =  (100, 2)
Mean de DM =  [ 0.00000000e+00 -3.99680289e-17]
Matriz Varianza-Covarianza empirica = 
 [[ 1.   -0.36]
 [-0.36  0.96]]
Error(VC) = VC_exact - VC_emp = 
 [[ 0.00000000e+00 -4.00000000e-02]
 [-4.00000000e-02  2.22044605e-16]]


En la celda anterior, jugar con el número de datos $m$ para ver como $M_{emp}$ y $VC_{emp}$ van convergiendo a $M_{exact}$ y $VC_{exact}$ cuando $m$ crece. El error debería decrecer como$$\sim \frac{1}{\sqrt{m}}$$ 

La matriz VC\_emp, siendo simétrica, tiene que tener autovalores y autovectores reales. Probar que además los autovalores son semidefinidos positivos (es decir, o bien son todos positivos, o algunos pueden ser 0, pero ninguno puede ser negativo). 

Hint: Para el vector genérico$$ \mathbf{x} =
\left(
   \begin{array}{c}
       x \\
       y \\
   \end{array}
\right)$$
usar la propiedad asociativa y la traspuesta de un producto para mostrar que la forma cuadratica$$\mathbf{x}^{\top} \left( VC_{emp} \right) \mathbf{x} = \mathbf{x}^{\top} \left( DM^{\top} DM \right) \mathbf{x}$$
es necesariamente semidefinida positiva. Que condición se tiene que dar para que para algún vector $\mathbf{x}$ no nulo$$
\mathbf{x}^{\top} \left( DM^{\top} DM \right) \mathbf{x} = \mathbf{0}?$$
Comprobemos numéricamente que la matriz varianza-covarianza tiene autovalores no negativos:

In [12]:
w , U = LA.eigh(VC_emp) # Notar que uso LA.eigh, con "h" al final. Esto conviene para matrices simetricas
print("autovalores de VC_emp = ", w)
print("autovectores de VC_emp = \n", U)

autovalores de VC_emp =  [0.57425837 1.22496071]
autovectores de VC_emp = 
 [[ 0.63761414 -0.7703559 ]
 [-0.7703559  -0.63761414]]


Recordemos que las columnas de $U$ son los autovectores de VC\_emp,$$U = \left(
         \begin{array}{cc}
             | & | \\
             \mathbf{v}_0 & \mathbf{v}_1 \\
             | & | \\
         \end{array}
      \right), \quad VC_{emp} \mathbf{v}_0 = \lambda_0 \mathbf{v}_1, 
      \quad VC_{emp} \mathbf{v}_0 = \lambda_0 \mathbf{v}_1$$ y por ser VC\_emp simetrica, la matriz $U$ es ortonormal, es decir, sus columnas, los vectores $\mathbf{v}_0$ y $\mathbf{v}_1$, forman una base ortonormal, por lo que $U U^{\top} = U^{\top} U = I$). Entonces, tal como lo hicimos en un HW pasado,$$\mathbf{x}^{\top} VC_{emp} \mathbf{x} = \mathbf{x}^{\top} U \left( U^{\top} VC_{emp} U \right) U^{\top} \mathbf{x}$$
Donde$$U^{\top} VC_{emp} U$$
es una matriz diagonal cuyos elementos diagonales son los autovalores de VC\_emp, y$$U^{\top} \mathbf{x}$$
son las coordenadas del vector $\mathbf{x}$ en la base $\{ \mathbf{v}_0, \mathbf{v}_1 \}$ de autovectores de 
VC\_emp. Comprobemos esto:

In [14]:
print("U^T VC_emp U = \n", np.round(np.dot(U.T,np.dot(VC_emp, U)),4))

U^T VC_emp U = 
 [[0.5743 0.    ]
 [0.     1.225 ]]


Esto significa que si en cambio de las variables aleatorias $x$ e $y$, que, recordemos, podían tomar valores $x_0, x_1$ y
$y_0, y_1$ respectivamente, usamos las combinaciones lineales:
$$p = \mathbf{v}_{0}^{\top}\mathbf{x} = (v_{00}, v_{01})
\left(
    \begin{array}{c}
      x \\
      y \\
    \end{array}
\right) = v_{00}x + v_{01} y, \qquad
q = \mathbf{v}_{1}^{\top}\mathbf{x} = (v_{10}, v_{11})
\left(
    \begin{array}{c}
      x \\
      y \\
    \end{array}
\right) = v_{10}x + v_{11} y$$
entonces, las variables aleatorias $p$ y $q$ van a tener correlación nula, es decir, sus covarianzas van a ser cero. Notar que $p$ nos da la proyección de $\mathbf{x}$ sobre $\mathbf{v}_{0}$ y $q$ la proyección de $\mathbf{x}$ sobre $\mathbf{v}_{1}$.

Vamos a comprobar todo esto numéricamente, pero como ya sabemos mucha algebra lineal es MUY útil ser lo mas compacto posible en nuestras operaciones matriciales y vectoriales, no solo por simplicidad, sino porque además Python, cuando puede paraleliza los cálculos, haciéndolos muchísimo más rápidos. Pero solo los puede paralelizar si están escritos en forma matricial.

Fijémonos que por ser $\mathbf{v}_{i}$ y $\mathbf{x}$ vectores, sus productos escalares conmutan, es decir:$$p = \mathbf{v}_{0}^{\top}\mathbf{x} = v_{00}x + v_{01} y =
\mathbf{x}^{\top}\mathbf{v}_{0}, \qquad
q = \mathbf{v}_{1}^{\top}\mathbf{x} = v_{10}x + v_{11} y=
\mathbf{x}^{\top}\mathbf{v}_{1}$$
En la matriz $DM$, de datos "centrados", la fila iésima corresponde al dato $i$ traspuesto:$$
\mathbf{x}^{\top}_i = ( x_i - \bar{x}, y_i - \bar{y})$$
Entonces:$$PQ = DM \cdot U = \left(
    \begin{array}{c}
       \mathbf{x}^{\top}_0 \\
       \vdots \\
       \mathbf{x}^{\top}_m \\
    \end{array}
  \right) (\mathbf{v}_0, \mathbf{v}_1)= 
  \left(
    \begin{array}{cc}
      \mathbf{x}^{\top}_0 \mathbf{v}_0 & \mathbf{x}^{\top}_0 \mathbf{v}_1  \\
      \vdots & \vdots \\
      \mathbf{x}^{\top}_m \mathbf{v}_0 & \mathbf{x}^{\top}_m \mathbf{v}_1 \\
    \end{array}
  \right)$$
Es decir, $PQ$ es una matriz de $m \times 2$ cuya primera columna son los datos empíricos de la variable aleatoria $p$ y su segunda columna son los datos empíricos de la variable aleatoria $q$. 

Además, como dijimos, el elemento $p_i$ de la primera columna es la proyección, en el plano $(x,y)$, del dato empírico $(x_i,y_i)$ en la dirección del subespacio generado por $\mathbf{v}_0$, y el elemento $q_i$ de la segunda columna es la proyección, en el plano $(x,y)$, del dato empírico $(x_i,y_i)$ en la dirección del subespacio generado por $\mathbf{v}_1$.

Argumentamos antes que estas nuevas variables deberían tener covarianza cero. Comprobemoslo:

In [15]:
PQ = np.dot(DM,U)
print("PQ.shape = ", PQ.shape)

VC_PQ = (1/m)*np.dot(PQ.T,PQ)
print("matriz varianza-covarianza de las variables p y q = \n", np.round(VC_PQ,3))

PQ.shape =  (1000000, 2)
matriz varianza-covarianza de las variables p y q = 
 [[ 0.574 -0.   ]
 [-0.     1.225]]


Notar que, efectivamente, no solo los elementos no diagonales son cero, sino que, además, los diagonales son iguales a los autovalores de la matriz varianza covarianza VC\_emp de los datos empíricos originales $x$ e $y$! 

Esto es como debía ser, ya que, como vimos antes, $$\mathbf{x}^{\top} VC_{emp} \mathbf{x} = \mathbf{x}^{\top} U \left( U^{\top} VC_{emp} U \right) U^{\top} \mathbf{x}$$
Donde$$U^{\top} VC_{emp} U$$
es una matriz diagonal cuyos elementos diagonales son los autovalores de VC\_emp, y$$U^{\top} \mathbf{x}$$
son las coordenadas del vector $\mathbf{x}$ en la base $\{ \mathbf{v}_0, \mathbf{v}_1 \}$ de autovectores de VC\_emp.

Todo esto vale independientemente dela dimensionalidad de los datos. Si en vez de $d=2$ tenemos un $d$ (número de "features") genérico, la matriz de datos ser de $m \times d$, la matriz VarCov será de $d \times d$, esta también será simétricas y semidefinida positiva, y si pasamos a la base de autovectores, las variables aleatorias correspondientes a las proyecciones sobre los autovectores no tendrán correlación entre ellas (sus covarianzas serán cero), y además sus varianzas serán los autovalores de la matriz varianza-covarianza original.