In [None]:
%matplotlib inline

In [None]:
import matplotlib.pyplot as plt

In [None]:
import numpy as np
from numpy import linalg as LA

In [None]:
'''probabilidades: 1 variable aleatoria "x"'''

x0 = -1.
x1 = 1.

p0 = 0.5
p1 = 1 - p0

Ex = p0*x0 + p1*x1
print("E(x) = ", Ex)
Exx = p0*x0**2 + p1*x1**2
Vx = Exx - Ex**2
print("Vax(x) = ", Vx)

E(x) =  0.0
Vax(x) =  1.0


In [None]:
# Estimacion empirica de los valores esperados y matriz varianza-covarianza
# m es en numero de datos

m = 100
X = np.zeros((m,1))
One = np.ones((m,1))

Z = np.random.rand(m,1)

# Generacion de datos:
for i in range(m):
    if Z[i,0] < p0:
        X[i,0] = x0
    else:
        X[i,0] = x1
print("Datos empiricos de x = \n", X[:10]) # los primeros 10

Ex_emp = np.dot(One.T,X)/m # probar que esta forma vectorizada estima la media de x
print("Estimacion empirica de la media de x = ", Ex_emp)

Mx = np.mean(X, axis=0) # esta operacion hace lo mismo que Ex_emp
print("Estimacion empirica de la media de x con np.mean = ", Mx)

# jugar con el valor de m y ver como converge Ex_emp a Ex cuando m se hace grande (error ~ 1 / sqrt(m))

Datos empiricos de x = 
 [[-1.]
 [-1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]
 [ 1.]]
Estimacion empirica de la media de x =  [[0.1]]
Estimacion empirica de la media de x con np.mean =  [0.1]


In [None]:
# "centrar" los datos
XM = X - np.mean(X, axis=0) # esto es Python 'broadcasting'
print("XM.shape = ", XM.shape)

# probar que esta forma vectorizada genera la estimacion empirica de la varianza
Vx_emp = np.dot(XM.T,XM)/m # estrictamente deberia dividir por (m-1), por que es irrelevante cuando m es grande?

Verror = Vx - Vx_emp # error de estimacion

print("Vx_emp = ", Vx_emp)
print("Verror = Vx - Vx_emp = ", Verror)

XM.shape =  (100, 1)
Vx_emp =  [[0.99]]
Verror = Vx - Vx_emp =  [[0.01]]


In [None]:
'''probabilidades: 2 variables aleatorias "x, y"'''

# joint probability distribution of the random variables x and y

p00 = 0.1 # = p(x0,y0)
p01 = 0.4 # = p(x0,y1)
p10 = 0.3 # = p(x1,y0)
p11 = 1.0 - p00 - p01 - p10 # = p(x1,y1) # Chequear que no de negativo!
print("p11 =", p11)

# values of the random variables
x0 = -1.
x1 = 1.
y0 = -1.
y1 = 1.

# Marginal probability distributions

px0 = p00 + p01
px1 = p10 + p11

py0 = p00 + p10
py1 = p01 + p11

p11 = 0.2


In [None]:
# Valores esperados y varianza-covarianza exactos
Ex = x0*px0 + x1*px1
Ey = y0*py0 + y1*py1
print("E(x) = ", Ex)
print("E(y) = ", Ey)
M_exact = np.array([Ex,Ey])
print(M_exact)

Exx = x0*x0*px0 + x1*x1*px1
Eyy = y0*y0*py0 + y1*y1*py1
print("E(xx) = ", Exx)
print("E(yy) = ", Eyy)

Exy = x0*y0*p00 + x0*y1*p01 + x1*y0*p10 + x1*x1*p11
# Notar que aca es necesario usar la joint probability distribution, las marginales no tienen la informacion necesaria
print("E(xy) = ", Exy)

Vxx = Exx - Ex**2
Vyy = Eyy - Ey**2
Vxy = Exy - Ex*Ey
print("Var(x) = ", Vxx)
print("Var(y) = ", Vyy)
print("CoVar(x,y) = ", Vxy)

VC_exact = np.array([[Vxx,Vxy],[Vxy,Vyy]])
print("Matriz Varianza-Covarianza exacta = \n", VC_exact)

E(x) =  0.0
E(y) =  0.20000000000000007
[0.  0.2]
E(xx) =  1.0
E(yy) =  1.0
E(xy) =  -0.4000000000000001
Var(x) =  1.0
Var(y) =  0.96
CoVar(x,y) =  -0.4000000000000001
Matriz Varianza-Covarianza exacta = 
 [[ 1.   -0.4 ]
 [-0.4   0.96]]


Reemplazando las probabilidades marginales por su expresión en termino de las "joint", encontrar la expresión para las distintas expresiones en la celta de mas arriba. Notar que cuando queremos calcular términos cruzados, como E(xy) o CoVar(x,y), las marginales no alcanzan y hay que apelar si o si a la joint probability distributions (notar que las marginales tienen 2 parámetros libres mientras que la joint 3).

In [None]:
# Estimacion empirica de los valores esperados y matriz varianza-covarianza
# m es en numero de datos

m = 100
X = np.zeros((m,1))
Y = np.zeros((m,1))

Z = np.random.rand(m,1)

# Generacion de datos:
for i in range(m):
    if Z[i,0] < p00:
        X[i,0] = x0
        Y[i,0] = y0
    elif Z[i,0] < p00 + p01:
        X[i,0] = x0
        Y[i,0] = y1
    elif Z[i,0] < p00 + p01 + p10:
        X[i,0] = x1
        Y[i,0] = y0
    else:
        X[i,0] = x1
        Y[i,0] = y1

# Matrix de datos:
D = np.concatenate((X, Y), axis=1)

#restandole la media tanto a X como a Y
M = np.mean(D, axis=0)
print("Mean(X,Y) = ", M)
# Diferencia entre los means exacta y empiricos
print("Error(Mean) = M_exact - M_emp = \n", M_exact - M)



DM = D - M  # DM es la matriz de datos "centrados".
# Notar que a un array de shape (m,2) le restamos uno de shape (2,). Python interpreta corractamente lo que
# queremos hacer. Esto se llama "Broadcasting"
print("DM.shape = ", DM.shape)

# Chequeamos que los datos en DM estan "centrados"
print ("Mean de DM = ", np.mean(DM, axis=0))

# Calculamos la matrix Varianza-Covarianza (probar que este es, efectivamente, dicha matriz):
VC_emp = (1/m)*np.dot(DM.T,DM)
print("Matriz Varianza-Covarianza empirica = \n", VC_emp)

# Diferencia entre la matriz varianza covarianza exacta y la empirica
print("Error(VC) = VC_exact - VC_emp = \n", VC_exact - VC_emp)

Mean(X,Y) =  [0.  0.2]
Error(Mean) = M_exact - M_emp = 
 [0.00000000e+00 5.55111512e-17]
DM.shape =  (100, 2)
Mean de DM =  [ 0.00000000e+00 -3.99680289e-17]
Matriz Varianza-Covarianza empirica = 
 [[ 1.   -0.36]
 [-0.36  0.96]]
Error(VC) = VC_exact - VC_emp = 
 [[ 0.00000000e+00 -4.00000000e-02]
 [-4.00000000e-02  2.22044605e-16]]


En la celda anterior, jugar con el número de datos $m$ para ver como $M_{emp}$ y $VC_{emp}$ van convergiendo a $M_{exact}$ y $VC_{exact}$ cuando $m$ crece. El error debería decrecer como$$\sim \frac{1}{\sqrt{m}}$$

La matriz VC\_emp, siendo simétrica, tiene que tener autovalores y autovectores reales. Probar que además los autovalores son semidefinidos positivos (es decir, o bien son todos positivos, o algunos pueden ser 0, pero ninguno puede ser negativo).

Hint: Para el vector genérico$$ \mathbf{x} =
\left(
   \begin{array}{c}
       x \\
       y \\
   \end{array}
\right)$$
usar la propiedad asociativa y la traspuesta de un producto para mostrar que la forma cuadratica$$\mathbf{x}^{\top} \left( VC_{emp} \right) \mathbf{x} = \mathbf{x}^{\top} \left( DM^{\top} DM \right) \mathbf{x}$$
es necesariamente semidefinida positiva. Que condición se tiene que dar para que para algún vector $\mathbf{x}$ no nulo$$
\mathbf{x}^{\top} \left( DM^{\top} DM \right) \mathbf{x} = \mathbf{0}?$$
Comprobemos numéricamente que la matriz varianza-covarianza tiene autovalores no negativos:

In [None]:
w , U = LA.eigh(VC_emp) # Notar que uso LA.eigh, con "h" al final. Esto conviene para matrices simetricas
print("autovalores de VC_emp = ", w)
print("autovectores de VC_emp = \n", U)

autovalores de VC_emp =  [0.57425837 1.22496071]
autovectores de VC_emp = 
 [[ 0.63761414 -0.7703559 ]
 [-0.7703559  -0.63761414]]


Recordemos que las columnas de $U$ son los autovectores de VC\_emp,$$U = \left(
         \begin{array}{cc}
             | & | \\
             \mathbf{v}_0 & \mathbf{v}_1 \\
             | & | \\
         \end{array}
      \right), \quad VC_{emp} \mathbf{v}_0 = \lambda_0 \mathbf{v}_1,
      \quad VC_{emp} \mathbf{v}_0 = \lambda_0 \mathbf{v}_1$$ y por ser VC\_emp simetrica, la matriz $U$ es ortonormal, es decir, sus columnas, los vectores $\mathbf{v}_0$ y $\mathbf{v}_1$, forman una base ortonormal, por lo que $U U^{\top} = U^{\top} U = I$). Entonces, tal como lo hicimos en un HW pasado,$$\mathbf{x}^{\top} VC_{emp} \mathbf{x} = \mathbf{x}^{\top} U \left( U^{\top} VC_{emp} U \right) U^{\top} \mathbf{x}$$
Donde$$U^{\top} VC_{emp} U$$
es una matriz diagonal cuyos elementos diagonales son los autovalores de VC\_emp, y$$U^{\top} \mathbf{x}$$
son las coordenadas del vector $\mathbf{x}$ en la base $\{ \mathbf{v}_0, \mathbf{v}_1 \}$ de autovectores de
VC\_emp. Comprobemos esto:

In [None]:
print("U^T VC_emp U = \n", np.round(np.dot(U.T,np.dot(VC_emp, U)),4))

U^T VC_emp U = 
 [[0.5743 0.    ]
 [0.     1.225 ]]


Esto significa que si en cambio de las variables aleatorias $x$ e $y$, que, recordemos, podían tomar valores $x_0, x_1$ y
$y_0, y_1$ respectivamente, usamos las combinaciones lineales:
$$p = \mathbf{v}_{0}^{\top}\mathbf{x} = (v_{00}, v_{01})
\left(
    \begin{array}{c}
      x \\
      y \\
    \end{array}
\right) = v_{00}x + v_{01} y, \qquad
q = \mathbf{v}_{1}^{\top}\mathbf{x} = (v_{10}, v_{11})
\left(
    \begin{array}{c}
      x \\
      y \\
    \end{array}
\right) = v_{10}x + v_{11} y$$
entonces, las variables aleatorias $p$ y $q$ van a tener correlación nula, es decir, sus covarianzas van a ser cero. Notar que $p$ nos da la proyección de $\mathbf{x}$ sobre $\mathbf{v}_{0}$ y $q$ la proyección de $\mathbf{x}$ sobre $\mathbf{v}_{1}$.

Vamos a comprobar todo esto numéricamente, pero como ya sabemos mucha algebra lineal es MUY útil ser lo mas compacto posible en nuestras operaciones matriciales y vectoriales, no solo por simplicidad, sino porque además Python, cuando puede paraleliza los cálculos, haciéndolos muchísimo más rápidos. Pero solo los puede paralelizar si están escritos en forma matricial.

Fijémonos que por ser $\mathbf{v}_{i}$ y $\mathbf{x}$ vectores, sus productos escalares conmutan, es decir:$$p = \mathbf{v}_{0}^{\top}\mathbf{x} = v_{00}x + v_{01} y =
\mathbf{x}^{\top}\mathbf{v}_{0}, \qquad
q = \mathbf{v}_{1}^{\top}\mathbf{x} = v_{10}x + v_{11} y=
\mathbf{x}^{\top}\mathbf{v}_{1}$$
En la matriz $DM$, de datos "centrados", la fila iésima corresponde al dato $i$ traspuesto:$$
\mathbf{x}^{\top}_i = ( x_i - \bar{x}, y_i - \bar{y})$$
Entonces:$$PQ = DM \cdot U = \left(
    \begin{array}{c}
       \mathbf{x}^{\top}_0 \\
       \vdots \\
       \mathbf{x}^{\top}_m \\
    \end{array}
  \right) (\mathbf{v}_0, \mathbf{v}_1)=
  \left(
    \begin{array}{cc}
      \mathbf{x}^{\top}_0 \mathbf{v}_0 & \mathbf{x}^{\top}_0 \mathbf{v}_1  \\
      \vdots & \vdots \\
      \mathbf{x}^{\top}_m \mathbf{v}_0 & \mathbf{x}^{\top}_m \mathbf{v}_1 \\
    \end{array}
  \right)$$
Es decir, $PQ$ es una matriz de $m \times 2$ cuya primera columna son los datos empíricos de la variable aleatoria $p$ y su segunda columna son los datos empíricos de la variable aleatoria $q$.

Además, como dijimos, el elemento $p_i$ de la primera columna es la proyección, en el plano $(x,y)$, del dato empírico $(x_i,y_i)$ en la dirección del subespacio generado por $\mathbf{v}_0$, y el elemento $q_i$ de la segunda columna es la proyección, en el plano $(x,y)$, del dato empírico $(x_i,y_i)$ en la dirección del subespacio generado por $\mathbf{v}_1$.

Argumentamos antes que estas nuevas variables deberían tener covarianza cero. Comprobemoslo:

In [None]:
PQ = np.dot(DM,U)
print("PQ.shape = ", PQ.shape)

VC_PQ = (1/m)*np.dot(PQ.T,PQ)
print("matriz varianza-covarianza de las variables p y q = \n", np.round(VC_PQ,3))

PQ.shape =  (1000000, 2)
matriz varianza-covarianza de las variables p y q = 
 [[ 0.574 -0.   ]
 [-0.     1.225]]


Notar que, efectivamente, no solo los elementos no diagonales son cero, sino que, además, los diagonales son iguales a los autovalores de la matriz varianza covarianza VC\_emp de los datos empíricos originales $x$ e $y$!

Esto es como debía ser, ya que, como vimos antes, $$\mathbf{x}^{\top} VC_{emp} \mathbf{x} = \mathbf{x}^{\top} U \left( U^{\top} VC_{emp} U \right) U^{\top} \mathbf{x}$$
Donde$$U^{\top} VC_{emp} U$$
es una matriz diagonal cuyos elementos diagonales son los autovalores de VC\_emp, y$$U^{\top} \mathbf{x}$$
son las coordenadas del vector $\mathbf{x}$ en la base $\{ \mathbf{v}_0, \mathbf{v}_1 \}$ de autovectores de VC\_emp.

Todo esto vale independientemente dela dimensionalidad de los datos. Si en vez de $d=2$ tenemos un $d$ (número de "features") genérico, la matriz de datos ser de $m \times d$, la matriz VarCov será de $d \times d$, esta también será simétricas y semidefinida positiva, y si pasamos a la base de autovectores, las variables aleatorias correspondientes a las proyecciones sobre los autovectores no tendrán correlación entre ellas (sus covarianzas serán cero), y además sus varianzas serán los autovalores de la matriz varianza-covarianza original.

#**Punto 3**

Generar un Jupyter notebook similar, pero en el que la variable aleatoria X puede tener 3 valores diferentes (x0, x1, x2) e Y cuatro valores diferentes (y0, y1, y2, y3). Pero antes de eso explicar por qué el número de eventos diferentes es 12, y por lo tanto la distribución de probabilidades conjunta tiene 12 probabilidades diferentes pij, i=0,1,2, j=0,1,2,3 (de las cuales 11 son independientes, y la doceava tiene que ser tal que la suma de las 12 de 1 (y todas sean positivas). Notar que la matriz varianza covarianza sigue siendo de 2x2, porque hay dos variables aleatorias.

In [None]:
import numpy as np

# Definir los valores posibles
x_vals = np.array([0, 1, 2])    # x0, x1, x2
y_vals = np.array([0, 1, 2, 3]) # y0, y1, y2, y3


In [None]:
# 3. Distribución conjunta de ejemplo - Generamos una matriz 3×4 de valores aleatorios y la normalizamos.

P = np.random.rand(len(x_vals), len(y_vals))
P = P / P.sum()  # Normalizar a suma 1
print("Distribución conjunta P:")
print(P)

Distribución conjunta P:
[[0.02956629 0.13923808 0.0564028  0.05831484]
 [0.05747919 0.15613068 0.14529197 0.11599674]
 [0.05612531 0.02214805 0.1209679  0.04233816]]


In [None]:
# 4. Distribuciones marginales
# - p_X(i) = Σ_j P[i,j]
# - p_Y(j) = Σ_i P[i,j]

# Marginal de X (suma por filas)
p_x = P.sum(axis=1)
# Marginal de Y (suma por columnas)
p_y = P.sum(axis=0)

print("\nMarginal de X:", p_x)
print("Marginal de Y:", p_y)


Marginal de X: [0.283522   0.47489859 0.24157942]
Marginal de Y: [0.14317079 0.31751681 0.32266267 0.21664973]


In [None]:
#5. Cálculo de esperanzas

# E[X] = Σ_i x_i p_X(i)
# E[Y] = Σ_j y_j p_Y(j)


E_X = np.dot(x_vals, p_x)
E_Y = np.dot(y_vals, p_y)
print(f"E[X] = {E_X:.4f}")
print(f"E[Y] = {E_Y:.4f}")

E[X] = 0.9581
E[Y] = 1.6128


In [None]:
#6. Cálculo de varianzas
# Var(X) = Σ_i (x_i - E[X])^2 p_X(i)
# Var(Y) = Σ_j (y_j - E[Y])^2 p_Y(j)

Var_X = np.dot((x_vals - E_X)**2, p_x)
Var_Y = np.dot((y_vals - E_Y)**2, p_y)
print(f"Var(X) = {Var_X:.4f}")
print(f"Var(Y) = {Var_Y:.4f}")

Var(X) = 0.5233
Var(Y) = 0.9569


In [None]:
#7. Cálculo de la covarianza

# Cov(X,Y) = E[XY] - E[X]E[Y], donde
# E[XY] = Σ_i Σ_j x_i y_j P[i,j]

# E[XY]
E_XY = sum(x * y * P[i, j] for i, x in enumerate(x_vals) for j, y in enumerate(y_vals))
Cov_XY = E_XY - E_X * E_Y
print(f"Cov(X,Y) = {Cov_XY:.4f}")

Cov(X,Y) = 0.0318


In [None]:
# 8. Matriz varianza–covarianza

# Construimos la matriz 2×2 - Notar que la matriz varianza covarianza sigue siendo de 2x2, porque hay dos variables aleatorias.

Sigma = np.array([[Var_X, Cov_XY], [Cov_XY, Var_Y]])
print("\nMatriz Var–Cov:")
print(Sigma)


Matriz Var–Cov:
[[0.52334223 0.03175477]
 [0.03175477 0.95691915]]


#**Punto 4**

Generar un Jupyter notebook similar, pero con 3 variables aleatorias, X, Y, Z, cada una de las cuales puede tomas dos valores diferentes. Pero antes de eso explicar por qué el número de eventos diferentes es 8 y por lo tanto la distribución de probabilidades conjunta tiene 8 probabilidades diferentes pijk, i=0,1, j=0,1, k=0,1 (de las cuales 7 son independientes, y la octava tiene que ser tal que la suma de las 8 de 1 (y todas sean positivas). Notar que la matriz varianza covarianza ahora es de 3x3, porque hay tres variables aleatorias

In [None]:
import numpy as np

# 1. Definir los valores posibles para cada variable
x_vals = np.array([0, 1])
y_vals = np.array([0, 1])
z_vals = np.array([0, 1])

In [None]:
# 2. Generar distribución conjunta aleatoria y normalizar
P = np.random.rand(2, 2, 2)
P /= P.sum()
print("Distribución conjunta P:", P)

Distribución conjunta P: [[[0.17524946 0.15783242]
  [0.16183824 0.11335305]]

 [[0.15583243 0.07961889]
  [0.02664769 0.12962782]]]


In [None]:
# 3. Calcular distribuciones marginales
p_x = P.sum(axis=(1, 2))  # marginal de X
p_y = P.sum(axis=(0, 2))  # marginal de Y
p_z = P.sum(axis=(0, 1))  # marginal de Z
print("Marginal X:", p_x)
print("Marginal Y:", p_y)
print("Marginal Z:", p_z)

Marginal X: [0.60827316 0.39172684]
Marginal Y: [0.56853321 0.43146679]
Marginal Z: [0.51956782 0.48043218]


In [None]:
# 4. Calcular esperanzas
E_X = np.dot(x_vals, p_x)
E_Y = np.dot(y_vals, p_y)
E_Z = np.dot(z_vals, p_z)
print(f"E[X] = {E_X:.4f}")
print(f"E[Y] = {E_Y:.4f}")
print(f"E[Z] = {E_Z:.4f}")

E[X] = 0.3917
E[Y] = 0.4315
E[Z] = 0.4804


In [None]:
# 5. Calcular varianzas
Var_X = np.dot((x_vals - E_X)**2, p_x)
Var_Y = np.dot((y_vals - E_Y)**2, p_y)
Var_Z = np.dot((z_vals - E_Z)**2, p_z)
print(f"Var(X) = {Var_X:.4f}")
print(f"Var(Y) = {Var_Y:.4f}")
print(f"Var(Z) = {Var_Z:.4f}")

Var(X) = 0.2383
Var(Y) = 0.2453
Var(Z) = 0.2496


In [None]:
# 6. Calcular covarianzas --  E[XY] = Σ x_i y_j P[i,j,k] (suma sobre k)
E_XY = sum(x * y * P[i, j, k]
            for i, x in enumerate(x_vals)
            for j, y in enumerate(y_vals)
            for k in range(len(z_vals)))
E_XZ = sum(x * z * P[i, j, k]
            for i, x in enumerate(x_vals)
            for j in range(len(y_vals))
            for k, z in enumerate(z_vals))
E_YZ = sum(y * z * P[i, j, k]
            for i in range(len(x_vals))
            for j, y in enumerate(y_vals)
            for k, z in enumerate(z_vals))

Cov_XY = E_XY - E_X * E_Y
Cov_XZ = E_XZ - E_X * E_Z
Cov_YZ = E_YZ - E_Y * E_Z
print(f"Cov(X,Y) = {Cov_XY:.4f}")
print(f"Cov(X,Z) = {Cov_XZ:.4f}")
print(f"Cov(Y,Z) = {Cov_YZ:.4f}")

Cov(X,Y) = -0.0127
Cov(X,Z) = 0.0210
Cov(Y,Z) = 0.0357
