In [None]:
import numpy as np
import pandas as pd
import math

In [None]:
aapl = pd.read_csv("AAPL.csv")

In [None]:
aapl

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2022-11-16,149.130005,149.869995,147.289993,148.789993,147.962952,64218300
1,2022-11-17,146.429993,151.479996,146.149994,150.720001,149.882217,80389400
2,2022-11-18,152.309998,152.699997,149.970001,151.289993,150.449066,74829600
3,2022-11-21,150.160004,150.369995,147.720001,148.009995,147.187286,58724100
4,2022-11-22,148.130005,150.419998,146.929993,150.179993,149.345215,51804100
...,...,...,...,...,...,...,...
247,2023-11-10,183.970001,186.570007,183.529999,186.399994,186.399994,66133400
248,2023-11-13,185.820007,186.029999,184.210007,184.800003,184.800003,43627500
249,2023-11-14,187.699997,188.110001,186.300003,187.440002,187.440002,60108400
250,2023-11-15,187.850006,189.500000,187.779999,188.009995,188.009995,53666800


In [None]:
type(aapl)

pandas.core.frame.DataFrame

In [None]:
X0 = aapl["Open"]

In [None]:
X0

0      149.130005
1      146.429993
2      152.309998
3      150.160004
4      148.130005
          ...    
247    183.970001
248    185.820007
249    187.699997
250    187.850006
251    189.570007
Name: Open, Length: 252, dtype: float64

In [None]:
X1 = aapl["Close"]

In [None]:
X2 = aapl["High"]

In [None]:
X3 = aapl["Low"]

In [None]:
Xt = np.array([X0,X1,X2,X3])

In [None]:
Xt

array([[149.130005, 146.429993, 152.309998, ..., 187.699997, 187.850006,
        189.570007],
       [148.789993, 150.720001, 151.289993, ..., 187.440002, 188.009995,
        189.610001],
       [149.869995, 151.479996, 152.699997, ..., 188.110001, 189.5     ,
        190.949997],
       [147.289993, 146.149994, 149.970001, ..., 186.300003, 187.779999,
        189.520004]])

In [None]:
X = Xt.transpose()

In [None]:
X[230,0]

175.580002

In [None]:
X0t = X0.transpose()

In [None]:
X1t = X1.transpose()
X2t = X2.transpose()
X3t = X3.transpose()

Matriz identidad $I_n$

In [None]:
id = np.zeros((252,252))

In [None]:
for i in np.arange(0,252):
    id[i,i] = 1

Matriz $1_n$, que aquí llamamos "uno"

In [None]:
uno = np.ones((252,1))

In [None]:
unot = np.ones((1,252))

Valores promedio. Dada una lista de datos, $X_i$ (que puede tener formato de columna), podemos calcular su media

aritmética, multiplicándola por la izquierda por la matriz $\frac{1}{n}1'_n$, donde $n$ es el número de datos de $X_i$. Esto es

$\bar{X_i} = \frac{1}{n}1'_nX_i$

Ejemplo: calculemos el valor promedio de $X0$:

In [None]:
prom_X0 = (1/252)*np.dot(unot,np.array(X0))

In [None]:
prom_X0

array([41853.820179])

Observe que tuvimos que convertir el tipo de dato de $X0$ (dataframe) a array

para poder usar la función "dot" de numpy para multiplicar las matrices $X0$ y $1_{252}$

Los datos originales $X_i$ de una investigación, sin formato especial, les llamamos

datos $\color{yellow}crudos$. A continuación, convertiremos los datos crudos a otros tipos de datos, como

son los datos $\color{yellow}centrales$, $Y_i$, y los datos $\color{yellow}estandarizados$, $Z_i$.

$Datos\,  \color{yellow} centrales$ $\,Y_i$

Los datos centrales, $Y_i$, asociados a una lista numérica $X_i$ se obtiene

restando de cada dato de $X_i$ el valor promedio $\bar{X_i}$:  $Y_i = X_i - \bar{X_i}1_n$, donde

$n$ es el número de datos de $X_i$. Haciendo $J = I_n - \frac{1}{n}1_n1'_n$, podemos calcular

$Y_i = JX_i$. Por esta razón llamamos a $J$ $\color{yellow} matriz \, centralizadora$.

Ejemplo: calculemos los datos centrales de $X0$:

In [None]:
J = id - (1/252)*(np.dot(uno,unot))

In [None]:
J

array([[ 0.99603175, -0.00396825, -0.00396825, ..., -0.00396825,
        -0.00396825, -0.00396825],
       [-0.00396825,  0.99603175, -0.00396825, ..., -0.00396825,
        -0.00396825, -0.00396825],
       [-0.00396825, -0.00396825,  0.99603175, ..., -0.00396825,
        -0.00396825, -0.00396825],
       ...,
       [-0.00396825, -0.00396825, -0.00396825, ...,  0.99603175,
        -0.00396825, -0.00396825],
       [-0.00396825, -0.00396825, -0.00396825, ..., -0.00396825,
         0.99603175, -0.00396825],
       [-0.00396825, -0.00396825, -0.00396825, ..., -0.00396825,
        -0.00396825,  0.99603175]])

In [None]:
Y0 = np.dot(J,X0)

In [None]:
Y0

array([-1.69565830e+01, -1.96565950e+01, -1.37765900e+01, -1.59265840e+01,
       -1.79565830e+01, -1.66365910e+01, -1.77765900e+01, -2.09465890e+01,
       -2.17965950e+01, -2.46865940e+01, -1.78765810e+01, -2.01265810e+01,
       -1.83165840e+01, -1.90165810e+01, -2.38965860e+01, -2.37265870e+01,
       -2.37465920e+01, -2.33865910e+01, -1.65865880e+01, -2.07365820e+01,
       -2.49765870e+01, -2.93965860e+01, -3.09765870e+01, -3.46965890e+01,
       -3.31065920e+01, -3.17365820e+01, -3.51665900e+01, -3.47065830e+01,
       -3.64165900e+01, -3.80965900e+01, -3.76765840e+01, -3.58065890e+01,
       -3.91965890e+01, -3.89565910e+01, -4.00765860e+01, -3.56165870e+01,
       -3.58265930e+01, -3.48365880e+01, -3.22065830e+01, -3.40565890e+01,
       -3.12565860e+01, -2.92665810e+01, -3.20065860e+01, -3.08065890e+01,
       -2.79665930e+01, -2.57765900e+01, -2.51965890e+01, -2.29165900e+01,
       -2.29265840e+01, -2.11265810e+01, -2.33865910e+01, -2.21165870e+01,
       -1.71865940e+01, -

Ejercicio 1: calcule los datos centrales de $X1$, $X2$ y $X3$

Dada una matriz $X = [X_0,X_1,X_2,\dots,X_n]$, donde $X_i$ es su $i$-ésima columna, se cumple la

siguiente propiedad $AX = [AX_0,AX_1,AX_2\ldots,AX_n]$, que informalmente llamaremos propiedad $\color{yellow} distributiva$

Ejemplo: aplicando la propiedad distributiva del producto matricial, centralicemos los datos de

la matriz $X = [X0,X1,X2,X4]$:

In [None]:
Y = np.dot(J,X)

In [None]:
Y

array([[-16.95658301, -17.54099926, -17.89032257, -17.41417372],
       [-19.65659501, -15.61099126, -16.28032157, -18.55417272],
       [-13.77659001, -15.04099926, -15.06032057, -14.73416572],
       ...,
       [ 21.61340899,  21.10900974,  20.34968343,  21.59583628],
       [ 21.76341799,  21.67900274,  21.73968243,  23.07583228],
       [ 23.48341899,  23.27900874,  23.18967943,  24.81583728]])

La matriz centralizadora tiene algunas propiedades:

1. $J$ es $\color{yellow}simétrica$: $J' = J$
2. $J$ es $\color{yellow}idempotente$: $J^2 = J$
3. $1'_nJ = 0_{1\times n}$

Ejercicio 2: compruebe estas 3 propiedades para la matriz $J$ de la línea de código número 22

El valor promedio de las puntuaciones centrales es cero:

4. $\frac{1}{n}1'_nY_i = 0$

Ejercicio 3: compruebe la propiedad 4 para las puntuaciones centrales del vector $Y0$ de la línea de código 24

Las Puntuaciones centrales de datos centrales no cambian:

5. $JY_i = Y_i$ para todo vector $Y_i$ de datos centrales.

Ejemplo: comprobemos la propiedad 5 para el vector $Y0$ de la línea de código 24

In [None]:
print(np.dot(J,Y0) - Y0)

[-2.13162821e-14 -3.55271368e-14 -1.77635684e-14 -2.66453526e-14
 -3.19744231e-14 -3.55271368e-14 -2.84217094e-14 -3.19744231e-14
 -3.55271368e-14 -2.84217094e-14 -2.13162821e-14 -2.84217094e-14
 -2.84217094e-14 -2.84217094e-14 -3.55271368e-14 -2.84217094e-14
 -3.90798505e-14 -3.19744231e-14 -1.77635684e-14 -2.84217094e-14
 -3.55271368e-14 -2.84217094e-14 -3.90798505e-14 -2.84217094e-14
 -3.55271368e-14 -3.19744231e-14 -2.84217094e-14 -2.84217094e-14
 -2.84217094e-14 -4.97379915e-14 -2.84217094e-14 -5.68434189e-14
 -3.55271368e-14 -4.97379915e-14 -2.84217094e-14 -4.97379915e-14
 -4.26325641e-14 -3.55271368e-14 -3.55271368e-14 -4.26325641e-14
 -3.19744231e-14 -3.55271368e-14 -3.55271368e-14 -3.19744231e-14
 -3.19744231e-14 -3.19744231e-14 -3.19744231e-14 -2.84217094e-14
 -2.84217094e-14 -2.84217094e-14 -2.84217094e-14 -3.19744231e-14
 -2.48689958e-14 -2.48689958e-14 -2.13162821e-14 -2.66453526e-14
 -1.95399252e-14 -2.66453526e-14 -1.42108547e-14 -2.66453526e-14
 -1.95399252e-14 -2.84217

La $\color{yellow}varianza$ de la lista de datos $X_i$ se define como

$v_{i,i} = \frac{\sum_{j=1}^n({X_i}_j-\bar{X})^2}{n}$.

Usando la notación matricial, podemos calcular la varianza realizando la siguiente operación

$\color{orange}v_{i,i} = \frac{1}{n}Y'_iY_i = \frac{1}{n}X'_iJX_i$. Observe que $Y'_iY_i = \| Y_i \|^2$ (cuadrado de la norma de $Y_i$).

La raíz cuadrada de la varianza, $\sqrt{v_{i,i}}$ se llama $\color{yellow} desviación \, estándar$

Ejemplo: calculemos la varianza y desviación estándar del vector $X0$ de la línea de código 6

In [None]:
v00 = (1/252)*np.dot(Y0.transpose(),Y0)

In [None]:
v00

337.6161636448634

In [None]:
v00 = (1/252)*np.dot(np.dot(X0t,J),X0)

In [None]:
v00

337.6161636448622

Ejemplo: calculemos la desviación estándar del vector $X0$:

In [None]:
std00 = math.sqrt(v00)

18.374334372838167

Ejercicio 4: calcule la varianza de los vectores $X1$, $X2$ y $X_3$

Ejercicio 7: calcule la desviación estándar de los vectores $X1$, $X2$ y $X_3$

Puntuaciones $\color{yellow} estandarizadas$

Las puntuaciones estandarizadas $Z_i$ de la lista de datos $X_i$ se define como

$Z_i = \frac{1}{\sigma_{X_i}}(X_i - \bar{X_i}1_n) = \frac{1}{\sigma_{X_i}}Y_i = \frac{1}{\sigma_{X_i}}JX_i$, donde $\sigma_{X_i}$ es la desviación

estándar de $X_i$.

PROPIEDADES DE DATOS ESTANDARIZADOS:

6.  La media aritmética de datos estandarizados es 0
7. La varianza de datos estandarizados es 1


Sea $X = [X_1,X_2,\dots,X_n]$ y $D$ la matriz diagonal $n\times n$ con $i$-ésimo elemento diagonal

$\sqrt{v_{i,i}}$. La matriz de puntuaciones centrales $Z$ correspondiente a $X$ se puede calcular con la

fórmula $Z = YD^{-1}$, siendo $Y$ la matriz de puntuaciones centrales.


Ejercicio 8: calcule las puntuaciones estándar de $X0$. Llame $Z0$ a dichas puntuaciones.

Compruebe las propiedades 6 y 7 para $Z0$

Ejemplo: Calculemos los datos centrales $Z$ de los datos $X = [X0,X1,X2,X3]$:

In [None]:
D = np.zeros((0,0))

In [None]:
D[0,0] = std00
D[1,1] = std11
D[2,2] = std22
D[3,3] = std33

In [None]:
D

array([], shape=(0, 0), dtype=float64)

In [None]:
D[0,0]

IndexError: index 0 is out of bounds for axis 0 with size 0

In [None]:
from numpy import linalg as lnl

In [None]:
INV_D = lnl.inv(D)

In [None]:
INV_D

array([], shape=(0, 0), dtype=float64)

In [None]:
Z = np.dot(Y,INV_D)

ValueError: shapes (252,4) and (0,0) not aligned: 4 (dim 1) != 0 (dim 0)

In [None]:
Z

$\color{yellow}Covarianzas$

$\color{orange}v_{i,k} = \frac{1}{n}Y'_iY_k = \frac{1}{n}X'_iJX_k$. Observe la igualdad $v_{i,k} = v_{k,i}$.

Si consideramos las varianzas como covarianzas, para una matriz de datos con $n$  columnas $X = [X0,X1,\dots,X_{n-1}]$,

hay a lo más $\frac{n\times n+1}{2}$ covarianzas distintas.

Ejercicio 9. Calcule las covarianzas $v_{0,1}$, $v_{1,3}$ y $v_{2,3}$.

Matriz de covarianzas

Para una matriz de datos con $n$  columnas $X = [X0,X1,\dots,X_{n-1}]$, su $\color{orange}matriz \, de \, covarianzas \, V$

se puede calcular, haciendo la siguiente operación $V = \frac{1}{n}Y'Y = \frac{1}{n}X'JX$, donde $X'$ es la transpuesta de $X$.

In [None]:
V = (1/252)*np.dot((Y.transpose()),Y)

In [None]:
V

array([[337.61616364, 335.34423675, 333.89461453, 339.82551838],
       [335.34423675, 336.93494451, 333.53583119, 339.58494202],
       [333.89461453, 333.53583119, 331.79021228, 336.94233445],
       [339.82551838, 339.58494202, 336.94233445, 343.62358543]])

$\color{yellow}Coeficientes \, de \, correlación$

El coeficiente de correlación de $X_i$ y $X_k$ se define como $r_{i,k} = \frac{v_{i,k}}{\sqrt{v_{i,i}}\sqrt{v_{k,k}}}$.

Observe que el coeficiente de correlación de puntuaciones estándar coincide con su covarianza, por esta razón, si $Z$ es

la matriz de datos estandarizados asociada a $X = [X0,X_1,\dots,X_{n-1}]$, entonces la matriz de coeficientes de correlación

para $X$ es la matriz $\color{orange} \frac{1}{n}Z'JZ$. También observe que, como los datos estandarizados son esencialmente datos centrales (divididos entre la desviación estándar) y como los datos centrales de datos centrales ($JY_i = Y_i$) no cambian, entonces los datos centrales de datos estandarizados tampoco cambian ($JZ_i = Z_i$). En consecuencia, la matriz de coeficientes de correlación para $X$ es la matriz $\color{orange} \frac{1}{n}Z'Z$.

Ejemplo: calculemos el coeficiente de correlación de $X_1$ y $X_2$

In [None]:
r12 = v12/((math.sqrt(v11))*(math.sqrt(v22)))

In [None]:
r12

0.997556915035348

Ejemplo: calculemos la matriz de coeficientes de correlación de las columnas de $X = [X0,X1,X2,X3]$

In [None]:
(1/252)*np.dot(Z.transpose(),Z)

NameError: name 'Z' is not defined

El coeficiente de correlación de $X_i$ y $X_k$ se puede reescribir como $r_{i,k} = \frac{v_{i,k}}{\sqrt{v_{i,i}}\sqrt{v_{k,k}}} = \color{orange} \frac{Y'_iY_k}{\|Y_i\|\|Y_k\|} = \cos(\theta_{i,k})$,

gracias a la definición del producto interno de vectores. Tomando el ángulo más pequeño entre los vectores

$Y_i$ y $Y_k$, el coeficiente de correlación toma valores entre -1 y 1. Un valor positivo para $r_{i,k}$ se interpreta

como correlación positiva. Si el valor de $r_{i,k}$ es próximo a 1, entonces los vectores $Y_i$ y $Y_k$ prácticamente

tienen la misma dirección, aunque esto no significa que se muevan con la misma rapidez. La rapidez de movimiento

la mide la longitud de los vectores.

Ejemplo: calculemos el ángulo de inclinación de $X_1$ y $X_2$:

In [None]:
a12 = math.acos(r12)
a12

0.06991538300839908

In [None]:
a12*180/math.pi

4.005856369421936