# Reto #2 (Autovalores y Autovectores)

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

### 1) Consideremos un sistema conformado por $n$ partículas de masas distintas masas dispersas en un volumen, tal y como muestra el archivo de datos:

In [2]:
datos=pd.read_csv("datosmasas.csv")
datos.head()

Unnamed: 0,particula,masas,x,y,z
0,1,2.0,-53.0,79.0,-91.0
1,2,2.0,13.0,-142.0,-177.0
2,3,2.0,-109.0,-103.0,-120.0
3,4,2.0,4.0,-96.0,110.0
4,5,4.0,222.0,-22.0,-236.0


#### a) Primero, consideremos el caso 2D –la distribución se realiza en el plano $xy$– y encuentre los tres primeros momentos para esta distribución de masas.
##### **Momento de orden cero**

In [3]:
datos_array=datos.values
M0=np.sum(datos_array[:,1],axis=0)
M0

4627.0

Así, $\mu_0(v)=\displaystyle \sum_{i=1}^N v_i=4627$, donde $N$ es el número total de partículas, corresponde al momento de orden cero.
##### **Momento de orden uno**
Calculemos primero la media de los datos:

In [4]:
Media=np.mean(datos_array[:,2:4],axis=0)
print(Media)

[821.97390737 775.87018917]


Entonces $(\bar{x})=\displaystyle \frac{1}{N}\sum_{i=1}^N (x)_i=(821.97,775.87)$.

In [5]:
M1=np.zeros(2)
for i in range(datos_array.shape[0]):
    M1=M1+((datos_array[i,1])*((datos_array[i,2:4])-Media))
print(M1)

[17773.73059361  4850.6347032 ]


Por tanto, $\mu_1(v)=\displaystyle\sum_{i=1}^N v_i[(x)_i-(\bar{x})]=(17773.73,4850.63)$, corresponde al momento de orden uno.
##### **Momento de orden dos**

In [6]:
M2=np.zeros((2,2))
for i in range(0,2):
    for j in range(0,2):
        for k in range(datos_array.shape[0]):
            M2[i,j]=M2[i,j]+((datos_array[k,1]*((datos_array[k,2:4])[i]-Media[i]))*(datos_array[k,1]*((datos_array[k,2:4])[j]-Media[j])))
print(M2)

[[3.54320110e+09 3.37707826e+09]
 [3.37707826e+09 3.57033659e+09]]


De esta forma, $$\mu_2(v)=\sum_{i=1}^N v_i[(x)_i-(\bar{x})]^2=\begin{pmatrix} 3.54\times 10^9 & 3.38\times 10^9\\ 3.38\times 10^9 & 3.57\times 10^9\end{pmatrix}\text{, corresponde al momento de orden dos.}$$
##### **¿Los vectores base del sistema cartesiano constituyen una base propia para esta distribución de masa?Esto es: ¿Los vectores cartesianos son autovectores del tensor momento de inercia?**
Veamos cuales son los autovectores de la matriz antes calculada:

In [7]:
A=np.linalg.eig(M2)
A

(array([1.79663330e+08, 6.93387436e+09]), array([[-0.70852578, -0.70568493],
        [ 0.70568493, -0.70852578]]))

Note que los autovectores del tensor momento de inercia son:

$$v_1=(-0.71, 0.71) \quad v_2=(-0.71, -0.71)$$

Por tanto, los vectores cartesianos no son autovectores del tensor momento de inercia.
##### **Encuentre los ejes principales de inercia para esta distribución de masas. Esto es aquellos vectores propios del tensor de inercia, que forma una base ortogonal respecto a la cual la distribución de las masas se organiza de forma mas simple.**
Los ejes principales de inercia para esta distribución de masas son:

$$v_1=(-0.71, 0.71) \quad v_2=(-0.71, -0.71)$$

Que son los vectores propios del tensor de inercia.
##### **Encuentre la matriz de transformación de la base cartesiana a la base de autovectores conformada por los ejes principales.**
La matriz de transformación de la base cartesiana a la base de autovectores, notada con $M$, esta dada por:

$$M=\begin{pmatrix} -0.71 & -0.71 \\ 0.71 & -0.71\end{pmatrix}$$

#### b) Considere ahora el caso 3D y encuentre los tres primeros momentos para esta distribución de masas.
##### **Momento de orden cero**

Dado que consideramos las mismas partículas pero con una coordenada adicional, las masas serán las mismas. Así, $\mu_0(v)=\displaystyle \sum_{i=1}^N v_i=4627$, corresponde al momento de orden cero.
##### **Momento de orden uno**
Calculemos primero la media de los datos:

In [8]:
Media=np.mean(datos_array[:,2:5],axis=0)
print(Media)

[821.97390737 775.87018917  15.06327462]


Entonces $(\bar{x})=\displaystyle \frac{1}{N}\sum_{i=1}^N (x)_i=(821.97,775.87,15.06)$.

In [9]:
M1=np.zeros(3)
for i in range(datos_array.shape[0]):
    M1=M1+((datos_array[i,1])*((datos_array[i,2:5])-Media))
print(M1)

[17773.73059361  4850.6347032   2036.2283105 ]


Por tanto, $\mu_1(v)=\displaystyle\sum_{i=1}^N v_i[(x)_i-(\bar{x})]=(17773.73,4850.63,2036.23)$, corresponde al momento de orden uno.
##### **Momento de orden dos**

In [10]:
M2=np.zeros((3,3))
for i in range(0,3):
    for j in range(0,3):
        for k in range(datos_array.shape[0]):
            M2[i,j]=M2[i,j]+((datos_array[k,1]*((datos_array[k,2:5])[i]-Media[i]))*(datos_array[k,1]*((datos_array[k,2:5])[j]-Media[j])))
print(M2)

[[ 3.54320110e+09  3.37707826e+09 -3.20127639e+07]
 [ 3.37707826e+09  3.57033659e+09 -8.41983944e+06]
 [-3.20127639e+07 -8.41983944e+06  3.69780860e+08]]


De esta forma, $$\mu_2(v)=\sum_{i=1}^N v_i[(x)_i-(\bar{x})]^2=\begin{pmatrix} 3.54\times 10^9 & 3.38\times 10^9 & -3.2\times 10^7\\ 3.38\times 10^9 & 3.57\times 10^9 & -8.42\times 10^6\\ -3.2\times 10^7 & -8.42\times 10^6 & 3.7\times 10^8\end{pmatrix}\text{, corresponde al momento de orden dos.}$$
##### **¿Los vectores base del sistema cartesiano constituyen una base propia para esta distribución de masa?Esto es: ¿Los vectores cartesianos son autovectores del tensor momento de inercia?**
Veamos cuales son los autovectores de la matriz antes calculada:

In [11]:
A=np.linalg.eig(M2)
A

(array([6.93399859e+09, 1.78199678e+08, 3.71120280e+08]),
 array([[ 0.70568589,  0.70609276, -0.05865524],
        [ 0.70851147, -0.70274202,  0.06453803],
        [-0.00435033,  0.08710149,  0.99618994]]))

Note que los autovectores del tensor momento de inercia son:

$$v_1=(0.706, 0.708,-0.004) \quad v_2=(0.706, -0.703,0.087) \quad v_3=(-0.059, 0.064,0.996)$$

Por tanto, los vectores cartesianos no son autovectores del tensor momento de inercia.
##### **Encuentre los ejes principales de inercia para esta distribución de masas. Esto es aquellos vectores propios del tensor de inercia, que forma una base ortogonal respecto a la cual la distribución de las masas se organiza de forma mas simple.**
Los ejes principales de inercia para esta distribución de masas son:

$$v_1=(0.706, 0.708,-0.004) \quad v_2=(0.706, -0.703,0.087) \quad v_3=(-0.059, 0.064,0.996)$$ 

Que son los vectores propios del tensor de inercia.
##### **Encuentre la matriz de transformación de la base cartesiana a la base de autovectores conformada por los ejes principales.**
La matriz de transformación de la base cartesiana a la base de autovectores, notada con $N$, esta dada por: 

$$N=\begin{pmatrix} 0.706 &  0.706 & -0.059\\ 0.708 & -0.703 & 0.064\\ -0.004 & 0.087 & 0.996\end{pmatrix}$$

### 2) El [Banco Mundial](https://data.worldbank.org) mantiene una estadı́stica de los datos económicos de casi todos los paı́ses. En particular estamos interesados en calcular la matriz de covariancia del % del producto interno bruto (GDP) que se ha empleado en el paı́s en los últimos 10 años en 
* Defensa 
* Salud 
* Educación 
* Ciencia y tecnología 

### La siguiente tabla muestra la información antes mencionada:

In [12]:
col=[2]
for i in range (50,60):
    col.append(i)
datos_m=pd.read_csv("M.csv",skiprows=3,usecols=col)
datos_m_arr=datos_m.values
dat=[datos_m_arr[43,:]]
datos_h=pd.read_csv("H.csv",skiprows=3,usecols=col)
datos_h_arr=datos_h.values
dat.append(datos_h_arr[43,:])
datos_e=pd.read_csv("E.csv",skiprows=3,usecols=col)
datos_e_arr=datos_e.values
dat.append(datos_e_arr[43,:])
datos_st=pd.read_csv("S&T.csv",skiprows=3,usecols=col)
datos_st_arr=datos_st.values
dat.append(datos_st_arr[569,:])
data=np.array(dat)
c=['Categoría','2006','2007','2008','2009','2010','2011','2012','2013','2014','2015']
data_tab=pd.DataFrame(data,columns=c)
data_tab.head()

Unnamed: 0,Categoría,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,Military expenditure (% of GDP),3.27613,3.26674,3.70974,3.86329,3.63115,3.07278,3.16678,3.28882,3.13223,3.13089
1,Current health expenditure (% of GDP),5.73355,5.73759,6.02977,6.39277,6.14411,5.942,6.10247,6.01406,6.40277,6.19133
2,"Government expenditure on education, total (% ...",3.89332,4.0587,3.9098,4.74743,4.82616,4.45981,4.38531,4.90324,4.66516,4.50048
3,Research and development expenditure (% of GDP),0.14857,0.17704,0.19289,0.18956,0.18933,0.20294,0.21867,0.27318,0.25053,0.24177


Procedamos a normalizar estos datos. Primero calculemos la media:

In [13]:
Media=np.mean(data[:,1:],axis=1)
print(Media)

[3.3538563060538444 6.069042602 4.434941053390502 0.20844799999999997]


Entonces $(\bar{x})=\displaystyle \frac{1}{N}\sum_{i=1}^N (x)_i=(3.35,6.07,4.43,0.20)$. Calculemos ahora la desviación estándar:

In [14]:
Des=np.std(data[:,1:],axis=1,dtype=np.float64)
print(Des)

[0.26339456 0.21931719 0.35228782 0.03569657]


Así, $$(\sigma)=\sqrt{\frac{1}{N}\sum_{i=1}^N [(x)_i-(\bar{x})]^2}=(0.26,0.22,0.35,0.04)$$
Ahora ya podemos normalizar los datos:

In [15]:
for i in range(4):
    for j in range(1,11):
        data[i,j]=(data[i,j]-Media[i])/Des[i]
data_tab=pd.DataFrame(data,columns=c)
data_tab.head()

Unnamed: 0,Categoría,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
0,Military expenditure (% of GDP),-0.295092,-0.330746,1.35116,1.93413,1.05276,-1.06712,-0.710262,-0.246899,-0.841432,-0.846501
1,Current health expenditure (% of GDP),-1.52969,-1.51129,-0.179084,1.47607,0.342271,-0.579258,0.15242,-0.250689,1.52168,0.557572
2,"Government expenditure on education, total (% ...",-1.53744,-1.06799,-1.49066,0.887027,1.11051,0.0705921,-0.140882,1.32931,0.653497,0.186039
3,Research and development expenditure (% of GDP),-1.67742,-0.87986,-0.43584,-0.529126,-0.53557,-0.154301,0.286358,1.8134,1.17888,0.933479


#### a) Calcule la matriz de covariancia y la matriz de correlación entre estos parámetros.
La matriz de covariancia (y en este caso por normalizar, la de correlación), notada con $Cov$, no es más que el momento de orden dos, entonces:

In [16]:
#Calculamos la media para los datos normalizados
Media=np.mean(data[:,1:],axis=1)
#Procedemos a calcular la matriz de covarianza
Cov=np.zeros((4,4))
for i in range(0,4):
    for j in range(0,4):
        for k in range(1,11):
            Cov[i,j]=Cov[i,j]+(((data[:,k])[i]-Media[i])*((data[:,k])[j]-Media[j]))
print(Cov/10)

[[ 1.          0.27439244  0.06667021 -0.36587082]
 [ 0.27439244  1.          0.66247632  0.50021603]
 [ 0.06667021  0.66247632  1.          0.6407579 ]
 [-0.36587082  0.50021603  0.6407579   1.        ]]


$$Cov=\begin{pmatrix}1 & 0.27 & 0.07 & -0.37\\0.27 & 1 & 0.66 & 0.50\\0.07 & 0.66 & 1 & 0.64\\ -0.37 & 0.50 & 0.64 & 1\end{pmatrix}$$
#### b) Para la matriz de covariancia, en este espacio de parámetros, queremos encontrar sus autovalores y autovectores. Discuta el significado de los autovalores y autovectores de esta matriz.

In [17]:
A=np.linalg.eig(Cov/10)
A

(array([2.20508758, 1.27459528, 0.21461142, 0.30570572]),
 array([[ 0.00777696,  0.85948193, -0.48636246, -0.1571047 ],
        [-0.56421672,  0.32146577,  0.33920291,  0.68063253],
        [-0.60717915,  0.07233199,  0.34770792, -0.71077476],
        [-0.55940369, -0.39079234, -0.72628654,  0.08280526]]))

Los autovectores de la matriz de covarianza son:

$$\lambda_1=2.20 \quad \lambda_2=1.27 \quad \lambda_3=0.21 \quad \lambda_4=0.31$$

Los autovectores de la matriz de covarianza son:

$$\begin{aligned} v_1&=(0.008,-0.56,-0.61,-0.56) & v_2&=(0.86,0.32,0.07,-0.39) \\ v_3&=(-0.49,0.34,0.35,-0.73) & v_4&=(-0.16,0.68,-0.71,0.08)\end{aligned}$$

Con los autovectores de la matriz de covarianza podemos formar un nuevo sistema de referencia en el espacio de paramétros, para el cual los datos del problema se encuentran mejor distribuidos. Con los autovalores de la matriz de covarianza es posible representar las varianzas de cada paramétro una vez que esta matriz sea representada en la base anterior de autovectores. Por otro lado, note que la matriz de correlación podemos verla de la siguiente manera:

|               | **Defensa** | **Salud ** | **Educación** | **Ciencia ** | 
| :-----------: | :---------: | :--------: | :-----------: | :----------: |
|  **Defensa**  |      1      |    0.27    |      0.07     |    -0.37     | 
|   **Salud**   |    0.27     |     1      |      0.66     |     0.50     |
| **Educación** |    0.07     |    0.66    |       1       |     0.64     |
|  **Ciencia**  |   -0.37     |    0.50    |      0.64     |      1       |

Se observa entonces que la mayoría de correlaciones entre los paramétros son positivas excepto para la relación Defensa-Ciencia y tecnología, esto quiere decir que a medida que aumenta el porcentaje de PIB nacional destinado a la defensa, disminuye el porcentaje del PIB destinado a la ciencia y tecnología. Caso contrario ocurre con las relaciones Defensa-Salud y Defensa-Educación, en las cuales a medida que aumenta el porcentaje de PIB destinado a la defensa, aumenta el porcentaje del PIB destinado a la salud y educación.

#### c) Encuentre la matriz de transformación que nos lleva de la matriz en la base original a la representación de la matriz en la base de autovalores y autovectores.
La matriz de transformación, notada con $T$, esta dada por: 

$$T=\begin{pmatrix} 0.008 &  0.86 & -0.49 &-0.16\\ -0.56 & 0.32 & 0.34 & 0.68\\ -0.61 & 0.07 & 0.35 & -0.71\\ -0.56 & -0.39 & -0.73 & 0.08\end{pmatrix}$$