# Operaciones con Matrices y Dataframes

En R se tiene soporte a una estructura de dato sumamente útil para el análisis y organización de observaciones con múltiples variables: El dataframe. Para comprender mejor los dataframes y las operaciones sobre ellos, se repasará y practicará a continuación con operaciones de matrices, las cuales pueden servir para generar dataframes.

## Operaciones con Matrices

### Sumas y productos
Considere el siguiente producto simple de números:

In [1]:
2 * 2

Contrastando ahorita con el operador de producto matricial, `%*%`

In [2]:
2%*%2

0
4


El resultado será el mismo, pero el tipo de dato retornado será automáticamente una matriz, sin importar que los operandos del producto no lo sean. Probemos multiplicar las siguientes dos matrices:

In [3]:
A <- cbind(c(1,2), c(2,3))
B <- cbind(c(5,1), c(3,2))
A
B

0,1
1,2
2,3


0,1
5,3
1,2


In [4]:
A%*%B

0,1
7,7
13,12


R igualmente tiene implementadas funciones para álgebra lineal general, es decir, podemos realizar cálculos como encontrar el espectro de nuestras matrices:

In [5]:
eig <- eigen(A)

En el siguiente bloque se visualiza lo calculado:
* Los valores propios en orden descendiente
* Los vectores propios enlistados como columnas de una matriz. Éstos están en el mismo orden que los valores propios para corresponder adecuadamente.

In [6]:
eig$values
eig$vectors

0,1
0.5257311,-0.8506508
0.8506508,0.5257311


Aquí se ha utilizado el operador `$` para acceder a objetos internos del objeto `eig`. En particular, este operador es a veces conocido como **operador de nombre**, ya que permite hacer referencia a los *nombres* internos de una variable. Para entender con mayor claridad esto, consideremos la funci[on `names()` para enlistar los nombres de la variable `eig`:

In [7]:
names(eig)

Estos son precisamente los nombres a los que hemos accesido anteriormente. Ahora, aprovechamos que tenemos los vectores propios en el interior de la variable `eig` para introducir la función `crossprod()` la cual calcula el **producto interno usual**, por pares, de una lista de vectores. 

In [8]:
crossprod(eig$vectors)

0,1
1.0,-1.212722e-17
-1.212722e-17,1.0


Se ve que los elementos en la diagonal toman el valor de 1 (y corresponden a realizar el producto punto de cada valor propio consigo mismo, obteniendo su norma al cuadrado que sabemos que es 1) y los elementos fuera de la diagonal corresponden a números muy pequeños que bien podrían ser considerados 0. 

Esto es sólo una verificación de las propiedades de los vectores propios regresados por la función `eigen()`, son unitarios y ortogonales. 

A veces es útil poder deshacernos de cantidades tan pequeñas, que prácticamente son cero, y lo podemos lograr de la siguiente manera:

In [9]:
zapsmall(crossprod(eig$vectors))

0,1
1,0
0,1


Por supuesto, también podemos calcular determinantes:

In [10]:
det(A)

E inversas de matriz:

In [11]:
A_inversa <- solve(A)
A_inversa

0,1
-3,2
2,-1


Verificamos:

In [12]:
A_inversa%*%A
A%*%A_inversa

0,1
1,0
0,1


0,1
1,0
0,1


Recordemos que todas estas operaciones son realizadas por R llamando códigos optimizados de librerías de álgebra lineal en C o en Fortran. Por ello, es importante conocer (y utilizar) las funciones ya asignadas para cada labor.

Consideremos ahora la siguiente matriz aleatoria:

In [19]:
n <- 2000
MatNorm <- matrix(rnorm(n*n, mean = 10, sd = 4), nrow = n, ncol = n)

In [None]:
MatNorm

¿Qué resulta de la siguiente operación?

In [None]:
# Vector de 1's
matrix(1, n)

In [None]:
# Media por columnas
t(matrix(1, n))%*%MatNorm/n

Se pueden extraer más propiedades de cualquier matriz aleatoria de esa manera. Por otro lado, esa misma operación se puede calcular mediante:

In [None]:
colMeans(MatNorm)

Ahora ¿El siguiente código qué hace?

In [None]:
# Matriz de covarianzas
x <- MatNorm - rep(1,n)%*%t(rep(1,n))%*%MatNorm/n
t(x)%*%x/n

Por supuesto, el mismo cálculo puede ser realizado por funciones ya establecidas en R

In [None]:
cov(MatNorm)

Otras funciones auxiliares muy útiles son `sum()` y `diag()` que respectivamente calculan la suma de las entradas de un vector, y devuelve un vector con la diagonal de la matriz de su argumento:

In [25]:
sum(diag(t(x)%*%x/n))/n

El comando `diag()` también puede ser utilizado para generar matrices diagonales. Esto ocurre cuando su argumento no es una matriz, si no un número:

In [28]:
diag(1, 4)

0,1,2,3
1,0,0,0
0,1,0,0
0,0,1,0
0,0,0,1
