## Data Manipulation

<span style="font-size:20px">

Hay dos cosas que podemos hacer con los datos.
- Adquirirlos y guardarlos.
- Procesarlos usando Python.

### Entendiendo el concepto de Tensor.

<span style="font-size:20px">

**Definición**. Un *tensor* es una lista ordenada de números.

**Ejemplo**. $x=(1,\:0.4,\:5)$ es un tensor de tamaño $3$, porque tiene $3$ componentes a lo largo de una única fila.

Representación general de un vector: $x=(x_1,x_2,...,x_n)$. Fíjate que $x_i$ denota la componente $i$ de $x$.

Se pueden tener tensores cuyos valores estén ordenados en varias filas (**matrices**):

$$A = \begin{bmatrix}2&1&4&\\
0.5&6&2&\\
-5&1.2&90\\
-100&8&90
\end{bmatrix}
\:\:\:\:\:X=\begin{bmatrix}x_{11}&x_{12}&...&x_{1n}\\
x_{21}&x_{22}&...&x_{2n}\\
...&...&...&...\\
x_{m1}&x_{m2}&...&x_{mn} 
\end{bmatrix}$$

$x_{ij}$ es la componente $j$ de la fila número $i$. 

La matriz tiene tamaño $m\times n$ porque tiene $m$ filas de $n$ componentes cada una.

La matriz tiene tamaño $m\times n$ porque tiene $n$ columnas de $m$ componenetes cada una.

**Observación**. Podemos tener tensores de tamaño $p\times m\times n$ formados por $p$ matrices de tamaño $m\times n$.

Decimos que un vector es un tensor de 1 dimensión; una matriz es un tensor de 2 dimensiones y un tensor de tamaño $p\times m\times n$ es de 3 dimensiones.

Podemos tener tensores de tamaño $q\times p\times m\times n$ y así hasta el infinito.

De forma general, un tensor tendrá $k$ dimensiones si necesitamos $k$ números para especificar su tamaño.

In [2]:
# Para empezar importamos la librería PyTorch
import torch

In [3]:
# Crear vector de todos los enteros entre 0 y 11.
x = torch.arange(0, 12)   # El número final no se incluye en el tensor.
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [4]:
# Acceder al número de componentes.
x.numel()

12

In [4]:
# Acceder al tamaño del tensor.
x.shape

torch.Size([12])

In [6]:
# ¿Cuántas dimensiones tiene nuestro tensor?
x.ndim

1

In [6]:
def info_tensor(tensor):
    print(tensor, "\n")
    print(f"Tamaño: {tensor.shape}")
    print(f"Num dim: {tensor.ndim}")

In [7]:
# Cambiar tamaño del vector sin alterar valores
x.reshape(3, 4)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [26]:
info_tensor(x.reshape(3, 4))

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]]) 

Tamaño: torch.Size([3, 4])
Num dim: 2


<span style="font-size:20px">

Una matriz de tamaño $m\times n$ tiene exactamente $m\cdot n$ componentes.

Supón que tenemos un vector de $n$ componentes y queremos transformarlo en una matriz de $w$ filas.

Entonces, para que quepan las $n$ componentes en la matriz necesariamente tendrá que haber $n/w$ columnas, porque $w\cdot n/w=n$.

Es decir, supón que tenemos un vector de $n$ componentes:
- Si queremos transformarlo en una matriz de $w$ filas, necesariamente la matriz tendrá $n/w$ columnas.
- Si queremos transformarlo en una matriz de $p$ columnas, necesariamente la matriz tendrá $n/p$ filas.

Si ponemos $-1$, PyTorch calculará automáticamente el número de filas o de columnas que tiene que tener la nueva matriz.

In [9]:
# Queremos que tenga 3 filas.
x.reshape(3, -1)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [10]:
# Queremos que tenga 6 columnas
x.reshape(-1, 6)

tensor([[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11]])

In [11]:
# Queremos convertir el vector en una matriz columna.
x.reshape(-1, 1)

tensor([[ 0],
        [ 1],
        [ 2],
        [ 3],
        [ 4],
        [ 5],
        [ 6],
        [ 7],
        [ 8],
        [ 9],
        [10],
        [11]])

In [23]:
# Si ponemos un número que no es múltiplo de 12 obtenemos error
num_filas = 5

try:
    info_tensor(x.reshape(num_filas, -1))
except:
    print(f"No se puede hacer el reshape porque {num_filas} no es múltiplo de 12.")

No se puede hacer el reshape porque 5 no es múltiplo de 12.


<span style="font-size:20px">
Otras funciones interesantes para generar tensores y viendo tensores de 3 dimensiones.

In [24]:
zeros = torch.zeros((3, 2, 4))
info_tensor(zeros)

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.]]]) 

Tamaño: torch.Size([3, 2, 4])
Num dim: 3


In [14]:
unos = torch.ones((3, 2, 2))
info_tensor(unos)

tensor([[[1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.]]]) 

Tamaño: torch.Size([3, 2, 2])
Num dim: 3


In [15]:
# Números aleatorios tomados de la distribución normal con media=0 y std=1
normal_random = torch.randn(2, 3, 4)
info_tensor(normal_random)

tensor([[[-0.4453, -1.4522, -0.0496, -1.9835],
         [-0.7554, -2.3448,  0.6313, -0.9585],
         [ 1.5574, -0.9879, -2.3464,  0.7379]],

        [[ 1.5828, -1.4738,  0.6353, -0.5384],
         [ 0.5153,  1.1673, -0.9114,  0.8058],
         [-0.2308,  0.6167, -0.6574, -1.0875]]]) 

Tamaño: torch.Size([2, 3, 4])
Num dim: 3


In [16]:
# Números aleatorios entre dos enteros que especifiquemos
int_random = torch.randint(-1000, 10, (5, 4))
info_tensor(int_random)

tensor([[-422, -100,   -5,  -75],
        [-582, -257, -453, -752],
        [-643,  -38, -573, -460],
        [-647, -518, -455, -600],
        [-687, -521, -426, -969]]) 

Tamaño: torch.Size([5, 4])
Num dim: 2


In [17]:
# Podemos crear un tensor "a mano" pasandole una lista de Python
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

### Indexing and Slicing

<span style="font-size:20px">

- Voy a suponer que ya sabes como acceder a elementos de listas de Python a través de sus indices.

In [18]:
X = torch.randint(-20, 20, (4, 5))
info_tensor(X)

tensor([[-17, -15,   5,   0,  -1],
        [-19,  -6, -15,  11,   9],
        [-18,  -4,  -7,  12, -20],
        [-15, -14,  13, -10,  -8]]) 

Tamaño: torch.Size([4, 5])
Num dim: 2


In [19]:
# Acceder a la primera y última fila.
print(f"Primera fila: {X[0]}")
print(f"Última fila: {X[1]}")

Primera fila: tensor([-17, -15,   5,   0,  -1])
Última fila: tensor([-19,  -6, -15,  11,   9])


In [20]:
# Acceder al segundo elemento de la primera fila
fila = 3
col = 1
X[fila, col]

tensor(-14)

In [21]:
# Acceder a las dos últimas filas
X[-2:]

tensor([[-18,  -4,  -7,  12, -20],
        [-15, -14,  13, -10,  -8]])

In [22]:
# Acceder a las 2 primeras columnas de las 2 últimas filas
X[-2:, 0:2]

tensor([[-18,  -4],
        [-15, -14]])

In [23]:
Y = torch.randint(-20, 20, (3, 4, 5))
info_tensor(Y)

tensor([[[ 17,   2,  18, -11,  15],
         [ 18, -10,   2,  -1,   9],
         [ -4,  -6,   2,   3,  -7],
         [-14,  -9,   7,  14,  -2]],

        [[ -1, -11,   0,  13, -11],
         [ -3,  13,   7,  19,   1],
         [ 15, -12,  -9,  12, -19],
         [ -3,   3,  -3, -15,   3]],

        [[-13,  12, -19, -11,  -4],
         [-18,  -9,   9,  -7,   3],
         [  6,  -2, -12,   0,   1],
         [ -9,   3,   0,  12,  17]]]) 

Tamaño: torch.Size([3, 4, 5])
Num dim: 3


In [24]:
# Acceder a la primera matriz
Y[0]

tensor([[ 17,   2,  18, -11,  15],
        [ 18, -10,   2,  -1,   9],
        [ -4,  -6,   2,   3,  -7],
        [-14,  -9,   7,  14,  -2]])

In [25]:
# Acceder a las dos primeras filas de la primera matriz 
Y[0, 0:2]

tensor([[ 17,   2,  18, -11,  15],
        [ 18, -10,   2,  -1,   9]])

In [26]:
# Acceder a las dos últimas columnas de la matriz anterior.
Y[0, 0:2, -2:]

tensor([[-11,  15],
        [ -1,   9]])

In [27]:
# Acceder a las dos últimas matrices
Y[1:]

tensor([[[ -1, -11,   0,  13, -11],
         [ -3,  13,   7,  19,   1],
         [ 15, -12,  -9,  12, -19],
         [ -3,   3,  -3, -15,   3]],

        [[-13,  12, -19, -11,  -4],
         [-18,  -9,   9,  -7,   3],
         [  6,  -2, -12,   0,   1],
         [ -9,   3,   0,  12,  17]]])

In [28]:
# Acceder a las dos primeras filas de las dos últimas matrices
Y[1:, 0:2]

tensor([[[ -1, -11,   0,  13, -11],
         [ -3,  13,   7,  19,   1]],

        [[-13,  12, -19, -11,  -4],
         [-18,  -9,   9,  -7,   3]]])

In [29]:
# Acceder a las 3 últimas columnas de las matrices anteriores.
Y[1:, 0:2, -3:]

tensor([[[  0,  13, -11],
         [  7,  19,   1]],

        [[-19, -11,  -4],
         [  9,  -7,   3]]])

<span style="font-size:20px">

- Lo mejor que puedes hacer para acostumbrarte a manejar los índices es practicar y practicar.


### Operaciones con Tensores.

<span style="font-size:20px">

- Los tensores de PyTorch se pueden manipular de forma sencilla con operaciones y funciones matemáticas.

In [30]:
X = torch.randint(-10, 10, (2, 3))
Y = torch.randint(5, 10, (2, 3))
info_tensor(X)
print("")
info_tensor(Y)

tensor([[-3,  4,  7],
        [ 0, -6,  5]]) 

Tamaño: torch.Size([2, 3])
Num dim: 2

tensor([[8, 6, 5],
        [9, 9, 6]]) 

Tamaño: torch.Size([2, 3])
Num dim: 2


In [31]:
# Sumar componente a componente
X + Y

tensor([[ 5, 10, 12],
        [ 9,  3, 11]])

In [32]:
# Multiplicar componente a componente
X*Y

tensor([[-24,  24,  35],
        [  0, -54,  30]])

In [33]:
X/Y

tensor([[-0.3750,  0.6667,  1.4000],
        [ 0.0000, -0.6667,  0.8333]])

In [34]:
X**Y

tensor([[     6561,      4096,     16807],
        [        0, -10077696,     15625]])

<span style="font-size:20px">

- También podemos juntar (concatenar) tensores para formar otros nuevos.

In [35]:
X = torch.randint(-10, 10, (2, 3))
Y = torch.randint(-10, 10, (4, 3))
info_tensor(X)
print("")
info_tensor(Y)

tensor([[ 3, -3, -2],
        [-7,  4,  4]]) 

Tamaño: torch.Size([2, 3])
Num dim: 2

tensor([[ -9,  -1,   0],
        [  5,  -5,  -2],
        [-10, -10,   6],
        [  6,  -2,   3]]) 

Tamaño: torch.Size([4, 3])
Num dim: 2


In [39]:
# Concatenar verticalmente
torch.vstack((X, Y))

tensor([[  3,  -3,  -2],
        [ -7,   4,   4],
        [ -9,  -1,   0],
        [  5,  -5,  -2],
        [-10, -10,   6],
        [  6,  -2,   3]])

In [38]:
# Tenemos error porque no tienen el mismo número de filas.
torch.hstack((X,Y))

RuntimeError: Sizes of tensors must match except in dimension 1. Expected size 2 but got size 4 for tensor number 1 in the list.

In [41]:
# Hacemos que Y tenga el mismo número de filas que X con reshape
Y = Y.reshape(X.shape[0], -1)

# Concatenar horizontalmente
torch.hstack((X,Y))

tensor([[  3,  -3,  -2,  -9,  -1,   0,   5,  -5,  -2],
        [ -7,   4,   4, -10, -10,   6,   6,  -2,   3]])

<span style="font-size:20px">

- Comparar tensores.

In [116]:
X = torch.tensor([[1, 2, 3],[5, 6, 7]])
Y = torch.tensor([[4, 2, -10], [2, 6, 7]])
info_tensor(X)
print("")
info_tensor(Y)

tensor([[1, 2, 3],
        [5, 6, 7]]) 

Tamaño: torch.Size([2, 3])
Num dim: 2

tensor([[  4,   2, -10],
        [  2,   6,   7]]) 

Tamaño: torch.Size([2, 3])
Num dim: 2


In [117]:
X==Y

tensor([[False,  True, False],
        [False,  True,  True]])

In [None]:
X>=Y

In [None]:
X<=Y

In [118]:
equal_XY = (X==Y)
equal_XY

tensor([[False,  True, False],
        [False,  True,  True]])

In [119]:
# Sumar todas las componentes entre sí
equal_XY.sum()

tensor(3)

In [122]:
# Sumar componentes columna por columna
equal_XY.sum(dim=0)

tensor([0, 2, 1])

In [121]:
# Sumar componentes fila por fila
equal_XY.sum(dim=1)

tensor([1, 2])

<span style="font-size:20px">

- Aplicar funciones sobre las componentes de los tensores.

In [None]:
X = torch.randint(-10, 10, (2, 3))
info_tensor(X)

In [None]:
X.exp()

In [None]:
X.exp().log()

In [None]:
X.sin()

In [None]:
# Calcular la media de cada fila
X.float().mean(dim=1)

In [None]:
# Calcular la std de cada columna
X.float().std(dim=0)

### Broadcasting

In [42]:
X = torch.randint(-10, 10, (4, 3)).float()
Y = torch.randint(-20, 5, (5, 2)).float()
info_tensor(X)
print("")
info_tensor(Y)

tensor([[ 1.,  5., -8.],
        [ 6.,  8.,  2.],
        [ 2.,  6.,  2.],
        [-8., -1., -4.]]) 

Tamaño: torch.Size([4, 3])
Num dim: 2

tensor([[  3., -17.],
        [-15.,  -9.],
        [ -4.,   1.],
        [  4.,  -2.],
        [-13., -13.]]) 

Tamaño: torch.Size([5, 2])
Num dim: 2


In [43]:
# No podemos hacer operaciones porque las dimensiones no coindicen.
X / Y

RuntimeError: The size of tensor a (3) must match the size of tensor b (2) at non-singleton dimension 1

<span style="font-size:20px">

- En ciertas condiciones se podrán realizar operaciones entre tensores de diferente tamaño.
- Supón que tenemos los siguientes tensores:
$$A=\begin{bmatrix}1&2&3\\2&4&1\end{bmatrix}\:\:\:\:\:x=(3,2,1)$$
- Queremos sumar $x$ en todas las filas de $A$.
- Reglas de Broadcasting
    - **Regla 1**: si los dos tensores difieren en el número de dimensiones, al tensor de menor número se le añade un uno en la izquierda. En nuestro ejemplo, el vector $x$, pasaría a ser una matriz fila, es decir, pasaría de tener tamaño $3$ a tamaño $1\times 3$
    $$x=(3,2,1)\:\:\to\:\:x=\begin{bmatrix}3&2&1\end{bmatrix}$$

    - **Regla 2**: Tenemos dos tensores con mismo número de dimensiones, pero con diferente tamaño. Si uno de ellos tiene un $1$ en una dimensión, entonces se expande dicho $1$ hasta que se iguale al valor que hay en el otro tensor. Como $x$ tiene tamaño $1\times 3$, lo expandimos para que tenga tamaño $2\times 3$.
    $$x=\begin{bmatrix}3&2&1\end{bmatrix}\:\:\to\:\:x=\begin{bmatrix}3&2&1\\3&2&1\end{bmatrix}$$

    - **Regla 3**: si el tamaño sigue sin coindicir devuelve error. En nuestro ejemplo el tamaño sí conincide y, por tanto, se lleva a cabo la operación.

In [44]:
# Calculamos media de las columnas
mean_cols = X.mean(dim=0)
info_tensor(mean_cols)

tensor([ 0.2500,  4.5000, -2.0000]) 

Tamaño: torch.Size([3])
Num dim: 1


In [45]:
info_tensor(X)

tensor([[ 1.,  5., -8.],
        [ 6.,  8.,  2.],
        [ 2.,  6.,  2.],
        [-8., -1., -4.]]) 

Tamaño: torch.Size([4, 3])
Num dim: 2


In [57]:
# Primer paso, poner un uno a la izquierda, para que el vector pase a ser una matriz fila.
broad_mean_cols = mean_cols.reshape(1, -1)
info_tensor(broad_mean_cols)

tensor([[ 0.2500,  4.5000, -2.0000]]) 

Tamaño: torch.Size([1, 3])
Num dim: 2


In [58]:
X.shape

torch.Size([4, 3])

In [59]:
broad_mean_cols = torch.vstack([broad_mean_cols]*X.shape[0])
info_tensor(broad_mean_cols)

tensor([[ 0.2500,  4.5000, -2.0000],
        [ 0.2500,  4.5000, -2.0000],
        [ 0.2500,  4.5000, -2.0000],
        [ 0.2500,  4.5000, -2.0000]]) 

Tamaño: torch.Size([4, 3])
Num dim: 2


In [60]:
X - broad_mean_cols

tensor([[ 0.7500,  0.5000, -6.0000],
        [ 5.7500,  3.5000,  4.0000],
        [ 1.7500,  1.5000,  4.0000],
        [-8.2500, -5.5000, -2.0000]])

In [61]:
# Todo lo que hicimos ya lo hace PyTorch de manera automática.
X - mean_cols

tensor([[ 0.7500,  0.5000, -6.0000],
        [ 5.7500,  3.5000,  4.0000],
        [ 1.7500,  1.5000,  4.0000],
        [-8.2500, -5.5000, -2.0000]])

In [62]:
mean_rows = X.mean(dim=1)
info_tensor(mean_rows)

tensor([-0.6667,  5.3333,  3.3333, -4.3333]) 

Tamaño: torch.Size([4])
Num dim: 1


In [63]:
# Para la media de los rows el Broadcasting no se va a poder aplicar.
info_tensor(X)

tensor([[ 1.,  5., -8.],
        [ 6.,  8.,  2.],
        [ 2.,  6.,  2.],
        [-8., -1., -4.]]) 

Tamaño: torch.Size([4, 3])
Num dim: 2


In [64]:
# Obtenemos error de broadcasting.
X - mean_rows

RuntimeError: The size of tensor a (3) must match the size of tensor b (4) at non-singleton dimension 1

In [65]:
# Lo solucionamos convirtiendo mean_rows en una matriz columna
mean_rows = mean_rows.reshape(-1, 1)
info_tensor(mean_rows)

tensor([[-0.6667],
        [ 5.3333],
        [ 3.3333],
        [-4.3333]]) 

Tamaño: torch.Size([4, 1])
Num dim: 2


In [66]:
# Restamos la media de cada row en todas sus componentes.
X - mean_rows

tensor([[ 1.6667,  5.6667, -7.3333],
        [ 0.6667,  2.6667, -3.3333],
        [-1.3333,  2.6667, -1.3333],
        [-3.6667,  3.3333,  0.3333]])

### Extra

## Data Preprocessing.

### Accediendo a los datos con pandas

### groupby

### Valores Atípicos y visualizaciones.

### Valores nulos

## Linear Algebra.

### Repaso de escalares, vectores y Matrices

### Repaso de operaciones con tensores (Reduction)

### Dot Product and Matrix Vector Product

### Matrix-Matrix multiplication.

### Norms

## Calculus.

## Automatic Differentiation.

## Probability and Statistics.