## Data Manipulation

<span style="font-size:20px">

Hay dos cosas que podemos hacer con los datos.
- Adquirirlos y guardarlos.
- Procesarlos usando Python.

### Entendiendo el concepto de Tensor.

<span style="font-size:20px">

**Definición**. Un *tensor* es una lista ordenada de números.

**Ejemplo**. $x=(1,\:0.4,\:5)$ es un tensor de dimensión $3$, porque tiene $3$ componentes a lo largo de una única fila.

Representación general de un vector: $x=(x_1,x_2,...,x_n)$. Fíjate que $x_i$ denota la componente $i$ de $x$.

Se pueden tener tensores cuyos valoers estén ordenados en varias filas (**matrices**):
$$X=\begin{bmatrix}x_{11}&x_{12}&...&x_{1n}\\
x_{21}&x_{22}&...&x_{2n}\\
...&...&...&...\\
x_{m1}&x_{m2}&...&x_{mn} 
\end{bmatrix}$$
$x_{ij}$ es la componente $j$ de la fila número $i$. 

La matriz tiene dimensión $m\times n$ porque tiene $m$ filas de $n$ componentes cada una.

La matriz tiene dimensión $m\times n$ porque tiene $n$ columnas de $m$ componenetes cada una.

**Observación**. Podemos tener tensores de dimensión $p\times m\times n$ formados por $p$ matrices de dimensión $m\times n$.

Decimos que un vector es un tensor de orden-1; una matriz es un tensor de orden-2 y un tensor de dim $p\times m\times n$ es de orden-3.

Podemos tener tensores de dimensión $q\times p\times m\times n$ y así hasta el infinito.

De forma general, un tensor será de orden-$k$ si necesitamos $k$ números para especificar su dimensión.

In [1]:
# Para empezar importamos la librería PyTorch
import torch

In [5]:
# Crear vector de todos los enteros entre 0 y 11.
x = torch.arange(0, 12)    # El número final no se incluye en el tensor.
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [7]:
# Acceder al número de componentes.
x.numel()

12

In [8]:
# Acceder a la dimensión del tensor.
x.shape

torch.Size([12])

In [9]:
# ¿Cuál es el orden del tensor?
len(x.shape)

1

In [10]:
def info_tensor(tensor):
    print(f"La dimensión del tensor es {tensor.shape}")
    print(f"Es un tensor de orden {len(tensor.shape)}")
    print(f"El número de componentes del tensor es {tensor.numel()}", "\n")
    print(tensor)

In [12]:
# Cambiar dimensión del vector sin alterar valores
x.reshape(3, 4)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [13]:
info_tensor(x.reshape(3, 4))

La dimensión del tensor es torch.Size([3, 4])
Es un tensor de orden 2
El número de componentes del tensor es 12 

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])


<span style="font-size:20px">

Una matriz de dimensión $m\times n$ tiene exactamente $m\cdot n$ componentes.

Supón que tenemos un vector de $n$ componentes y queremos transformarlo en una matriz de $w$ filas.

Entonces, necesariamente, el número de columnas de la matriz tendrá que ser de $n/w$, porque $w\cdot n/w=n$

Es decir, supón que tenemos un vector de $n$ componentes:
- Si queremos transformarlo en una matriz de $w$ filas, necesariamente la matriz tendrá $n/w$ columnas.
- Si queremos transformarlo en una matriz de $p$ columnas, necesariamente la matriz tendrá $n/p$ filas.

Si ponemos $-1$, PyTorch calculará automáticamente el número de filas o de columnas que tiene que tener la nueva matriz.

In [14]:
# Queremos que tenga 3 filas.
x.reshape(3, -1)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [16]:
# Queremos que tenga 6 columnas
x.reshape(-1, 6)

tensor([[ 0,  1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10, 11]])

In [17]:
# Queremos convertir el vector en una matriz columna.
x.reshape(-1, 1)

tensor([[ 0],
        [ 1],
        [ 2],
        [ 3],
        [ 4],
        [ 5],
        [ 6],
        [ 7],
        [ 8],
        [ 9],
        [10],
        [11]])

In [18]:
# Como 5 no es múltiplo de 12 obtenemos un error
x.reshape(5, -1)

RuntimeError: shape '[5, -1]' is invalid for input of size 12

<span style="font-size:20px">
Otras funciones interesantes para generar tensores son las siguientes y tensores de orden-3

In [20]:
zeros = torch.zeros((3, 2, 4))
info_tensor(zeros)

La dimensión del tensor es torch.Size([3, 2, 4])
Es un tensor de orden 3
El número de componentes del tensor es 24 

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.]]])


In [24]:
unos = torch.ones((3, 2, 2))
info_tensor(unos)

La dimensión del tensor es torch.Size([3, 2, 2])
Es un tensor de orden 3
El número de componentes del tensor es 12 

tensor([[[1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.]]])


In [25]:
# Números aleatorios tomados de la distribución normal con media=0 y std=1
normal_random = torch.randn(2, 3, 4)
info_tensor(normal_random)

La dimensión del tensor es torch.Size([2, 3, 4])
Es un tensor de orden 3
El número de componentes del tensor es 24 

tensor([[[ 1.1077e+00, -4.2394e-01,  5.0718e-01,  1.8594e-01],
         [ 1.5160e-01,  3.6097e-02, -1.8149e-01,  6.4332e-01],
         [ 1.2059e+00, -3.4219e-01,  8.5504e-01,  5.4620e-01]],

        [[ 2.3287e-01, -1.3876e-03, -5.8777e-01, -5.7935e-01],
         [ 6.4899e-01, -1.8196e+00,  1.4922e+00, -1.0279e+00],
         [ 9.9759e-02,  3.1792e-04, -4.1189e-01,  1.0259e+00]]])


In [27]:
# Números aleatorios entre dos enteros que especifiquemos
int_random = torch.randint(-10, 10, (5, 4))
info_tensor(int_random)

La dimensión del tensor es torch.Size([5, 4])
Es un tensor de orden 2
El número de componentes del tensor es 20 

tensor([[ -8,  -6,  -7,   0],
        [ -2,   5,  -9,   1],
        [ -5,   8,   9,   3],
        [-10,  -1,  -6,  -1],
        [  1,   7,   1, -10]])


In [29]:
# Podemos crear un tensor "a mano" pasandole una lista de Python
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

### Indexing and Slicing

<span style="font-size:20px">

- Voy a suponer que ya sabes como acceder a elementos de listas de Python a través de sus indices.

In [31]:
X = torch.randint(-20, 20, (4, 5))
info_tensor(X)

La dimensión del tensor es torch.Size([4, 5])
Es un tensor de orden 2
El número de componentes del tensor es 20 

tensor([[ -7, -13,   4,   6,  14],
        [  3,   5,   5,  17,  -2],
        [ -9, -16,   5,  -3, -19],
        [-13,  16,   4,  -8, -11]])


In [48]:
# Acceder a la primera y última fila.
print(f"Primera fila: {X[0]}")
print(f"Última fila: {X[1]}")

Primera fila: tensor([ -7, -13,   4,   6,  14])
Última fila: tensor([ 3,  5,  5, 17, -2])


In [58]:
# Acceder al segundo elemento de la primera fila
fila = 3
col = 1
X[fila, col]

tensor(16)

In [34]:
# Acceder a las dos últimas filas
X[-2:]

tensor([[ -9, -16,   5,  -3, -19],
        [-13,  16,   4,  -8, -11]])

In [36]:
# Acceder a las 2 primeras columnas de las 2 últimas filas
X[-2:, 0:2]

tensor([[ -9, -16],
        [-13,  16]])

In [38]:
Y = torch.randint(-20, 20, (3, 4, 5))
info_tensor(Y)

La dimensión del tensor es torch.Size([3, 4, 5])
Es un tensor de orden 3
El número de componentes del tensor es 60 

tensor([[[ 18,  -4,  18,   9, -16],
         [ -4,  -6,  19,   4,  10],
         [ -4,   8,  14,  18,   6],
         [-17,   6,  -5,  -8,  -5]],

        [[  6,   5,  -8,   6, -10],
         [ -1, -10,   4,  10,  -5],
         [  3, -17,  -8,  12,  11],
         [ 14,  13,   7,  -7,   3]],

        [[-11,  -4,  17,  15,   3],
         [  8,  -1,   0, -15,   9],
         [ -6,   6,  -2,  14,   2],
         [ 11,   0,  16,  14, -19]]])


In [39]:
# Acceder a la primera matriz
Y[0]

tensor([[ 18,  -4,  18,   9, -16],
        [ -4,  -6,  19,   4,  10],
        [ -4,   8,  14,  18,   6],
        [-17,   6,  -5,  -8,  -5]])

In [40]:
# Acceder a las dos primeras filas de la primera matriz 
Y[0, 0:2]

tensor([[ 18,  -4,  18,   9, -16],
        [ -4,  -6,  19,   4,  10]])

In [42]:
# Acceder a las dos últimas columnas de la matriz anterior.
Y[0, 0:2, -2:]

tensor([[  9, -16],
        [  4,  10]])

In [44]:
# Acceder a las dos últimas matrices
Y[1:]

tensor([[[  6,   5,  -8,   6, -10],
         [ -1, -10,   4,  10,  -5],
         [  3, -17,  -8,  12,  11],
         [ 14,  13,   7,  -7,   3]],

        [[-11,  -4,  17,  15,   3],
         [  8,  -1,   0, -15,   9],
         [ -6,   6,  -2,  14,   2],
         [ 11,   0,  16,  14, -19]]])

In [45]:
# Acceder a las dos primeras filas de las dos últimas matrices
Y[1:, 0:2]

tensor([[[  6,   5,  -8,   6, -10],
         [ -1, -10,   4,  10,  -5]],

        [[-11,  -4,  17,  15,   3],
         [  8,  -1,   0, -15,   9]]])

In [46]:
# Acceder a las 3 últimas columnas de las matrices anteriores.
Y[1:, 0:2, -3:]

tensor([[[ -8,   6, -10],
         [  4,  10,  -5]],

        [[ 17,  15,   3],
         [  0, -15,   9]]])

<span style="font-size:20px">

- Lo mejor que puedes hacer para acostumbrarte a manejar los índices es practicar y practicar.


### Operaciones con Tensores.

<span style="font-size:20px">

- Los tensores de PyTorch se pueden manipular de forma sencilla con operaciones y funciones matemáticas.

In [66]:
X = torch.randint(-10, 10, (2, 3))
Y = torch.randint(5, 10, (2, 3))
info_tensor(X)
print("")
info_tensor(Y)

La dimensión del tensor es torch.Size([2, 3])
Es un tensor de orden 2
El número de componentes del tensor es 6 

tensor([[ -8,   3,   4],
        [-10,  -1,   5]])

La dimensión del tensor es torch.Size([2, 3])
Es un tensor de orden 2
El número de componentes del tensor es 6 

tensor([[8, 9, 9],
        [7, 6, 5]])


In [62]:
# Sumar componenete a componente
X + Y

tensor([[  0, -11,  -2],
        [ -1,   6,  -7]])

In [63]:
# Multiplicar componente a componente
X*Y

tensor([[-36,  10, -80],
        [-20,  -7,  10]])

In [64]:
X/Y

tensor([[-1.0000, 10.0000, -0.8000],
        [-1.2500, -0.1429,  0.4000]])

In [67]:
X**Y

tensor([[ 16777216,     19683,    262144],
        [-10000000,         1,      3125]])

<span style="font-size:20px">

- También podemos juntar (concatenar) tensores para formar otros nuevos.

In [82]:
X = torch.randint(-10, 10, (2, 3))
Y = torch.randint(-10, 10, (4, 3))
info_tensor(X)
print("")
info_tensor(Y)

La dimensión del tensor es torch.Size([2, 3])
Es un tensor de orden 2
El número de componentes del tensor es 6 

tensor([[-10,  -3,  -2],
        [  6,   1, -10]])

La dimensión del tensor es torch.Size([4, 3])
Es un tensor de orden 2
El número de componentes del tensor es 12 

tensor([[-5,  0, -4],
        [ 5, -7,  1],
        [ 4, -6,  9],
        [-1, -9,  6]])


In [83]:
# Con dim=0 añadimos los valores a lo largo de las columnas.
torch.cat((X, Y), dim=0)

tensor([[-10,  -3,  -2],
        [  6,   1, -10],
        [ -5,   0,  -4],
        [  5,  -7,   1],
        [  4,  -6,   9],
        [ -1,  -9,   6]])

In [84]:
# Tenemos error porque no tienen el mismo número de filas.
torch.cat((X,Y), dim=1)

RuntimeError: Sizes of tensors must match except in dimension 1. Expected size 2 but got size 4 for tensor number 1 in the list.

In [85]:
# Hacemos que Y tenga el mismo número de filas que X con reshape
Y = Y.reshape(X.shape[0], -1)

# Concatenar por filas
torch.cat((X,Y), dim=1)

tensor([[-10,  -3,  -2,  -5,   0,  -4,   5,  -7,   1],
        [  6,   1, -10,   4,  -6,   9,  -1,  -9,   6]])

<span style="font-size:20px">

- Comparar tensores.

In [91]:
X = torch.tensor([[1, 2, 3],[5, 6, 7]])
Y = torch.tensor([[4, 2, -10], [2, 6, 7]])
info_tensor(X)
print("")
info_tensor(Y)

La dimensión del tensor es torch.Size([2, 3])
Es un tensor de orden 2
El número de componentes del tensor es 6 

tensor([[1, 2, 3],
        [5, 6, 7]])

La dimensión del tensor es torch.Size([2, 3])
Es un tensor de orden 2
El número de componentes del tensor es 6 

tensor([[  4,   2, -10],
        [  2,   6,   7]])


In [92]:
X==Y

tensor([[False,  True, False],
        [False,  True,  True]])

In [93]:
X>=Y

tensor([[False,  True,  True],
        [ True,  True,  True]])

In [94]:
X<=Y

tensor([[ True,  True, False],
        [False,  True,  True]])

In [98]:
equal_XY = (X==Y)
equal_XY

tensor([[False,  True, False],
        [False,  True,  True]])

In [99]:
# Sumar todas las componentes entre sí
equal_XY.sum()

tensor(3)

In [96]:
# Sumar componentes columna por columna
equal_XY.sum(dim=0)

tensor([0, 2, 1])

In [97]:
# Sumar componenetes fila por fila
equal_XY.sum(dim=1)

tensor([1, 2])

<span style="font-size:20px">

- Aplicar funciones sobre las componentes de los tensores.

In [113]:
X = torch.randint(-10, 10, (2, 3))
info_tensor(X)

La dimensión del tensor es torch.Size([2, 3])
Es un tensor de orden 2
El número de componentes del tensor es 6 

tensor([[ -1, -10,  -1],
        [  9,  -3,   4]])


In [114]:
X.exp()

tensor([[3.6788e-01, 4.5400e-05, 3.6788e-01],
        [8.1031e+03, 4.9787e-02, 5.4598e+01]])

In [116]:
X.exp().log()

tensor([[ -1., -10.,  -1.],
        [  9.,  -3.,   4.]])

In [117]:
X.sin()

tensor([[-0.8415,  0.5440, -0.8415],
        [ 0.4121, -0.1411, -0.7568]])

In [120]:
# Calcular la media de cada fila
X.float().mean(dim=1)

tensor([-4.0000,  3.3333])

In [122]:
# Calcular la std de cada columna
X.float().std(dim=0)

tensor([7.0711, 4.9497, 3.5355])

### Broadcasting

### Extra

## Data Preprocessing.

### Accediendo a los datos con pandas

### groupby

### Valores Atípicos y visualizaciones.

### Valores nulos

## Linear Algebra.

### Repaso de escalares, vectores y Matrices

### Repaso de operaciones con tensores (Reduction)

### Dot Product and Matrix Vector Product

### Matrix-Matrix multiplication.

### Norms

## Calculus.

## Automatic Differentiation.

## Probability and Statistics.