# Tensores

PyTorch es una biblioteca y marco de trabajo de código abierto que facilita la programación de redes neuronales profundas, ofreciendo varias funciones, clases y herramientas. En particular:
<ol>
    <li>Definición de arreglos multidimensionales (clase <tt>Tensor</tt>) y operaciones entre ellos con soporte para GPUs y cómputo distribuido.</li>
    <li>Diferenciación automática.</li>
    <li>Interfaz modular con distintos niveles de abstracción para definir arquitecturas de redes neuronales y entrenarlas.</li>
    <li>Clases y funciones para carga, generación de lotes y preprocesamiento de conjuntos de datos.
</ol>

<img src="tensor1.png" />

In [1]:
import torch as th
import numpy as np

## Creación de tensores

El objeto básico de PyTorch es el tensor: un arreglo multidimensional similar al <tt>ndarray</tt> de NumPy.

<img src = "tensor2.jpeg" />

Podemos definir un tensor a partir de valores específicos con la función <tt>tensor()</tt>. Para un escalar (tensor de orden 0), esto sería:

In [2]:
escalar = th.tensor(4.0)
print(f'Tensor de orden 0 (escalar): {escalar}\nTipo: {type(escalar)}')

Tensor de orden 0 (escalar): 4.0
Tipo: <class 'torch.Tensor'>


Un vector:

In [3]:
vector = th.tensor([2., 3., 4.])
print(f'Tensor de orden 1: {vector}')

Tensor de orden 1: tensor([2., 3., 4.])


Una matriz:

In [4]:
matriz = th.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(matriz)

tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])


Tensor de orden 3:

In [5]:
tensor3 = th.tensor([[[1,2,3,4],[5,6,7,8],[9,10,11,12]], [[13,14,15,16],[17,18,19,20],[21,22,23,24]]])
print(tensor3)

tensor([[[ 1,  2,  3,  4],
         [ 5,  6,  7,  8],
         [ 9, 10, 11, 12]],

        [[13, 14, 15, 16],
         [17, 18, 19, 20],
         [21, 22, 23, 24]]])


Similar a NumPy, las instancias de <tt>Tensor</tt> tienen varios atributos:

In [6]:
print(f'Tipo de datos: {tensor3.dtype}')
print(f'Número de ejes (dimensiones): {tensor3.ndim}')
print(f'Forma: {tensor3.shape}')
print(f'Forma (otra vez): {tensor3.size()}')

Tipo de datos: torch.int64
Número de ejes (dimensiones): 3
Forma: torch.Size([2, 3, 4])
Forma (otra vez): torch.Size([2, 3, 4])


PyTorch infiere el tipo de datos del tensor a partir de los valores, pero también es posible especificarlo.

In [7]:
vi64 = th.tensor([1,2])
vf64 = th.tensor([1,2], dtype = th.float64)
print(f'Tipo de datos por defecto: {vi64.dtype}')
print(f'Tipo de datos especificado: {vf64.dtype}')

Tipo de datos por defecto: torch.int64
Tipo de datos especificado: torch.float64


Otra forma de crear un tensor es con la función <tt>zeros()</tt>, que recibe como argumento la forma del tensor y regresa un tensor de esa forma (shape) con todos los elementos iguales a 0.

In [8]:
ceros = th.zeros((3,4), dtype = th.float32)
print('Matriz de ceros')
print(ceros)

Matriz de ceros
tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])


La función <tt>ones()</tt> es similar a <tt>zeros()</tt> pero en lugar de poner todos los valores a 0 los pone a 1.

In [9]:
unos = th.ones((3,4), dtype=th.float32)
print('Matriz de unos:')
print(unos)
print('Tipo:')
print(unos.dtype)

Matriz de unos:
tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])
Tipo:
torch.float32


De forma analógica, <tt>ones_like()</tt> es una variación de esta última función que toma la forma de otro tensor.

In [10]:
unos_l = th.ones_like(vi64)
print(f'Matriz de unos a partir de otro tensor: {unos_l} ({unos_l.dtype})')

Matriz de unos a partir de otro tensor: tensor([1, 1]) (torch.int64)


PyTorch también permite crear tensores con valores muestreados. Ejemplo: uniforme en un rango [0,1) usando la función <tt>rand()</tt>

In [11]:
unif_ten = th.rand((4,3))
print(f'Matriz con elementos muestreados uniformemente de [0,1):\n{unif_ten}')

Matriz con elementos muestreados uniformemente de [0,1):
tensor([[0.2542, 0.8330, 0.2240],
        [0.5421, 0.8550, 0.8001],
        [0.7604, 0.8838, 0.4205],
        [0.5433, 0.1298, 0.5047]])


Usando los tensores generados por <mark><tt>rand</tt></mark> (y <mark><tt>rand_like</tt></mark>) es posible generar tensores con valores muestreados de manera uniforme en un rango $[a,b)$ de la siguiente manera:

In [12]:
a = -5
b = 3
unifab_ten = th.rand((4,3))*(b-a) + a
print(f'Matriz con elementos muestreados uniformemente de [-5,3):\n{unifab_ten}')

Matriz con elementos muestreados uniformemente de [-5,3):
tensor([[-2.1012,  1.5009, -2.5631],
        [ 1.9471, -1.9798,  1.5239],
        [ 0.0757, -3.3061, -3.0185],
        [-2.8380, -0.6469, -1.9762]])


Alternativamente, podemos instanciar una clase <mark><tt>Tensor</tt></mark> pasando el tamaño como artumento al constructor y llamando al método <mark><tt>uniform_</tt></mark>

In [13]:
th.Tensor(4,3).uniform_(-5,3)

tensor([[ 0.4586, -3.2694,  0.3401],
        [-1.3943, -3.5854, -3.2019],
        [-4.7327, -3.0726,  1.7492],
        [-4.0606,  0.4267, -2.6158]])

Para valores enteros muestreados uniformemente tenemos la función <mark><tt>randint</tt></mark> (y <mark><tt>randint_like</tt></mark>).

In [14]:
unifint_ten = th.randint(low=-5, high=3, size=(4,3))
print('Matriz con enteros muestreados uniformemente de [-5,3):')
print(unifint_ten)

Matriz con enteros muestreados uniformemente de [-5,3):
tensor([[ 1,  1,  0],
        [-2, -4, -2],
        [-3, -5, -5],
        [-1, -5, -1]])


De forma similar, la función <mark><tt>randn</tt></mark> genera tensores con valores muestreados de una normal con media 0 y desviación estándar 1.

In [15]:
randn_ten = th.randn(size=(4,3))
print('Matriz con elementos muestreados de normal estándar:')
print(randn_ten)

Matriz con elementos muestreados de normal estándar:
tensor([[ 0.9117, -0.1835, -0.8847],
        [ 0.5642, -1.1018,  0.9838],
        [-2.9771,  0.3053, -1.0219],
        [ 0.2125, -0.1394,  1.5184]])


Con los tensores generados por <mark><tt>randn</tt></mark> podemos generar tensores cuyos valores sean muestreados de una normal con distinta media y desviación estándar de la siguiente manera:

In [16]:
mu = -5
std = 10
randnms_ten = th.randn(size=(4,3))*std + mu
print('Matriz con elementos muestreados de normal (μ=-5, σ=10):')
print(randnms_ten)

Matriz con elementos muestreados de normal (μ=-5, σ=10):
tensor([[ 10.5014,  -8.7756,   0.6488],
        [-15.6341,  18.5704,  12.3873],
        [  3.1490,   1.2077,   1.6001],
        [ -6.6251,  -9.7509,   1.8589]])


También podemos generar tensores con valores muestreados de una normal con media y desviación estándar arbitraria usando la función <mark><tt>normal</tt></mark>.

In [17]:
norm_ten = th.normal(size=(4,3), mean=-5, std=10)
print('Matriz con elementos muestreados de normal (μ=-5, σ=10):')
print(norm_ten)

Matriz con elementos muestreados de normal (μ=-5, σ=10):
tensor([[  7.4769, -11.6167,  -7.2041],
        [ -6.0016,  -3.8369,  -6.7266],
        [ 14.1198, -10.0746, -16.7773],
        [ -6.8141, -17.2862, -20.8769]])


Si deseamos generar tensores muestreados de una distribución multinomial, podemos usar la función <mark><tt>multinomial</tt></mark>, a la cual deben especificarse las probabilidades de cada clase como un tensor de orden 1 y el número de muestras.

In [18]:
cat_ten = th.multinomial(th.tensor([0.2, 0.6, 0.2]), num_samples=100, replacement=True)
print('Matriz con enteros muestreados de una multinomial:')
print(cat_ten)

Matriz con enteros muestreados de una multinomial:
tensor([2, 1, 0, 2, 2, 1, 2, 2, 0, 1, 2, 1, 2, 2, 2, 1, 0, 2, 2, 0, 2, 2, 2, 1,
        2, 2, 1, 2, 2, 2, 2, 1, 1, 2, 1, 0, 2, 2, 1, 1, 1, 1, 1, 1, 1, 2, 0, 2,
        1, 0, 1, 0, 1, 1, 2, 0, 2, 1, 2, 1, 0, 1, 2, 1, 0, 0, 0, 0, 0, 0, 2, 0,
        1, 2, 0, 1, 1, 0, 1, 1, 1, 2, 1, 1, 1, 2, 1, 1, 1, 1, 1, 2, 0, 1, 0, 1,
        1, 0, 1, 1])


El número de clases depende del tamaño del tensor y el argumento <mark><tt>replacement</tt></mark> define si las muestras son con o sin reemplazo (en este último caso el número de muestras debe ser menor o igual al número de clases).

Por otra parte, la función <mark><tt>arange()</tt></mark> genera una secuencia de números (como el <mark><tt>range()</tt></mark>):

In [19]:
rango_ten1 = th.arange(start=-3, end=3, step=0.5)
print('Arreglo de elementos en el rango [-3, 3):')
print(rango_ten1)

Arreglo de elementos en el rango [-3, 3):
tensor([-3.0000, -2.5000, -2.0000, -1.5000, -1.0000, -0.5000,  0.0000,  0.5000,
         1.0000,  1.5000,  2.0000,  2.5000])


De manera similar, la función <mark><tt>linspace()</tt></mark> genera tensores con valores con el mismo, espaciados en un intervalo.

In [20]:
ls_ten = th.linspace(start=-3, end=3, steps=10)
print('Arreglo de elementos en el rango [-3,3]:')
print(ls_ten)

Arreglo de elementos en el rango [-3,3]:
tensor([-3.0000, -2.3333, -1.6667, -1.0000, -0.3333,  0.3333,  1.0000,  1.6667,
         2.3333,  3.0000])


## Tipos

Los elementos de los tensores pueden ser de distintos tipos básicos y precisiones. Por ejemplo, flotantes de 16 bits (<mark><tt>float16</tt></mark>) o enteros sin signo de 8 bits (<mark><tt>uint8</tt></mark>).

In [21]:
ten_f64 = th.arange(start=-3, end=3, step=0.5, dtype=th.float64)
ten_i32 = th.arange(start=-3, end=3, step=1, dtype=th.int32)
print(f'Tipo flotante de 64: {ten_f64.dtype}')
print(f'Tipo entero de 32: {ten_i32.dtype}')

Tipo flotante de 64: torch.float64
Tipo entero de 32: torch.int32


También se pueden convertir de tipos con el método <mark><tt>type()</tt></mark>

In [22]:
conver_ten_f64 = ten_f64.type(th.float32)
conver_ten_i32 = ten_i32.type(th.int64)
print(f'Conversión de flotante de 64 a 32: {conver_ten_f64.dtype}')
print(f'Conversión de entero de 32 a 64: {conver_ten_i32.dtype}')

Conversión de flotante de 64 a 32: torch.float32
Conversión de entero de 32 a 64: torch.int64


## Índices

Los índices de los tensores siguen reglas similares a los arreglos de NumPy y las listas de Python.

In [23]:
ten_ind = th.reshape(th.linspace(start=-10, end=10, steps=32), [8,4])
print(ten_ind)
print(f'Primer renglón: {ten_ind[0].numpy()}')
print(f'Tercer renglón: {ten_ind[2].numpy()}')
print(f'Último renglón: {ten_ind[-1].numpy()}')

print(f'Primer columna: {ten_ind[:,0].numpy()}')
print(f'Última columna: {ten_ind[:, -1].numpy()}')

tensor([[-10.0000,  -9.3548,  -8.7097,  -8.0645],
        [ -7.4194,  -6.7742,  -6.1290,  -5.4839],
        [ -4.8387,  -4.1935,  -3.5484,  -2.9032],
        [ -2.2581,  -1.6129,  -0.9677,  -0.3226],
        [  0.3226,   0.9677,   1.6129,   2.2581],
        [  2.9032,   3.5484,   4.1935,   4.8387],
        [  5.4839,   6.1290,   6.7742,   7.4194],
        [  8.0645,   8.7097,   9.3548,  10.0000]])
Primer renglón: [-10.        -9.354838  -8.709678  -8.064516]
Tercer renglón: [-4.83871   -4.1935487 -3.5483873 -2.903226 ]
Último renglón: [ 8.064516  8.709677  9.354838 10.      ]
Primer columna: [-10.          -7.419355    -4.83871     -2.2580647    0.32258093
   2.903226     5.483871     8.064516  ]
Última columna: [-8.064516  -5.483871  -2.903226  -0.3225808  2.2580647  4.83871
  7.419355  10.       ]


También se pueden realizar <i>slices</i>:

In [24]:
print('Todos los renglones:\n', ten_ind[:].numpy())

Todos los renglones:
 [[-10.          -9.354838    -8.709678    -8.064516  ]
 [ -7.419355    -6.774194    -6.129032    -5.483871  ]
 [ -4.83871     -4.1935487   -3.5483873   -2.903226  ]
 [ -2.2580647   -1.6129036   -0.9677422   -0.3225808 ]
 [  0.32258093   0.9677422    1.6129035    2.2580647 ]
 [  2.903226     3.548387     4.1935487    4.83871   ]
 [  5.483871     6.129032     6.774194     7.419355  ]
 [  8.064516     8.709677     9.354838    10.        ]]


In [25]:
print('Renglones antes del 6\n', ten_ind[:6].numpy())

Renglones antes del 6
 [[-10.          -9.354838    -8.709678    -8.064516  ]
 [ -7.419355    -6.774194    -6.129032    -5.483871  ]
 [ -4.83871     -4.1935487   -3.5483873   -2.903226  ]
 [ -2.2580647   -1.6129036   -0.9677422   -0.3225808 ]
 [  0.32258093   0.9677422    1.6129035    2.2580647 ]
 [  2.903226     3.548387     4.1935487    4.83871   ]]


In [26]:
print('Renglones del 4 al final:\n', ten_ind[4:].numpy())

Renglones del 4 al final:
 [[ 0.32258093  0.9677422   1.6129035   2.2580647 ]
 [ 2.903226    3.548387    4.1935487   4.83871   ]
 [ 5.483871    6.129032    6.774194    7.419355  ]
 [ 8.064516    8.709677    9.354838   10.        ]]


In [27]:
print('Renglones del 3 al 5:\n', ten_ind[3:6].numpy())

Renglones del 3 al 5:
 [[-2.2580647  -1.6129036  -0.9677422  -0.3225808 ]
 [ 0.32258093  0.9677422   1.6129035   2.2580647 ]
 [ 2.903226    3.548387    4.1935487   4.83871   ]]


In [28]:
print('Cada dos renglones:\n', ten_ind[::2].numpy())

Cada dos renglones:
 [[-10.          -9.354838    -8.709678    -8.064516  ]
 [ -4.83871     -4.1935487   -3.5483873   -2.903226  ]
 [  0.32258093   0.9677422    1.6129035    2.2580647 ]
 [  5.483871     6.129032     6.774194     7.419355  ]]


Un error relativamente común es:

A diferencia de los arreglos de Numpy, en las instancias de Tensor no es posible que el paso de los índices sea negativo.

In [29]:
# NumPy
nparr = np.arange(start=0, stop=10, step=1)
print(nparr)
print(nparr[::-1])

# PyTorch
tharr = th.arange(start=0, end=10, step=1)
print(tharr)
# print(tharr[::-1]) Genera un: ValueError: step must be greater than zero

[0 1 2 3 4 5 6 7 8 9]
[9 8 7 6 5 4 3 2 1 0]
tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])


Podemos iterar sobre los elementos de un tensor:

In [30]:
for x in ten_ind:
    print(x)
    
for x in ten_ind:
    for i in x:
        print(i)

tensor([-10.0000,  -9.3548,  -8.7097,  -8.0645])
tensor([-7.4194, -6.7742, -6.1290, -5.4839])
tensor([-4.8387, -4.1935, -3.5484, -2.9032])
tensor([-2.2581, -1.6129, -0.9677, -0.3226])
tensor([0.3226, 0.9677, 1.6129, 2.2581])
tensor([2.9032, 3.5484, 4.1935, 4.8387])
tensor([5.4839, 6.1290, 6.7742, 7.4194])
tensor([ 8.0645,  8.7097,  9.3548, 10.0000])
tensor(-10.)
tensor(-9.3548)
tensor(-8.7097)
tensor(-8.0645)
tensor(-7.4194)
tensor(-6.7742)
tensor(-6.1290)
tensor(-5.4839)
tensor(-4.8387)
tensor(-4.1935)
tensor(-3.5484)
tensor(-2.9032)
tensor(-2.2581)
tensor(-1.6129)
tensor(-0.9677)
tensor(-0.3226)
tensor(0.3226)
tensor(0.9677)
tensor(1.6129)
tensor(2.2581)
tensor(2.9032)
tensor(3.5484)
tensor(4.1935)
tensor(4.8387)
tensor(5.4839)
tensor(6.1290)
tensor(6.7742)
tensor(7.4194)
tensor(8.0645)
tensor(8.7097)
tensor(9.3548)
tensor(10.)


## Formas

La forma de los tensores puede cambiar, siempre y cuando se mantenga el mismo número de elementos totales:
<img src="formas.png"/>
<img src="formas2.png"/>
<img src="formas3.png">

In [31]:
x_orig = th.arange(30)
print(f'Forma de tensor original: {x_orig.shape}')

Forma de tensor original: torch.Size([30])


Nótese que es necesario asegurarse de que, al cambiar la forma, el número total de elementos sea el mismo. Por ejemplo, si tenemos 30 elementos, solo podemos cambiar a formas en las que el producto de todas las dimensiones sea igual a 30 ($5 \times 6$, $6 \times 5$, $3 \times 10$, etc).

Para cambiar la forma de este vector usamos la función <mark><tt>reshape()</tt></mark>.

In [32]:
x_forma2 = th.reshape(x_orig, [3,2,5])
x_forma3 = th.reshape(x_orig, [3,10])
x_forma4 = th.reshape(x_orig, [6,5])
x_forma5 = th.reshape(x_orig, [2,3,5])
x_forma6 = th.reshape(x_orig, [5,3,2])

Examinemos sus formas

In [33]:
print(x_orig.shape)
print(x_forma2.shape)
print(x_forma3.shape)
print(x_forma4.shape)
print(x_forma5.shape)
print(x_forma6.shape)

torch.Size([30])
torch.Size([3, 2, 5])
torch.Size([3, 10])
torch.Size([6, 5])
torch.Size([2, 3, 5])
torch.Size([5, 3, 2])


In [34]:
x_orig, x_forma3

(tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
         18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]),
 tensor([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
         [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
         [20, 21, 22, 23, 24, 25, 26, 27, 28, 29]]))

Si solo requerimos agregar una dimensión, además de la función <mark><tt>reshape</tt></mark> podemos usar <mark><tt>unsqueeze</tt></mark>, la cual toma como argumento un tensor y un eje y regresa un tensor con los mismos elementos pero con una dimensión agregada.

In [35]:
print(f'Tensor de : {x_forma3.shape}')
print(f'Eje 0: {th.unsqueeze(x_forma3, axis=0).shape}')
print(f'Eje 1: {th.unsqueeze(x_forma3, axis=1).shape}')
print(f'Eje 1: {th.unsqueeze(x_forma3, axis=2).shape}')

Tensor de : torch.Size([3, 10])
Eje 0: torch.Size([1, 3, 10])
Eje 1: torch.Size([3, 1, 10])
Eje 1: torch.Size([3, 10, 1])


Para quitar dimensiones de tamaño 1 se puede utilizar la función <mark><tt>squeeze</tt></mark>.

In [36]:
x_exp4 = th.unsqueeze(x_forma3, axis=2)
x_exp4 = th.unsqueeze(x_exp4, axis=0)
print(f'Tensor de 4: {x_exp4.shape}')
print(f'Aplicando squeeze: {th.squeeze(x_exp4).shape}') # general
print(f'Aplicando squeeze sobre eje 1: {th.squeeze(x_exp4, axis=0).shape}') # solo a 1 eje

Tensor de 4: torch.Size([1, 3, 10, 1])
Aplicando squeeze: torch.Size([3, 10])
Aplicando squeeze sobre eje 1: torch.Size([3, 10, 1])


También podemos dividir un tensor de orden $k$ en múltiples tensores de orden $k$ con la función <mark><tt>split</tt></mark>.

In [37]:
print(f'Tensor de 3 dimensiones: {x_forma2.shape}')
print(x_forma2)
print(f'División en 3 sobre eje 0:\n{th.split(x_forma2, split_size_or_sections=3, dim=0)}')
print(f'División en 2 sobre eje 1:\n{th.split(x_forma2, split_size_or_sections=2, dim=1)}')
print(f'División en 3 sobre eje 2:\n{th.split(x_forma2, split_size_or_sections=[2,2,1], dim=2)}')

Tensor de 3 dimensiones: torch.Size([3, 2, 5])
tensor([[[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9]],

        [[10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]],

        [[20, 21, 22, 23, 24],
         [25, 26, 27, 28, 29]]])
División en 3 sobre eje 0:
(tensor([[[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9]],

        [[10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]],

        [[20, 21, 22, 23, 24],
         [25, 26, 27, 28, 29]]]),)
División en 2 sobre eje 1:
(tensor([[[ 0,  1,  2,  3,  4],
         [ 5,  6,  7,  8,  9]],

        [[10, 11, 12, 13, 14],
         [15, 16, 17, 18, 19]],

        [[20, 21, 22, 23, 24],
         [25, 26, 27, 28, 29]]]),)
División en 3 sobre eje 2:
(tensor([[[ 0,  1],
         [ 5,  6]],

        [[10, 11],
         [15, 16]],

        [[20, 21],
         [25, 26]]]), tensor([[[ 2,  3],
         [ 7,  8]],

        [[12, 13],
         [17, 18]],

        [[22, 23],
         [27, 28]]]), tensor([[[ 4],
         [ 9]],

        [[14],


Cuando redimensionamos con <mark><tt>reshape</tt></mark> o asignamos un tensor a otro, no se está creando una copia del tensor original en memoria, sino que solo se modifica la cabecera.

In [38]:
x_orig_igual = x_orig
x_orig[0] = -1
x_orig, x_orig_igual, x_forma2

(tensor([-1,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
         18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]),
 tensor([-1,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
         18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]),
 tensor([[[-1,  1,  2,  3,  4],
          [ 5,  6,  7,  8,  9]],
 
         [[10, 11, 12, 13, 14],
          [15, 16, 17, 18, 19]],
 
         [[20, 21, 22, 23, 24],
          [25, 26, 27, 28, 29]]]))

Para crear una copia de los datos es necesario usar el método <mark><tt>clone()</tt></mark> o <mark><tt>deepcopy()</tt></mark>.

In [39]:
x_orig_clone = x_orig.clone()
x_orig[0] = 9999
x_orig, x_orig_clone, x_forma2

(tensor([9999,    1,    2,    3,    4,    5,    6,    7,    8,    9,   10,   11,
           12,   13,   14,   15,   16,   17,   18,   19,   20,   21,   22,   23,
           24,   25,   26,   27,   28,   29]),
 tensor([-1,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
         18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]),
 tensor([[[9999,    1,    2,    3,    4],
          [   5,    6,    7,    8,    9]],
 
         [[  10,   11,   12,   13,   14],
          [  15,   16,   17,   18,   19]],
 
         [[  20,   21,   22,   23,   24],
          [  25,   26,   27,   28,   29]]]))

## PyTorch y NumPy

Los tensores de PyTorch se pueden convertir a arreglos de NumPy y viceversa.

In [40]:
nparr = np.ones([2,5])
print(nparr)

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


De arreglo de Numpy a Tensorflow:

In [41]:
tharr = th.tensor(nparr)
print(tharr)

tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]], dtype=torch.float64)


De tensor a arreglo de Numpy con método <mark><tt>numpy()</tt></mark> de cualquier instancia de Tensor.

In [42]:
print(tharr.numpy())

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


## Operaciones básicas

PyTorch cuenta con operadores y funciones básicas para los tensores, similares a las de NumPy, entre ellas, operadores elemento a elemento, multiplicación por tensores, etc.

### Elemento a elemento

Estas operaciones se realizan entre dos tensores que tienen la misma forma. El resultado es un tensor con la misma forma que la de los operandos, cuyos elementos se obtienen al aplicar la operación especificada entre cada elemento de un tensor y el correspondiente elemento del otro tensor. Estas operaciones pueden ser suma, resta, división y multiplicación, etc.

In [43]:
x = th.tensor([[1.,2.,3.]])
y = th.tensor([[3.,4.,5.]])

print(f'x = {x}')
print(f'y = {y}')
print(f'10*x = {10*x}')
print(f'x+y = {x+y}')
print(f'x-y = {x-y}')
print(f'x*y = {x*y}')
print(f'x/y = {x/y}')
print(f'x^y = {x**y}')
print(f'x^2 = {x**2}')

x = tensor([[1., 2., 3.]])
y = tensor([[3., 4., 5.]])
10*x = tensor([[10., 20., 30.]])
x+y = tensor([[4., 6., 8.]])
x-y = tensor([[-2., -2., -2.]])
x*y = tensor([[ 3.,  8., 15.]])
x/y = tensor([[0.3333, 0.5000, 0.6000]])
x^y = tensor([[  1.,  16., 243.]])
x^2 = tensor([[1., 4., 9.]])


### Transpuesta, producto y concatenación

Es posible obtener la transpuesta de una matriz usando la función <mark><tt>transpose</tt></mark> (como argumentos se ponen los índices de los ejes en el orden deseado) o el método <mark><tt>.T</tt></mark> de cualquier instancia de Tensor. Además, podemos calcular el producto de dos vectores, dos matrices o un vector y una matriz.

In [44]:
th.transpose(x, 1,0), x.T

(tensor([[1.],
         [2.],
         [3.]]),
 tensor([[1.],
         [2.],
         [3.]]))

In [45]:
# Generamos 2 matrices aleatorias
M1 = th.rand((4,3))
M2 = th.rand((3,2))

print(f'Transpuesta de x:\n{th.transpose(x,1,0)}')
print(f'Transpuesta de y:\n{y.T}')
print(f'Transpuesta de M1:\n{th.transpose(M1, 1,0)}')
print(f'Transpuesta de M2:\n{M2.T}')

Transpuesta de x:
tensor([[1.],
        [2.],
        [3.]])
Transpuesta de y:
tensor([[3.],
        [4.],
        [5.]])
Transpuesta de M1:
tensor([[0.9656, 0.3359, 0.7240, 0.0215],
        [0.2664, 0.9658, 0.1017, 0.0126],
        [0.5134, 0.1107, 0.0387, 0.5214]])
Transpuesta de M2:
tensor([[0.3675, 0.8470, 0.5622],
        [0.5487, 0.2010, 0.5703]])


In [46]:
print(x @ y.T)
print(x.T @ y)
print(M1 @ M2)

tensor([[26.]])
tensor([[ 3.,  4.,  5.],
        [ 6.,  8., 10.],
        [ 9., 12., 15.]])
tensor([[0.8692, 0.8762],
        [1.0038, 0.4416],
        [0.3740, 0.4398],
        [0.3117, 0.3117]])


También podemos concatenar una lista de tensores (primer argumento) sobre un eje específico (argumento <tt>axis</tt>).

In [47]:
print(th.concat([x,y], axis = 0))
print(th.concat([x,y], axis = 1))

tensor([[1., 2., 3.],
        [3., 4., 5.]])
tensor([[1., 2., 3., 3., 4., 5.]])


De forma similar, es posible apilar tensores sobre un eje usando la función <mark><tt>stack</tt></mark> (el tensor resultado es un orden mayor al de los tensores de argumento, los cuales tienen la misma forma).

In [48]:
v1 = th.rand([5])
v2 = th.rand([5])
v3 = th.rand([5])

M1 = th.rand([2,3])
M2 = th.rand([2,3])
M3 = th.rand([2,3])

Apilado de vectores sobre eje 0:

In [49]:
print(th.stack([v1,v2,v3], axis=0))

tensor([[0.9169, 0.0930, 0.1844, 0.4946, 0.0512],
        [0.8786, 0.7236, 0.8800, 0.6624, 0.8530],
        [0.1550, 0.4097, 0.1547, 0.8537, 0.6206]])


Apilado de vectores sobre eje 1:

In [50]:
print(th.stack([v1,v2,v3], axis=1))

tensor([[0.9169, 0.8786, 0.1550],
        [0.0930, 0.7236, 0.4097],
        [0.1844, 0.8800, 0.1547],
        [0.4946, 0.6624, 0.8537],
        [0.0512, 0.8530, 0.6206]])


Apilado de matrices sobre eje 0:

In [51]:
print(th.stack([M1,M2,M3], axis=0))

tensor([[[0.8982, 0.2514, 0.0287],
         [0.9150, 0.4507, 0.6028]],

        [[0.0772, 0.9242, 0.6556],
         [0.9686, 0.8820, 0.1194]],

        [[0.6541, 0.1784, 0.6431],
         [0.8386, 0.1861, 0.4187]]])


Apilado de matrices sobre eje 1:

In [52]:
print(th.stack([M1,M2,M3], axis=1))

tensor([[[0.8982, 0.2514, 0.0287],
         [0.0772, 0.9242, 0.6556],
         [0.6541, 0.1784, 0.6431]],

        [[0.9150, 0.4507, 0.6028],
         [0.9686, 0.8820, 0.1194],
         [0.8386, 0.1861, 0.4187]]])


Apilado de matrices sobre eje 2:

In [53]:
print(th.stack([M1,M2,M3], axis=2))

tensor([[[0.8982, 0.0772, 0.6541],
         [0.2514, 0.9242, 0.1784],
         [0.0287, 0.6556, 0.6431]],

        [[0.9150, 0.9686, 0.8386],
         [0.4507, 0.8820, 0.1861],
         [0.6028, 0.1194, 0.4187]]])


## Reducción

También se puede reducir un eje de un tensor con distintas funciones (y métodos equivalentes), tales como suma (<mark><tt>sum</tt></mark>), producto (<mark><tt>prod</tt></mark>) y promedio (<mark><tt>mean</tt></mark>).

In [54]:
x_reduction = th.rand([3,10])

print(x_reduction)
print('max', th.max(x_reduction))
print('min', th.min(x_reduction))
print('argmax', th.argmax(x_reduction))
print('argmin', th.argmin(x_reduction))
print('mean', th.mean(x_reduction))
print('sum', th.sum(x_reduction))
print('prod', th.prod(x_reduction))

tensor([[0.5658, 0.4774, 0.2242, 0.6129, 0.4620, 0.3954, 0.5752, 0.7425, 0.2368,
         0.8084],
        [0.5914, 0.4466, 0.9120, 0.1727, 0.7322, 0.4279, 0.2365, 0.9641, 0.8349,
         0.5648],
        [0.9378, 0.3915, 0.2465, 0.9759, 0.9071, 0.7835, 0.0223, 0.4624, 0.4382,
         0.3108]])
max tensor(0.9759)
min tensor(0.0223)
argmax tensor(23)
argmin tensor(26)
mean tensor(0.5487)
sum tensor(16.4597)
prod tensor(6.8440e-11)


Es posible especificar un eje donde se desea realizar la reducción, para las funciones <mark><tt>min</tt></mark> y <mark><tt>max</tt></mark> se devuelven un par de tensores: el primero es el de valores mínimos y el segundo es el de los índices de estos valores.

In [55]:
print(x_reduction)
print('max', th.max(x_reduction, axis=0))
print('min', th.min(x_reduction, axis=0))
print('argmax', th.argmax(x_reduction, axis=0))
print('argmin', th.argmin(x_reduction, axis=0))
print('mean', th.mean(x_reduction, axis=0))
print('sum', th.sum(x_reduction, axis=0))
print('prod', th.prod(x_reduction, axis=0))

tensor([[0.5658, 0.4774, 0.2242, 0.6129, 0.4620, 0.3954, 0.5752, 0.7425, 0.2368,
         0.8084],
        [0.5914, 0.4466, 0.9120, 0.1727, 0.7322, 0.4279, 0.2365, 0.9641, 0.8349,
         0.5648],
        [0.9378, 0.3915, 0.2465, 0.9759, 0.9071, 0.7835, 0.0223, 0.4624, 0.4382,
         0.3108]])
max torch.return_types.max(
values=tensor([0.9378, 0.4774, 0.9120, 0.9759, 0.9071, 0.7835, 0.5752, 0.9641, 0.8349,
        0.8084]),
indices=tensor([2, 0, 1, 2, 2, 2, 0, 1, 1, 0]))
min torch.return_types.min(
values=tensor([0.5658, 0.3915, 0.2242, 0.1727, 0.4620, 0.3954, 0.0223, 0.4624, 0.2368,
        0.3108]),
indices=tensor([0, 2, 0, 1, 0, 0, 2, 2, 0, 2]))
argmax tensor([2, 0, 1, 2, 2, 2, 0, 1, 1, 0])
argmin tensor([0, 2, 0, 1, 0, 0, 2, 2, 0, 2])
mean tensor([0.6983, 0.4385, 0.4609, 0.5872, 0.7004, 0.5356, 0.2780, 0.7230, 0.5033,
        0.5613])
sum tensor([2.0950, 1.3155, 1.3828, 1.7615, 2.1013, 1.6069, 0.8340, 2.1689, 1.5098,
        1.6840])
prod tensor([0.3138, 0.0835, 0.0504, 0.1033, 

Para el eje 1 del mismo tensor.

In [56]:
print(x_reduction)
print('max', th.max(x_reduction, axis=1))
print('min', th.min(x_reduction, axis=1))
print('argmax', th.argmax(x_reduction, axis=1))
print('argmin', th.argmin(x_reduction, axis=1))
print('mean', th.mean(x_reduction, axis=1))
print('sum', th.sum(x_reduction, axis=1))
print('prod', th.prod(x_reduction, axis=1))

tensor([[0.5658, 0.4774, 0.2242, 0.6129, 0.4620, 0.3954, 0.5752, 0.7425, 0.2368,
         0.8084],
        [0.5914, 0.4466, 0.9120, 0.1727, 0.7322, 0.4279, 0.2365, 0.9641, 0.8349,
         0.5648],
        [0.9378, 0.3915, 0.2465, 0.9759, 0.9071, 0.7835, 0.0223, 0.4624, 0.4382,
         0.3108]])
max torch.return_types.max(
values=tensor([0.8084, 0.9641, 0.9759]),
indices=tensor([9, 7, 3]))
min torch.return_types.min(
values=tensor([0.2242, 0.1727, 0.0223]),
indices=tensor([2, 3, 6]))
argmax tensor([9, 7, 3])
argmin tensor([2, 3, 6])
mean tensor([0.5101, 0.5883, 0.5476])
sum tensor([5.1006, 5.8831, 5.4760])
prod tensor([5.5435e-04, 1.4011e-03, 8.8119e-05])


Por otro lado, tenemos la función <mark><tt>sort</tt></mark> que ordena un tensor. Al igual que <mark><tt>min</tt></mark> y <mark><tt>max</tt></mark>, cuando se especifica un eje, <mark><tt>sort</tt></mark> regresa tanto el tensor de valores como el tensor de índices. Si solo requerimos los índices, podemos usar la función <mark><tt>argsort</tt></mark>.

In [57]:
desord = th.rand([12])
print('Tensor desordenado:', desord)
print('Tensor de 3x4:', desord.reshape((3,4)))

print('Tensor de orden 1 de menor a mayor:', th.sort(desord, descending=False))
print('Tensor de orden 1 de mayor a menor:', th.sort(desord, descending=True))

print('Tensor de orden 2 de menor a mayor sobre eje 0:', th.sort(th.reshape(desord, (3,4)), descending=False, axis=0))
print('Tensor de orden 2 de menor a mayor sobre eje 1:', th.sort(th.reshape(desord, (3,4)), descending=False, axis=1))

print('Índices de menor a mayor:', th.argsort(desord, descending=False))
print('Índices de mayor a menor:', th.argsort(desord, descending=True))
print('Índices de eje 0 de menor a mayor:', th.argsort(desord.reshape((3,4)), descending=False, axis=0))
print('Índices de eje 1 de menor a mayor:', th.argsort(desord.reshape((3,4)), descending=False, axis=1))

Tensor desordenado: tensor([0.2723, 0.7210, 0.3951, 0.4097, 0.2900, 0.6725, 0.2049, 0.1359, 0.1496,
        0.9527, 0.7348, 0.9493])
Tensor de 3x4: tensor([[0.2723, 0.7210, 0.3951, 0.4097],
        [0.2900, 0.6725, 0.2049, 0.1359],
        [0.1496, 0.9527, 0.7348, 0.9493]])
Tensor de orden 1 de menor a mayor: torch.return_types.sort(
values=tensor([0.1359, 0.1496, 0.2049, 0.2723, 0.2900, 0.3951, 0.4097, 0.6725, 0.7210,
        0.7348, 0.9493, 0.9527]),
indices=tensor([ 7,  8,  6,  0,  4,  2,  3,  5,  1, 10, 11,  9]))
Tensor de orden 1 de mayor a menor: torch.return_types.sort(
values=tensor([0.9527, 0.9493, 0.7348, 0.7210, 0.6725, 0.4097, 0.3951, 0.2900, 0.2723,
        0.2049, 0.1496, 0.1359]),
indices=tensor([ 9, 11, 10,  1,  5,  3,  2,  4,  0,  6,  8,  7]))
Tensor de orden 2 de menor a mayor sobre eje 0: torch.return_types.sort(
values=tensor([[0.1496, 0.6725, 0.2049, 0.1359],
        [0.2723, 0.7210, 0.3951, 0.4097],
        [0.2900, 0.9527, 0.7348, 0.9493]]),
indices=tensor([[2, 1

## GPUs

En muchos casos, el uso de GPUs reduce significativamente el tiempo de entrenamiento de los modelos basados en redes neuronales profundas. Por lo mismo, los marcos de trabajo como PyTorch permiten crear o copiar tensores y ejecutar las operaciones tensoriales en uno o más CPUs/GPUs e incluso en distintas computadoras. Además, ofrecen herramientas para controlar de manera flexible dónde se crea o copia cada tensor y dónde se ejecuta cada operación. Por ello, cada instancia de la clase <mark><tt>Tensor</tt></mark> cuenta con el elemento <mark><tt>.device</tt></mark> que indica el dispositivo en el que se encuentra almacenado. Por defecto, si hay al menos uno disponible, los tensores se crean en el GPU.

In [58]:
!nvidia-smi

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.



In [59]:
xcpu = th.rand((100,100))
print(xcpu.device)

cpu


Podemos especificar explícitamente dónde queremos crear una instancia de Tensor usando el argumento <mark><tt>device</tt></mark> que tienen muchas funciones de PyTorch. Por ejemplo, si queremos crear el tensor en GPU pasamos la cadena <mark><tt>cuda</tt></mark> o <mark><tt>cuda:0</tt></mark>, donde el valor después de los dos puntos en esta última forma especifica el índice del GPU (es distinto de 0 cuando tenemos múltiplies GPUs disponibles).

In [60]:
xgpu = th.rand((100,100), device='cuda:0')
xgpu.device

RuntimeError: No CUDA GPUs are available

Las operaciones que se realicen con estos tensores se correrán en el GPU y los tensores resultantes estarán en este mismo dispositivo.

In [None]:
ygpu = th.rand((100, 100), device='cuda:0')
(xgpu + ygpu).device

Sin embargo, cuando realizamos una operación con tensores que se encuentran en dispositivos distintos, PyTorch lanza un error.

In [None]:
# genera un error porque se quiere realizar una operación con tensores que están en distintos dispositivos
# xgpu1 + xcpu

Por lo tanto, para poder realizar esta operación es necesario transferir uno de los tensores a otro dispositivo. En PyTorch esto lo llevamos a cabo con el método <mark><tt>to</tt></mark>.

In [None]:
xcpugpu = xcpu.to('cuda:0')
(xgpu + xcpugpu).device

In [None]:
xcpugpu.device

Para saber si algún GPU está disponible, contamos con la función <mark><tt>is_available</tt></mark> del módulo de <mark><tt>cuda</tt></mark>.

In [None]:
th.cuda.is_available()

Comparemos ahora los tiempos de ejecución en un CPU y un GPU de una multiplicación de dos matrices.

In [None]:
%%timeit -n1 -r1
disp='cpu'
res = th.rand((10000, 10000), device=disp) @ th.rand((10000,10000), device=disp)

## Ejercicio

Calcula y despliega el producto de cada matriz de $400 \times 1000$ en un tensor aleatorio $A$ de tamaño $500 \times 400 \times 1000$ con la transpuesta de un tensor aleatorio $B$ de tamaño $200 \times 1000$. Concatena el resultado a un tensor aleatorio $C$ con el mismo número de columnas que el resultado de la operación anterior. Compara los tiempos de ejecución de esta operación en GPU y CPU.