In [30]:
import torch
import numpy as np

In [31]:
x =  torch.tensor([1, 2, 3])
print(x)

tensor([1, 2, 3])


In [32]:
y = torch.tensor([[1, 2, 3],[4, 5, 6]])
y

tensor([[1, 2, 3],
        [4, 5, 6]])

In [33]:
print(x.size())
print(y.size())

torch.Size([3])
torch.Size([2, 3])


In [34]:
x[0] += 10
print(x)

tensor([11,  2,  3])


In [35]:
print(x[0])

tensor(11)


In [36]:
x0_val = x[0].item()
print(x0_val)

11


Ejemplo de tensores

In [37]:
z = torch.ones(2,3)
print(z)

tensor([[1., 1., 1.],
        [1., 1., 1.]])


In [38]:
z = torch.rand(2, 3)
print(z)

tensor([[0.9429, 0.2832, 0.0427],
        [0.0490, 0.0010, 0.6269]])


In [39]:
z = torch.empty(2, 3)
print(z)

tensor([[0., 0., 0.],
        [0., 0., 0.]])


### Que es un tensor?

Un tensor es una estructura de datos que generaliza los conceptos de escalares, vectores y matrices a dimensiones superiores. En términos simples:
- Un escalar es un tensor de orden 0 (un solo número).
- Un vector es un tensor de orden 1 (una lista de números).
- Una matriz es un tensor de orden 2 (una tabla de números con filas y columnas).

Un tensor puede tener más de dos dimensiones, lo que permite representar datos más complejos, como imágenes (3D), videos (4D) o cualquier otro tipo de datos multidimensionales. Los tensores son fundamentales en el aprendizaje profundo y se utilizan para almacenar y manipular datos en redes neuronales.

In [40]:
a = torch.tensor(-5.3)
print(a.size)
print(a)

<built-in method size of Tensor object at 0x0000027F3DB0C820>
tensor(-5.3000)


In [41]:
a = torch.ones(2,3)
print(a.size())
print(a)

torch.Size([2, 3])
tensor([[1., 1., 1.],
        [1., 1., 1.]])


La función `torch.ones(3, 4, 5)` crea un tensor de tres dimensiones (3D) donde:

- El primer número (`3`) indica que hay 3 bloques o matrices.
- El segundo número (`4`) indica que cada bloque tiene 4 filas.
- El tercer número (`5`) indica que cada fila tiene 5 columnas.

En términos generales, un tensor de forma `(3, 4, 5)` puede visualizarse como una colección de 3 matrices, cada una de tamaño 4x5. Más allá de matrices, los tensores permiten representar datos multidimensionales, como imágenes (por ejemplo, lotes de imágenes RGB pueden tener forma `(batch_size, canales, alto, ancho)`).

**Resumen:**  
- Escalar: tensor de 0 dimensiones (un solo número).
- Vector: tensor de 1 dimensión (una lista).
- Matriz: tensor de 2 dimensiones (tabla de números).
- Tensor 3D: colección de matrices (por ejemplo, `torch.ones(3, 4, 5)`).

Esto es útil en aprendizaje profundo para organizar datos complejos y trabajar con lotes de ejemplos, canales de color, secuencias, etc.

In [42]:
a = torch.ones(3,4,5)
print(a.size())
print(a)

torch.Size([3, 4, 5])
tensor([[[1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.]],

        [[1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.]],

        [[1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1.]]])


In [43]:
# 2 Grupos de 3 matrices de 4x5
a = torch.ones(2,3,4,5)
print(a.size())
print(a)

torch.Size([2, 3, 4, 5])
tensor([[[[1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.]],

         [[1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.]],

         [[1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.]]],


        [[[1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.]],

         [[1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.]],

         [[1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.],
          [1., 1., 1., 1., 1.]]]])


In [44]:
a = torch.ones(2,3,4,5,2)
print(a.size())
print(a)

torch.Size([2, 3, 4, 5, 2])
tensor([[[[[1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.]],

          [[1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.]],

          [[1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.]],

          [[1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.]]],


         [[[1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.]],

          [[1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.]],

          [[1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.]],

          [[1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.]]],


         [[[1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.],
           [1., 1.]],

     

### Operaciones aritméticas básicas con tensores en PyTorch

A continuación se muestran ejemplos de suma, resta, multiplicación, división y operaciones elemento a elemento entre tensores.

In [45]:
# Suma, resta, multiplicación y división elemento a elemento
x = torch.tensor([1.0, 2.0, 3.0])
y = torch.tensor([4.0, 5.0, 6.0])

suma = x + y
resta = x - y
producto = x * y
division = x / y

print('Suma:', suma)
print('Resta:', resta)
print('Producto:', producto)
print('División:', division)

Suma: tensor([5., 7., 9.])
Resta: tensor([-3., -3., -3.])
Producto: tensor([ 4., 10., 18.])
División: tensor([0.2500, 0.4000, 0.5000])


In [46]:
# Otras operaciones: potencia, raíz cuadrada, suma total, media
potencia = x ** 2
raiz = torch.sqrt(x)
suma_total = torch.sum(x)
media = torch.mean(x)

print('Potencia:', potencia)
print('Raíz cuadrada:', raiz)
print('Suma total:', suma_total)
print('Media:', media)

Potencia: tensor([1., 4., 9.])
Raíz cuadrada: tensor([1.0000, 1.4142, 1.7321])
Suma total: tensor(6.)
Media: tensor(2.)
 tensor([1., 4., 9.])
Raíz cuadrada: tensor([1.0000, 1.4142, 1.7321])
Suma total: tensor(6.)
Media: tensor(2.)


Good an bad Numpy copies

In [47]:
# Bad copy: torch -> numpy
x = torch.rand(2, 3)
y = x.numpy()

print(x, '\n')
print(y)

print('-'*80)

x.mul_(2)
print(x, '\n')
print(y)  # y también cambia

tensor([[0.3452, 0.7910, 0.0868],
        [0.5146, 0.6752, 0.3357]]) 

[[0.34523594 0.7910432  0.0867933 ]
 [0.51459706 0.6751846  0.33565342]]
--------------------------------------------------------------------------------
tensor([[0.6905, 1.5821, 0.1736],
        [1.0292, 1.3504, 0.6713]]) 

[[0.6904719  1.5820864  0.1735866 ]
 [1.0291941  1.3503692  0.67130685]]


In [48]:
# Good copy: torch -> numpy
x = torch.rand(2, 3)
y = x.clone().numpy()
# or y = x.numpy() + 0

print(x, '\n')
print(y)

print('-'*80)
x.mul_(2)
print(x, '\n')
print(y)  # y no cambia


tensor([[0.4330, 0.3332, 0.9374],
        [0.3491, 0.9291, 0.6169]]) 

[[0.43304473 0.33323538 0.9373702 ]
 [0.3490641  0.9290798  0.61685437]]
--------------------------------------------------------------------------------
tensor([[0.8661, 0.6665, 1.8747],
        [0.6981, 1.8582, 1.2337]]) 

[[0.43304473 0.33323538 0.9373702 ]
 [0.3490641  0.9290798  0.61685437]]


Copias en Numpy: buenas y malas prácticas

In [49]:
# Bad copy: numpy -> torch
z = np.random.random((3, 4))
zt = torch.from_numpy(z)
print(z, '\n')
print(zt)
print('-'*80)

zt.sub_(1)
# z también cambia
print(z, '\n')
print(zt)

[[0.17582504 0.80838424 0.44909747 0.35425312]
 [0.55197239 0.14620674 0.90574164 0.61984024]
 [0.12961403 0.81825249 0.45198044 0.09402041]] 

tensor([[0.1758, 0.8084, 0.4491, 0.3543],
        [0.5520, 0.1462, 0.9057, 0.6198],
        [0.1296, 0.8183, 0.4520, 0.0940]], dtype=torch.float64)
--------------------------------------------------------------------------------
[[-0.82417496 -0.19161576 -0.55090253 -0.64574688]
 [-0.44802761 -0.85379326 -0.09425836 -0.38015976]
 [-0.87038597 -0.18174751 -0.54801956 -0.90597959]] 

tensor([[-0.8242, -0.1916, -0.5509, -0.6457],
        [-0.4480, -0.8538, -0.0943, -0.3802],
        [-0.8704, -0.1817, -0.5480, -0.9060]], dtype=torch.float64)


In [50]:
# Good copy: numpy -> torch
z = np.random.random((3, 4))
zt = torch.tensor(z)
print(z, '\n')
print(zt)
print('-'*80)

zt.sub_(1)
# z no cambia
print(z, '\n')
print(zt)

[[0.14816456 0.465921   0.05720473 0.39231696]
 [0.6331888  0.39644009 0.66707104 0.76954236]
 [0.10383818 0.30408229 0.20738019 0.21212   ]] 

tensor([[0.1482, 0.4659, 0.0572, 0.3923],
        [0.6332, 0.3964, 0.6671, 0.7695],
        [0.1038, 0.3041, 0.2074, 0.2121]], dtype=torch.float64)
--------------------------------------------------------------------------------
[[0.14816456 0.465921   0.05720473 0.39231696]
 [0.6331888  0.39644009 0.66707104 0.76954236]
 [0.10383818 0.30408229 0.20738019 0.21212   ]] 

tensor([[-0.8518, -0.5341, -0.9428, -0.6077],
        [-0.3668, -0.6036, -0.3329, -0.2305],
        [-0.8962, -0.6959, -0.7926, -0.7879]], dtype=torch.float64)


GPU y CPU en PyTorch

In [51]:
if torch.cuda.is_available():
    print('Yes')
    dev = torch.device("cuda")
    
    x = torch.ones(2, 3, 4, device=dev)  # directly create a tensor on GPU
    y = torch.ones(2, 3, 4)
    y = y.to(dev)  # or .to("cuda")
    
    z = x + y
    z = z.to("cpu")  # or .to(dev)
    print(z)
    
else:
    print('No')

Yes
tensor([[[2., 2., 2., 2.],
         [2., 2., 2., 2.],
         [2., 2., 2., 2.]],

        [[2., 2., 2., 2.],
         [2., 2., 2., 2.],
         [2., 2., 2., 2.]]])
tensor([[[2., 2., 2., 2.],
         [2., 2., 2., 2.],
         [2., 2., 2., 2.]],

        [[2., 2., 2., 2.],
         [2., 2., 2., 2.],
         [2., 2., 2., 2.]]])


## Diferenciación

El problema es, que dada una función $f : \mathbb{R} \rightarrow \mathbb{R}$, computa su derivada con respecto a $x_i$:
$$
\frac{\partial f}{\partial x_i}
$$

Hence, tenemos que computar el gradiente * evaluado en un punto en particular:
$$
\nabla f(x) = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \ldots, \frac{\partial f}{\partial x_n} \right)
$$

#### Diferenciación simbólica

Supongamos $f(x) = sin(2x)$. Computar la derivada es sencillo:
$$
\frac{df}{dx} = 2cos(2x)
$$

en el punto 3.5 es

In [52]:
import sympy as sym

x = sym.symbols('x')

df = sym.diff(sym.sin(2 * x), x)
print(df)
df.subs(x, 3.5)

2*cos(2*x)


1.50780450868661

Pros:

- Diferenciación exacta
- Una vez que la derivada está computada, evaluarla en cualquier punto es rápido.

Contras:
- Computacionalmente costoso para funciones complejas.
- Para aplicaciones reales, diferenciacion simbólica no es práctica.


## Diferenciación numérica

Dada una función $f : \mathbb{R} \rightarrow \mathbb{R}$, la derivada en un punto $x$ se puede aproximar como:
$$
\frac{df}{dx} \approx \frac{f(x + h * e_i) - f(x)}{h}
$$
para un valor pequeño de $h$.

Donde $e_i$ es el elemento de la base canónica (un vector con 1 en la posición $i$ y 0 en las demás).
Esto para diferenciacion finita.

Imagina que $f(x) = sin(2x)$ y queremos la derivada en el punto 3.5.

In [53]:
import numpy as np

h = 1e-4
x0 = 3.5
n = 1

ei = np.diag(np.ones(n))
print(ei)

def f1(x):
    return np.sin(2 * x)

[[1.]]


In [54]:
val = (f1(x0 + h * ei[0]) - f1(x0)) / h
print(val.squeeze())

1.5076731013186073


Ahora con $f(x) = 3x_1x_3-x_2^2+5x_3^2$ computa la derivada para el punto (1, 2, 3):

$$
\nabla f(1, 2, 3) = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \frac{\partial f}{\partial x_3} \right)
$$

In [55]:
x0 = np.array([1.0, 2.0, 3.0])
n = 3
ei = np.diag(np.ones(n))
print(ei)

def f2(x):
    return 3 * x[0] * x[2] -2*x[1]**2 + 5 * x[2]**3

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [56]:
val = (f2(x0 + h * ei) - f2(x0)) / h
print(val)


[-1299997.          -920008.0002        80144.00450005]


El erro de paximación of forward finite difference is $O(h)$. vamos a intentar usar central finite difference, que tiene un error de $O(h^2)$:
$$
\frac{df}{dx} \approx \frac{f(x + h * e_i) - f(x - h * e_i)}{2h}
$$
par algun 0 < h << 1. donde $e_1$ Pertenece a la base canónica. y es el i elemento de la base canónica.

In [57]:
val = (f2(x0 + h * ei) - f2(x0 - h * ei)) / (2 * h)
print(val)


[  3.          -8.         144.00000005]


Pros:
- En algunos escenarios, la presicion es buena.
- Fácil de implementar.

Contras:
- La aproximación puede ser inexacta si h no es lo suficientemente pequeño.
- Depende del comportamiento local de la función. 

## Diferenciación automática

Supongamos que $f(x) = sin(2x)$ y computar la derivada en el punto 3.5.

In [58]:
import torch

x0 = torch.tensor(3.5, requires_grad=True)
print(x0)

tensor(3.5000, requires_grad=True)


In [59]:
f1 = torch.sin(2 * x0)
print(f1)

tensor(0.6570, grad_fn=<SinBackward0>)


In [60]:
f1 = f1.backward()
print(x0.grad)  # df/dx at x=3.5

tensor(1.5078)



Ahora con $f(x) = 3x_1x_3-x_2^2+5x_3^2$ computa la derivada para el punto (1, 2, 3):

$$
\nabla f(1, 2, 3) = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \frac{\partial f}{\partial x_3} \right)
$$

In [61]:
x0 = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
print(x0)

tensor([1., 2., 3.], requires_grad=True)


In [62]:
f2 = 3 * x0[0] * x0[2] - 2 * x0[1]**2 + 5 * x0[2]**3
print(f2)

tensor(136., grad_fn=<AddBackward0>)


### Visualización del grafo computacional en PyTorch

PyTorch permite inspeccionar el grafo de operaciones que se construye para calcular derivadas automáticas. El atributo `.grad_fn` de un tensor resultado muestra el nodo raíz del grafo. Podemos recorrer el grafo hacia atrás usando `.next_functions`.

A continuación se muestra cómo visualizar el grafo para la función $f(x) = 3x_1x_3-x_2^2+5x_3^3$ evaluada en $x=[1,2,3]$.

In [63]:
# Inspección básica del grafo computacional
print('grad_fn de f2:', f2.grad_fn)

# Recorrer el grafo hacia atrás
current = f2.grad_fn
for i in range(5):
    print(f'Paso {i}:', current)
    if hasattr(current, 'next_functions') and current.next_functions:
        current = current.next_functions[0][0]
    else:
        break

grad_fn de f2: <AddBackward0 object at 0x0000027F3706CCA0>
Paso 0: <AddBackward0 object at 0x0000027F3706CCA0>
Paso 1: <SubBackward0 object at 0x0000027F369D92D0>
Paso 2: <MulBackward0 object at 0x0000027F3706CCA0>
Paso 3: <MulBackward0 object at 0x0000027F369D92D0>
Paso 4: <SelectBackward0 object at 0x0000027F3706CCA0>


In [None]:
f2.backward()
print(x0.grad)  # df/dx at x=[1,2,3]



tensor([  9.,  -8., 138.])


## Simple ejemplo

Supon 