# Introducción a [**PyTorch**](https://pytorch.org) <img src="https://pytorch.org/assets/images/pytorch-logo.png" width="40"/>

**Aprendizaje Automático II**


En este notebook, aprenderemos los conceptos básicos de **PyTorch**, una biblioteca fundamental para la construcción y entrenamiento de modelos de aprendizaje profundo (Deep Learning). A través de este tutorial, exploraremos cómo trabajar con tensores, realizar operaciones matemáticas, y construir modelos de redes neuronales.


In [None]:
import torch
import numpy as np

## Inicialización de tensores

### A partir de datos

In [None]:
data = [[1, 2],[3, 4]]
x_data = torch.tensor(data)

print(x_data)

tensor([[1, 2],
        [3, 4]])


In [None]:
# ¿Qué tipo de datos es?
print(x_data.dtype)

torch.int64


In [None]:
# ¿Qué shape tiene?
print(x_data.shape)

torch.Size([2, 2])


In [None]:
# ¿En qué dispositivo está?
print(x_data.
      )

cpu


### A partir de `numpy`

In [None]:
np_array = np.array(data)
x_np = torch.from_numpy(np_array)
print(x_data.dtype)
print(x_data.shape)
print(x_data.device)

torch.int64
torch.Size([2, 2])
cpu


En muchos códigos, es bastante habitual encontrarse la inicialización de tensores de esta manera:

In [None]:
x_np

tensor([[1, 2],
        [3, 4]])

In [None]:
np_tensor = torch.Tensor(np_array)
np_tensor

tensor([[1., 2.],
        [3., 4.]])

In [None]:
# ¿Qué tipo de dato es?
print(np_tensor.dtype)   # Completar

# ¿Qué shape tiene?
print(np_tensor.shape)   # Completar

# ¿En qué dispositivo está?
print(np_tensor.device) # Completar

torch.float32
torch.Size([2, 2])
cpu


¿Cuál es la diferencia con la inicialización anterior?

In [None]:
#int64 vs float32

### A partir de otro tensor

In [None]:
x_ones = torch.ones_like(x_data) # retains the properties of x_data
print(f"Ones Tensor: \n {x_ones} \n")

x_rand = torch.rand_like(x_data, dtype=torch.float) # overrides the datatype of x_data
print(f"Random Tensor: \n {x_rand} \n")

Ones Tensor: 
 tensor([[1, 1],
        [1, 1]]) 

Random Tensor: 
 tensor([[0.9085, 0.7058],
        [0.4234, 0.2987]]) 



### A partir de unas dimensiones (shape) y con valores constantes o aleatorios

In [None]:
shape = (2,3,)
rand_tensor = torch.rand(shape)
ones_tensor = torch.ones(shape)
zeros_tensor = torch.zeros(shape)

print(f"Random Tensor: \n {rand_tensor} \n")
print(f"Ones Tensor: \n {ones_tensor} \n")
print(f"Zeros Tensor: \n {zeros_tensor}")

Random Tensor: 
 tensor([[0.9918, 0.7309, 0.1911],
        [0.2024, 0.9408, 0.1313]]) 

Ones Tensor: 
 tensor([[1., 1., 1.],
        [1., 1., 1.]]) 

Zeros Tensor: 
 tensor([[0., 0., 0.],
        [0., 0., 0.]])


## Operaciones con tensores

### Indexación estilo numpy

In [None]:
# Crea un tensor aleatorio con dimensiones (3,4,5)
rand_tensor = torch.rand((3,4,5))

# Selecciona un elemento de él

scalar = rand_tensor[1,2,2]

# Selecciona todos los elemento para un índice de una dimensión

rand_1 = rand_tensor[:,1,:]

# ¿Qué dimensión tiene el tensor resultante?

rand_1.shape

torch.Size([3, 5])

In [None]:
print(rand_tensor)

tensor([[[0.5150, 0.0155, 0.9495, 0.5939, 0.9913],
         [0.8880, 0.9242, 0.7162, 0.6733, 0.9671],
         [0.8693, 0.4474, 0.6101, 0.4760, 0.2203],
         [0.3907, 0.7956, 0.4065, 0.4860, 0.3749]],

        [[0.5358, 0.4983, 0.9841, 0.0964, 0.0239],
         [0.8041, 0.6963, 0.4732, 0.5113, 0.3610],
         [0.1354, 0.3925, 0.9595, 0.8858, 0.4123],
         [0.1080, 0.1580, 0.1450, 0.1886, 0.6094]],

        [[0.9382, 0.8927, 0.3062, 0.0891, 0.6888],
         [0.6509, 0.5235, 0.6433, 0.3948, 0.4756],
         [0.0971, 0.2249, 0.4121, 0.3476, 0.1979],
         [0.3044, 0.4209, 0.2007, 0.3638, 0.4378]]])


Ejemplos:

In [None]:
# A partir del siguiente tensor:
rnd = torch.randn(2,3,4,2,3)

# Seleciona todos los valores para el último índice de la tercera dimemsión
print(rnd[:,:,-1,:,:].shape)
print(rnd[:,:,-1,...].shape)
print(rnd[...,-1,:,:].shape)

# Seleciona todos los valores para el último índice de la tercera dimemsión, ahora, manteniendo la dimensión (sin que desaparezca
print(rnd[:,:,-1:,:,:].shape)
print(rnd[:,:,-1:,...].shape)
print(rnd[...,-1:,:,:].shape)


torch.Size([2, 3, 2, 3])
torch.Size([2, 3, 2, 3])
torch.Size([2, 3, 2, 3])
torch.Size([2, 3, 1, 2, 3])
torch.Size([2, 3, 1, 2, 3])
torch.Size([2, 3, 1, 2, 3])


In [None]:
print(rnd)

tensor([[[[[ 1.3924,  0.3497,  1.1983],
           [ 0.6954,  0.0574,  1.6689]],

          [[ 0.3367, -1.4195, -1.5351],
           [ 1.2853,  0.2972, -0.9835]],

          [[ 1.2329, -0.0467, -2.5178],
           [ 0.8874,  1.4981,  1.6952]],

          [[ 0.0157, -2.3696,  0.3548],
           [-1.1481,  0.2450, -0.3135]]],


         [[[ 1.7535, -1.5109,  0.8994],
           [-1.9371,  0.0272, -0.1972]],

          [[-2.1651,  0.0509, -0.2027],
           [ 0.9437,  1.0832, -1.2212]],

          [[-1.9316, -1.8948, -0.9384],
           [ 0.4964, -1.0266,  1.3222]],

          [[-1.8157,  0.4819,  0.9026],
           [-1.2038, -0.5931, -2.0097]]],


         [[[ 1.4294, -0.5564,  0.8530],
           [ 0.1205,  0.0767, -0.6620]],

          [[ 1.0696,  1.0362,  2.9875],
           [-0.9722, -0.9302,  1.7467]],

          [[ 0.6028, -0.8717, -0.4426],
           [-0.9299,  0.4933, -0.8693]],

          [[ 1.8824, -0.3430,  0.5241],
           [-0.1069, -0.6472, -0.5045]]]],



        

### Concatenación y Operaciones aritméticas

In [None]:
tensor = torch.randn(3,4)

# Productor de matrices

y1 = tensor @ tensor.T
y2 = tensor.matmul(tensor.T)

y3 = torch.rand_like(y1)
torch.matmul(tensor, tensor.T, out=y3)

print(torch.allclose(y1, y2))
print(torch.allclose(y2, y3))

# Producto punto a punto
z1 = tensor * tensor
z2 = tensor.mul(tensor)

z3 = torch.rand_like(tensor)
torch.mul(tensor, tensor, out=z3)

print(torch.allclose(z1, z2))
print(torch.allclose(z2, z3))


True
True
True
True


In [None]:
print(z1[0][0])

tensor(0.4312)


In [None]:
print(z1, z2, z3)

tensor([[0.4312, 0.0739, 2.2116, 0.3222],
        [0.0191, 0.4856, 0.7182, 0.1569],
        [0.2038, 0.0123, 0.2233, 2.7727]]) tensor([[0.4312, 0.0739, 2.2116, 0.3222],
        [0.0191, 0.4856, 0.7182, 0.1569],
        [0.2038, 0.0123, 0.2233, 2.7727]]) tensor([[0.4312, 0.0739, 2.2116, 0.3222],
        [0.0191, 0.4856, 0.7182, 0.1569],
        [0.2038, 0.0123, 0.2233, 2.7727]])


In [None]:

# Concatenación

concat_tensor = torch.concat([z1,z2,z3], dim=1)
print(concat_tensor)
concat_tensor2 = torch.concat([z1,z2,z3], dim=0)
print(concat_tensor2)

# ¿Cómo se podrían concatener en una tercera dimensión?

concat_tensor = torch.concat([z1[...,None],z2[...,None],z3[...,None]], dim=2)
print(concat_tensor.shape)

tensor([[0.4312, 0.0739, 2.2116, 0.3222, 0.4312, 0.0739, 2.2116, 0.3222, 0.4312,
         0.0739, 2.2116, 0.3222],
        [0.0191, 0.4856, 0.7182, 0.1569, 0.0191, 0.4856, 0.7182, 0.1569, 0.0191,
         0.4856, 0.7182, 0.1569],
        [0.2038, 0.0123, 0.2233, 2.7727, 0.2038, 0.0123, 0.2233, 2.7727, 0.2038,
         0.0123, 0.2233, 2.7727]])
tensor([[0.4312, 0.0739, 2.2116, 0.3222],
        [0.0191, 0.4856, 0.7182, 0.1569],
        [0.2038, 0.0123, 0.2233, 2.7727],
        [0.4312, 0.0739, 2.2116, 0.3222],
        [0.0191, 0.4856, 0.7182, 0.1569],
        [0.2038, 0.0123, 0.2233, 2.7727],
        [0.4312, 0.0739, 2.2116, 0.3222],
        [0.0191, 0.4856, 0.7182, 0.1569],
        [0.2038, 0.0123, 0.2233, 2.7727]])
torch.Size([3, 4, 3])


## Tensores a numpy

¡Importante! Los tensores en CPU y los arrays de Numpy pueden compartir la misma memoria, es decir, cambiar el valor de uno implica cambiar el del otro si se usan operaciones `in_place`.

Las operaciones `in_place` (in situ), tienen un _ de sufijo y cambian los valores de los tensores directamente, sin necesidad de variables auxiliares.

In [None]:
t = torch.ones(5)
print(f"t: {t}")
n = t.numpy()
print(f"n: {n}")

t: tensor([1., 1., 1., 1., 1.])
n: [1. 1. 1. 1. 1.]


In [None]:
t.add_(1) #modifica ambos :o

print(f"t: {t}")
print(f"n: {n}")

t += 1
print(f"t: {t}")
print(f"n: {n}")

t: tensor([2., 2., 2., 2., 2.])
n: [2. 2. 2. 2. 2.]
t: tensor([3., 3., 3., 3., 3.])
n: [3. 3. 3. 3. 3.]


Sin embargo, si no usamos estas operaciones, se desvinculan e tensores y arrays, lo cual incrementa la memoria utilizada.

In [None]:
t = torch.ones(5)
n = t.numpy()

t = t + 1
print(f"t: {t}")
print(f"n: {n}")

t: tensor([2., 2., 2., 2., 2.])
n: [1. 1. 1. 1. 1.]


## Tensores en GPU: devices

Los tensores pueden utilizarse en distintos *devices*, como por ejemplo en CPU o GPU/TPU.

Según el procesamiento que vayamos a realizar, será conveniente ejecutar los modelos en CPU o en dispositivos específicos para acelerar el cómputo.

En primer lugar, comprobamos si tenemos algún dispositivo como GPU:

In [None]:
import torch
torch.cuda.is_available()

True

Alternativamente, podemos comprobar que tenemos una gráfica o TPU por línea de comandos:

In [None]:
!nvidia-smi

Wed Nov 27 11:19:25 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  Tesla T4                       Off | 00000000:00:04.0 Off |                    0 |
| N/A   77C    P0              31W /  70W |    105MiB / 15360MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                    

Habitualmente, y para contemplar los distintos dispositivos posibles, se suele definir una variable `devices` para trasladar todos los modelos y tensores a dicho dispositivo.

In [None]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

device(type='cuda')


De esta manera, si no existen GPUs disponibles (`device = cuda`), por defecto, usaremos la cpu (`device=cpu`)

### Mover tensores a GPU

In [None]:
tensor_cpu = torch.from_numpy(np.random.randn(100))
print(tensor_cpu.device)

cpu


In [None]:
tensor_cuda = tensor_cpu.to(device)
print(tensor_cuda.device)

cuda:0


Para mover de nuevo el tensor `tensor_cuda` de gpu a cpu, podemos usar `.to('cpu')`, o `.cpu()` directamente:

In [None]:
print(tensor_cuda.cpu().device)

cpu


## Layers

PyTorch proporciona un módulo específico para el diseño de redes neuronales (`torch.nn`). En este módulo, podrás encontrar multitud de capas básicas, algunas de las cuales ya has tenido ocasión de implementar.

In [None]:
import torch
from torch.nn import Linear, Sigmoid

f1 = Linear(2, 1) # Define una capa linear (con pesos W y sesgos b)
sigma = Sigmoid() # Define una activación sigmoide

x = torch.ones([2])

print(f1(x))
print(f1(x).device)

print(sigma(f1(x)))
print(sigma(f1(x)).device)


tensor([-0.1044], grad_fn=<ViewBackward0>)
cpu
tensor([0.4739], grad_fn=<SigmoidBackward0>)
cpu


Dado el siguiente tensor, reproduce el cálculo anterior realizado en `cpu`, ahora en GPU:

In [None]:
######################## COMPLETAR ########################
x = (torch.ones([2])).cuda()
(x.device)



device(type='cuda', index=0)

## Models

A la hora de definir un modelo, parte de un modelo y un bloque que puede ser tan simple como una función, PyTorch proporciona la clase `Module`:

In [None]:
from torch import nn

class Bloque(nn.Module):
    def __init__(self):
        super().__init__()
        self.f1 = torch.log
        self.f2 = torch.math.cos

    def forward(self, x):
        x = self.f1(1+x)
        x = self.f2(x)
        return x

b1 = Bloque()

x = torch.ones([1])

print(b1(x))

0.7692389001469718


## Funciones de pérdida

De igual forma, PyTorch proporciona un conjunto muy amplio de funciones de pérdida en el módulo `nn`.

In [None]:
from torch import nn

loss_fn = nn.MSELoss() # Instanciamos la clase MSE

y_true = torch.tensor([1])
y_pred = torch.tensor([0.5])

loss_fn(y_true, y_pred)

tensor(0.2500)

# Regresión Logística con PyTorch

A la hora de entrenar, PyTorch permite hacer uso de Autograd.

El uso es prácticamente igual al implementado en el Entregable 3:

1. Se evalúan las funciones (forward) hasta obtener la función de pérdida (último nodo del grafo).
2. Se invoca `backward()`
3. Se actualizan los parámetros con ayuda del optimizar.

Con lo aprendido anteriormente y haciendo uso de la documentación de PyTorch:

1. Carga los datos de `breast_cancer_dataset` de `sklearn`, separa en train y test, y convierte los datos a tensores.
2. Crea un modelo de regresión logística (clase), y llámala `LogisticRegressionModel`. Implementa el `forward`.
3. Entrena y evalúa el resultado.


In [None]:
####################### COMPLETAR ######################

# Importar librerías necesarias
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from torch.optim import SGD



# Cargar el dataset
data= load_breast_cancer()
X=data.data
y=data.target

# Dividir el dataset en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Convertir los datos a tensores de PyTorch
X_train= torch.Tensor(X_train)
y_train= torch.Tensor(y_train).unsqueeze(1)
X_test= torch.Tensor(X_test)
y_test= torch.Tensor(y_test).unsqueeze(1)

In [None]:
y_train.shape

torch.Size([455, 1])

In [None]:
from torch.nn import Linear, Sigmoid

In [None]:
l=Linear(2,1)
data = [[1, 2],[3, 4]]
x_data = torch.Tensor(data)
l.forward(x_data)
print(l.weight, l.bias)

Parameter containing:
tensor([[0.3260, 0.0774]], requires_grad=True) Parameter containing:
tensor([0.3664], requires_grad=True)


In [None]:
# Definir el modelo de regresión logística
class LogisticRegressionModel(nn.Module):
    def __init__(self, input_dim, output_dim):
        super().__init__()
        self.linear = nn.Linear(input_dim, output_dim)
        self.sigma= nn.ReLU()
        #self.p= [self.linear.weight, self.linear.bias] No hace falta, model.paremeters() los tiene

    def forward(self, x):
        self.x = self.linear(x)
        self.x = self.sigma(self.x)

        return self.x

In [None]:
# Instanciar el modelo
model= LogisticRegressionModel(X_train.shape[1], 1)
opt= SGD(model.parameters(), lr=0.001)

In [None]:
# Definir la función de pérdida y el optimizador
loss_fn = nn.BCELoss()

epochs = 500
for epoch in range(epochs):
    # Forward
    y_pred = model(X_train)  # Predicciones del modelo
    loss = loss_fn(y_pred, y_train)  # Calcular pérdida

    # Backward
    opt.zero_grad()  # Limpiar gradientes acumulados
    loss.backward()        # Calcular gradientes
    opt.step()       # Actualizar parámetros



RuntimeError: all elements of input should be between 0 and 1

In [None]:
# Evaluación del modelo en el conjunto de prueba
y_pred_test = model(X_test)
y_pred_labels = (y_pred_test >= 0.5).float()


correct = (y_pred_labels == y_test).sum().item()
accuracy = correct / y_test.size(0)
print(f'Accuracy: {accuracy * 100:.2f}%')
