# Deep Learning
# DL02 Tensores PyTorch

En este notebook, presentamos  [PyTorch] (http://pytorch.org/), un framework para construir y entrenar redes neuronales. En el calculo de redes neuronales se utilizan frecuentemente matrices y de forma mas general tensores.  PyTorch toma estos tensores y hace que sea simple moverlos a GPU para el procesamiento más rápido necesario al entrenar redes neuronales. También proporciona un módulo que calcula automáticamente los gradientes (¡para propagación hacia atrás!) Y otro módulo específicamente para construir redes neuronales.

## <font color='blue'>**Cosas interesantes que han logrado las redes neuronales**</font>
<p style='text-align: justify;'>


1.  Las redes han superados a los mejores jugadores de Go y Starcraft.

Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. nature, 529(7587), 484-489.

2. El problema es predecir la siguiente palabra dadas las palabras anteriores. La tarea es fundamental para el reconocimiento óptico de caracteres o el habla, y también se utiliza para la corrección ortográfica, el reconocimiento de escritura a mano y la traducción automática estadística.

https://github.com/oxford-cs-deepnlp-2017/lectures/blob/master/Lecture%2010%20-%20Text%20to%20Speech.pdf

3. Sistemas de respuesta a preguntas que intentan responder la consulta de un usuario que se formula en forma de pregunta devolviendo la frase none adecuada, como una ubicación, una persona o una fecha.

https://towardsdatascience.com/bert-nlp-how-to-build-a-question-answering-bot-98b1d1594d7b

4. La detección de objetos es la tarea de la clasificación de imágenes con localización, aunque una imagen puede contener múltiples objetos que requieren localización y clasificación.


![Deteccón](https://drive.google.com/uc?export=view&id=12BRJQlZggZiAyHobuN-e-Zv1b1VEAAId)


5. La segmentación de objetos, o segmentación semántica, es la tarea de detección de objetos donde se dibuja una línea alrededor de cada objeto detectado en la imagen. La segmentación de imágenes es un problema más general de dividir una imagen en segmentos.

![Segmentacion](https://drive.google.com/uc?export=view&id=1Dmy4OOl4MBrO1w4TgTUgP3WxnpLk4i4g)


6. La transferencia de estilo o transferencia de estilo neuronal es la tarea de aprender el estilo de una o más imágenes y aplicar ese estilo a una nueva imagen.

![Segmentacion](https://drive.google.com/uc?export=view&id=1jT6e5p6vtnBrwTzb63qCsIQuz_lh1IYa)



## <font color='blue'>**Redes Neuronales.**</font>


Deep Learning se basa en redes neuronales artificiales que han existido de alguna forma desde finales de la década de 1950. Las redes se construyen a partir de partes individuales que se aproximan a las neuronas, típicamente llamadas unidades o simplemente "neuronas". Cada unidad tiene un cierto número de entradas ponderadas. Estas entradas ponderadas se suman (una combinación lineal) y luego se pasan a través de una función de activación para obtener la salida de la unidad.

![Log](https://drive.google.com/uc?export=view&id=1EBHN-Ho1ZmYoRy1x2ZkER9fLWBSTwvO3)


Matematicamente esto se ve de la siguiente forma:

$$
\begin{align}
y &= f(w_1 x_1 + w_2 x_2 + b) \\
y &= f\left(\sum_i w_i x_i +b \right)
\end{align}
$$

Si lo expresamos en notacion vectorial esto es básicamente un prodcuto interno entre dos vectores.

$$
h = \begin{bmatrix}
1, x_1 \, x_2 \cdots  x_n
\end{bmatrix}
\cdot
\begin{bmatrix}
           b \\
           w_1 \\
           w_2 \\
           \vdots \\
           w_n
\end{bmatrix}
$$

### Tensores la base de los calculos en redes neuronales.

Resulta que los cálculos de la red neuronal son solo un montón de operaciones de álgebra lineal de **tensores** (una generalización de las matrices). Un vector es un tensor unidimensional, una matriz es un tensor bidimensional, una matriz con tres índices es un tensor tridimensional (imágenes de color RGB, por ejemplo). La estructura de datos fundamental para las redes neuronales son los tensores y PyTorch (así como casi cualquier otro framework de aprendizaje profundo) se construye alrededor de los tensores.



![Tensores](https://drive.google.com/uc?export=view&id=15Fr9h_acKoagEYMgKxFKJ7wJHWrafGlv)




### Exploremos cómo podemos usar PyTorch para construir una red neuronal simple.

In [1]:
# Primero importemos PyTorch
import torch

In [2]:
# Construyamos
def activation(x):
    """ Sigmoid activation function

        Arguments
        ---------
        x: torch.Tensor
    """
    return 1 / (1 + torch.exp(-x))

In [3]:
# DECONSTRUCCION
a = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(a)
activation(a)

tensor([[1, 2, 3],
        [4, 5, 6]])


tensor([[0.7311, 0.8808, 0.9526],
        [0.9820, 0.9933, 0.9975]])

In [4]:
# Generemos datos.
# Las semillas son importantes para evitar que los experimentos generen datos diferentes
torch.manual_seed(7) # Definamos una semilla para poder reproducir el cálculo.

# Features
# Creamos 5 variables aleatoriamente, distribuidas de forma normal
# Acá vemos una estratégia de normalidad para seleccionar los pesos iniciales
# La inicialización puede hacer que el modelo converja a valores distintos
features = torch.randn((1, 5))
print(features, '\n')
# Retorna pesos utilizando una distribución normal con media 0 y variana 1.
weights = torch.randn_like(features)
print(weights, '\n')
#  Adicionalmente definimos un bias (b)
bias = torch.randn((1, 1))
print(bias)

tensor([[-0.1468,  0.7861,  0.9468, -1.1143,  1.6908]]) 

tensor([[-0.8948, -0.3556,  1.2324,  0.1382, -1.6822]]) 

tensor([[0.3177]])


Arriba se generaron  datos que podemos usar para obtener la salida de nuestra red simple. Todo esto es aleatorio por ahora, en adelante comenzaremos a usar datos normales. Analicemos cada línea:

`features = torch.randn((1, 5))` crea un tensor de forma `(1, 5)`, 1 fila y 5 columnas, este vector contiene valores aleatoriamente distribuidos de acuerdo a una distribución normal con media 0 y desviación estandar 1.

`weights = torch.randn_like(features)` crea otro tensor con la misma forma que `features`, y nuevamente conteniendo valores de una distribución normal.

Finalmente , `bias = torch.randn((1, 1))` crea un unico valor obtenido de una distribución normal.

Los tensores PyTorch se pueden agregar, multiplicar, restar, etc., al igual que las matrices de Numpy. En general, usará los tensores PyTorch de la misma manera que usaría las matrices Numpy. Sin embargo, vienen con algunos buenos beneficios, como la aceleración de GPU, que veremos más adelante. Por ahora, use los datos generados para calcular la salida de esta red simple de una sola capa.


**Ejemplo**: Calcule la salida de la redo considerando como input a `features`, como pesos `weights`, y bias `bias`. PyTorch tiene un método [`torch.sum()`](https://pytorch.org/docs/stable/torch.html#torch.sum), para calcular sumas. Adicionalmente utilice la función `activation` definida  anteriormente como función de activación.

In [5]:
### Solucion
# Sol 1. Multiplicamos los vectores y sumamos el bias
# POdemos hacerlo de dos formas; una más optimizada que la otra
%timeit y = activation(torch.sum(features * weights) + bias)
#print(y)
# Sol 2
%timeit y = activation((features * weights).sum() + bias)
#print(y)

53.7 µs ± 5.89 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
49.6 µs ± 9.12 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


Sin embargo, puedes hacer la multiplicación y la suma en la misma operación usando una multiplicación matricial. En general, querrás usar multiplicaciones matriciales ya que son más eficientes y aceleradas usando bibliotecas modernas y computación de alto rendimiento en GPU.

Aquí, queremos hacer una multiplicación matricial de las features y los weights. Para esto podemos usar [`torch.mm()`](https://pytorch.org/docs/stable/torch.html#torch.mm) or [`torch.matmul()`](https://pytorch.org/docs/stable/torch.html#torch.matmul)

```python
>> torch.mm(features, weights)

---------------------------------------------------------------------------
RuntimeError                              Traceback (most recent call last)
<ipython-input-13-15d592eb5279> in <module>()
----> 1 torch.mm(features, weights)

RuntimeError: size mismatch, m1: [1 x 5], m2: [1 x 5] at /Users/soumith/minicondabuild3/conda-bld/pytorch_1524590658547/work/aten/src/TH/generic/THTensorMath.c:2033
```
A medida que construye redes neuronales en cualquier framework, este error aparecerá a menudo. Lo que sucede aquí es que nuestros tensores no tienen las formas correctas para realizar una multiplicación matricial. Recuerde que para las multiplicaciones matriciales, El número de columnas en el primer tensor debe ser igual al número de filas en el segundo tensor. Ambas `features` y `weights` tienen la misma forma, `(1, 5)`. Esto significa que necesitamos cambiar la forma de los `weights` para que la multiplicación de la matriz funcione.


**Nota:** Para ver la forma de un tensor `tensor`, usamos `tensor.shape`.

Existen opciones para cambiar la forma a un tensor: [`weights.reshape()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.reshape), [`weights.resize_()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.resize_), y [`weights.view()`](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.view).

* `weights.reshape(a, b)` Retorna un tensor con la misma data que `weights` y con tamaño `(a, b)`.
* `weights.resize_(a, b)` Retorna un tensor con distinta forma. Si la nueva forma tiene menos elementos que la original, algunos seran removidos. Si la nueva forma tiene mas elementos que el original, los nuevos elementos serán no inicializados. Leer más [aquí](https://discuss.pytorch.org/t/what-is-in-place-operation/16244).
* `weights.view(a, b)` retornará el mismo tensor con la misma data que  `weights` con tamaño `(a, b)`.

> **Ejemplo**: Calcule la salida de nuestra pequeña red usando la multiplicación de matrices.

In [6]:
# DECONSTRUCCION
w = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(w)
print(w.shape)
w_rsh = w.reshape(3, 2)
print(w_rsh)
w_res = w.resize_(3, 3)
print(w_res)
print(w) # Las modificaciones afectan al objeto original 'w'
print(w.view(1, 9))


tensor([[1, 2, 3],
        [4, 5, 6]])
torch.Size([2, 3])
tensor([[1, 2],
        [3, 4],
        [5, 6]])
tensor([[              1,               2,               3],
        [              4,               5,               6],
        [      154509376, 134873430982720,       154509376]])
tensor([[              1,               2,               3],
        [              4,               5,               6],
        [      154509376, 134873430982720,       154509376]])
tensor([[              1,               2,               3,               4,
                       5,               6,       154509376, 134873430982720,
               154509376]])


In [7]:
# Veamos el error
y = activation(torch.mm(features, weights) + bias)

RuntimeError: mat1 and mat2 shapes cannot be multiplied (1x5 and 1x5)

In [8]:
print(features.shape)
print(weights.shape)

torch.Size([1, 5])
torch.Size([1, 5])


In [9]:
## Solucion
# mm es multiplicación de matrices
y = activation(torch.mm(features, weights.view(5,1)) + bias)

### ¡Apilarlos!

Así es como puede calcular la salida de una sola neurona. El poder real de este algoritmo ocurre cuando comienzas a apilar estas unidades individuales en capas y pilas de capas, en una red de neuronas. La salida de una capa de neuronas se convierte en la entrada para la siguiente capa. Con múltiples unidades de entrada y unidades de salida, ahora necesitamos expresar los pesos como una matriz.

![Log](https://drive.google.com/uc?export=view&id=1baAB8q9xxML3osQFAHfWdQQPzpMTEf-G)


La primera capa que se muestra en la parte inferior aquí son las entradas, llamadas **capa de entrada**. La capa intermedia se llama __capa oculta__, y la capa final (a la derecha) es la **capa de salida**. Podemos expresar esta red matemáticamente con matrices nuevamente y usar la multiplicación de matrices para obtener combinaciones lineales para cada unidad en una operación. Por ejemplo, la capa oculta ($ h_1 $ y $ h_2 $ aquí) se puede calcular

$$
\vec{h} = [h_1 \, h_2] =
\begin{bmatrix}
x_1 \, x_2 \cdots \, x_n
\end{bmatrix}
\cdot
\begin{bmatrix}
           w_{11} & w_{12} \\
           w_{21} &w_{22} \\
           \vdots &\vdots \\
           w_{n1} &w_{n2}
\end{bmatrix}
$$

La salida para esta pequeña red se encuentra tratando la capa oculta como entradas para la unidad de salida. La salida de la red se expresa simplemente


$$
y =  f_2 \! \left(\, f_1 \! \left(\vec{x} \, \mathbf{W_1}\right) \mathbf{W_2} \right)
$$

### <font color='green'>**Actividad 1**</font>

1. Defina una semilla para reproducir el cálculo

2. Genere un dataset  con tres variables aleatorias.

3. Defina el tensor de pesos aleatorios entre la capa de entrada y la capa hidden.

4. Defina un tensor de pesos aleatorios entre la capa hidden y la de salida.

5. Defina los tensores bias para la capa hidden y de salida.

6. Calcule la salida para esta red multicapa utilizando los pesos `W1` y` W2`, y los sesgos, `B1` y` B2`.

In [10]:
# Definamos una semilla
torch.manual_seed(7)

# 1. Generamos un dataset con tres variables aleatorias
features = torch.randn((1, 3))  # 1 muestra con 3 features
print("Features:", features)

# Supongamos que la capa oculta tiene 4 neuronas y la salida 1
# 3. Pesos entre capa de entrada (3) y capa oculta (4)
W1 = torch.randn((3, 4))
print("W1:", W1)

# 4. Pesos entre capa oculta (4) y capa de salida (1)
W2 = torch.randn((4, 1))
print("W2:", W2)

# 5. Bias de capa oculta (4) y de salida (1)
B1 = torch.randn((1, 4))
B2 = torch.randn((1, 1))
print("B1:", B1)

# Forward pass
hidden = activation(torch.mm(features, W1) + B1)  # capa oculta
output = torch.mm(hidden, W2) + B2               # capa de salida (sin activación final)
print("Salida de la red:", output)

Features: tensor([[-0.1468,  0.7861,  0.9468]])
W1: tensor([[-1.1143,  1.6908, -0.8948, -0.3556],
        [ 1.2324,  0.1382, -1.6822,  0.3177],
        [ 0.1328,  0.1373,  0.2405,  1.3955]])
W2: tensor([[1.3470],
        [2.4382],
        [0.2028],
        [2.4505]])
B1: tensor([[ 2.0256,  1.7792, -0.9179, -0.4578]])
Salida de la red: tensor([[4.5520]])


<font color='green'>**Fin Actividad 1**</font>

Si hizo esto correctamente, debería ver la salida `tensor ([[0.3171]])`.

El número de unidades ocultas es un parámetro de la red, a menudo llamado **hiperparámetro** para diferenciarlo de los parámetros de weight y bias. Como verá más adelante cuando analicemos cómo entrenar una red neuronal, cuantas más unidades ocultas tenga una red y más capas, mejor podrá aprender de los datos y hacer predicciones precisas.

In [11]:
import torch
n_input = 3
n_hidden = 2
W1 = torch.randn(n_input, n_hidden)
print(W1)

tensor([[ 1.2799, -0.9941],
        [ 1.8150, -0.6028],
        [ 1.6148,  1.9302]])


<img src="https://drive.google.com/uc?export=view&id=1DNuGbS1i-9it4Nyr3ZMncQz9cRhs2eJr" width="100" align="left" title="Runa-perth">
<br clear="left">

## ¿Qué son los tensores?

Un tensor es una generalización de números, vectores y matrices. Se puede pensar en un tensor como una matriz multi-dimensional. Los tensores son muy importantes en muchas áreas de la ciencia y la ingeniería, incluyendo la física, la informática, y la inteligencia artificial.

Número escalar: Un único número, como 42, es un tensor de 0 dimensiones, también conocido como un escalar.

Vector: Una lista de números, como [1, 2, 3], es un tensor de 1 dimensión, también conocido como un vector.

Matriz: Una tabla de números, como la siguiente matriz 2x2, es un tensor de 2 dimensiones:

$$
\begin{bmatrix}
1 & 2 \\
3 & 4 \\
\end{bmatrix}
$$

## Propiedad Universal de los Tensores
Un tensor de orden  k se define matemáticamente como un objeto que toma
k vectores de entrada y produce un escalar (número) de salida. La propiedad universal se refiere a la capacidad de un tensor de mapear múltiples vectores en un espacio vectorial a un único valor en el campo subyacente (por ejemplo, los números reales).

Formalmente, un tensor de orden k se define como un mapeo multilineal

$$T: V_1 \times V_2 \times \ldots \times V_k \rightarrow F$$

En la teoría de categorías, la propiedad universal del producto tensorial se refiere a cómo el producto tensorial de dos objetos (por ejemplo, espacios vectoriales) se define en términos de un objeto y un morfismo que satisfacen ciertas propiedades universales. La propiedad universal se puede utilizar para caracterizar el producto tensorial de manera abstracta y para demostrar su existencia y unicidad.

Dada una categoría C con objetos A y B, el producto tensorial A⊗B es un objeto en $C$ junto con un morfismo bilineal $⊗:A×B→A⊗B$  que satisface la siguiente propiedad universal:

Para cualquier objeto C en $C$ y cualquier morfismo bilineal  
$f:A×B→C$ , existe un único morfismo $g:A⊗B→C$ tal que
$f=g∘⊗$.

En otras palabras, el producto tensorial
A⊗B es el objeto "más pequeño" que representa todas las funciones bilineales de  A×B a cualquier otro objeto C en la categoría $C$.

$$
\begin{equation}
\forall C \in \mathcal{C}, \forall f: A \times B \rightarrow C, \exists! g: A \otimes B \rightarrow C \text{ tal que } f = g \circ \otimes
\end{equation}
$$



## ¿Por qué son importantes en las redes neuronales?

Los tensores son fundamentales en las redes neuronales por varias razones:

Representación de datos: Las redes neuronales suelen trabajar con grandes conjuntos de datos, y los tensores son la estructura de datos ideal para representar estos datos de manera eficiente. Por ejemplo, una imagen a color se puede representar como un tensor de 3 dimensiones, donde las dimensiones corresponden a la altura, la anchura y los canales de color (rojo, verde, azul).

Operaciones de alto rendimiento: Las operaciones matemáticas en redes neuronales, como la multiplicación de matrices, se pueden realizar eficientemente en tensores utilizando bibliotecas de álgebra lineal optimizadas, como NumPy en Python o CUDA para GPUs.

Diferenciación automática: Las redes neuronales se entrenan utilizando algoritmos de optimización basados en derivadas parciales, y los tensores facilitan el cálculo eficiente de estas derivadas utilizando técnicas de diferenciación automática.

Paralelización: Los tensores se prestan naturalmente a la paralelización, lo que significa que las operaciones en tensores se pueden realizar simultáneamente en múltiples núcleos de CPU o GPU. Esto es fundamental para el entrenamiento rápido de redes neuronales en hardware moderno.

# <font color='purple' style='bold' size=5>**MATERIAL ADICIONAL** </font>

Este video ["Tensors for Neural Networks, Clearly Explained!!!"](https://www.youtube.com/watch?v=L35fFDpwIM4) de StatQuest muestra una clara explicación de la utilización de tensores en redes neuronales. Por ejemplo, revisa como estos tensores representan datos, pesos y bias, y cómo se aplican en operaciones como multiplicación de matrices.

### <font color='purple' style='bold'>**FIN MATERIAL ADICIONAL** </font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">

## Ejercicio Avanzado:

Construcción de una Red Neuronal con Dos Capas Ocultas
En este ejercicio, construirás y evaluarás una red neuronal con dos capas ocultas utilizando PyTorch. La red deberá tener la siguiente arquitectura:

1. Capa de entrada con 3 neuronas.
2. Primera capa oculta con 4 neuronas.
3. Segunda capa oculta con 3 neuronas.
4. Capa de salida con 1 neurona.

Las neuronas en las capas ocultas y la capa de salida utilizarán la función de activación sigmoide.

**Instrucciones:**

1. Utiliza la función torch.randn para generar una matriz de características con dimensiones (1, 3) que represente una única observación con 3 características.

2. Inicializa los pesos y los términos de bias para cada capa de la red utilizando la función torch.randn. Asegúrate de que las dimensiones de las matrices de pesos y bias sean coherentes con la arquitectura de la red.

3. Utiliza la función de activación sigmoide (torch.sigmoid) y la multiplicación de matrices (torch.mm) para calcular la salida de cada capa.

4. Calcula y muestra la salida de la red para la observación generada en el paso 1.

**Consejos:**

1. Asegúrate de que las dimensiones de las matrices de pesos y bias sean coherentes con la arquitectura de la red.
2. Al calcular la salida de cada capa, recuerda sumar el término de bias correspondiente.
3. Utiliza la función print para mostrar las matrices de características, pesos, bias y la salida de la red.


**Objetivos de aprendizaje:**

Familiarizarse con la construcción de redes neuronales más complejas en PyTorch.
Practicar la inicialización de pesos y términos de bias en redes neuronales.
Entender el cálculo de la salida de una red neuronal con múltiples capas ocultas.


In [15]:
import torch

# 1. Generar una observación con 3 características
torch.manual_seed(26)  # Para reproducibilidad
features = torch.randn((1, 3))  # 1 observación, 3 variables
print("Features:\n", features)

# 2. Inicializar pesos y bias para cada capa

# Capa 1: entrada (3) → oculta 1 (4)
W1 = torch.randn((3, 4))
B1 = torch.randn((1, 4))

# Capa 2: oculta 1 (4) → oculta 2 (3)
W2 = torch.randn((4, 3))
B2 = torch.randn((1, 3))

# Capa 3: oculta 2 (3) → salida (1)
W3 = torch.randn((3, 1))
B3 = torch.randn((1, 1))

print("\nPesos y Bias:")
print("W1:", W1)
print("B1:", B1)
print("W2:", W2)
print("B2:", B2)
print("W3:", W3)
print("B3:", B3)

# 3. Forward pass usando sigmoide en todas las capas
# Capa oculta 1
hidden1 = torch.sigmoid(torch.mm(features, W1) + B1)
# Capa oculta 2
hidden2 = torch.sigmoid(torch.mm(hidden1, W2) + B2)
# Capa de salida
output = torch.sigmoid(torch.mm(hidden2, W3) + B3)

# 4. Mostrar salida de la red
print("\nSalida de la red:\n", output)

Features:
 tensor([[-0.9234, -1.2842, -0.8729]])

Pesos y Bias:
W1: tensor([[ 0.1461,  1.6910, -1.0566,  0.6336],
        [-0.2203, -0.1395, -0.7664,  0.8874],
        [ 0.8153,  0.8090,  0.6192, -0.2554]])
B1: tensor([[ 0.4567,  0.7805,  0.0319, -0.5938]])
W2: tensor([[-0.5724,  0.0422, -0.1804],
        [-0.2535,  1.7218, -1.9607],
        [ 0.0040, -0.7777, -0.2841],
        [ 0.7658,  0.3619, -2.2185]])
B2: tensor([[-0.2510,  0.6012,  0.5612]])
W3: tensor([[-2.4350],
        [ 0.3754],
        [-0.5769]])
B3: tensor([[2.2237]])

Salida de la red:
 tensor([[0.7846]])
