# Introducción  a Pytorch

## Tabla de contenidos

- [1 - Instalación e importación de Pytorch](#1)
- [2 - ¿Qué es Pytorch?](#2)
- [3 - Escalares, Vectores, Matrices y Tensores. De Numpy a Pytorch](#3)
    - [3.1 - Escalares](#3.1)
    - [3.2 - Vector](#3.2)
    - [3.3 - Matriz](#3.3)
    - [3.4 - Tensor](#3.4)
    - [3.5 - Inicialización de los tensores](#3.5)
        - [3.5.1 - torch.empty](#3.5.1)
        - [3.5.2 - torch.rand](#3.5.2)
        - [3.5.3 - torch.zeros](#3.5.3)
        - [3.5.4 - torch.ones](#3.5.4)
    - [3.6 - Creación de rangos y tensores like](#3.6)
    - [3.7 - Tensor a partir de lista](#3.7)
    - [3.8 - Tensor de PyTorch y NumPy](#3.8)
    - [3.9 - Operaciones con tensores](#3.9)
        - [3.9.1 - Suma](#3.9.1)
        - [3.9.2 - Substracción](#3.9.2)
        - [3.9.3 - Multiplicación por elementos](#3.9.3)
        - [3.9.4 - División](#3.9.4)
        - [3.9.5 - Multiplicación matricial o Producto punto](#3.9.5)
    - [3.10 - Exploración de tensores](#3.10)
    - [3.11 - Información de los tensores](#3.11)
- [4 - Autograd](#4)
- [5 - GPU](#5)

<a name='1'></a>
## 1 - Instalación e importación de Pytorch

*Para instalar y ver la documentación oficial consultar:* https://pytorch.org/

In [150]:
# La instalación de Pytorch depende de cada equipo.
# !pip3 install torch torchvision torchaudio

In [151]:
import torch

<a name='2'></a>
## 2 - ¿Qué es Pytorch?

[PyTorch](https://pytorch.org/) es un framework de aprendizaje automático (Machine Learning) y aprendizaje profundo (Deep Learning) de código abierto.

Contiene un conjunto de librerías y herramientas que nos hacen la vida más fácil a la hora de diseñar, entrenar y poner en producción nuestros modelos de `Deep Learning`. Una forma sencilla de entender qué es `Pytorch` es la siguiente:

$$ Pytorch = Numpy + Autograd + GPU $$

Vamos a ver qué significa cada uno de estos términos:

* Numpy: Pytorch sigue una interfaz muy similar a la de `NumPy`. Así como en `NumPy` donde el objeto principal es el `ndarray`, en `Pytorch` el objeto principal es el `tensor`. Podemos definir un tensor de manera similar a como definimos un array, incluso podemos inicializar tensores a partir de arrays.

* Autograd: La funcionalidad más importante que `Pytorch` añade es la conocidad como `autograd`, la cual nos proporciona la posibilidad de calcular derivadas de manera automática con respecto a cualquier `tensor`. Esto le da a `Pytorch` un gran potencial para diseñar `redes neuronales` complejas y entrenarlas utilizando algoritmos de gradientes sin tener que calcular todas estas derivadas manualmente.

* GPU: Es un hardware especializado en acelerar las operaciones matriciales, especialmente las complejas. Se llama Unidades de Procesado Gráfico, o GPUs.

A continuación, se explican en mas detalle cada una de estos términos.

<a name='3'></a>
### 3 - Escalares, Vectores, Matrices y Tensores. De Numpy a Pytorch

<a name='3.1'></a>
#### 3.1 - Escalares
Un escalar es un solo número y en lenguaje tensorial es un tensor de dimensión cero.

In [152]:
# Definición de un escalar
scalar = torch.tensor(7)
print("La variable 'scalar' es: ", scalar)
# Dimensión del escalar
dim_scalar = scalar.ndim
print("Dimensión: ", dim_scalar)
# Obtener el número de Python dentro de un tensor (sólo funciona con tensores de un elemento)
valor_scalar = scalar.item()
print("Valor python dentro del tensor: ", valor_scalar)

La variable 'scalar' es:  tensor(7)
Dimensión:  0
Valor python dentro del tensor:  7


<a name='3.2'></a>
#### 3.2 - Vector
Un vector es un tensor de una dimensión pero puede contener muchos números.

In [153]:
# Definición de un vector
vector = torch.tensor([7, 7])
print("La variable 'vector' es: ", vector)
# Dimensión del vector
dim_vector = vector.ndim
print("Dimensión: ", dim_vector)
# Forma (shape) del vector
forma_vector = vector.shape
print("Forma: ", forma_vector)

La variable 'vector' es:  tensor([7, 7])
Dimensión:  1
Forma:  torch.Size([2])


<a name='3.3'></a>
#### 3.3 - Matriz
Es como el vector, pero de dos dimensiones.

In [154]:
# Definición de una matriz
MATRIX = torch.tensor([[7, 8], 
                       [9, 10]])
MATRIX
print("La variable 'MATRIX' es: \n", MATRIX)
# Dimensión de la matriz
dim_MATRIX = MATRIX.ndim
print("Dimensión: ", dim_MATRIX)
# Forma (shape) de la matriz
forma_MATRIX = MATRIX.shape
print("Forma: ", forma_MATRIX)

La variable 'MATRIX' es: 
 tensor([[ 7,  8],
        [ 9, 10]])
Dimensión:  2
Forma:  torch.Size([2, 2])


<a name='3.4'></a>
#### 3.4 - Tensor
Es una matriz de *n* dimensiones.

In [155]:
# Definición de un tensor
TENSOR = torch.tensor([[[1, 2, 3],
                        [3, 6, 9],
                        [2, 4, 5]]])
TENSOR
print("La variable 'TENSOR' es: \n", TENSOR)
# Dimensión del tensor
dim_TENSOR = TENSOR.ndim
print("Dimensión: ", dim_TENSOR)
# Forma (shape) del tensor
forma_TENSOR = TENSOR.shape
print("Forma: ", forma_TENSOR)

La variable 'TENSOR' es: 
 tensor([[[1, 2, 3],
         [3, 6, 9],
         [2, 4, 5]]])
Dimensión:  3
Forma:  torch.Size([1, 3, 3])


<a name='3.5'></a>
#### 3.5 - Inicialización de los tensores
Los valores que componen los tensores representan alguna forma de dato para que los modelos de aprendizaje los manipule y saquen patrones de los mismos. Cuando se construyen modelos de aprendizaje automático con PyTorch, es raro que se creen tensores a mano.

A continuación, se ven distintas formas de inicializar tensores.

<a name='3.5.1'></a>
##### 3.5.1 - torch.empty
Devuelve un tensor lleno de datos no inicializados.

In [156]:
# Escalar
scalar_empty = torch.empty(1)
print('Escalar no inicializado: \n', scalar_empty)
#Vector
vector_empty = torch.empty(3)
print(' \n Vector no inicializado: \n', vector_empty)
#Matriz
matrix_empty = torch.empty(2,3)
print(' \n Matriz no inicializado: \n', matrix_empty)
#Tensor 3D
tensor3D_empty = torch.empty(2,2,3)
print(' \n Tensor 3D no inicializado: \n', tensor3D_empty)
# Tensor 4D
tensor4D_empty = torch.empty(2,2,2,3)
print(' \n Tensor 4D no inicializado: \n', tensor4D_empty)

Escalar no inicializado: 
 tensor([7.1429e+31])
 
 Vector no inicializado: 
 tensor([-6.0585e-30,  4.5916e-41,  0.0000e+00])
 
 Matriz no inicializado: 
 tensor([[0., 0., 0.],
        [0., 0., 0.]])
 
 Tensor 3D no inicializado: 
 tensor([[[0., 0., 0.],
         [0., 0., 0.]],

        [[0., 0., 0.],
         [0., 0., 0.]]])
 
 Tensor 4D no inicializado: 
 tensor([[[[0.0000e+00, 0.0000e+00, 7.7052e+31],
          [7.2148e+22, 2.5226e-18, 1.0372e-08]],

         [[1.0413e-11, 1.2353e-08, 4.1497e-08],
          [4.0064e-11, 1.0681e-05, 2.9575e-18]]],


        [[[6.7333e+22, 1.7591e+22, 1.7184e+25],
          [4.3222e+27, 6.1972e-04, 7.2443e+22]],

         [[1.7728e+28, 7.0367e+22, 1.9152e+23],
          [6.6008e-07, 1.2859e-11, 3.3382e-09]]]])


<a name='3.5.2'></a>
##### 3.5.2 - torch.rand
Devuelve un tensor con valores aleatorios.

In [157]:
# Tensor con valores aleatorios de tamaño (5, 3, 2)
random_tensor = torch.rand(size=(5, 3, 2))
print("Tensor con valores aleatorios: \n", random_tensor)
print("\n Forma del Tensor: \n", random_tensor.shape)
print("\n Dimensión del Tensor: \n", random_tensor.ndim)

Tensor con valores aleatorios: 
 tensor([[[0.8059, 0.3871],
         [0.0210, 0.3182],
         [0.2343, 0.2145]],

        [[0.0513, 0.3674],
         [0.5054, 0.1218],
         [0.4624, 0.1615]],

        [[0.0745, 0.7668],
         [0.1390, 0.8063],
         [0.3388, 0.3494]],

        [[0.5184, 0.4179],
         [0.5852, 0.1870],
         [0.9464, 0.5185]],

        [[0.0731, 0.9018],
         [0.6828, 0.2115],
         [0.3833, 0.3427]]])

 Forma del Tensor: 
 torch.Size([5, 3, 2])

 Dimensión del Tensor: 
 3


<a name='3.5.3'></a>
##### 3.5.3 - torch.zeros
Tensor lleno de ceros.

In [158]:
# matriz de ceros, 5 filas y 3 columnas
zeros_tensor = torch.zeros(5, 3)
print("Tensor con valores ceros: \n", zeros_tensor)
print("\n Forma del Tensor: \n", zeros_tensor.shape) #da lo mismo que zeros_tensor.size()
print("\n Dimensión del Tensor: \n", zeros_tensor.ndim)
print("\n Tipo de dato: \n", zeros_tensor.dtype)

Tensor con valores ceros: 
 tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

 Forma del Tensor: 
 torch.Size([5, 3])

 Dimensión del Tensor: 
 2

 Tipo de dato: 
 torch.float32


<a name='3.5.4'></a>
##### 3.5.4 - torch.ones
Tensor lleno de unos.

In [159]:
# tensor de unos, de 4 matrices de 3 filas y 2 columnas
ones_tensor = torch.ones(4, 3, 2)
print("Tensor con valores ceros: \n", ones_tensor)
print("\n Forma del Tensor: \n", ones_tensor.shape) #da lo mismo que ones_tensor.size()
print("\n Dimensión del Tensor: \n", ones_tensor.ndim)
print("\n Tipo de dato: \n", ones_tensor.dtype)

Tensor con valores ceros: 
 tensor([[[1., 1.],
         [1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.],
         [1., 1.]]])

 Forma del Tensor: 
 torch.Size([4, 3, 2])

 Dimensión del Tensor: 
 3

 Tipo de dato: 
 torch.float32


<a name='3.6'></a>
#### 3.6 - Creación de rangos y tensores like

**torch.arange**: Cuando se requiere un rango determinado.
Es igual que `range()` de Python, pero este método en Pytorch (`torch.range()`) quedará obsoleto.

**_like**: Cuando se quiere un tensor de una forma determinada según un tensor previamente creado.

In [160]:
# Create a range of values 0 to 10
zero_to_ten = torch.arange(start=0, end=10, step=1)
zero_to_ten

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [161]:
#Crear una matriz de todos ceros como el tensor zero_to_ten anterior
ten_zeros = torch.zeros_like(input=zero_to_ten)
ten_zeros

tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

<a name='3.7'></a>
#### 3.7 - Tensor a partir de lista

In [162]:
# tensor a partir de lista 
lista = [[1, 2, 3],[4, 5, 6]]
tensor_from_list = torch.tensor(lista)
print("Lista: \n", lista)
print("Esto es: ", type(lista))
print("\nTensor a partir de lista: \n", tensor_from_list)
print("Esto es: ", type(tensor_from_list))

Lista: 
 [[1, 2, 3], [4, 5, 6]]
Esto es:  <class 'list'>

Tensor a partir de lista: 
 tensor([[1, 2, 3],
        [4, 5, 6]])
Esto es:  <class 'torch.Tensor'>


<a name='3.8'></a>
#### 3.8 - Tensor de PyTorch y NumPy

Los dos métodos principales para pasar de NumPy a PyTorch (y viceversa) son: 
* `torch.from_numpy(ndarray)`: lo que hace es pasar de NumPy array -> PyTorch tensor. 
* `torch.Tensor.numpy()`: lo que hace es pasar de Tensor PyTorch -> matriz NumPy.

In [163]:
#Importar Numpy
import numpy as np

In [164]:
# Crear un array de Numpy
array = np.array([[1., 2., 3.],[4., 5., 6.]])
print("Array: \n", a)
print("Esto es: ", type(array))
print("Tipo de dato: ", array.dtype) #Tipo de dato del array de Numpy es float64
tensor_from_array = torch.from_numpy(array)
print("\nTensor a partir de array: \n", tensor_from_array)
print("Esto es: ", type(tensor_from_array))
print("Tipo de dato: ", tensor_from_array.dtype)

Array: 
 [[1. 2. 3.]
 [4. 5. 6.]]
Esto es:  <class 'numpy.ndarray'>
Tipo de dato:  float64

Tensor a partir de array: 
 tensor([[1., 2., 3.],
        [4., 5., 6.]], dtype=torch.float64)
Esto es:  <class 'torch.Tensor'>
Tipo de dato:  torch.float64


In [165]:
# Convertir un array Numpy float64 a tensor Pytorch float32
tensor_from_array_dtype = torch.from_numpy(array).type(torch.float32)
print("Tensor a partir de array: \n", tensor_from_array_dtype)
print("\nEsto es: ", type(tensor_from_array_dtype))
print("\nTipo de dato: ", tensor_from_array_dtype.dtype)

Tensor a partir de array: 
 tensor([[1., 2., 3.],
        [4., 5., 6.]])

Esto es:  <class 'torch.Tensor'>

Tipo de dato:  torch.float32


In [166]:
# Si se modifica el array no se modifica el tensor
array = array + 10
print("Array: \n", array)
print("\nTensor: \n", tensor_from_array_dtype)

Array: 
 [[11. 12. 13.]
 [14. 15. 16.]]

Tensor: 
 tensor([[1., 2., 3.],
        [4., 5., 6.]])


In [167]:
# Pasar de tensor a array
array_from_tensor = tensor_from_array_dtype.numpy() #Por defecto el tipo de dato es float32
print("Array a partir de tensor: \n", array_from_tensor)
print("\nEsto es: ", type(array_from_tensor))
print("\nTipo de dato: ", array_from_tensor.dtype)

Array a partir de tensor: 
 [[1. 2. 3.]
 [4. 5. 6.]]

Esto es:  <class 'numpy.ndarray'>

Tipo de dato:  float32


<a name='3.9'></a>
#### 3.9 - Operaciones con tensores

<a name='3.9.1'></a>
##### 3.9.1 - Suma

In [168]:
# Se crean dos tensores
tensorA = torch.tensor([1,2,3])
tensorB = torch.tensor([4,5,6])
print("Tensor A: \n", tensorA)
print("Tensor B: \n", tensorB)

Tensor A: 
 tensor([1, 2, 3])
Tensor B: 
 tensor([4, 5, 6])


In [169]:
# Sumar de un escalar a un tensor
tensorA + 10 #los valores del tensor original no cambian si no son reasignados

tensor([11, 12, 13])

In [170]:
# Suma de dos tensores
tensorA + tensorB

tensor([5, 7, 9])

In [171]:
# Función de suma de Pytorch
torch.add(tensorA,tensorB)

tensor([5, 7, 9])

<a name='3.9.2'></a>
#### 3.9.2 - Substracción

In [172]:
# Resta de un escalar a un tensor
tensorA - 10 

tensor([-9, -8, -7])

In [173]:
# Resta de dos tensores
tensorA - tensorB

tensor([-3, -3, -3])

In [174]:
# Función de resta de Pytorch
torch.sub(tensorA, tensorB)

tensor([-3, -3, -3])

<a name='3.9.3'></a>
#### 3.9.3 - Multiplicación por elementos

In [175]:
# Multiplicación por elementos
tensorA * 10 

tensor([10, 20, 30])

In [176]:
# Multiplicación de tensores
tensorA * tensorB

tensor([ 4, 10, 18])

In [177]:
# Función de multiplicación de Pytorch con un escalar
torch.multiply(tensorA, 10)

tensor([10, 20, 30])

In [178]:
# Función de multiplicación de Pytorch con dos tensores
torch.multiply(tensorA, tensorB)

tensor([ 4, 10, 18])

In [179]:
# mul es igual a multiply
torch.mul(tensorA, tensorB)

tensor([ 4, 10, 18])

<a name='3.9.4'></a>
#### 3.9.4 - División

In [180]:
# División con un escalar
tensorA / 10

tensor([0.1000, 0.2000, 0.3000])

In [181]:
# División de dos tensores
tensorB / tensorA

tensor([4.0000, 2.5000, 2.0000])

In [182]:
# Función de Pytorch para la division 
# con un escalar
torch.div(tensorA,10)

tensor([0.1000, 0.2000, 0.3000])

In [183]:
# Función de Pytorch para la division
# un escalar con un tensor
torch.div(10,tensorA)

tensor([10.0000,  5.0000,  3.3333])

In [184]:
# Función de Pytorch para la division
# dos tensores
torch.div(tensorA,tensorB)

tensor([0.2500, 0.4000, 0.5000])

<a name='3.9.5'></a>
#### 3.9.5 - Multiplicación matricial o Producto punto

Una de las operaciones mas comunes en los machine learning es la [multiplicación de matrices](https://www.mathsisfun.com/algebra/matrix-multiplying.html).

Las dos reglas principales para la multiplicación de matrices que hay que recordar son:
1. Las **dimensiones interiores** deben coincidir:
  * `(3, 2) @ (3, 2)` no funcionará
  * `(2, 3) @ (3, 2)` funcionará
  * `(3, 2) @ (2, 3)` funcionará
2. La matriz resultante tiene la forma de las **dimensiones exteriores**:
 * `(2, 3) @ (3, 2)` -> `(2, 2)`
 * `(3, 2) @ (2, 3)` -> `(3, 3)`
 
(`@` en Python es el símbolo para la multiplicación de matrices. No se recomienda su uso.

PyTorch implementa la funcionalidad de multiplicación de matrices en el método **torch.matmul()**.

La diferencia entre la multiplicación por elementos y la multiplicación matricial es la suma de valores.

Para el `tensorA` con valores `[1, 2, 3]`:

| Operación | cálculo | código|
| ----- | ----- | ----- |
| Multiplicación por elementos: | `[1*1, 2*2, 3*3]` = `[1, 4, 9]` | `tensor * tensor` |
**Multiplicación de matrices** | `[1*1 + 2*2 + 3*3]` = `[14]` |  `tensor.matmul(tensor)` |

In [185]:
# Multiplicación matricial
torch.matmul(tensorA, tensorA), tensorA.shape

(tensor(14), torch.Size([3]))

In [186]:
# Definición de dos tensores con valores aleatorios
t1 = torch.rand(3,2)
t2 = torch.rand(2,3)
print("El tensor t1 es: \n", t1)
print("Forma del tensor t1: ", t1.shape)
print("\n El tensor t2 es: \n", t2)
print("Forma del tensor t2: ", t2.shape)

El tensor t1 es: 
 tensor([[0.8897, 0.7856],
        [0.6159, 0.6680],
        [0.4056, 0.5176]])
Forma del tensor t1:  torch.Size([3, 2])

 El tensor t2 es: 
 tensor([[0.8066, 0.9346, 0.6636],
        [0.9523, 0.4502, 0.8108]])
Forma del tensor t2:  torch.Size([2, 3])


In [187]:
# Dimensiones interiores iguales no funciona
mm1 = torch.matmul(t1, t2)
print("El resultado de t1@t2 es: \n", mm1)
print("Forma del tensor mm1: ", mm1.shape)

El resultado de t1@t2 es: 
 tensor([[1.4657, 1.1852, 1.2273],
        [1.1329, 0.8764, 0.9503],
        [0.8200, 0.6121, 0.6888]])
Forma del tensor mm1:  torch.Size([3, 3])


In [188]:
# Dimensiones interiores iguales no funciona
mm2 = torch.matmul(t2, t1)
print("El resultado de t2@t1 es: \n", mm2)
print("Forma del tensor mm2: ", mm2.shape)

El resultado de t2@t1 es: 
 tensor([[1.5623, 1.6014],
        [1.4533, 1.4685]])
Forma del tensor mm2:  torch.Size([2, 2])


In [189]:
# .mm es lo mismo que .matmul
mm2 = torch.mm(t2, t1)
print("El resultado de t2@t1 es: \n", mm2)
print("Forma del tensor mm2: ", mm2.shape)

El resultado de t2@t1 es: 
 tensor([[1.5623, 1.6014],
        [1.4533, 1.4685]])
Forma del tensor mm2:  torch.Size([2, 2])


Uno de los errores mas comunes en deep learning es la operación de tensores sin respetar las reglas de forma.
Como muestra el ejemplo siguiente, la multiplicación matricial de dos tensores con distintas dimensiones internas:

In [190]:
# ([3, 2]) @ ([3, 2])
torch.matmul(t1, t1)

RuntimeError: mat1 and mat2 shapes cannot be multiplied (3x2 and 3x2)

Para que esta operación funciones se hace la **transposición**, esto es, cambiar las dimensiones de uno de los tensores dados.

Se puede realizar en PyTorch usando:
* `torch.transpose(input, dim0, dim1)`: donde `input` es el tensor deseado a transponer y `dim0` y `dim1` son las dimensiones a intercambiar.
* `tensor.T`: donde "tensor" es el tensor que se desea transponer.

In [None]:
# Multiplicación de t1 @ t1T

t1T = t1.T #Transpuesta de t1
print("Forma original de t1: \n", t1.shape)
print("\nTranspuesta de t1: \n", t1T)
print("Forma de la transpuesta: \n", t1T.shape)

multiplicacion = torch.matmul(t1, t1T)
print("\nEl resultado de t1 @ t1T es: \n", multiplicacion) 
print("Forma del resultado: \n", multiplicacion.shape)

<a name='3.10'></a>
### 3.10 - Exploración de tensores

In [None]:
# Crear un tensor en el rango del 0 al 100 
# tomando cada 10 valores
tensorC = torch.arange(0, 100, 10)
tensorC

In [None]:
# Encontrar el valor mínimo
tensorC.min()

In [None]:
# Encontrar el valor máximo
tensorC.max()

In [None]:
# Encontrar el valor medio
tensorC.type(torch.float32).mean()
# tensorC.mean() da error porque .mean() requiere que
# el tensor sea torch.float32

In [None]:
# Obtener la suma de todos los valores
tensorC.sum()

In [None]:
# Encontrar el índice del tensor donde se produce el máximo
tensorC.argmax()

In [None]:
# Encontrar el índice del tensor donde se produce el mínimo
tensorC.argmin()

In [None]:
# Slicing
tensorD = torch.rand(5,3)
print(tensorD)
print("\nTensor con todas las filas de la columna 0: \n", tensorD[:, 0]) 
print("\nTensor con todas las columnas de la fila 1: \n", tensorD[1, :])
print("\nTensor con el elemento de la fila 1 columna 1: \n", tensorD[1,1])
print("\nElemento de la fila 1 columna 1: \n", tensorD[1,1].item())
print("\nTensor con las primeras 3 filas y todas las columnas: \n", tensorD[:3,:])

In [None]:
# Indexación
#Crear un tensor
tensorE = torch.arange(1, 10).reshape(1, 3, 3)
print("El tensorE es: \n", tensorE)
print("\nLa forma del tensorE es: ", tensorE.shape)
#Indexar distintos valores
print("\nPrimer corchete:\n", tensorE[0]) 
print("\nSegundo corchete: ", tensorE[0][0]) 
print("\nTercer corchete: ", tensorE[0][0][0])

In [None]:
# Se puede usar : para especificar "todos los valores"
# y , para añadir otra dimensión
# Obtener todos los valores de la dimensión 0 y el índice 0 de la primera dimensión
tensorE[:, 0]

In [None]:
# Obtener todos los valores de las dimensiones 0 y 1, pero sólo el índice 1 de la dimensión 2
tensorE[:, :, 1]

In [None]:
# Obtener todos los valores de la dimensión 0 pero sólo el valor del índice 1 de la 1ª y 2ª dimensión
tensorE[:, 1, 1]

In [None]:
# Obtener el índice 0 de la 0ª y 1ª dimensión y todos los valores de la 2ª dimensión 
tensorE[0, 0, :] # same as tensorE[0][0]

<a name='3.11'></a>
### 3.11 - Información de los tensores

Los atributos mas comunes que se necesitan saber de un tensor son:

* `forma`: ¿qué forma tiene el tensor? (algunas operaciones requieren reglas de forma específicas)
* Tipo de datos: ¿en qué tipo de datos se almacenan los elementos del tensor?
* Dispositivo: ¿en qué dispositivo se almacena el tensor? (normalmente GPU o CPU)

In [None]:
print("TensorC: \n", tensorC)
print("\nForma del tensor: ", tensorC.shape)
print("\nTipo de dato del tensor: ", tensorC.dtype)
print("\nDispositivo donde se almacena el tensor: ", tensorC.device) #Por defecto será CPU

Para cambiar el tipo de dato del tensor se puede usar `torch.Tensor.type(dtype=None)` donde el parámetro `dtype` es el tipo de datos que quieres usar (int8, float16, float32, float64).

In [None]:
# Crear un tensor y chequear el tipo de dato
tensorE = torch.arange(10., 100., 10.)
tensorE.dtype

In [None]:
# Convertir un tensor con datos de tipo int8
tensor_int8 = tensorE.type(torch.int8)
tensor_int8

Mas info: [documentación de `torch.Tensor`](https://pytorch.org/docs/stable/tensors.html)

<a name='3.12'></a>
### 3.12 - Reestructuración, apilamiento, compresión y descompresión

In [None]:
# Recordar tensorC y chequear su forma
tensorC, tensorC.shape

In [None]:
# Añadir una dimensión extra
tensorC_reshaped = tensorC.reshape(1, 10)
tensorC_reshaped, tensorC_reshaped.shape

In [None]:
# Apilar tensorC 3 veces (dim=0)
tensorC_stacked = torch.stack([tensorC, tensorC, tensorC], dim=0)
tensorC_stacked

In [None]:
# Apilar tensorC 5 veces  (dim=1)
tensorC_stacked = torch.stack([tensorC, tensorC, tensorC], dim=1)
tensorC_stacked

In [None]:
# "Exprimir" todas las dimensiones en una sola

tensorC_squeezed = tensorC_reshaped.squeeze()

print("El tensorC con la nueva forma era: \n", tensorC_reshaped)
print("\nLa forma era: ", tensorC_reshaped.shape)
print("\nEl tensor 'exprimido' es: \n", tensorC_squeezed)
print("\nLa nueva forma es: ", tensorC_squeezed.shape)

In [None]:
# Añadir una dimensión de 1 en un índice específico
# dim=0
TensorC_unsqueezed = tensorC_squeezed.unsqueeze(dim=0)
print("\nEl tensor es: \n", TensorC_unsqueezed)
print("\nLa forma es: ", TensorC_unsqueezed.shape)

In [None]:
# Añadir una dimensión de 1 en un índice específico
# dim=1
TensorC_unsqueezed = tensorC_squeezed.unsqueeze(dim=1)
print("\nEl tensor es: \n", TensorC_unsqueezed)
print("\nLa forma es: ", TensorC_unsqueezed.shape)

In [None]:
# cambiar el orden de los valores de los ejes
# Crear un tensor con una forma específica
# Puede simular una imagen de 224 x 224 a color (3 canales)
foto = torch.rand(size=(224, 224, 3))
print("La forma del tensor foto es: \n", foto.shape)
# Permutar el tensor original para que los canales queden en el primer eje
foto_permuted = foto.permute(2, 0, 1) 
# esto cambia los ejes 0->1, 1->2, 2->0
print("La forma del tensor foto permutado es: \n", foto_permuted.shape)

In [None]:
<a name='3.13'></a>
### 3.13 - Reestructuración, apilamiento, compresión y descompresión

<a name='3.2'></a>
### 3.2 - Autograd

La funcionalidad más importante que Pytorch añade es la conocidad como `autograd`, la cual permite la posibilidad de calcular derivadas de manera automática con respecto a cualquier tensor. Esto le da a Pytorch un gran potencial para diseñar redes neuronales complejas y entrenarlas utilizando algoritmos de gradientes sin tener que calcular todas estas derivadas manualmente. 

Para poder llevar a cabo estas operaciones, Pytorch va construyendo de manera dinámica un grafo computacional. Cada vez que aplicamos una operación sobre uno o varios tensores, éstos se añaden al grafo computacional junto a la operación en concreto. De esta manera, si se quiere calcular la derivada de cualquier valor con respecto a cualquier tensor, simplemente se tiene que aplicar el algoritmo de backpropagation (que no es más que la regla de la cadena de la derivada) en el grafo.

In [None]:
# Se crean tres tensores x, y y z
# Se definen dos operaciones p y g
x = torch.tensor(1., requires_grad=True)
y = torch.tensor(2., requires_grad=True)
p = x + y
z = torch.tensor(3., requires_grad=True)
g = p * z
print("x: ", x)
print("y: ", y)
print("z: ", z)

Para poder calcular derivadas con respecto a estos tensores necesitamos ponder su propiedad `requiers_grad` a `True`. 

Ahora, calculamos el tensor intermedio $p$ como $p = x+ y$ y luego usamos este valor para calcular el resultado final $g$ como $g = p*z$. Cada vez que aplicamos una operación sobre un tensor que tiene su propiedad `requires_grad` a `True`, `Pytorch` irá construyendo el `grafo computacional`. Para este ejemplo, el grafo tendría la siguiente forma

![](https://www.tutorialspoint.com/python_deep_learning/images/computational_graph_equation2.jpg)

Si ahora se calculanlas derivadas de $g$ con respecto a $x$, $y$ y $z$, es tan fácil como llamar a la función `backward`.

In [None]:
g.backward()

En este punto, `Pytorch` ha aplicado el algoritmo de `backpropagation` encima del grafo computacional, calculando todas las derivadas.

$$ \frac{dg}{dz} = p $$

In [None]:
z.grad

$$ \frac{dg}{dx} = \frac{dg}{dp} \frac{dp}{dx} = z $$

In [None]:
y.grad

El `grafo computacional` es una herramienta extraordinaria para diseñar `redes neuronales` de complejidad arbitraria. Con una simple función, gracias al algoritmo de `backpropagation`, podemos calcular todas las derivadas de manera sencilla (cada nodo que representa una operación solo necesita calcular su propia derivada de manera local) y optimizar el modelo con nuestro algoritmo de gradiente preferido.

Más sobre `autograd` [aquí](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-py).

<a name='3.3'></a>
### 3.3 - GPU

Los algoritmos de aprendizaje profundo requieren muchas operaciones numéricas. Y, por defecto, estas operaciones suelen realizarse en una CPU (unidad de procesamiento informático).

Sin embargo, existe otra pieza de hardware común llamada GPU (unidad de procesamiento gráfico), que a menudo es mucho más rápida para realizar los tipos específicos de operaciones que necesitan las redes neuronales (multiplicaciones de matrices) que las CPU.

In [None]:
# Para comprobar si esta disponible un dispositivo GPU
torch.cuda.is_available()

In [None]:
# Para que el código se ejecute independientemente si se tiene o no GPU
# Se setea una variable "device" para almacenar el dispositivo que este disponible
device = "cuda" if torch.cuda.is_available() else "cpu"
device

In [None]:
# En caso de contar con varias GPUs, se puede consultar la cantidad
torch.cuda.device_count()

In [None]:
# Para mover un tensor a la GPU (si esta disponible)
tensor = torch.tensor([1, 2, 3])
print(tensor, tensor.device)
tensor_on_gpu = tensor.to(device) # Esto hace una copia de tensor en la GPU en este caso
# Para devolver una copia de ese tensor y que este en los dos dispositivos (CPU y GPU)
# hay que sobre escribir
# algún_tensor = algún_tensor.to(dispositivo)
tensor_on_gpu

Si hay GPU disponible, el código anterior mostrará algo como:

 ```
tensor([1, 2, 3]) cpu
tensor([1, 2, 3], device='cuda:0')
 ```

`device='cuda:0'` quiere decir que esta disponible la GPU 0 y pueden haber disponibles varias

In [None]:
# No se puede transformar un tensor que esta en GPU a Numpy
tensor_on_gpu.numpy()
# Si tensor_on_gpu esta en GPU da un error

In [None]:
# Para devolver un tensor a la CPU y que se pueda transformar a Numpy
tensor_back_on_cpu = tensor_on_gpu.cpu().numpy()
tensor_back_on_cpu
# Esto devuelve una copia del tensor de la GPU en la memoria de la CPU
# El tensor original sigue en la GPU

# ME QUEDE ACA!!

In [None]:
import sklearn 

In [None]:
sklearn .__version__

In [None]:
from sklearn.datasets import fetch_openml

mnist = fetch_openml('mnist_784', version=1)
X, Y = mnist["data"], mnist["target"]

X.shape, Y.shape

In [None]:
Y[0]

In [None]:
type(X)

In [None]:
%matplotlib inline

import matplotlib as mpl
import matplotlib.pyplot as plt
import random 

r, c = 3, 5
fig = plt.figure(figsize=(2*c, 2*r))
for _r in range(r):
    for _c in range(c):
        plt.subplot(r, c, _r*c + _c + 1)
        ix  = random.randint(0, len(X)-1)
        # img = X[ix]  # para versiones de dataset de sklearn inferiores a 1.0
        img = X.iloc[ix].values
        plt.imshow(img.reshape(28,28), cmap='gray')
        plt.axis("off")
        plt.title(Y[ix])
plt.tight_layout()
plt.show()

In [None]:
X_train, X_test, y_train, y_test = X[:60000] / 255., X[60000:] / 255., Y[:60000].astype("int"), Y[60000:].astype("int")

In [None]:
# función de pérdida y derivada

def softmax(x):
    return torch.exp(x) / torch.exp(x).sum(axis=-1,keepdims=True)

def cross_entropy(output, target):
    logits = output[torch.arange(len(output)), target]
    loss = - logits + torch.log(torch.sum(torch.exp(output), axis=-1))
    loss = loss.mean()
    return loss

In [None]:
D_in  = 784 # neuronas de entrada
H     = 100 # neuronas de capa oculta
D_out = 10  # neuronas de salidas 

In [None]:
w1 = torch.tensor (np.random.normal(
            loc   = 0.0, 
            scale = 0.1,
            #scale = np.sqrt( 2 / (D_in + H )),
            size  = ( D_in , H)),
    requires_grad = True,
    device        = "cpu",
    dtype         = torch.float)

b1 = torch.zeros(H, 
                 requires_grad = True, 
                 device = "cpu", 
                 dtype = torch.float)

w2 = torch.tensor(np.random.normal(
          loc   = 0.0, 
          scale = 0.1,
          #scale = np.sqrt( 2 / ( D_out + H) ), 
          size  = ( H , D_out )), 
                  requires_grad = True, 
                  device        = "cpu", 
                  dtype         = torch.float)

b2 = torch.zeros(D_out, 
                 requires_grad = True, 
                 device        = "cpu", 
                 dtype         = torch.float)



In [None]:
# convertimos datos a tensores y copiamos en gpu
X_t = torch.from_numpy(X_train.values).float()   #.cuda()
Y_t = torch.from_numpy(y_train.values).long()   # .cuda()

In [None]:
epochs    = 100
lr        = 0.8
log_each  = 10
l = []

In [None]:
for e in range(1, epochs+1): 
    
    # forward
    h = X_t.mm(w1) + b1
    h_relu = h.clamp(min=0) # relu  
    y_pred = h_relu.mm(w2) + b2

    # loss
    loss = cross_entropy(y_pred, Y_t)
    l.append(loss.item())

    # Backprop (calculamos todos los gradientes automáticamente)
    loss.backward()
    
    with torch.no_grad():
        # update pesos
        w1 -= lr * w1.grad
        b1 -= lr * b1.grad
        w2 -= lr * w2.grad  
        b2 -= lr * b2.grad
        
        # ponemos a cero los gradientes para la siguiente iteración
        # (sino acumularíamos gradientes)
        w1.grad.zero_()
        w2.grad.zero_()
        b1.grad.zero_()
        b2.grad.zero_()
    
    if not e % log_each:
        print(f"Epoch {e}/{epochs} Loss {np.mean(l):.5f}")

In [None]:
np.random.normal(
          loc   = 0.0, 
          #scale = np.sqrt( 2 / ( D_out + H) ),
          scale = 0.01,
          size  = ( 10,5 ))

In [None]:
def evaluate(x):
    h = x.mm(w1) + b1
    h_relu = h.clamp(min=0)
    y_pred = h_relu.mm(w2) + b2
    y_probas = softmax(y_pred)
    return torch.argmax(y_probas, axis=1)

In [None]:
from sklearn.metrics import accuracy_score

y_pred = evaluate(torch.from_numpy(X_test.values).float())#.cuda())
accuracy_score(y_test, y_pred.cpu().numpy())

In [None]:
r, c = 3, 5
fig = plt.figure(figsize=(2*c, 2*r))
test_imgs, test_labs = [], []
for _r in range(r):
    for _c in range(c):
        plt.subplot(r, c, _r*c + _c + 1)
        ix = random.randint(0, len(X_test)-1)
        img = X_test.iloc[ix].values
        y_pred = evaluate(torch.tensor([img]).float())[0] #.cuda())[0]
        plt.imshow(img.reshape(28,28), cmap='gray')
        plt.axis("off")
        #print(y_pred)
        #print(y_test.iloc[ix])
        plt.title(f"{y_test.iloc[ix]}/{y_pred}", color="green" if y_test.iloc[ix] == y_pred.item() else "red")
plt.tight_layout()
plt.show()

In [None]:
type(y_test.iloc[5910])

In [None]:
mat1 = torch.tensor([[1,2],[4,5],[3,3]])
print(mat1)

print(mat1.sum(axis=0))
print(mat1.sum(axis=1))
print(mat1.sum(axis=-1))

In [None]:
mat1 = torch.tensor([[[1,2],[4,5],[3,6]]])
print(mat1)

print(mat1.sum(axis=0))
print(mat1.sum(axis=1))
print(mat1.sum(axis=-1))

In [None]:
exp_x=torch.exp(x)