<a href="https://colab.research.google.com/github/ssanchezgoe/curso_deep_learning_economia/blob/main/NBs_Google_Colab/DL_S04_Tensores_en_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

<h1> Curso Deep Learning: Economía</h1>

## S04: Tensores en Deep Learning


In [None]:
#@title Funciones del Notebook
def tensor_info(x):
  print(f"Rango u orden del tensor: {x.ndim}")
  print(f"Forma del tensor: {x.shape}")
  print(f"Tipo de datos: {x.dtype}")
  print(f"Tamaño del tensor en bytes: {x.nbytes}")
  return None

#Repaso de Tensores:

Aunque no se haya visto una definición formal de tensores, seguro que se ha trabajado con ellos haciendo referecia a ellos como *arrays* o *arreglos*.

## Representaciones de datos en NN:

Si partimos de datos almacenados en *arreglos* multidimensionales de `numpy`, estos se conocen con el nombre de *tensores*. En general, todos los algoritmos de ML usan tensores como estructura base de los datos. 

Un tensor es un contenedor de datos, generalmente numéricos. Por ejemplo, estamos familiarizados con las matrices, que son tensores 2D: los tensores son una generalización número arbitrario de dimensiones (a una dimensión a menudo se denomina eje). 

## Escalares (Tensores 0D)

Un tensor que contiene un solo número se le llama escalar, tensor escalar, tensor 0-dimensional ó 0D tensor. En `numpy` se tiene:

- float32 o float64.
- int 32 o int 64.

Recordemos

In [None]:
# Array 
import numpy as np

x0 = np.array(3)

tensor_info(x0)

# Vectores (Tensores 1D)

A un array de números organizados en una secuencia de filas o columnas se le llama *vector* o *tensor 1D*. Decimos que un tensor 1D tiene 1 eje. 

En `numpy` se define como:

In [None]:
x1 = np.array([12, 3, 6, 14])
tensor_info(x1)

El anterior vector tiene 5 entradas, por lo tanto es llamado *vector 5-dimensional*. La *dimensionalidad* puede denotar, tanto el numero de entradas a lo larco de un eje específico, o el número de ejes en un tensor. 

## Matrices (Tensores 2D)

Un arreglo de vectores es una matriz o tensor 2D. Una matriz tiene dos ejes, a los cuales nos referimos como filas y columnas. Una matriz representa, visualmente, una malla rectangular de números.

En `numpy` se define como:

In [None]:
x2 = np.array([[22, 70, 12, 4, 0],
[61, 9, 33, 36, 11],
[5, 7, 99, 46, 12]])

tensor_info(x2)

Al primer eje se le llaman *filas* y las entradas del segundo eje *columnas*. 

## Tensores 3D y tensores de dimensión mayor:

Si se agrupan *matrices de dimensiones iguales* hablamos de un *tensor 3D*, que puede interpretarse, visualmente como un cubo de rubic, donde a cada celda se le asigna un valor. 

En `numpy` se define como:

In [None]:
x3 = np.array([[[54, 8, 21, 4, 2],
[61, 92, 53, 5, 3],
[51, 70, 44, 55, 9]],
[[6, 78, 2, 34, 0],
[1, 79, 3, 35, 1],
[8, 80, 4, 36, 2]],
[[7, 74, 2, 34, 0],
[5, 73, 3, 35, 1],
[10, 81, 4, 36, 2]]])

tensor_info(x3)

Al agrupar tensores 3D en un arreglo, podemos crear tensores 4D, y así sucesivamente. En **deep learning** se trabajará con tensores de rango 0 a 5, y en caso como el procesamiento de videos, puede llegarse a tensores de rango 5.

### Atributos claves:
 Un tensor se encuentra determinado por tres atributos:

 * *Numero de ejes*: (rango): `ndim`.
 * *Forma*: que en python es una tupla de enteros que describe cuantas dimensiones tienen el tensor a lo largo de cada eje.  A este atributo se accede mediante `shape`.
 * *Data type*: Corresponde a los tipos de datos que contiene el tensor y se accede a mediante el atributo `dtype`.

In [None]:
print("Dimensión:", x3.ndim)
print("Forma", x3.shape)
print("Tipo de datos: ", x3.dtype)

Veamos un ejemplo concreto de una base de datos MNIST de `keras`:

In [None]:
from keras.datasets import mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

In [None]:
print(train_images.ndim)

In [None]:
print(train_images.shape)

In [None]:
print(train_images.dtype)

A continuación se resume la característica del dataset:

* Tensor 3D
* Tipos de datos: enteros de 8-bits.  

Visualicemos una imágen:

In [None]:
digit = train_images[9]
import matplotlib.pyplot as plt
plt.imshow(digit, cmap=plt.cm.binary)
plt.show()

##Manipulación de tensores en Numpy:

En el ejeumplo anterior se selecionó un digito específico a junto al primer eje usando la sintaxis train_images [i]. La selección de elementos específicos en un tensor se denomina corte de "tensor slicing". Veamos las operaciones de "tensor slicing" que puede hacerse con los arreglos de `numpy`.

Para selecionar los digitos de 10 a 100 (si incluir el 100) hacemos:


In [None]:
my_slice = train_images[10:100]
print(my_slice.shape)

La anterior operación es equivalente a la selección de todas las dimensiones de los ejes mediante : 

In [None]:
my_slice = train_images[10:100, :, :]
my_slice.shape

Y lo anterior es equivalenta a

In [None]:
my_slice = train_images[10:100, 0:28, 0:28]
my_slice.shape

De forma general, podemos seleccionar entre dos índices cualquiera a lo largo de un eje del tensor.

## Problema:

Dentro del conjunto de datos, seleccióne la esquina inferior que contenga $14\times14$ píxeles en cada una de las imágenes y visualice una de ellas. 

Haga click **aquí** si tiene problemas con la solución.

<!----:
# solución:
my_slice_corner = train_images[:, 14:, 14:]

digit = my_slice_corner[3]
import matplotlib.pyplot as plt
plt.imshow(digit, cmap=plt.cm.binary)
plt.show()

----->

Recordemos que también es posible usar índices negativos. Los índices negativos indican una posición relativa al final del eje en cuestión. Recorte, por ejemplo, las imagenes anteriores para que queden centradas en matríces de 14x14.

Haga click **aquí** si tiene problemas con la solución:

<!-----
my_crop_slices_centered = train_images[:, 7:-7, 7:-7]

digit = my_crop_slices_centered[0]
import matplotlib.pyplot as plt
plt.imshow(digit, cmap=plt.cm.binary)
plt.show()
----->

## Noción de batches

En general, el primer eje (eje 0, ya que la indexación comienza en 0) de todos los  tensores de datos que encuentre en DLserá el eje de muestras (a veces denominado dimensión de muestras). En el ejemplo MNIST, las muestras son imágenes de dígitos.

Además, los modelos de DL no procesan un conjunto de datos completo a la vez; en su lugar, dividen los datos en pequeños lotes. Por ejemplo:

In [None]:
batch1 = train_images[:128]
batch2 = train_images[128:256]

El n-ésimo batch sería:

$$\text{batch} = \text{train_images}[128 * n:128 * (n + 1)]$$

Cuando considere un tensor batch, el primer eje (eje 0) es conocido como la dimensión del batch. Este término es comun mente usado en Keras y otras librerías de DL.

## Ejemplo reales de tensores:

* *Vector de datos:* Tensor 2D de forma `(samples,features)`.

* *Datos de series de tiempos o secuencias:* Tensor 3D de forma `(samples, timesteps, features)`.

* *Imágenes:* Tensores 4D de forma `(samples,height,width,channels)` o `(samples,channels,height,width)`.

* *Videos:* Tensores 5D de forma `(samples,frames, height,width,channels)` o `(samples, height,frames,channels,height,width)`. 