<a href="https://colab.research.google.com/github/milioe/Deep-Learning-TF/blob/main/1_Introducci%C3%B3n_a_los_tensores_(Clase).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Deep Learning: Redes Neuronales Artificiales con TensorFlow



# Introducción a los tensores
## Índice:
1. Creación de tensores
2. Atributos de tensores
3. Manipulación de tensores
4. Tensores y NumPy
5. `@tf.function`
6. Uso de GPU con TensorFlow
7. Ejercicios

## Creación de tensores

Lo primero que tendremos que hacer, es importar la librería de TensorFlow y revisar qué versión tenemos. Google Colab ya lo tiene resuelto para nosotros, incluso con las últimas versiones de cada librería.

🔑 **Nota**: La versión de TF 1.x y 2.x son totalmente diferentes.


In [1]:
# Importar tensorflow

# conocer la versión

Si alguna vez has usado la librería de NumPy, debes de saber que los tensores son tipos de arrays de NumPy.

Como se ha visto en las diapositivas, los tensores se pueden entender como representaciones numéricas multidimensionales (o *n-dimensional* en inglés).

Algunos ejemplos de lo que podemos representar como tensores son:
* Precios de casas
* Pixeles de una imagen
* Texto
* Otros tipos de datos

La **principal** diferencia entre **tensores** de TensorFlow y **arrays** de NumPy es que los tensores pueden ser usados con GPUs (Graphical Processing Units) y TPUs (Tensors Processing Units), lo que significa que tendremos mayor velocidad de computación.

## Creación de tensores con `tf.constant`

El método `.constant()` es un modulo construido para convertir cualquier dato numérico en tensores y de esta forma, alimentar a nuestra red neuronal. 

In [2]:
# Crear un scalar


Un escalar es un tensor con rank 0, dado que no tiene dimensiones (es sólo un número).

In [3]:
# Revisar el numero de dimensiones con .ndim


In [4]:
# Crear un vector (más de 0 dimensiones)


In [5]:
# Revisar el numero de dimensiones


Observa cómo, a diferencia de un *scalar*, debemos de poner los valores de un vector entre corchetes, ya que de lo contrario, TF tomará el segundo `10` como un argumento, más no como un valor. Inténtalo en la siguiente celda.

Esto se debe a que la [documentación](https://www.tensorflow.org/api_docs/python/tf/constant?authuser=1) de TF en cuanto a `tf.constant()` nos dice que:

```
tf.constant(
    value, dtype=None, shape=None, name='Const'
)
```

por lo que el segundo `10` lo toma como un `dtype`

In [6]:
# Crear una matriz (más de 1 dimensión)


In [7]:
# Checar dimensión


Observa que ahora tenemos un `shape` distinto a los dos anteriores objetos.

* Scalar -> `shape()`
* Vector -> `shape(2,)`
* Matrix -> `shape(2,2)`

🔑 **Nota:** Por lo tanto, podemos saber que el primer dos (de izquierda a derecha) hace referencia al numero de **filas**, mientras que el segundo al número de **columnas**.

Además, tenemos un `dtype=int32` indicando el tipo de dato (entero de 32 bits) del cual se compone el tensor. Eso lo podemos cambiar como se muestra en la siguiente celda:



In [8]:
# Define el tipo de 


In [9]:
# Checar dimensión


Observa cómo debemos de incluir varios `[]` cada que aumentamos de dimensión. 

🧠 **Recuerda:** un tensor de dimensión 0 es un escalar, de dimension 1 es un vector y de dimensión 2 es una matriz. Por eso llamábamos a un tensor un arreglo de *n-dimensiones*.

In [10]:
# Crear un tensor (más de dos dimensiones, por el momento)


In [11]:
# Revisa la dimension del tensor


El tensor anterior tiene 3 dimensiones con un `shape` de `(3,2,3)`, es decir, de izquierda a derecha son `3` grupos, con `2 filas` cada uno, y `3` columnas.

Observa el siguiente tensor para tener mayor claridad:

In [12]:
# Crear un nuevo tensor con un shape diferente


Nuevamente, podemos leer el shape como:
`3` grupos, `2` filas en cada grupo, con `3` columnas.

Ahora bien, observa qué pasa si copiamos la misma estructura de `tensor_b` y añadimos un 17 en el grupo dos, fila dos


In [13]:
# Lo siguiente marcará error


Ocurre un `ValueError`, dado que TensorFlow reconoce al tensor como un arreglo no rectangular, es decir, debe de empatar el número de columnas y filas en todo el tensor.

Ahora bien, si quisieramos conocer la cantidad de elementos en un tensor, basta con aplicar un `tf.size()` (si aplicamos un `len()` nos devolverá el número de dimensiones).

In [14]:
# Numero de elementos en un tensor


In [15]:
# Imprimir únicamente el número


Peron observemos algo intereante, si multiplicamos los elementos en el shape de un tensor, obtenemos la cantididad $n$ de elementos en el mismo

In [16]:
# Conocer el shape de un tensor


La aplicación más usual de un tensor, es cuando tenemos una imagen, de `224 x 224` pixeles con tres colores `RGB` (Red, Green, Blue) el cual podemos representar con un shape de `(224,224,3)`. 

Sabiendo eso, tendriamos `150528` pixeles en cada imagen.

# Creando tensores con `tf.Variable()`

Similar a los objetos mutables e inmutables de Python (listas y tuplas, por ejemplo) tenemos un método previamente construido llamado `tf.Variable()`.

La diferente entre `tf.Variable` y `tf.constant()` es que los últimos son inmutables (no pueden ser cambiados una vez dedclarados) mientras que aquellos con `tf.Variable()` sí pueden ser modificados.

In [17]:
# Crear el mismo tensor con tf.Variable() y tf.constant()


In [18]:
# Imprime el tensor mutable


In [19]:
# Imprime el tensor inmutable


In [20]:
# La primer posición del tensor mutable


In [21]:
# Cambia esa primer posición por un 7


Observa que no podemos asginar elementos como si fueran una lista. Ejemplo:

``` 
x = [1,2,3,4]
x [0] = 0
```
esto eventualmente imprimiría `x = [0,2,3,4]`.

Si nosotros hacemos lo mismo con un tensor, produciría un error, por lo que tenemos que ocupar el método `assign()`

In [22]:
# Ahora intenta cambiar un valor del tensor inmutable


Por lo tanto, ¿Cuál deberia de usar? ¿`tf.constant()` o `tf.Variable`?

Depende del problema a tratar, aunque la mayoría de las veces TensorFlow lo hará por nosotros de forma automática

## Creando tensores aleatorios

Los tensores aleatorios son arreglos con tamaños arbitrarios que contienen número aleatorios. ¿Por qué usar numeros aleatorios? Esto se debe a que para inicializar los pesos (*weights*) de una red neuronal, tendremos que partir de números aleatorios que durante el entrenamiento se irán ajustando. 

Podrías pensar en que los números aleatorios como ruido o como estática que poco a poco se convierte en una imagen. 

In [23]:
# Crear dos tensores aleatorios


In [24]:
# Crear dos tensores aleatorios


Observa como creamos dos tensores aleatorios que contienen los mismos números. Esto se debe a que pusimos una semilla aleatoria. En computación, es imposible generar números aleatorios, ya que sólo los proveen la naturaleza. Es por ello que a este tipo de aleatoriedad en los tensores se le conoce como **pseudoaleatorio** o **pseudorandom**.

La semilla que acabamos de colocar sirve para poder replicar los mismos tensores aquí y en cualquier parte y momento. Eso no significa que los números no sean aleatorios, pues se comportan como una distribución normal, sólo que son reproducibles. Ellos nos ayudará a poder replicar con exactitud las mismas arquitecturas entre todos, o por ejemplo, a hacer las mismas particiones aleatorias.

In [25]:
# Crear dos tensores aleatorios diferentes


In [26]:
# El tensor 1 y 3 son identicos dada su semilla de 42


In [27]:
# Mientras que el tensor 3 y 4 no, ya que tienen 42 y 11 como semilla respectivamente


## Barajeo de tensores 

El barajeo o *shuffle*, será una de las pocas pero esenciales transformaciones que se deben de hacer en los datos. Imagina que queremos entrenar una red neuronal para que logre predecir si la foto que metemos es de un perro o un gato. Si tenemos 10,000 imágenes, y las primeras 5,000 son de gato y el resto de perro, la red neuronal se sesgará y le dará más peso a las de gato, ya que fueron esas con las que se entrenó incialmente. 

Por eso es importante barajear nuetro dataset antes de pasarlo como input de una red neuronal.


Ejectua la siguiente celda cuantas veces necesites para observar cómo cambia.

In [28]:
# Crear un tensor que quieras barajear


Ahora bien, ejecuta la siguiente celda que contiene un `seed=42`. Cambiará, pero lo hará en el mismo orden.

In [29]:
# Barajeo en el mismo orden 


La razón de que los números cambien a pesar de que ponemos un `seed` es dada la regla #4 de la documentación de [`tf.random.set_seed()`](https://www.tensorflow.org/api_docs/python/tf/random/set_seed)

> 4. If both the global and the operation seed are set: Both seeds are used in conjunction to determine the random sequence.

`tf.random.set_seed(42)` establece la semilla global y el parámetro `seed` en `tf.random.shuffle(seed=42)` establece la semilla de operación.




In [30]:
# Barajear en el mismo orden

# Establece la semilla global


# Establece la semilla de operación


Observa cómo no cambia los valores del tensor

In [31]:
# Establece semilla
# Intenta correr la celda comentando esta linea

# Establece la semilla de operación


## Tensores de unos y ceros

In [32]:
# Crear un tensor de unos


In [33]:
# Cambia el shape


In [34]:
# Crea tensor de ceros


## NumPy y TensorFlow

También puede convertir arreglos de NumPy en tensores.

Recuerda que la principal diferencia es que los tensores pueden ser utilizados con un GPUs

🔑 **Nota:** una matriz o un tensor son usualmente representados por letras mayúsculas: `X` o `A`; mientras que los vectores son representados por letras minúsculas `y` o `b`

In [35]:
# Importar numpy


In [36]:
# Conviertelo en un tensor


Recuerda que el size debe de empatar con el shape, intenta correr la siguiente celda

El error es bastante implícito, tratamos de meter en un tensor de `40` elementos un arreglo de `24`.

## Obtener información de tensored (shape, rank, size)


* **Shape**: La longitud (número de elementos) de cada dimensión en un tensor
* **Rank**: El número de dimensiones del tensor. Un escalar tiene rank 0, un vector tiene rank 1, una matriz tiene rank 2 y un tensor tiene rank *n*.
* **Axis** O **dimension**: una dimensión particular del tensor
* **Size**: El número total de elementos en el tensor


Además, tenemos algunos atributos adicionales, como `ndim`.




In [37]:
# Crear un tensor con rank 4


In [38]:
# Get various attributes of tensor

# .numpy() converts to NumPy array

## Indexing

In [39]:
# Crear un arreglo de números aleatorios con size=(5,5)


Recuerda que para obtener un número, debemos de declarar el índice. Toda indexación comienza en `0`, y para obtener el último elemento se utiliza el `-1`

El shape del tensor `E` se puede leer como `3` grandes grupos, `4` filas cada uno y `5` columnas

In [40]:
# Obtener los primeros dos grupos completos


In [41]:
# Ahora obtener las primeras dos filas 


In [42]:
# Obtenemos las primeras dos columnas


In [43]:
# La siguiente celda dará un error


Esto se debe a que sólo tenemos 3 números en el shape, por lo que solo podemos indexar 3 veces. 

Por lo tanto el primer índice es de **grupos**, el segundo es de **filas** y el tercero es de **columnas**.

Observa los siguientes ejemplos:

✏️ **Ejercicio:** Intenta imprimir el número 50

In [44]:
# El 50 está en el grupo 3, pero como comenzamos en 0, lo declaramos como 2


In [45]:
# Se encuentra en la fila 2, la cual declaramos como 1


In [46]:
# Finalmente, está en la última columna, la cual podemos declarar como -1


Además, podemos traer más de un número, por ejemplo, por fila:

In [47]:
# Obtener el último elemento de cada fila


En la mayoría de las ocasiones tendremos que adecuar los tensores para poder tener dimensiones extras, pero sin modificar los valores que en él existen; similar a si metieramos dimensones sintéticas.

El hecho de aumentar dimensiones o quitar, será recurrente, ya que no sólo será una cuestión técnica, sino de la teoría de las redes neuronales

In [48]:
# Crear un tensor de rank 2 (2 dimensiones)


In [49]:
# Añadir una dimensión extra al tensor de rank 2 con ...
# en python ... signfiica "todas las dimensiones previas"


Observa cómo añadimos una dimensión como columna en el `shape` sin afectar a nuestros valores.

Ahora bien, también podemos utilizar `tf.expand_dims()` para aumentar dimensiones

In [50]:
# "-1" significa el último eje

# Manipulación de tensores (operaciones)

Ahora que sabemos cómo crear tensores, comenzaremos a modificarlos a través de operaciones y técnicas que nos serán útiles cuando hagamos nuestras redes neuronales

## Operaciones básicas

Podemos realizar operaciones tales como `+`, `-` o `*`


In [51]:
# Podemos añadir valores a los tensores


In [52]:
# Igualmente multiplicar


In [53]:
# Así como resta


Además, podemos utilizar funciones de TensorFlow integradas, las cuales tienen una ventaja dado que logran una computación más rápida. Por ejemplo, podemos multiplicar cada uno de los valores por `10`

In [54]:
# Usa multiply como equivalente de '*'


In [55]:
# Tensor original


Observa cómo cada valor es multiplicado por diez, lo cual es diferente a una multiplicación de matriz por escalar.

## Multiplicación de matrices

Siendo una de las operaciones más comunes en Machine Learning, la multiplicación de matrices se puede llevar a cabo de dos formas

* De forma nativa a python con operador `@`
* Con la función integrada de TF `tf.matmul()`

Existen dos reglas indispensables en la multiplicación de matrices:

1. Las dimensiones internas deben de ser iguales:
  * `(4,5) @ (5, 4)`

2. La matríz resultante tiene `shape` de las dimensiones exteriores
  * `(4,5) @ (5,4)` -> `(4,4)`

In [56]:
# Recuerda el tensor previo


In [57]:
# Multiplicación de matrices con @


In [58]:
# Multiplicación de matrices en TensorFlow


Ambas multiplicaciones resultaron en un tensor con `shape(2,2)`. Ahora bien, intentemos multiplicar dos matrices que rompan con la regla numero 1 establecida anteriormente.

In [59]:
# Tensor de (3,2) 


# Tensor de (3,2)


In [60]:
# Intenta multiplicar ambos tensores con @


Esto se debe a que las dimensiones internas son diferentes.

Tenemos dos opciones:
  * Hacer un reshape de X a `(2,3)`
  * Hacer un reshape de Y a `(3,2)`

Esto se puede hacer, a su vez, de dos formas:
  * `tf.reshape()`
  * `tf.transpose()`

In [61]:
# Ejemplo de reshape (3,2) -> (2,3)


In [62]:
# Transpuesta de (3,2) -> (2,3)


In [63]:
# Multiplicación con parámetros usando tf.matmul


Observa como existe una diferencia en shapes cuanto hacemos transpuesta de `X` o un reshape de `Y`.

Esto se debe a la segunda regla, la cual dice que:

 * `(3, 2) @ (2, 3)` -> `(3, 3)` resulta de `X @ tf.reshape(Y, shape=(2, 3))` 
 * `(2, 3) @ (3, 2)` -> `(2, 2)` resulta de `tf.matmul(tf.transpose(X), Y)`

Ahora bien, observa el siguiente ejemplo y nota las diferencias:

In [64]:
# Multiplicación con Y transpuesta


In [65]:
# Multiplicación con Y reshaped


In [66]:
# Y inicial


La tranpuesta simplemente es una *rotación* de filas a columnas, mientras que el `reshape` ajusta los datos a las columnas y filas señaladas

## Producto punto (dot product)

A la multiplicación **entre** matrices se suele denominar como **producto punto** o ***dot product***. Esta operación tan recurrente en *deep learning* y *machine learning* se realiza con `tf.tensordot`.

In [67]:
# Producto punto de X y Y


Esto nos dió de resultado una multipliación igual a 
```
tf.matmul(a=X, b=Y, transpose_a=True, transpose_b=False)
```

Ya que establecimos `axes=1`, y como se menciona en la [documentación](https://www.tensorflow.org/api_docs/python/tf/tensordot?authuser=1) de TF

> When `a` and `b` are matrices (order 2), the case `axes=1` is equivalent to matrix multiplication.



## Cambiar el `datatype` de un tensor (`tf.cast`)

Dependiendo de la precisión que uno desee tener en los datos, se puede cambiar arbitrariamente el tipo de dato. Si se quiere tener poca precisión, se puede usar un `16 bit` de punto flotante frente uno de `32 bit`.

Cambiar el tipo de dato se lleva a cabo con `tf.cast()`

In [68]:
# Crear un nuevo tensor con float32 por default


In [69]:
# Crear un nuevo tensor con int32 por default


In [70]:
# Cambiar de float32 a float16


In [71]:
# Cambiar de int32 a float32


## Obtener valor absoluto

La operación de obtener valor absoluto es con `tf.abs()`

In [72]:
# Crear un tensor con valores negativos


In [73]:
# Obtener el valor absoluto


## Encontrar Mínimo, Máximo, Promedio y Sum

Las cuatro funciones de esta subsección nos serán de gran utilidad cuando obtengamos las probabilidades de una predicción, así como las propias predicciones. 

En una red neuronal, se obtiene inicialmente una probabilidad, que despúes se transforma a una etiqueta `0` o `1` en el caso binario, dado un umbral de decisión, por ejemplo. Esto es algo que veremos en futuros notebooks, por el momento, es útil saber para qué se utiliza cada funcionalidad.

Por lo tanto, tenemos que:
* `tf.reduce_max()`- encuentra el mínimo valor de un tensor
* `tf.reduce_min()`- encuentra el máximo valor de un tensor
* `tf.reduce_mean()`- obtiene el promedio de todos los elementos en un tensor
* `tf.reduce_sum()`- obtiene la suma de todos los elementos en un tensor

🚨 **Atención:** en algunos casos, se tendrá que utilizar ``tf.math` para invocar cada uno de los métodos anteriores.

In [74]:
# Crear un tensor con 50 valores aleatorios entre 0 y 100


In [75]:
# Encuentra el mínimo


In [76]:
# Encuentra el máximo


In [77]:
# Promedio del tensor


In [78]:
# Suma de todos los elementos


🔑 **Nota:** Cuando ocupamos cualquiera de las funciones de arriba, no regresa un número exactamente, sino una *lista* con características. Para obtener únicamente el número, se ocupa el `.numpy()` como en el siguiente ejemplo:

In [79]:
# Obtener únicamente el valor numerico


## Encontrar las posiciones de máximo y mínimo

A diferencia de obtener los valores mínimos y máximos, ahora queremos saber en qué posición se encuentran esos mínimos y máximos. Esto nos será útil para obtener las predicciones finales de un modelo. Imagina lo siguiente:

> Estamos entrenando una red neuronal para que coches con conducción automática detecten cuando la luz en el semáforo es verde, amarilla o roja, por lo que tenemos una lista `[verde, amarillo, rojo]`. Una vez entrenada, le pasamos una foto a nuestra red neuronal de un semaforo en rojo, lo que arroja es lo siguiente:
```
pred = [0.87, 0.04, 0.09]
```
el modelo indíca a través de una lista, la probabilidad de que sea una u otra clase o color del semáforo. Observa que todas suman `1`, y que no hay un *es verde* absoluto por parte del modelo. La forma de interpretar ese resultado es decir:
* El modelo está seguro en un 87% de que el semáforo de la foto está en verde
* El modelo está seguro en un 4% de que el semáforo de la foto está en amarillo
* El modelo está seguro en un 9% de que el semáforo de la foto está en rojo
Por lo tanto, necesitamos obtener la posición de la probabilidad más alta (`0`, `1` o `2`) lo cual se traduce en `[verde, amarillo, rojo]`

No te preocupes si suele ser confuso este primer ejemplo, cuando lleguemos a hacer redes neuronales quedará más claro. Por el momento, es importante saber que con
* `tf.argmax()` - se obtiene la posición con el valor más alto
* `tf.argmin()` - se obtiene la posición con el valor más pequeño


In [80]:
# Crear un tendor con valores aleatorios entre 0 y 1


In [81]:
# Posición con el valor más alto


In [82]:
# Posición con el valor más bajo


In [83]:
# Obtener valor más alto (similar a tf.reduce_max())


In [84]:
# Obtener valor más bajo (similar a tf.reduce_min())


## Squeezing (remover dimensiones de un tensor)


Un par de líneas arriba veiamos que podíamos añadir dimension con `tf.expand_dims()` sin modificar el propio contenido de un tensor. Ahora bien, imagina que tenemos:

```
x = [[0.9, 0.8, 0.5]]
```

Si nosotros quisieramos acceder al valor `0.9`, no bastaría con indexar una vez, sino dos
```
x[0][0]
```

ya que tenemos una lista dentro de otra lista. Para quitar esa dimensión extra, o encapsulado *extra* que tenemos de la lista más incrustada, ocupamos `tf.squeeze()`. 

Teóricamente, en Deep Learning veremos que añadir dimensiones será útil cuando nuestro clasificador no es tan bueno (por ejemplo [**the kernel trick**](https://medium.com/@zxr.nju/what-is-the-kernel-trick-why-is-it-important-98a98db0961d)), y en otras ocasiones, estará tan saturado de dimensiones que lo mejor será ayudarlo quitando un poco de peso.

In [85]:
# Crea un tensor de rank 5 con numeros entre 0 y 100


In [86]:
# Obten shape y numero de dimensionses


Tenemos varias dimensiones extra, o lo que es igual a tener una lista, dentro de otra lista, dentro de otra lista, dentro de otra lista, dentro de toda una lista final.

In [87]:
# Aplica squeeze y observa cómo ha cambiado el shape


## Raíces y logaritmos

In [88]:
# Crear un nuevo tensor


In [89]:
# Eleva al cuadrado cada elemento


In [90]:
# Encuentra la raíz cuadrada 
# necesitamos cambiar el tipo de dato a float 32

In [91]:
# Log


## Categorical encoding: One hot y LabelEncoder

Hasta ahora hemos visto cómo trabar con datos puramente numéricos. En la realidad, no es así, ya que debemos de poder trabajar con variables categóricas. Para ello, necesitamos transformas auqellas categorias en tipo numérico. Por ejemplo, imagina que tenemos el siguiente arrego:
```
y = ["perro", "gato", "caballo"]
```

Si ocupamos un `tf.one_hot()` aplicado a `y`, obtendriamos lo siquiente: 
```
perro = [1,0,0]
gato = [0,1,0]
caballo = [0,0,1]
```


In [92]:
# Crea un tensor de índices


# One hot encode
# depth extiende hacia la derecha

🔑 **Nota:** Tenemos dos aspectos. El primero, es que un *one-hot encoding* sirve para **evitar** que el modelo piense que $0 < 1 < 2 < 3 < 4$; por ejemplo, si $0$ hiciera referencia a *región 0*, $1$ a *región 1*, y así sucesivamente, el modelo **no entendería** que una región es menos o más que la otra. 

El segundo aspecto, es que TensorFlow no permite codificar variables categóricas. Para ello ocuparemos [`scikit learn`](https://scikit-learn.org/stable/) la cual es una librería para Machine Learning (así como existe Keras, TensorFlow o Pytorch para Deep Learning, Scikit learn sirve para crear modelos tales como árboles de decisión en alto nivel)


In [93]:
# Importa de scikit learn Label Encder y One hot encoder


In [94]:
# Declara el encoder con una excepeción


In [95]:
# Arreglo x con categorias


In [96]:
# Ajusta las categorias al encoder


# Transformalo en arreglo


In [97]:
# Inversión del codificador 


Ahora bien, si necesitamos codificar valores que si son cardinales, es decir, que $0 < 1 < 2 < 3$, por ejemplo, usamos `LabelEncoder`

In [98]:
# Declaramos el codificador


In [99]:
# Lista con paises


# Ajusta codificador a lista


# Transforma en arreglo


In [100]:
# Inversa de valores


En resúmen, si el orden no importa ya que las observaciones son independientes, se usa `One-hot encoding`, pero si existe cardinalidad, se usa `LabelEncoder`

# Resumen del notebook

Durante este notebook hemos visto 