# 1. Deep Learning

Bienvenidos al módulo de Deep Learning. En esta sesión vamos a ver una breve introducción con las diferencias entre Inteligencia Artificial, Machine Learning y Deep Learning. También hablaremos un poco de cuanto tiempo lleva este mundillo en marcha, e introduciremos el gradient descent, el pilar fundamental de las redes neuronales.

En la segunda parte empezaremos a trabajar con TensorFlow, y al terminar, habréis implementado vuestra **primera red neuronal**!

Aquí tenéis el temario que cubriremos hoy:

**Introducción**
* Del Machine Learning al Deep Learning
* Contexto histórico
* Herramienta: Google Colab
* Descenso del gradiente

**Introducción a TensorFlow**
* Grafos, variables, operaciones
* Resolución de problemas con TensorFlow
* Mi primera red neuronal en TensorFlow

¿Qué os parece? ¿Tenéis ganas?

**¡Vamos allá!**

## 1.1. Introducción. Del Machine Learning al Deep Learning.

¿Qué es el Deep Learning? ¿En qué se diferencia del Machine Learning? ¿Y de la Inteligencia Artificial?

<a href="https://ibb.co/hWqjG7"><img src="https://preview.ibb.co/cETFOn/AI_ML_DL.png" alt="IA engloba ML, que a su vez engloba DL" border="0"></a>

**Inteligencia artificial:** 

La IA consiste en conseguir que las máquinas realicen tareas que requieren de la inteligencia humana. Se puede dividir en dos campos:

*   *General AI*: consiste en dotar a las máquinas de todas nuestras capacidades y sentidos. Por ejemplo, C-3PO o Terminator. Tranquilos, todavía queda muuuucho para ver algo parecido a Skynet por aquí.
*   *Narrow AI*: consiste en dotar a las máquinas de la capacidad de desarrollar una determinada tarea, como por ejemplo, reconocer caras, señales de tráfico, el habla, etc. Es en este campo donde actualmente se están observando grandes avances.

**Machine Learning:**

El Machine Learning o aprendizaje máquina es un **subcampo dentro de la Inteligencia Artificial**. Básicamente, consiste en **utilizar una gran cantidad de datos para extraer información útil para las personas**. Por ejemplo, imaginaos que disponemos de los últimos resultados de La Liga y queremos ser capaces de predecir el resultado del próximo Clásico. Primero, necesitariamos *parsear* los datos, limpiarlos, eliminar las entradas incompletas, estudiar la distribución de las variables y elegir las características o atributos (*feature engineering*) que nos permitieran predecir este resultado con la mayor precisión posible. Una vez tuviésemos claro cuales son las mejores características a utilizar, necesitaríamos encontrar el mejor algoritmo posible para nuestro dataset.

La **elección de las características**, que a priori puede llegar a parecer sencillo, es el paso **más complicado y costoso** y, además, requiere de un alto grado de conocimientos sobre el problema en cuestión y sobre técnicas de extracción de características.

**Deep Learning:**

El aprendizaje profundo o Deep Learning es un subcampo del **Machine Learning**, y soluciona el problema anterior de la elección de características. También llamado aprendizaje jerárquico, ***aprende*** distintas **representaciones de los datos** que son introducidas a un clasificador final.

La magia está en que ya no necesitamos volvernos locos buscando las mejores características o atributos para cada problema, si no que esto lo hace **automáticamente** nuestro algoritmo.


Por último, cabe destacar la importancia de tener una gran cantidad de datos para poder utilizar técnicas de ML o DL. Además, cuanta más calidad tengan esos datos, mejor se comportaran nuestros modelos.

*“I think AI is akin to building a rocket ship. You need a huge engine and a lot of fuel. If you have a large engine and a tiny amount of fuel, you won’t make it to orbit. If you have a tiny engine and a ton of fuel, you can’t even lift off. To build a rocket you need a huge engine and a lot of fuel.”*

– Andrew Ng (source: Wired)

Que traducido quiere decir:

*Creo que la IA es parecido a construir un cohete espacial. Necesitas un motor enorme y mucho combustible. Si tienes un motor enorme pero poco combustible, no conseguirás poner el cohete en órbita. Si tienes un pequeño motor y un montón de combustible, no podrás ni despegar. Para construir un cohete espacial necesitas un motor enorme y un monton de combustible.*

Así que ya sabéis, no solo es importante el algoritmo que utilicemos, sino los datos de los que dispongamos.

¿Y por qué **deep** learning?

<img src="https://www.tensorflow.org/images/wide_n_deep.svg" border="0" height="300">

Porque realizamos muchas transformaciones a los datos que tenemos, una detrás de la otra, de una forma secuencial, hasta que llegamos a la representación de esos datos en la que somos capaces de diferenciar los datos conforme nosotros queremos.

Aquí tenéis un muy buen ejercicio que podéis hacer cuando tengáis un rato: https://www.tensorflow.org/tutorials/wide_and_deep

### 1.1.1. Contexto histórico

Probablemente muchos de vosotros penséis que esto del Deep Learning y las redes neuronales es una novedad, pues nada más lejos de la realidad! De hecho, la primera red neuronal data de 1958!! Lo que pasa es que no había potencia de cálculo suficiente para poder progresar hasta hace relativamente poco, con la popularización de las GPUs de altas prestaciones. Así que... gracias gamers!!

Por si tenéis curiosidad, estas son las cosas más importantes que han ido pasando dentro del campo de la IA:

<img src="https://image.ibb.co/mEVbA8/timeline_deep_learning.png" alt="timeline_deep_learning" border="0">

*   **1950**: Alan Turing crea el **Test de Turing**
*   **1952**: Arthur Samuel crea el primer programa que **aprende** partida tras partida a jugar a las Damas
*   **1956**: Martin Minsky acuña el término **"Artificial Intelligence"** para referirse a este nuevo campo
*   **1958**: Frank Rosenblatt diseña el Perceptrón, **la primera red neuronal artificial**. HACE **60 AÑOS!!!**

Como podéis ver, la Inteligencia Artificial no es ni mucho menos nueva, lleva mucho tiempo entre nosotros, sufriendo altibajos debidos a las altas expectativas depositadas y los "pocos" avances conseguidos.

Desde 1974 hasta nuestros días, se han producido varios "inviernos" y "primaveras".

<a href="https://imgbb.com/"><img src="https://image.ibb.co/b3ih3n/AI_winter.jpg" alt="Winter is coming" border="0"></a>

Algunos de los hechos más relevantes hasta 2006 son estos:

*   **1967**: Nace el campo del reconocimiento de patrones con la aparición del algoritmo **"Nearest Neighbor"**
*   **1979**: Crean el Stanford Cart, un **robot capaz de navegar automáticamente por una habitación evitando obstáculos**
*   **1981**: Gerald Dejong introduce el "Explanation Based Learning", el precursor del Machine Learning. El ordenador **analizaba datos** de entrenamiento y creaba reglas **para descartar los datos menos importantes**
*   **1985**: Terry Sejnowski inventa NetTalk, un algoritmo capaz de **aprender a pronunciar palabras** como lo haría un niño
*   **1990s**: **Cambia el paradigma del Machine Learning**: de un enfoque orientado al conocimiento, a uno **orientado al dato**. Empiezan a extraer conclusiones de grandes cantidades de datos.
*   **1997**: **DeepBlue derrota a Kaspárov** por primera vez.

Tras esta época de luces y sombras, y gracias, entre otras cosas, a la disponibilidad de mucha más potencia de cálculo y de datos, desde 2006 hasta la fecha ha habido una explosión del Machine Learning.

*   **2006**: Aparecen las **arquitecturas profundas**, acuñadas como Deep Learning por Geoffrey Hinton
*   **2011**: **Watson IBM vence** a sus competidores **humanos** en el concurso Jeopardy
*   **2012**: Geoffrey Hinton gana por goleada el concurso de **ImageNet** con una red neuronal profunda
*   **2012**: En Google X crean GoogleBrain, capaz de **detectar gatos en videos**
*   **2014**: Facebook desarrolla DeepFace, capaz de **reconocer caras de humanos con una precisión de 97.25%**, solo un 0.28% por debajo de un ser humano
*   **2014**: Google compra DeepMind, una stertup inglesa que había creado un algoritmo capaz de **aprender a jugar con juegos Atari simplemente viendo el video**
*   **2014**: Aparecen las **GANs (Generative Adversarial Networks)**, capaces de generar contenido falso que no lo parece, cambiando para siempre la percepción de "real" (deep fakes).
*   **2015**: Elon Musk y Sam Altman crean OpenAI para **promover el bueno uso de la IA**
*   **2016**: **Google DeepMind vence** por primera vez en el **juego Go, consiguiendo movimientos creativos**

### 1.1.2. Google Colab

La plataforma en la que os encontráis se llama **Google Colab**. Va a ser a la vez nuestro *notebook* y nuestra IDE, ya que nos permite aprovechar que por el momento Google ofrece GPUs **NVIDIA K80** de forma **gratuita** (maravilloso, no?), que es donde ejecutaremos nuestros desarrollos.

Cualquiera con una cuenta de Google puede crear un nuevo notebook y empezar a disfrutarlo! A lo largo del curso iremos viendo lo necesario para que aprendáis a manejarlo con soltura, así que no tenéis por qué preocuparos si es la primera vez que lo véis. Y si habéis trabajado antes con Jupyter, esto es lo mismo!

Lo único que tenéis que hacer todos para aprovechar la GPU es ir a **Edit**, en la barra de herramientas, y luego a **Notebook settings**. Os aparecerá esta pantalla, la cual tiene que quedar igual que en la imagen. Debéis seleccionar Python 3 y GPU, y luego darle a **Save**.

<a href="https://ibb.co/ceoX3n"><img src="https://preview.ibb.co/mQEi9S/notebook_config.png" alt="Notebook configuration" border="0"></a>

### 1.1.3. El descenso del gradiente: el culpable de que existan las redes neuronales

El mecanismo que hace que una red neuronal aprenda es el descenso del gradiente. Como posiblemente ya sabréis los más curiosos, las redes neuronales se entrenan actualizando una serie de pesos, y conforme más se entrenan, más se acercan a una buena solución. ¿Os suena esto de algo?


¿No?


¡Estamos optimizando funciones! En efecto, siento desilusionaros, pero las redes neuronales no son otra cosa que un método, muy ingenioso y potente, eso sí, de **optimizar funciones**. Y nuestro mejor amigo se llama **Descenso del gradiente**, que es lo que en gran medida ha permitido que podamos entrenar redes con millones de parámetros y vivir para verlo!

**¿Pero qué es el descenso del gradiente?**

Vamos a imaginarnos que estamos en lo alto de una montaña y que hay una niebla tremenda, con lo cual no somos capaces de ver más allá de nuestras narices, literalmente. Lo que queremos lógicamente es llegar abajo del todo, donde hay un bar estupendo con una cervecita bien fría esperándonos. Aunque más de uno puede que haya saltado ya y no le importe bajar rodando, para aquellos más cautos, os voy a explicar cómo lo vamos a hacer. Poneos en situación. Estáis en el punto más alto y no veis nada, ¿cómo lo hacéis para bajar la montaña?

<img src="https://image.ibb.co/jhnVbJ/mountain.png" alt="mountain" border="0" height="300">

¿Ningún valiente? Ya he dicho que rodando no nos vale.

¿Y si damos un pequeño paso en cada una de las 4 direcciones (este, oeste, norte y sur) y elegimos aquella en la que más bajamos para dar un paso? ¿Y si volvemos a realizar esta operación una y otra vez? Podríamos hacer esto hasta que no consiguieramos bajar en ninguna de las 4 posibles orientaciones. Entonces, en teoría, deberíamos haber llegado abajo.

¿Qué? ¿No os termina de convencer verdad? Eso de dar 4 pasos a ver cual es mejor... no pareece muy eficiente ¿verdad? ¿Se os ocurre alguna forma de mejorar esto? Ojalá hubiese alguna forma de saber qué pendiente hay en cada punto, no? eso nos permitiría avanzar siempre hacia donde más pendiente hubiera.

¿Os suena esto de algo? ¿Cómo podemos averiguar la pendiente de una función?

¡Eso es! ¡Calculando la **derivada**!

¿Os acordáis de qué es lo que indica la derivada de una función? ¿Os acordáis de cómo se calculan?

$f'(x) = \frac{f(x+h)-f(x-h)}{2}$, cuando $h\to 0$.

La primera derivada de una función mide la rapidez con que cambia una función, es decir cuanto crece o decrece. Así que lo que podemos hacer es **calcular la pendiente para cada punto al que llegamos seguir bajando esa pendiente hasta un punto mínimo**.

<img src="https://image.ibb.co/cXGCqd/mountain_gd.png" alt="mountain_gd" border="0" height="300"> <img src="https://image.ibb.co/ganZLd/gradient_descent_2.png" alt="gradient_descent_2" border="0" height="300">

Pues si amigos, esto taaaan sofisticado es el algoritmo del descenso del gradiente, y os puedo decir que es **el corazón de las redes neuronales**.

Para aquellos de vosotros que os gusten más las matemáticas que las montañas, podéis ver el descenso del gradiente como un algoritmo de optimización que permite **minimizar cualquier función** (siempre que sea **diferenciable**, es decir, que podamos calcular sus derivadas). De hecho, la idea es muy similar a aquellos problemas de optimización a los que muy posiblemente os hayáis enfrentado en alguna clase de matemáticas a lo largo de vuestras vidas. Y para muestra, un botón:

<center><img src="http://www.cs.us.es/~fsancho/images/2017-02/gradient_descent.gif" border="0"></center>

Este algoritmo tiene variaciones (vanilla gradient descent, batch gradient descent, stochastic gradient descent, etc), pero todos parten de la misma idea base, la que os acabo de explicar.

## 1.2. Introducción a TensorFlow

Como muchos de vosotros ya sabréis, TensorFlow es un framework desarrollado y mantenido por Google que permite la ejecución de operaciones matemáticas de una forma optimizada en una CPU o GPU. En nuestro caso estamos más interesados en la GPU, ya que es la única forma que tenemos de entrenar una red neuronal profunda y no morir de viejos esperando ;)

¿Por qué tensorflow?

* Por su **flexibilidad y escalabilidad**

* Por su **popularidad**

<img src="https://image.ibb.co/mCJNqd/tf_pop.png" alt="tf_pop" border="0" height="300"> <img src="https://image.ibb.co/bBDYwJ/tf_users.png" alt="tf_users" border="0" height="300">


Más adelante comprenderemos por qué es tan importante disponer de un buen framework que nos permita realizar operaciones de la forma más rápida posible. De momento, vamos a trabajar un poco con TensorFlow hasta que nos familiaricemos con su modo de funcionar. Pero antes, algunas de sus características más importantes:

*    TensorFlow utiliza **tensores** para realizar las operaciones.
*    En TensorFlow, primero se definen las operaciones a realizar (construimos el **grafo**), y luego se ejecutan (se ejecuta el grafo)
*    Permite ejecutar el código implementado **paralelamente** o en una o varias GPUs, a elección del usuario

Vale, pero **¿qué es un tensor?**

Aunque los tensores los inventaron los físicos para ser capaces de describir interacciones, en el ámbito de la IA se pueden entender simplemente como **contenedores de números**.

<a href="https://ibb.co/bBCyb7"><img src="https://image.ibb.co/fnFvOn/tensores.png" alt="tensores" border="0"></a>

Vamos a ver algunos ejemplos con tensores!

Y así podríamos seguir hasta el infinito añadiendo dimensiones a nuestros tensores para ser capaces de guardar más datos. Para que os hagáis una idea de cómo se suelen utilizar en el mundo del Deep Learning, los tipos más comunes de tensores son:

*    **Tensores 3D**: utilizados en **series temporales**
*    **Tensores 4D**: utilizados con **imágenes**
*    **Tensores 5D**: utilizados con **videos**

Normalmente, siempre habrá una de las dimensiones que se utilizará para almacenar las muestras de cada tipo de datos. Por ejemplo, con las imágenes:

Si queremos almacenar 64 imágenes RGB de 224x224 píxels, necesitaremos un vector de matrices 3D, o lo que es lo mismo, un tensor 4D. ¿Quién sabría decirme las dimensiones que tendría nuestro vector de matrices 3D?

Tenemos 64 imágenes de 224 pixels x 224 pixels x 3 canales (R, G y B). 

Por tanto: (64, 224, 224, 3)

De acuerdo, pues ya sabemos qué es un tensor y para que sirve: ¡para mantener las notas de vuestros exámenes bien guardadas! ;D

Si queréis profundizar en los tensores o más ejemplos, aquí tenéis un recurso muy bueno para ello (en inglés): [Tensors ilustrated with cats](https://hackernoon.com/learning-ai-if-you-suck-at-math-p4-tensors-illustrated-with-cats-27f0002c9b32)

### Ejemplo de carga de dataset externo

¿Y por qué son importantes los tensores? Porque van a ser las estructuras de datos que utilizaremos para entrenar nuestras redes.

Vamos a ver un ejemplo de cómo podríamos cargar un dataset de imágenes junto con sus etiquetas.

Para este ejemplo vamos a utilizar imágenes provenientes de escáneres de pulmón para tratar de predecir el Covid-19. Los datos son públicos y están disponibles en el siguiente enlace:

https://github.com/UCSD-AI4H/COVID-CT

Este dataset consta de imágenes de pacientes patológicos y sanos. Para hacer el ejemplo más sencillo, vamos a tratar con las imágenes correspondientes a Covid19 únicamente.

In [0]:
# Para ello, lo primero es decargarnos el dataset
!wget -O CT_Covid.zip https://github.com/UCSD-AI4H/COVID-CT/blob/master/Images-processed/CT_COVID.zip?raw=true

In [0]:
# comprobamos que tenemos el dataset descargado
!ls -lah

In [0]:
# lo descomprimimos
!unzip CT_Covid.zip

In [0]:
# ahora que ya lo tenemos descomprimido, tenemos que listar la carpeta donde se 
# encuentran todas las imágenes para después poder cargarlas. Existen varias
# formas de hacer esto, y algunas son más eficientes que otras. Por ejemplo:

# images = []
# for img in list_imgs:
#     images.append(load_image(img))

# Esté método es el más lento que podemos utilizar, ya que cada vez que añadamos 
# una nueva imagen, Python creará una nueva lista y copiará el contenido de la
# anterior, así que no es el método más adecuado.

# Por el contrario, este es mucho mejor, ya que no se crean nuevas listas,
# simplemente se accede a posiciones determinadas y se insertan los datos:

# n_images = len(list_imgs)
# images = np.zeros((n_images, height, width, channels), dtype=np.uint8)
# for i, img in enumerate(list_imgs):
#     images[i] = load_image(img)

# Sin embargo, éste segundo método tiene un inconveniente: neceistamos que
# todas las imágenes tengan el mismo tamaño, algo que no siempre pasa en
# los datasets reales: tendremos que redimensionarlas.

# Vamos a cargarlas siguiendo los dos métodos para que veais las diferencias.
# Para ver el tiempo que tarda cada una utilizaremos la librería TQDM, que 
# crea una barra de progreso y nos informa de los tiempos.

In [0]:
# listamos el directorio
import glob
list_imgs = ## Aquí tu código ##
n_images = len(list_imgs)
print(n_images, 'images were loaded!')

In [0]:
# Perfecto, tenemos las 349 CTs que hay disponibles en el dataset. 
# Ahora, vamos a cargarlas, pero primero necesitamos saber las dimensiones
# de las imágenes. Para ello, vamos a utilizar OpenCV.

import cv2

for img_path in list_imgs:
    img = ## Aquí tu código ##
    print(## Aquí tu código ##)

In [0]:
# Fijaos que las imágenes tienen tamaños diferentes. Ahora, tenemos dos opciones:
#
# - Redimensionar las imágenes al mismo tamaño, sin mantener el ASPECT RATIO.
#   Es el método más sencillo, pero distosionará las imágenes, por lo que puede
#   hacer que nuestro modelo no sea todo lo bueno que podría ser.
#
# - Redimensionar las imágenes al mismo tamaño, manteniendo el ASPECT RATIO.
#   Para ello, podemos redimensionar las imágenes al tamaño deseado y luego 
#   rellenar "los huecos" con algún valor constante, normalmente, 0.
#
# En este caso, por simplicidad, vamos a hacer la primera opción.


In [0]:
from tqdm import tqdm

# creamos la estructura de datos donde almacenaremos las imágenes cargadas
images = []

# implementamos el bucle que recorrerá la lista e irá cargando las imágenes,
# redimensionándolas y añadiéndolas a nuestra estructura de datos
for i, img_path in enumerate(tqdm(list_imgs)):
    img = ## Aquí tu código ##
    # opencv carga por defecto las imágenes en modo BGR
    # esto lo tenemos que tener en cuenta, ya que si entrenamos
    # el modelo con imágenes BGR, luego tendremos que alimentarlo
    # con imágenes del mismo tipo para que el modelo funcione 
    # correctamente.
    img = ## Aquí tu código ##
    # la redimensionamos a 96x96 (este tamaño es arbitrario porque es un ejemplo,
    # en un caso real, estudiaríamos el tamaño que menos distorsiona la mayoría
    # de las imágenes)
    img = ## Aquí tu código ##
    # aquí incluiríamos los pasos de preprocesamiento que quisiésemos, por ejemplo:
    # img = img / 255.  # normalizamos la imagen entre 0 y 1
    # img = mi_funcion_random_crop(img)  # cortamos un trozo aleatoriamente
    # añadimos la imagen a nuestra estructura de datos
    images.append(img)

print('Loading completed!')

In [0]:
type(images)

In [0]:
type(images[0])

In [0]:
images[0].shape

In [0]:
# En el caso de cargar las imágenes así, tenemos que convertirlas a un TENSOR 4D
# de N_Imágenes x Alto x Ancho x Canales. Ahora mismo es una lista de TENSORES 3D,
# para convertirlo a Tensor 4D simplemente tenemos que hacer uso de la función
# np.stack:

images = ## Aquí tu código ##

In [0]:
type(images)

In [0]:
images.shape

In [0]:
import numpy as np

# creamos la estructura de datos donde almacenaremos las imágenes cargadas
images = ## Aquí tu código ##

# implementamos el bucle que recorrerá la lista e irá cargando las imágenes,
# redimensionándolas y añadiéndolas a nuestra estructura de datos
for i, img_path in enumerate(tqdm(list_imgs)):
    img = ## Aquí tu código ##
    # opencv carga por defecto las imágenes en modo BGR
    # esto lo tenemos que tener en cuenta, ya que si entrenamos
    # el modelo con imágenes BGR, luego tendremos que alimentarlo
    # con imágenes del mismo tipo para que el modelo funcione 
    # correctamente.
    img = ## Aquí tu código ##
    # la redimensionamos a 96x96 (este tamaño es arbitrario porque es un ejemplo,
    # en un caso real, estudiaríamos el tamaño que menos distorsiona la mayoría
    # de las imágenes)
    img = ## Aquí tu código ##
    # añadimos la imagen a nuestra estructura de datios
    images[i] = ## Aquí tu código ##

print('Loading completed!')

In [0]:
# En este caso no se nota la diferencia porque son pocas imágenes, pero cuando
# trabajéis con grandes cantidades de datos podréis ver la diferencia.

# Ahora que ya los tenemos cargados, vamos a estudiar un poco la estructura de datos
images.shape

In [0]:
images.min()

In [0]:
images.max()

In [0]:
images.dtype

In [0]:
# Si os fijáis, nuestros datos son de tipo float64, y van de 0 a 255. 
# Normalmente, cuando trabajamos con imágenes, solemos trabajar con datos de 
# tipo uint8 que van de 0 a 255, o float que van de 0 a 1.
# Vamos a convertir nuestra imagen a de 0 a 1.
images = ## Aquí tu código ##

In [0]:
images.min()

In [0]:
images.max()

Pues así de fácil es como podemos preparar los datos para alimentar nuestra red neuronal y entrenarla :)

Más adelante veremos cómo definir nuestra red neuronal y cómo entrenarla.



Si a alguien le interesa el tema del Covid19, este enlace es un buen recurso para obtener más datos y conocer el estado del arte: https://aimi.stanford.edu/resources/covid19.

##¿Qué es un grafo?

Antes os he comentado que en TensorFlow, primero se definen las operaciones a realizar y luego se ejecutan. Para ello, se usa un grafo.


Un ejemplo sencillo de una suma de a + b.

<img src="https://image.ibb.co/nkwp3y/tf_graph_2.png" alt="tf_graph_2" border="0" height="200">

Y aquí tenéis un ejemplo un poco más complicado, para los valientes:

![alt text](https://www.tensorflow.org/images/tensors_flowing.gif)

Es un ejemplo de un grafo que representa la clasificación de una imagen de un número en su correspondiente clase. No es necesario que entendáis lo que está ocurriendo, simplemente que tensorflow funciona así: primero tu defines las operaciones que quieres que se realicen, junto a las variables necearias (creas el grafo) y luego lo ejecutas (con una sesión). Pero basta de cháchara, ¡vamos a ponernos manos a la obra!


In [0]:
# Ejemplos con TensorFlow

In [0]:
# Lo primero que necesitamos hacer es asegurarnos de que vamos a ejecutar la 
# versión 1.x de TensorFlow. Hace aproximadamente un año salió la versión
# 2.0, que establece por defecto el "EagerMode" para hacer más sencilla la 
# implementación y depuración de código. 

# No obstante, al igual que pasó en su día con Python 2 y Python 3, con tensorflow
# ha pasado algo similar: la versión 1.x se sigue utilizando mucho. Algunas de 
# las razones son la retro-compatibilidad y la rapidez de ejecución. En este 
# curso veremos ejemplos de ambos casos.

# Vamos a ver qué versión es la que tenemos:
import tensorflow as tf
print(tf.__version__)

In [0]:
# Desde el 27 de marzo de 2020, Google Colab tiene activada por defecto la versión
# 2.x. Para poder usar la 1.x debemos utilizar el siguiente comando mágico: 

%tensorflow_version 1.x

# Al haber cargado tensorflow ya, lo más probable es que os pida reiniciar el 
# runtime para poder cambiar la versión, si es así, lo reiniciáis y volvéis a 
# ejecutar el comando. Este es el mensaje que suele aparecer cuando esto sucede:
# "TensorFlow is already loaded. Please restart the runtime to change versions."

# Si todo va bien, esto es lo que deberíais ver:
# "TensorFlow 1.x selected."

In [0]:
# Vamos a comprobar qué versión tenemos ahora:
import tensorflow as tf
print(tf.__version__)

In [0]:
# Ya estamos preparados para empezar!

# Lo primero que debemos hacer es importar el paquete de Tensorflow
import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt # importamos también pyplot para gráficas
%matplotlib inline

# Es muy importante que conozcamos 3 conceptos básicos de TF:
# tf.Graph: representa un conjunto de tf.Operations
# tf.Operation: son las operaciones indicadas por las ecuaciones que escribimos
# tf.Tensor: los resultados de las tf.Operations

# En un principio, el tf.Graph es transparente a nosotros, ya que por defecto
# existe uno donde se van añadiendo todas las operaciones que definimos:
# tf.get_default_graph()

In [0]:
# Para poder visualizar el grafo ERA necesario definir un par de funciones que 
# lo permitan. Para que veáis a que nivel TF puede llegar a ser un incordio,
# las he dejado aquí.

from IPython.display import clear_output, Image, display, HTML

def strip_consts(graph_def, max_const_size=32):
    """Strip large constant values from graph_def."""
    strip_def = tf.GraphDef()
    for n0 in graph_def.node:
        n = strip_def.node.add() 
        n.MergeFrom(n0)
        if n.op == 'Const':
            tensor = n.attr['value'].tensor
            size = len(tensor.tensor_content)
            if size > max_const_size:
                tensor.tensor_content = "<stripped %d bytes>"%size
    return strip_def

def show_graph(graph_def, max_const_size=32):
    """Visualize TensorFlow graph."""
    if hasattr(graph_def, 'as_graph_def'):
        graph_def = graph_def.as_graph_def()
    strip_def = strip_consts(graph_def, max_const_size=max_const_size)
    code = """
        <script>
          function load() {{
            document.getElementById("{id}").pbtxt = {data};
          }}
        </script>
        <link rel="import" href="https://tensorboard.appspot.com/tf-graph-basic.build.html" onload=load()>
        <div style="height:600px">
          <tf-graph-basic id="{id}"></tf-graph-basic>
        </div>
    """.format(data=repr(str(strip_def)), id='graph'+str(np.random.rand()))

    iframe = """
        <iframe seamless style="width:1200px;height:620px;border:0" srcdoc="{}"></iframe>
    """.format(code.replace('"', '&quot;'))
    display(HTML(iframe))

In [0]:
# Ahora, desde TF 1.13, podemos hacer uso del comando mágico: %tensorboard
# Pero primero, tenemos que guardar el grafo:
writer = tf.summary.FileWriter("output", tf.get_default_graph())
writer.close()

In [0]:
# ahora sí, visualizamos el grafo recien construido:
%load_ext tensorboard
%tensorboard --logdir output

In [0]:
# También podemos ver la definición del grafo
print(tf.get_default_graph().as_graph_def())

Para los que no la recordéis, la fórmula de la distribución de probabilidad de Gauss es así:

<img src="https://image.ibb.co/hTyQbJ/normal_fdp.png" alt="normal_fdp" border="0">

La gráfica la vamos a poder ver enseguida.

Como os he comentado antes, una red neuronal no es otra cosa que un optimizador de funciones. ¿Y para qué podríamos utilizar este optimizador de funciones? Vamos a ver un ejemplo.

### Problema

Netflix ha decidido colocar otro de sus famosos carteles publicitarios en un edificio.

<img src="https://image.ibb.co/c199mJ/cartel_netflix.jpg" alt="cartel_netflix" border="0" width="300">

Han decidido que el cartel publicitario tiene que cubrir una superficie de 600 metros cuadrados, debjando un margen de 2 metros arriba y abajo y de 4 metros a izquierda y derecha para publicidad. Sin embargo, no les han comunicado las dimensiones de la fachada del edificio. Podríamos mandar un email al propietario y preguntarle, pero como sabemos matemáticas podemos ahorrárnoslo. ¿Cómo podemos averiguar las dimensiones del edificio?

<img src="https://image.ibb.co/iq5qRJ/opt_problem.png" alt="opt_problem" border="0" width="400">

### Problema

En este caro, queremos encontrar el mínimo de la función y=log²(x)

In [0]:
# Hallar el mínimo de la función y=log(x)^2


### Problema

Veamos como ajustar una recta a un conjunto de datos que representan la inteligencia de cada uno de los personajes de Los Simpsons, desde Ralph Wiggum hasta el Doctor Frink.

<img src="https://image.ibb.co/kXFbyn/ralph.gif" alt="ralph" border="0" height=200>&nbsp;
<img src="https://image.ibb.co/nMK1yJ/frink.gif" alt="frink" border="0" height=200>

In [0]:
# Problema inteligencias


### Problema

Veamos ahora cómo clasificar imágenes de dígitos con una regresión logística.

Vamos a utilizar el archiconocido dataset MNIST, que es como el "Hola mundo" de los datasets:

<img src="https://image.ibb.co/gkZAD8/mnist.jpg" alt="mnist" border="0" height="300">
<img src="https://image.ibb.co/kgLyOT/mnist_image.png" alt="mnist_image" border="0" height="300">

In [0]:
# Problema MNIST


<img src="https://image.ibb.co/kzdu17/perceptron_schematic.png" alt="perceptron_schematic" border="0">
