# Introducción a la Inteligencia Artificial


<img src="images/Cartoon_Robot.svg.png" width="200"/>

---
Fernando Izco García  (fernando.izco.garcia@navarra.es)  
 Servicio de Avance Digital  
 Dirección General de Telecomunicaciones y Digitalización  
<img src="images/logo.gn.png" width="300"/>

# Introducción a la Inteligencia Artificial

1. Primera parte
    1. [Un ejemplo como introducción](Intro-IA-1.ipynb)
    1. [Definición y casos de uso](Intro-IA-2.ipynb)
1. Segunda parte
    1. [Claves del aprendizaje supervisado](Intro-IA-3.ipynb)
    1. **Claves del aprendizaje profundo**
    1. [Ética e IA](Intro-IA-5.ipynb)


[<img src="images/youtube.png" width="30"  align="left"/>](https://youtu.be/ManpEaTrbog)
[Video de este capítulo en YouTube](https://youtu.be/ManpEaTrbog)

# Aprendizaje profundo

El **aprendizaje profundo** es la feliz conjunción de **tres hechos**:
* El descubrimiento de **modelos** que pueden aprender mucho si hay suficientes datos
* Una gran cantidad de **datos** disponibles
* Potencia de **cálculo** suficiente a precios asequibles

|Modelos|Datos|Potencia de cálculo|
| -     | -   | -                 |
|<img src="images/nn.png" width="300"/>|<img src="images/data-world.jpg" width="300"/>|<img src="images/cluster.jpg" width="300"/>|



Suele identificarse con un modelo basado en redes neuronales, pero a mí me gusta esta definición:
* Modelos basados en redes neuronales
* La era de los datos digitales
* Computación distribuida a precios asequibles
    * In-situ
    * Particularmente, en la nube

<img src="images/dl.vs.ml.png" width="1000"/>


En aprendizaje máquina se suele decir que "más datos nunca molestan", pero sólo del deep learning puede aprovechar grandes cantidades de datos
* Siempre que tengamos suficiente potencia de cálculo para entrenar

<img src="images/azure.nc6.png" width="800"/>


Un ejemplo del coste de una máquina virtual para ciencia de datos de Microsoft Azure

## GPU: Graphics Processing Unit

<img src="images/gpus.png" width="1200"/>

### GPUs ###

Originalmente diseñadas por el auge de los videojuegos
* El problema de proyectar en 2D objetos en 3D se resuelve multiplicando vectores y matrices
* Igual que en machine learning


NVidia y Google
* GTX, RTX: NVIDIA GeForce
* TPU: TensorFlow PU

<img src="images/rafa.5.jpg" width="1000"/>


El Rafa Nadal de hoy en día es comparable a un modelo de aprendizaje profundo:
- Ha demostrado tener mucho talento: es capaz de aprender patrones complejos
- Lleva años entrenando duro, y ha sido capaz de aprovechar ese entrenamiento
    - Porque tiene hardware de sobra para aprender rápido

## Redes neuronales ##

El modelo, en estos casos, es alguna arquitectura basada en **redes neuronales**.

<img src="images/nn.2.png" width="1000"/>


Modelo: nuevas arquitecturas de redes neuronales
* La **capa de entrada** es figurada, no hay computación. Una 'neurona' por variable de entrada.
* Cada **neurona** de cada capa suele computar la misma función, cada una con sus parámetros
* Cada **capa** puede tener una arquitectura diferente
* El tamaño de la **capa de salida** depende del tamaño de la predicción 
    * Una única neurona (regresión, clasificación)
    * Muchas (modelos generativos)


## Arquitectura conectada ('full connect')

<img src="images/neurona.png" width="1600"/>

Por ejemplo, la arquitectura más simple (y la primera que existió)

¡La función que computa cada neurona es casi un simple modelo lineal!
* Excepto por la función de activación

Por lo tanto, el modelo completo, la función que ejecuta la neurona de salida, es una función sencilla (un simple modelo lineal al que se aplica una función de activación) de cuatro funciones sencillas de cuatro funciones sencillas de tres variables de entrada.

Pregunta: ¿Cual es la red neuronal más pequeña que puede resolver el problema de la predicción del vino?
* Una única neurona

El tamaño de la red:
* La capa de entrada tiene una entrada para cada variable o característica de la que depende la predicción. Coincide con las variables de entrada de los datos de ejemplo.
* La capa de salida tendrá tantas neuronas como datos queramos predecir. Coincide con la o las variables a predecir de los datos de ejemplo.
* El número de capas internas y el tamaño de estas capas depende de la complejidad del problema a resolver. Problemas complejos precisarán de redes profundas.
    * Esto es un **hiperparámetro**

## Teorema de aproximación universal
### Una red neuronal puede computar cualquier función ... con tiempo y dinero
<img src="images/uat.png" width="1000"/>


### teorema de aproximación universal

Neural nets can compute any function
http://neuralnetworksanddeeplearning.com/chap4.html
    

## Arquitectura convolucional: convolución


<img src="images/convolution.2.gif" width="1500"/>


Una arquitectura extremadamente popular, la CNN (convolutional neural network)
* Una convolución es aplicar un filtro a toda una imagen

Esto ha existido siempre en programas de retoque fotográfico como Photoshop
* Cada filtro **resalta** algunas características de una imagen

## Arquitectura convolucional: convolución


Una convolución entre una imagen y ciertos filtros resaltan ciertas características de la imagen.

<img src="images/conv-line-detection.jpg" width="600"/>







<img src="images/conv.neuron.png" style="width: 1600px;"/>


Los filtros de una CNN no son estos, no son fijos
* ¡Los parámetros del modelo son los filtros! 
    * ¡Lo que el modelo aprende son aquellos filtros que resaltan las partes de una imagen que nos permiten obtener el resultado deseado!

## Arquitectura convolucional

### Complejidad de las características por capa ###

<img src="images/conv-features.png" width="800"/>

Una característica muy importante de las CNN es que los filtros de las primeras capas resaltan (aprenden a resaltar) características simples, y sucesivas capas resaltan (aprenden a resaltar) características más complejas a partir de las características simples de las capas anteriores

Por cierto, esto es **Ingeniería de características automática**

## Transferencia


<img src="images/transferencia.png" width="1600"/>


### Transferencia ###
* En una red neuronal convolucional, si las imágenes son del mismo dominio, los filtros de las primeras capas son muy parecidos
* En lugar de empezar con los parámetros aleatorios, es posible comenzar con una red pre-entrenada
    * Entrenar sólo las últimas capas
    
### Es otro rasgo de aprendizaje que tenemos los **animales**
    
Podemos tener **magníficos resultados con poco entrenamiento**

### Esto es lo que hacen empresas como IBM y su producto IVA (IBM Video Analytics)
* Es un modelo preentrenado
* Lo venden como un servicio
    * Proporcionas imágenes propias
    * Reentrenan el modelo con tus imágenes
    
### Es una oportunidad para las administraciones públicas
* Compartir modelos preentrenados


## Ejemplo de transferencia

### A partir de este modelo preentrenado, entrenar otro para detectar ...

<img src="images/yolo.gif" width="1000"/>

Es un ejemplo de dudosa utilidad, pero se podría entrenar un modelo partiendo de este para detectar personas que estornudan sin seguir las recomendaciones de la OMS. El modelo ya sabe distinguir personas de coches de motos, etc. por lo que costaría poco reentrenarlo para identificar personas que estornudan como el señor del centro de la imagen :)

## Arquitectura residual (ResNet-12)

<img src="images/resnet-12.png" style="width: 800px;" align="middle"/>

La arquitectura residual es una triquiñuela para que las redes neuronales puedan ser realmente profundas
* **"Cortocircuitan"** una salida de una capa previa a la entrada de una capa posterior

### Redes adversarias generativas (GANs, generative adversarial networks)###

<img src="images/GAN_en.png" width="1500"/>

### Redes adversarias generativas (GANs, generative adversarial networks)###
Dos redes neuronales enfrentadas, **'compitiendo'**
* Generación no supervisada
* Discriminación supervisada  

La clave es que la función de pérdida del entrenamiento de cada red es una es función del resultado de la otra.

"GANs are unsupervised learning algorithms that use a supervised loss as part of the training. The later appears to be where you are getting hung-up"  
https://stackoverflow.com/questions/44445778/are-gans-unsupervised-or-supervised


## Librerías para aprendizaje profundo

<img src="images/deep.lib.png" width="1400"/>


Por supuesto, todas las arquitecturas están disponibles en magníficas librerías de aprendizaje profundo

Algunas son de más alto nivel, otras de bajo nivel
* Las de alto nivel suelen basarse en las de bajo nivel

## Aprendizaje reforzado

### No es ni supervisado ni no supervisado ...

<img src="images/reinforcement_learning_diagram.png" width="1500"/>


## Aprendizaje reforzado

* Hay un entorno en un estado, sobre el que un agente puede ejecutar acciones
* Al ejecutar una acción sobre el entorno
    * Tenemos un nuevo estado
    * Y una (posible) recompensa


## AlphaGo Zero

### Como colofón, un ejemplo de aprendizaje reforzado
* Combina **algunos de los conceptos** que hemos aprendido
* Rendimiento **sobrehumano**
* Es lo más parecido que existe al **teorema de aproximación universal**

<img src="images/alphago-zero.png" width="600"/>

https://medium.com/applied-data-science/alphago-zero-explained-in-one-diagram-365f5abf67e0

### Como colofón, un ejemplo más, de aprendizaje reforzado
* Combina **algunos de los conceptos** que hemos aprendido
* Es uno de los pocos casos en los que un modelo de aprendizaje máquina **supera, con creces, el rendimiento humano**
* Es una **aproximación al teorema de aproximación universal**:
    * Con datos de entrenamiento casi infinitos
    * Con enormes recursos de comutación (35 millones de dólares estima https://www.yuzeh.com/data/agz-cost.html)
    

#### AlphaGo, AlphaGo Zero y Alpha Zero (Google)
* AlphaGo tenía programadas heurísticas de expertos en Go
* AlphaGo Zero **sólo sabe las reglas del juego** (Tábula rasa)
* Alpha Zero es muy parecido, per juega tambien a ajedrez, y le dio un palizón al campeón del mundo de ajedrez
    * Quién, por cierto, está jugando ahora mucho mejor, aprendiendo de Alpha zero.

https://discovery.ucl.ac.uk/id/eprint/10045895/1/agz_unformatted_nature.pdf

Iteracion:
* Juega contra si mismo para **generar el conjunto de datos de entrenamiento**.
* **Entrena una red neuronal** con ese conjunto de entrenamiento
* Evaluación de la red neuronal
    * Después del entrenamiento compiten la red recién entrenada contra la mejor versión hasta el momento.
    * Si gana el 55%, se considera la nueva campeona


<img src="images/agz.1.png" widt="1800"/>


Tres fases diferentes (que se ejecutan en paralelo)
* Jugar contra si mismo, para generar el conjunto de datos de entrenamiento
* Reentrenar una red neuronal con esos datos
* Evaluar la nueva red neuronal, para ver si es el nuevo campeón

### Entrenamiento
* Inicialmente **sólo sabe las reglas del juego** (tábula rasa)
* Juega contra si mismo para **generar el conjunto de datos de entrenamiento**.
* La selección de la mejor jugada
    * La decide un algoritmo **tradicional** de búsqueda en árbol **ayudado por la red neuronal**
    * Es una alianza entre **aprendizaje** (red neuronal) y **exploración** (búsqueda)

<img src="images/alphago.zero.training.png" widt="1000"/>


### Entrenamiento
* Juega contra si mismo para **generar el conjunto de datos de entrenamiento**.
* Con esos datos se entrena la red neuronal
        
### Selección de la mejor jugada

No es la red neuronal quien decide, es un algoritmo 'tradicional' de búsqueda en árbol (Montecarlo Tree Search MCTS)
* Este algoritmo necesita dos funciones para elegir una jugada
    * Una que estime la 'puntuación' de las jugadas posibles en un estado concreto
    * Otra que estime la probabilidad de ganar o perder en un estado concreto del juego

Con esas dos funciones implementa una ingeniosa búsqueda en árbol que calcula la mejor jugada a partir de un estado mucho mejor que la primera de las funciones.

Sin aprendizaje profundo, estas funciones se basan en 'fuerza bruta' (es lo que hace stockfish)
* Es mucho mejor basarse en una red neuronal

Por su parte, una solución basada sólo en la red neuronal aprende muuuucho más despacio

En el *'paper'* dice que alcanzó el nivel *'campeón del mundo'* jugando contra sí mismo, en cuestión de horas.
* Pero no dice qué cantidad de potencia de computación consumieron. Hay estimaciones, entre 25 y 35 millones de dólares

## AlphaGo Zero: estado de juego

### Es una representación bidimensional del tablero de juego

<img src="images/agz.2.png" widt="1600"/>


### Estado de juego

Como estado de juego se guardan los últimas 8 movimientos de cada jugador, de la siguiente manera:
* Son 17 planos de 19x19 posiciones
* Los 8 primeros guardan las posiciones de las fichas negras de las últimos 7 jugadas
* Los 8 siguiente las posiciones de las fichas blancas de las últimos 7 jugadas
* El último plano sólo dice si juegan negras o blancas

## AlphaGo Zero: la red neuronal

### Es una arquitectura residual convolucional

<img src="images/agz.3.png" widt="1800"/>


### La red neuronal

Es una arquitectura **residual convolucional**
* Residual, para que sea profunda, compleja
* Convolucional porque la entrada es, al fin y al cabo, una imagen

La red está compuesta de 
* Bloques residuales y 
* Dos salidas, dos **cabezas**
La arquitectura de los bloques residuales es, sorprendentemente, **convolucional**
* Su cometido es encontrar patrones, características, progresívamente complejas, capa a capa
Las salidas son redes conectadas
* La cabeza de **poliza** predice lo buena que es cada posible jugada. Hay 19x19+1 jugadas, se puede pasar
* La cabeza del **valor** predice la probabilidad de que el estado actual nos lleve a la victoria. Entre -1 y 1

Esas dos salidas son los datos que necesita la búsqueda en árbol (Montecarlo Tree Search)

## Por cierto ...

En el *Paper* publicado por Google en *Nature* presentando AlphaGo Zero dice:

<img src="images/alphazero.gradient.descent.png" widt="800"/>

## Las claves del aprendizaje profundo


El aprendizaje profundo usa modelos basados en **redes neuronales** 
* Capaces de aprender de **muchos ejemplos** 
* Lo cual exije mucha **potencia de cálculo** de sistemas basados en **unidades de proceso gráficas (GPUs)**
    * Que pueden alquilarse a empresas que proporcionan servicios de **computación distribuida en la nube** para la fase de entrenamiento.

Una neurona implementa un **simple modelo lineal** más una función de activación, opcional.
* La complejidad de una red neuronal es fruto de la **combinación de modelos simples**.
* El entrenamiento sigue siendo la **optimización de los parámetros** a partir del gradiente de la función de pérdida.

El tamaño de la red es un **hiperparámetro** del modelo.

Hay diferentes **arquitecturas** de redes neuronales.
* Una red neuronal normalmente **combina capas** con diferentes arquitecturas. 
* Algunas arquitecturas funcionan mejor para resolver algunos problemas.
    * Por ejemplo, la **arquitectura convolucional** funciona especialmente bien para **imagen digital**.

Hay excelentes librerías de aprendizaje profundo, con **licencia libre**. 
* Algunas están orientadas a ser **utilizadas directamente**
* Otras están orientadas al **I+D e investigación**.

Hay algunos ejemplos de aprendizaje profundo, como **alpha zero**, con **rendimiento sobrehumano**.



