<a href="https://colab.research.google.com/github/RodolfoFerro/real-pokedex-ia/blob/main/notebooks/Pok%C3%A9dex%20en%20la%20vida%20real%20con%20IA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pokédex en la vida real con IA

> **Rodolfo Ferro** <br>
> Google Dev Expert en ML, 2021.

## Contenido

1. Contexto general sobre la IA
    - Introducción al aprendizaje de máquina
    - Conceptos básicos: Conjunto de entrenamiento, conjunto de prueba
2. Redes neuronales artificiales:
    - Perceptrón
    - Perceptrón multicapa y redes profundas
    - Redes neuronales convolucionales
3. Clasificador de animales

### **Historia de las redes neuronales**

La historia de las redes neuronales se remontan a un tipo de neurona artificial, llamada **perceptrón**. Estos fueron desarrollados entre 1950 y 1960 por el científico **Frank Rosenblatt**.



### **Entonces, ¿qué es un perceptrón?**

Un perceptrón es una abstracción de una neurona real.

Éste toma varias **entradas** $x_1, x_2,..., x_n $ y produce una **salida**. Para la salida, Rosenblatt propuso que las entradas tuviesen **pesos** asciados $w_1, w_2, ..., w_n$, siendo estos números reales que expresan la importancia respectiva de cada entrada para la salida. La salida de la neurona, $0$ o $1$, está determinada con base en que la suma ponderada, 

$$\displaystyle\sum_{j}w_jx_j,$$

<!-- $\textbf{w}_{Layer}\cdot\textbf{x} = 
\begin{bmatrix}
w_{1, 1} & w_{1, 2} & \cdots & w_{1, n}\\
w_{2, 1} & w_{2, 2} & \cdots & w_{2, n}\\
\vdots & \vdots & \ddots & \vdots\\
w_{m, 1} & w_{m, 2} & \cdots & w_{m, n}\\
\end{bmatrix} \cdot
\begin{bmatrix}
x_1\\
x_2\\
\vdots\\
x_n
\end{bmatrix}$ -->

(para $j \in \{1, 2, ..., n\}$ ) sea menor o mayor que un **valor límite** que por ahora llamaremos umbral.

Resumiendo, un perceptron es un sistema que toma decisiones con base en la evidencia presentada.

<center>
    <img width="50%" src="https://camo.githubusercontent.com/0e433317a51ea67fb061925026ed3c1c3692cb35/68747470733a2f2f696e7369676874732e7365692e636d752e6564752f7365695f626c6f672f73657374696c6c695f646565706c6561726e696e675f6172746966696369616c6e6575726f6e332e706e67">
</center>

#### **Hagamos un ejemplo**

In [None]:
import numpy as np


# Primero creamos nuestra clase perceptron
class perceptron():
    def __init__(self, inputs, weights):
        self.inputs = np.array(inputs)
        # TODO: Convierte los pesos a arreglo de NumPy como arriba
        self.weights = None
  
    def decide(self, treshold):
        return None

In [None]:
# Ahora necesitamos darle sus entradas y pesos asociados
inputs, weights = [], []

preguntas = [
    "· ¿Cuál es la velocidad? ",
    "· ¿Ritmo cardiaco? ",
    "· ¿Respiración? "
]

for pregunta in preguntas:
    i = int(input(pregunta))
    w = int(input("· Y su peso asociado es... "))
    inputs.append(i)
    weights.append(w)
    print()

treshold = int(input("· Y nuestro umbral/límite será: "))

In [None]:
p = perceptron() # TODO Instancía un objeto perceptron con entradas y pesos 
 # TODO Aplica la función de decisión con el umbral

### **Bias y funciones de activación**

_Antes de seguir, introduciremos otro concepto, que es el **bias**._

La operación matemática que realiza la neurona se puede escribir como:

$$ f(\textbf{x}) = 
  \begin{cases}
    0 & \text{si $\displaystyle\sum_{j}w_jx_j <$ valor límite o treshold} \\
    1 & \text{si $\displaystyle\sum_{j}w_jx_j \geq$ valor límite o treshold} \\
  \end{cases},$$

donde $\textbf{x} = (x_1, x_2, ..., x_n)$ y $j \in \{1, 2, ..., n\}$.

De lo anterior, podemos despejar el valor límite (el umbral) y escribirlo como $b$, obteniendo:

$$ f(\textbf{x}) = 
  \begin{cases}
    0 & \text{si $\displaystyle\sum_{j}w_jx_j + b < 0$} \\
    1 & \text{si $\displaystyle\sum_{j}w_jx_j + b > 0$} \\
  \end{cases},$$

donde $\textbf{x} = (x_1, x_2, ..., x_n)$ y $j \in \{1, 2, ..., n\}$.

Esto que escribimos como $b$, también se le conoce como **bias**, y describe *qué tan susceptible la red es a __dispararse__*.

Curiosamente, esta descripción matemática encaja con la función de salto, que es una función de activación. Esto es, una función que permite el paso de información de acuerdo a la entrada y los pesos, permitiendo el disparo del lo procesado hacia la salida. La función de salto se ve como sigue:

<center>
    <img src="https://upload.wikimedia.org/wikipedia/commons/4/4a/Funci%C3%B3n_Cu_H.svg" width="40%" alt="Función escalón de Heaviside">
</center>

Sin embargo, podemos hacer a una neurona aún más susceptible con respecto a los datos de la misma (entradas, pesos, bias) añadiendo una función sigmoide. La función sigmoide se ve como a continuación: 

<center>
    <img src="https://upload.wikimedia.org/wikipedia/commons/6/66/Funci%C3%B3n_sigmoide_01.svg" width="40%" alt="Función sigmoide">
</center>

Esta función es suave, y por lo tanto tiene una diferente "sensibililad" a los cambios abruptos de valores. También, sus entradas en lugar de solo ser $1$'s o $0$'s, pueden ser valores en todos los números reales. La función sigmoide es descrita por la siguiente expresión matemática:

$$f(z) = \dfrac{1}{1+e^{-z}}$$

O escrito en términos de pesos y biases:

$$f(z) = \dfrac{1}{1+\exp{\left\{-\left(\displaystyle\sum_{j}w_jx_j +b\right)\right\}}}$$

#### **Volviendo al ejemplo**

In [None]:
# Modificamos para añadir la función de activación
class SigmoidNeuron():
    def __init__(self, inputs, weights):
        self.inputs = np.array(inputs)
        self.weights = np.array(weights)
  
    def decide(self, bias):
        z = (self.weights @ self.inputs) + bias
        return 1. / (1. + np.exp(-z))

In [None]:
bias = int(input("· El nuevo bias será: "))
s = None # TODO Instantiate SigmoidNeuron
s.decide(bias)

> Esta es la neurona que usaremos para los siguientes tópicos.

<center>
    ******************
</center>

### **¿Cómo funciona el entrenaiento?**

A lo largo de este sección explicaré cómo una sola neurona puede tomar una decisión sencila. 

Para este problema construiremos un perceptrón simple, como propusieron [McCulloch & Pitts](https://es.wikipedia.org/wiki/Neurona_de_McCulloch-Pitts) en los 90's y usando la [función sigmoide](https://en.wikipedia.org/wiki/Sigmoid_function).


### Problema:

Queremos mostrarle a una neurona un conjunto de ejemplos para que pueda aprender cómo se comportan los datos y pueda asignar una función. El conjunto de ejemplos es el siguiente:

- La entrada `(1, 0)` debe tener como salida `1`.
- La entrada `(0, 1)` debe tener como salida `1`.
- La entrada `(0, 0)` debe tener como salida `0`.

Así, si damos como entrada a la neurona el valor `(1, 1)`, ésta debería se capaz de predecir el valor `1`.

##### (¿Puedes adivinar qué función es? _HINT: Es una compuerta lógica._)

> #### ¿Qué necesitamos hacer?
> Programar y entrenar una neurona para realizar predicciones.
>
> Específicamente, haremos lo siguiente:
> - Programar una clase y su constructor
> - Definir la función sirgmoide y su derivada
> - Definir el número de épocas de entrenamiento
> - Resolver el problema y predecir el valor de la entrada deseada

In [None]:
class neurona_sigmoide():
    def __init__(self, n):
        """Constructor of the class."""
        np.random.seed(123)
        self.pesos_sinapticos = 2 * np.random.random((n, 1)) - 1

    def sigmoide(self, x):
        """Sigmoid function."""
        # TODO.
        pass

    def derivada_sigmoide(self, x):
        """Derivative of the Sigmoid function."""
        # TODO.
        pass

    def entrena(self, entradas_ejemplo, salidas_ejemplo, epocas):
        """Training function."""
        for epoca in range(epocas):
            salida = self.predice(entradas_ejemplo)
            error = salidas_ejemplo.reshape((len(entradas_ejemplo), 1)) - salida
            ajuste = np.dot(entradas_ejemplo.T, error * self.derivada_sigmoide(salida))
            self.pesos_sinapticos += ajuste

    def predice(self, entradas):
        """Prediction function."""
        return self.sigmoide(np.dot(entradas, self.pesos_sinapticos))

#### **Generando los ejemplos**

Ahora generamos una lista con los ejemplos basándonos en la descripción del problema.

In [None]:
entradas = [] # TODO. Define los valores de entrada.
salidas = []  # TODO. Define las salidas de cada entrada.

entradas_ejemplo = np.array(entradas)
salidas_ejemplo = np.array(salidas).T.reshape((3, 1))

#### **Entrenando la neurona**

Para realizar el entrenamiento, primero crearemos una neurona. Por default contendrá pesos aleatorios (spues aún no ha sido entrenada con los ejemplos):

In [None]:
neurona = neurona_sigmoide(2)
print("Pesos sinápticos inicialmente aleatorios:")
neurona.pesos_sinapticos

Ahora vamos a entrenar la neurona una cantidad de épocas definida y vamos a ver cómo cambian los pesos sinápticos:

In [None]:
# TODO. Podemos modificar el número de épocas para mejorar el aprendizaje.
epocas = 0

# Entrenamos la neurona
neurona.entrena(entradas_ejemplo, salidas_ejemplo, epocas)
print("Nuevos pesos sináptico después del entrenamiento: ")
neurona.pesos_sinapticos

#### **Realizando predicciones:**

In [None]:
uno_uno = np.array((1, 1))
print("Predicción para (1, 1): ")
neurona.predice(uno_uno)

### **Redes de neuronas artificiales**

Imaginemos que en lugar de una única neurona, tenemos 7 neuronas, todas con diferentes pesos (que inicialmente definiremos de manera aleatoria), dispuestas con la siguiente configuración: 
- Tenemos dos neuronas que representarán la información de entrada
- Cada una de las dos neuronas está conectada con cuatro siguientes neuronas dispuestas en una siguiente capa
- Finalmente, cada salida de las cuatro neuronas previas es conectada a una única neurona dispuesta en una capa de salida

La configuración quedaría como se muestra a continuación:

<center>
    <img src="https://www.pngitem.com/pimgs/m/531-5314899_artificial-neural-network-png-transparent-png.png" width="30%" alt="A simple neural network">
</center>

La previa configuración de neuronas dispuesta en forma de red podría tomar decisiones más complejas y abstractas, si consideramos la operación definida anteriormente (pesos, bias, función de activación) sobre los pesos de cada conexión de neuronas entre las capas.

Esto, a grandes rasgos, es una manera de abstraer una red neuronal artifical, compuesta por neuronas como previamente hemos definido; y donde se tienen capas de neuronas cuyas salidas funcionan como las entradas de otras neuronas (en las siguientes capas).

Con esto en mente, podemos programar redes neuronales artificiales más complejas.

#### **TensorFlow**

TensorFlow es un paquete de Googloe diseñado para programar, entrenar y desplegar modelos de inteligencia artificial basados en redes nueronales artificiales.

Este paquete ya incluye diferentes capas de neuronas y funciones de procesamiento para los datos.

In [None]:
import tensorflow as tf

print(f"Tensorflow version: {tf.__version__}")

#### **Descarga de datos**

Procederemos a descargar los datos del conjunto "Animals-10: Animal pictures of 10 different categories taken from google images" que se encuentra disponible en Kaggle (https://www.kaggle.com/alessiocorrado99/animals10), los cuales he respaldado en Google Drive por si no tienes una cuenta de Kaggle.

Podemos descargar y descomprimir los datos con el código a continuación.

In [None]:
!curl -L -c cookies.txt 'https://docs.google.com/uc?export=download&id=1bvZrHMjucy8ZgFH6hktmDiQ5NeroPxGw' | sed -rn 's/.*confirm=([0-9A-Za-z_]+).*/\1/p' > confirm.txt
!curl -L -b cookies.txt -o dataset.zip 'https://docs.google.com/uc?export=download&id=1bvZrHMjucy8ZgFH6hktmDiQ5NeroPxGw&confirm='$(<confirm.txt)
!rm -f confirm.txt cookies.txt

In [None]:
!unzip dataset.zip

<center>
    ********** EXPERIMENTAL **********
</center>

Borraré algunas imágenes para que el cuaderno soporte ejecutar el modelo en la nube...

Al final nos quedaremos con 5k imágenes para entrenar.

In [None]:
from glob import glob
from os import remove

folders = glob('raw-img/*')
for folder in folders:
    files = glob(folder + '/*')
    for filename in files[500:]:
        remove(filename)

Comprobamos el toal de archivos por clase.

In [None]:
folders = glob('raw-img/*')
for folder in folders:
    files = glob(folder + '/*')
    print(f'Folder {folder}: {len(files)}')

#### **Carga de datos**

Crearemos variables para entrenamiento y pruebas de los datos originales.

In [None]:
from tensorflow.keras.preprocessing import image_dataset_from_directory


# MetayA
BATCH_SIZE = 32
IMG_SIZE = 180

# Conjuntos de entrenamiento y prueba
train_ds = image_dataset_from_directory(directory='raw-img', 
                                        validation_split=0.2,
                                        subset='training',
                                        labels='inferred', 
                                        label_mode='categorical',
                                        seed=123,
                                        image_size=(IMG_SIZE, IMG_SIZE),
                                        batch_size=BATCH_SIZE)

val_ds = image_dataset_from_directory(directory='raw-img', 
                                        validation_split=0.2,
                                        subset='validation',
                                        labels='inferred', 
                                        label_mode='categorical',
                                        seed=123,
                                        image_size=(IMG_SIZE, IMG_SIZE),
                                        batch_size=BATCH_SIZE)

Podemos identificar las clases asociadas a cada elemento.

In [None]:
# Classes originales
class_names = train_ds.class_names
print(class_names)

# Diccionario de valores
translate = {
    "cane": "dog",
    "cavallo": "horse",
    "elefante": "elephant",
    "farfalla": "butterfly",
    "gallina": "chicken",
    "gatto": "cat",
    "mucca": "cow",
    "pecora": "sheep",
    "scoiattolo": "squirrel",
    "dog": "cane",
    "cavallo": "horse",
    "elephant" : "elefante",
    "butterfly": "farfalla",
    "chicken": "gallina",
    "cat": "gatto",
    "cow": "mucca",
    "spider":
    "ragno",
    "squirrel": "scoiattolo"
}

Y de igual manera, explorar algunas imágenes.

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=[10,10])
for image_batch, label_batch in train_ds.take(1):
    for i in range(9):
        ax = plt.subplot(3, 3, i+1)
        plt.imshow(image_batch[i*3].numpy().astype('uint8'))
        plt.axis("off")

Al final, las imágenes son tensores, así que podemos ver su tamaño.

In [None]:
image_batch.shape

##### **Configuración del dataset**

In [None]:
AUTOTUNE = tf.data.AUTOTUNE

train_ds = train_ds.cache().shuffle(1024).prefetch(buffer_size=AUTOTUNE)
val_ds = val_ds.cache().prefetch(buffer_size=AUTOTUNE)

#### **Aumento de datos**

En IA existe una técnica llamada _data augmentation_, que consiste en aumentar los datos para diversificar el dataset al rotar, recortar o espejear imágenes.


In [None]:
data_augmentation = tf.keras.Sequential(
    [
        tf.keras.layers.experimental.preprocessing.RandomFlip(mode='horizontal', input_shape=(IMG_SIZE, IMG_SIZE, 3)),
        tf.keras.layers.experimental.preprocessing.RandomRotation(factor=0.2),
        tf.keras.layers.experimental.preprocessing.RandomContrast(0.1),
        tf.keras.layers.experimental.preprocessing.RandomZoom(0.1),
    ],
    name="data_augmentation"
)

Podemos explorar los resultados del aumento de datos...

In [None]:
plt.figure(figsize=[10,10])
for image_batch, _ in train_ds.take(1):
    for i in range(9):
        augmented_images = data_augmentation(image_batch)
        ax = plt.subplot(3, 3, i+1)
        plt.imshow(augmented_images[1].numpy().astype('uint8'))
        plt.axis("off")

### **Pokédex en la vida real**

Ahora podemos proceder a estructurar el modelo de IA, entrenarlo y usarlo para que sea capaz de identificar animales.



#### **El modelo: Una CNN**



In [None]:
from tensorflow.keras.layers import Conv2D
from tensorflow.keras.layers import MaxPool2D
from tensorflow.keras.layers import Dropout
from tensorflow.keras.layers import Flatten
from tensorflow.keras.layers import Dense
import numpy as np


tf.keras.backend.clear_session()

Vamos a crear una red neuronal convolucional, capaz de procesar imágenes y de identificar lo que hay en las mismas. Para ello, utilizaremos TensorFlow, lo que nos simplificará la labor de una manera muy impresionante.

In [None]:
model = tf.keras.Sequential([
    # Si realizamos aumento de datos, ésta debería ser la entrada
    # data_augmentation,
    # tf.keras.layers.experimental.preprocessing.Rescaling(scale=1./255),

    # Podemos agregar más preprocesamientos necesarios
    tf.keras.layers.experimental.preprocessing.Rescaling(scale=1./255, input_shape=(IMG_SIZE, IMG_SIZE, 3)),

    # Procedemos a agregar capas convolucionales y de escalado
    Conv2D(filters=16, kernel_size=3, padding='same', activation='relu'),
    MaxPool2D(),

    Conv2D(64, 3, padding='same', activation='relu'),
    MaxPool2D(),
    # Puedes agregar más capas convolucionales...

    # Evitamos overfitting
    Dropout(0.2),

    # Pasamos de feature maps a entrdas para capas densas
    Flatten(),
    Dense(128, activation='relu'),

    # Concluimos con una capa densa de acuerdo al número de clases
    Dense(10),
])

Definimos la función de pérdida (métrica) y compilamos el modelo.

In [None]:
model.compile(
    loss=tf.keras.losses.CategoricalCrossentropy(from_logits=True),
    optimizer='adam',
    metrics=['accuracy']
)

model.summary()

Definimos épocas y procedemos a entrenar el modelo.

In [None]:
EPOCHS = 5

history = model.fit(train_ds, validation_data=val_ds, epochs=EPOCHS)

#### **Evaluación del modelo**

Cuando entrenamos modelos de IA, siempre es bueno tener un marco de referencia para saber qué tan bueno (o no) es nuestro modelo. La idea de utilizar un dataset para prueba y para validación tiene como principal objetivo esta parte.

In [None]:
plt.style.use('seaborn')


acc = history.history['accuracy']
val_acc = history.history['val_accuracy']

loss = history.history['loss']
val_loss = history.history['val_loss']

epochs_range = range(EPOCHS)

plt.figure(figsize=(20, 8))
plt.subplot(1, 2, 1)
plt.plot(epochs_range, acc, label='Training Accuracy')
plt.plot(epochs_range, val_acc, label='Validation Accuracy')
plt.legend(loc='lower right')
plt.title('Training and Validation Accuracy')

plt.subplot(1, 2, 2)
plt.plot(epochs_range, loss, label='Training Loss')
plt.plot(epochs_range, val_loss, label='Validation Loss')
plt.legend(loc='upper right')
plt.title('Training and Validation Loss')
plt.show()

#### **Clasificación de especies**

Una vez que entrenamos el modelo y que los pesos se ajustan, podemos proceder a utilizarlo para identificar especies.

Cargamos una imagen aleatoria de la carpeta.

In [None]:
import random
import os


dir_path = 'raw-img/'
class_label = random.choice(os.listdir("raw-img/"))
print("Class Label chosen: ", class_label)
file = random.choice(os.listdir("raw-img/" + class_label))
print(file)

file_path = dir_path + class_label + "/" + file
print(file_path)

Mostramos la imagen.

In [None]:
img = plt.imread(file_path)
plt.imshow(img)
plt.grid(False)
print("Clase original:", translate[class_label])

Procedemos a predecir.

In [None]:
img = tf.keras.preprocessing.image.load_img(file_path, target_size=(IMG_SIZE, IMG_SIZE, 3))

img_array = tf.keras.preprocessing.image.img_to_array(img)
img_array = tf.expand_dims(img_array, 0)

predictions = model.predict(img_array)
score = tf.nn.softmax(predictions[0])

print(score)

In [None]:
predicted_class = class_names[np.argmax(score)]
predicted_class_translated = translate[predicted_class]
print(f'La clase predicha es "{predicted_class_translated}" con un porcentaje {np.max(score)*100:.2f}% de probabilidad.')

### **Otros datasets para explorar**

- 10 Monkey Species: https://www.kaggle.com/slothkong/10-monkey-species
- Cat Dataset: https://www.kaggle.com/crawford/cat-dataset
- Stanford Dogs Dataset: https://www.kaggle.com/jessicali9530/stanford-dogs-dataset

### **Referencias útiles sobre los contenidos**

- Animal classification: https://www.kaggle.com/rahulkod/animal-classification