<!--NAVIGATION-->
<a href="https://colab.research.google.com/github/marcoteran/deeplearningmodule/blob/main/01_unsupervisedlearning_kmeans/01_unsupervisedlearning_kmeans.ipynb" target="_blank"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Abrir en Colab" title="Abrir y ejecutar en Google Colaboratory"></a>

## Ejemplos de código
# Introducción al Aprendizaje profundo

*Name:* Marco Teran
*E-mail:* marco.tulio.teran@gmail.com,
[Website](http://marcoteran.github.io/),
[Github](https://github.com/marcoteran),
[LinkedIn](https://www.linkedin.com/in/marcoteran/).

### Importar librerías importantes

Empezamos con las importaciones estándar para visualizar los datos y recrear las superficies de decisión:

In [None]:
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd


# Visualizations
import matplotlib.pyplot as plt
#import seaborn as sns; sns.set()  # for plot styling

# Machine learning
from sklearn.datasets import make_blobs, make_moons
from sklearn.cluster import KMeans, SpectralClustering, AgglomerativeClustering, DBSCAN
from IPython.display import HTML
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from scipy.stats import mode
from sklearn.metrics import pairwise_distances_argmin

from IPython.display import Image
%matplotlib inline

## Neurona artificial

<img src="http://upload.wikimedia.org/wikipedia/commons/thumb/6/60/ArtificialNeuronModel_english.png/600px-ArtificialNeuronModel_english.png" >

* El perceptrón es un algoritmo de clasificación que genera una predicción para una entrada $(x)$ de la siguiente manera:
$$\textrm{Predicción}(x)=\begin{cases}
C_{1} & \mbox{si }f(x)\ge \theta\\
C_{2} & \mbox{si }f(x)<\theta
\end{cases}$$

* De igual forma, $f(x)$ está definida como una suma ponderada sobre los elementos de la entrada:
$$
f(x) = w_0 + \sum_{i=1}^{n} {w_i x_i}
$$
dónde $x$ corresponde a la entrada, $w$ corresponde a los pesos que se multiplican por la entrada $x$ y $w_0$ al sesgo.

* Para poder generar $\textrm{Predicción}(x)$, se toma la salida de $f(x)$ y se le aplica una **función de activación** $\varphi$. Así la salida del perceptrón es de la siguiente forma:
$$
y = \varphi(w_0 + \sum_{i=1}^{n} {w_i x_i})
$$

* Es común encontrar en la literatura que se mencione que una neurona se activó, si su valor de la salida $y$ superó el umbral $\theta$ definido para la neurona.

**¿Cómo escoger $\varphi$?**

## Función de activación de paso

El caso más sencillo se conoce como la función de activación de paso. La función de activación de paso se define de la siguiente manera:

$$\textrm{H}(x)=\begin{cases}
0 & \mbox{si }x\ge \theta\\
1 & \mbox{si }x<\theta
\end{cases}$$

La cual observamos a continuación

<img src="https://c.mql5.com/2/4/act1.png" align="middle">

## Función de activación logística

La función de activación logística está basada en la función sigmoide $\sigma$. La función sigmoíde para cualquier valor $z$ se define de la siguiente manera:

$$\sigma(z) = \frac{1}{1 - e^{-z}}$$

<img width= 300 src="http://upload.wikimedia.org/wikipedia/commons/thumb/b/b5/SigmoidFunction.png/400px-SigmoidFunction.png" align="middle">

Cómo se puede observar en la imagen, la función sigmoide genera valores entre $0$ y $1$. A diferencia de la función de activación de paso, la sigmoide genera una transición entre $0$ y $1$. La salida del perceptrón queda definida de la siguiente manera:

$$
y = \sigma(w_0 + \sum_{i=1}^{n} {w_i x_i})
$$

# Ejemplo 1: El Hello World del Deep Learning con Redes neuronales

Como en cada primera aplicación, deberías empezar con algo super simple que muestre el andamiaje general de cómo funciona tu código. 

En el caso de la creación de redes neuronales, la muestra que me gusta usar es una en la que se aprende la relación entre dos números. Así, por ejemplo, si estuvieras escribiendo código para una función como esta, ya conoces las "reglas" - 

```
float hw_function(float x){
    float y = (2 * x) - 1;
    return y;
}
```
Entonces, ¿cómo entrenarías a una red neuronal para hacer la tarea equivalente? ¡Usando datos! Alimentándola con un conjunto de Xs, y un conjunto de Ys, debería ser capaz de averiguar la relación entre ellos. 

Obviamente, este es un paradigma muy diferente al que podrías estar acostumbrado, así que vamos a repasarlo pieza por pieza.

In [None]:
import tensorflow as tf
print(tf.__version__)
import numpy as np
from tensorflow import keras

## Definir y compilar la red neuronal

A continuación crearemos la red neuronal más simple posible. Tiene una capa, y esa capa tiene una neurona, y la forma de entrada a ella es sólo un valor.

In [None]:
model = tf.keras.Sequential([keras.layers.Dense(units=1, input_shape=[1])])

Ahora compilamos nuestra Red Neural. Cuando lo hacemos, tenemos que especificar 2 funciones, una función de pérdida y un optimizador.

Si has visto muchas matemáticas para el aprendizaje de la máquina, aquí es donde se utiliza normalmente, pero en este caso está bien encapsulado en funciones para ti. Pero lo que sucede aquí - vamos a explicar...

Sabemos que en nuestra función, la relación entre los números es y=2x-1. 

Cuando la computadora está tratando de "aprender" eso, hace una suposición... tal vez y=10x+10. La función PÉRDIDA mide las respuestas adivinadas contra las respuestas correctas conocidas y mide qué tan bien o qué tan mal lo hizo.

Luego usa la función OPTIMIZADOR para hacer otra suposición. Basándose en cómo fue la función de pérdida, intentará minimizar la pérdida. En ese punto, tal vez se le ocurra algo como y=5x+5, que, aunque sigue siendo bastante malo, está más cerca del resultado correcto (es decir, la pérdida es menor)

Lo repetirá para el número de EPOCHS que verá en breve. Pero primero, así es como le decimos que use "ERROR CUADRADO MEDIO" para la pérdida y "DESCENSO GRADIANTE ESTÓSTICO" para el optimizador. No necesitas entender las matemáticas para esto todavía, ¡pero puedes ver que funcionan! :)

Con el tiempo aprenderás las diferentes y apropiadas funciones de pérdida y optimizador para diferentes escenarios.

In [None]:
model.compile(optimizer='sgd', loss='mean_squared_error')

## Proveyendo los datos

A continuación, alimentaremos algunos datos. En este caso estamos tomando 6 x y 6ys. Puedes ver que la relación entre estos es que y=2x-1, así que donde x = -1, y=-3 etc. etc. 

Una biblioteca de pitón llamada 'Numpy' proporciona un montón de estructuras de datos de tipo matriz que son una forma estándar de hecho de hacerlo. Declaramos que queremos usarlas especificando los valores como un np.array[]

In [None]:
xs = np.array([-1.0,  0.0, 1.0, 2.0, 3.0, 4.0], dtype=float)
ys = np.array([-3.0, -1.0, 1.0, 3.0, 5.0, 7.0], dtype=float)

# Entrenando la Red neuronal

El proceso de entrenamiento de la red neuronal, donde "aprende" la relación entre los X y los Y está en la llamada **model.fit**. Aquí es donde pasará por el bucle del que hablamos anteriormente, haciendo una suposición, midiendo lo bueno o lo malo que es (también conocido como la pérdida), usando el opimizador para hacer otra suposición, etc. Lo hará para el número de épocas que especifiques. Cuando ejecute este código, verá la pérdida en el lado derecho.

In [None]:
model.fit(xs, ys, epochs=500)

Ok, ahora tienes un modelo que ha sido entrenado para aprender la relación entre X e Y. Puedes usar el método **model.predict** para que descubra el Y de un X previamente desconocido. Así, por ejemplo, si X = 10, ¿qué crees que será Y? Adivina antes de ejecutar este código:

In [None]:
print(model.predict([10.0]))

Podrías haber pensado en el 19, ¿verdad? Pero terminó siendo un poco menos. ¿Por qué crees que es así? 

Recuerda que las redes neuronales tratan con probabilidades, así que dados los datos con los que alimentamos a los NN, calculó que hay una probabilidad muy alta de que la relación entre X e Y sea Y=2X-1, pero con sólo 6 puntos de datos no podemos saberlo con seguridad. Como resultado, el resultado para 10 es muy cercano a 19, pero no necesariamente 19. 

A medida que trabajes con redes neuronales, verás que este patrón se repite. Casi siempre tratará con probabilidades, no certezas, y hará un poco de codificación para averiguar cuál es el resultado basado en las probabilidades, particularmente cuando se trata de la clasificación.

# Ejemplo 2: Clasificador de digitos

In [None]:
import tensorflow as tf
import matplotlib.pyplot as plt
# helps us to represent our data as lists easily and quickly
import numpy as np
# framework for defining a neural network as a set of Sequential layers
from tensorflow import keras

print("TensorFlow version: ", tf.__version__)

%matplotlib inline

Los datos del MNIST están disponibles directamente en el API de los conjuntos de datos de tf.keras. Lo cargas así:

In [None]:
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()

In [None]:
plt.imshow(x_train[8], cmap=plt.cm.binary)

In [None]:
# Ver la etiqueta
print(y_train[8])

In [None]:
print(x_train.ndim)

In [None]:
print(x_train.shape)

In [None]:
print(x_train.dtype)

In [None]:
my_slice = x_train[0:100,:]
print(my_slice.shape)

In [None]:
my_slice = x_train[:,7:-7,7:-7]
print(my_slice.shape)

## Preprocesado de datos de entrada en una red neuronal

In [None]:
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')

x_train/=255
x_test/=255

In [None]:
x_train_rs = x_train.reshape(60000,784)
x_test_rs = x_test.reshape(10000,784)

In [None]:
print(x_train_rs.shape)
print(x_test_rs.shape)

In [None]:
from tensorflow.keras.utils import to_categorical

In [None]:
print(y_test[0])

In [None]:
print(y_train.shape)

In [None]:
y_train = to_categorical(y_train, num_classes=10)
y_test = to_categorical(y_test, num_classes=10)

In [None]:
print(y_test[0])

In [None]:
print(y_train.shape)

## Definición del modelo

In [None]:
model = tf.keras.models.Sequential()

In [None]:
model.add(keras.layers.Dense(10, activation='sigmoid', input_shape=(784,)))
model.add(keras.layers.Dense(10, activation='softmax'))

In [None]:
model.summary()

### Configuración del proceso de aprendizaje

In [None]:
model.compile(loss="categorical_crossentropy", optimizer='sgd', metrics=['accuracy'])

## Entrenamiento del modelo

In [None]:
model.fit(x_train_rs, y_train, epochs=5)

## Evaluación del modelo

In [None]:
%%capture
test_loss, test_acc = model.evaluate(x_test_rs, y_test);

In [None]:
print('Test accuracy: ', test_acc)

### Generación de predicciones

In [None]:
plt.imshow(x_test[11], cmap=plt.cm.binary)

In [None]:
predictions = model.predict(x_test_rs)

In [None]:
np.argmax(predictions[11])

In [None]:
print(predictions[11])

In [None]:
np.sum(predictions[11])

# Ejemplo 3: Redes neuronales en Keras: Fashion-MNIST

Echemos un vistazo a un escenario en el que podemos reconocer diferentes prendas de vestir, entrenadas a partir de un conjunto de datos que contiene 10 tipos diferentes.

Los datos del MNIST de la moda están disponibles directamente en el API de los conjuntos de datos de tf.keras. Lo cargas así:

In [None]:
fashion_mnist = tf.keras.datasets.fashion_mnist

Llamar a load_data en este objeto le dará dos conjuntos de dos listas, estos serán los valores de entrenamiento y prueba para los gráficos que contienen las prendas de vestir y sus etiquetas.

In [None]:
# carga de datos
(training_images, training_labels), (test_images, test_labels) = fashion_mnist.load_data()

In [None]:
class_names = ['T-shirt/top', 'Trouser/pants', 'Pullover shirt', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

¿Cómo son estos valores? Imprimamos una imagen de entrenamiento, y una etiqueta de entrenamiento para ver... Experimentemos con diferentes índices en la matriz. Por ejemplo, mira también el índice 42... que es una bota diferente a la del índice 0.

In [None]:
import numpy as np
np.set_printoptions(linewidth=200)
import matplotlib.pyplot as plt
plt.imshow(training_images[0])
print(training_labels[0])
print(training_images[0])

Notarán que todos los valores del número están entre 0 y 255. Si estamos entrenando una red neuronal, por varias razones es más fácil si tratamos todos los valores entre 0 y 1, un proceso llamado '**normalizar**'... y afortunadamente en Python es fácil normalizar una lista como esta sin hacer un bucle. Lo haces así:

In [None]:
training_images = training_images.astype('float32')
test_images = test_images.astype('float32')

training_images /= 255
test_images /= 255

Ahora se preguntarán por qué hay dos grupos... entrenamiento y pruebas... ¿Recuerdan que hablamos de esto en la introducción? La idea es tener un conjunto de datos para el entrenamiento, y luego otro conjunto de datos... que el modelo aún no ha visto... para ver lo bueno que sería para clasificar los valores. Después de todo, cuando termines, ¡vas a querer probarlo con datos que no había visto antes!

In [None]:
print("train_images.shape: ", training_images.shape)
print("len(train_labels): ", len(training_labels))
print("test_images.shape: ", test_images.shape)
print("len(test_labels): ", len(test_labels))

In [None]:
training_labels

In [None]:
plt.figure(figsize=(12,12))
for i in range(50):
    plt.subplot(10, 5, i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(training_images[i], cmap=plt.cm.binary)
    plt.xlabel(class_names[training_labels[i]])
plt.show()

## Definir modelo

Ahora diseñemos el modelo. Hay bastantes conceptos nuevos aquí, pero no te preocupes, les cogerás el tranquillo.

In [None]:
model = tf.keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28,28)))
model.add(keras.layers.Dense(10, activation='sigmoid'))
model.add(keras.layers.Dense(10, activation='softmax'))

**Sequential**: Eso define una SECUENCIA de capas en la red neuronal

**Flatten**: ¿Recuerdas antes cuando nuestras imágenes eran un cuadrado, cuando las imprimiste? Flatten sólo toma ese cuadrado y lo convierte en un conjunto de una dimensión.

**Dense**: Añade una capa de neuronas

Cada capa de neuronas necesita una función de activación para decirles qué hacer. Hay muchas opciones, pero por ahora sólo úsalas. 

**Relu** significa efectivamente "Si X>0 devuelve X, si no devuelve 0" -- así que lo que hace es pasar sólo valores 0 o mayores a la siguiente capa de la red.

**Softmax** toma un conjunto de valores, y efectivamente escoge el más grande, así que, por ejemplo, si la salida de la última capa se ve como [0.1, 0.1, 0.05, 0.1, 9.5, 0.1, 0.05, 0.05, 0.05], te salva de pescar a través de ella buscando el valor más grande, y la convierte en [0,0,0,0,1,0,0,0,0,0] -- ¡El objetivo es salvar un montón de codificación!

In [None]:
model.summary()

In [None]:
import errno
import pydot
from tensorflow.keras.utils import plot_model

plot_model(model, to_file='model.png',show_shapes=True)

### Configurar el modelo

Lo siguiente que hay que hacer, ahora que el modelo está definido, es construirlo realmente. Esto se hace compilándolo con una función de optimización y pérdida como antes -- y luego lo entrena llamando a **model.fit** pidiéndole que ajuste los datos de su entrenamiento a sus etiquetas de entrenamiento -- es decir, que averigüe la relación entre los datos de entrenamiento y sus etiquetas reales, de modo que en el futuro si tiene datos que se parecen a los datos de entrenamiento, entonces puede hacer una predicción de cómo se verían esos datos. 

In [None]:
model.compile(optimizer='sgd',
             loss='sparse_categorical_crossentropy',
             metrics=[('accuracy')])

## Entrenamiento del modelo

In [None]:
model.fit(training_images, training_labels, epochs=5)

Una vez que haya terminado el entrenamiento... deberías ver un valor de precisión al final de la última época. Podría parecer algo como 0,9098. Esto te dice que tu red neural tiene una precisión del 91% en la clasificación de los datos de entrenamiento. Es decir, calculó una coincidencia de patrón entre la imagen y las etiquetas que funcionó el 91% de las veces. No es genial, pero no está mal considerando que sólo fue entrenado durante 5 épocas y se hizo bastante rápido.

¿Pero cómo funcionaría con datos no vistos? Por eso tenemos las imágenes de prueba. Podemos llamar a model.evaluate, y pasar en los dos conjuntos, y se informará de la pérdida para cada uno. Vamos a intentarlo:

## Evaluación del modelo

In [None]:
%%capture
model.evaluate(test_images, test_labels)

In [None]:
print('Test accuracy: ', test_acc)

Para mí, eso arrojó una precisión de alrededor de 0,8838, lo que significa que fue de alrededor del 88% de exactitud. Como era de esperar, probablemente no le iría tan bien con datos no vistos como con los datos en los que fue entrenado.  A medida que avance en este curso, verá formas de mejorarlo.


### Generación de predicciones

In [None]:
predictions = model.predict(test_images)

In [None]:
predictions[5]

In [None]:
test_labels[5]

In [None]:
def plot_image(i, predictions_array, true_label, img):
    predictions_array, true_label, img = predictions_array, true_label[i], img[i]
    plt.grid(False)
    plt.xticks([])
    plt.yticks([])
 
    plt.imshow(img, cmap=plt.cm.binary)

    predicted_label = np.argmax(predictions_array)
    if predicted_label == true_label:
        color = 'blue'
    else:
        color = 'red'
 
    plt.xlabel("{} {:2.0f}% ({})".format(class_names[predicted_label],
                                         100*np.max(predictions_array),
                                         class_names[true_label]),
                                         color=color)

def plot_value_array(i, predictions_array, true_label):
    predictions_array, true_label = predictions_array, true_label[i]
    plt.grid(False)
    plt.xticks(range(10))
    plt.yticks([])
    thisplot = plt.bar(range(10), predictions_array, color="#007700")
    plt.ylim([0, 1])
    predicted_label = np.argmax(predictions_array)
    
    thisplot[predicted_label].set_color('red')
    thisplot[true_label].set_color('black')

In [None]:
i = 5
plt.figure(figsize=(6,3))
plt.subplot(1,2,1)
plot_image(i, predictions[i], test_labels, test_images)
plt.subplot(1,2,2)
plot_value_array(i, predictions[i],  test_labels)
plt.show()

In [None]:
i = 8
plt.figure(figsize=(6,3))
plt.subplot(1,2,1)
plot_image(i, predictions[i], test_labels, test_images)
plt.subplot(1,2,2)
plot_value_array(i, predictions[i],  test_labels)
plt.show()

In [None]:
# Plot the first X test images, their predicted label, and the true label
# Color correct predictions in blue, incorrect predictions in red
num_rows = 7
num_cols = 2
num_images = num_rows*num_cols
plt.figure(figsize=(2*2*num_cols, 2*num_rows))
for i in range(num_images):
    plt.subplot(num_rows, 2*num_cols, 2*i+1)
    plot_image(i, predictions[i], test_labels, test_images)
    plt.subplot(num_rows, 2*num_cols, 2*i+2)
    plot_value_array(i, predictions[i], test_labels)
plt.show()

## Mejorar el modelo

In [None]:
model = tf.keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28,28)))
model.add(keras.layers.Dense(10, activation='sigmoid'))
model.add(keras.layers.Dense(10, activation='softmax'))

model.compile(optimizer='adam',
             loss='sparse_categorical_crossentropy',
             metrics=[('accuracy')])

model.fit(training_images, training_labels, epochs=5)

test_loss, test_acc = model.evaluate(test_images, test_labels);
print('\nTest accuracy: ', test_acc)

## Referencias generales

- [Deep Learning en Wikipedia](https://es.wikipedia.org/wiki/Aprendizaje_profundo)
- [Perceptrón](hhttps://es.wikipedia.org/wiki/Perceptr%C3%B3n)
- [MLP](https://es.wikipedia.org/wiki/Perceptr%C3%B3n_multicapa)