In [8]:
import tensorflow as tf
from keras.datasets import mnist


In [4]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()

2021-12-08 14:06:11.241271: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: :/opt/oracle/instantclient_19_8
2021-12-08 14:06:11.241329: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.


Los datos de características están entre 0 y 255, y lo normalizaremos para mejorar el rendimiento de optimización

In [5]:
x_train, x_test = x_train / 255.0, x_test / 255.0

Echemos un vistazo a los primeros valores de etiqueta:

In [6]:
print(y_train[0:5])

[5 0 4 1 9]


El esquema de etiquetas actual simplemente identifica la categoría a la que pertenece cada punto de datos (a cada dígito escrito a mano se le asigna una categoría igual al valor numérico).  Necesitamos convertir esto en un vector codificado en caliente.  A diferencia de la representación binaria, las etiquetas se presentarán de manera que para representar un número N, el $ N ^ {th} $ bit es 1 mientras que los otros bits son 0. Por ejemplo, cinco y cero en un código binario sería:

<pre>
Number representation:    0
Binary encoding:        [2^5]  [2^4]   [2^3]   [2^2]   [2^1]   [2^0]  
Array/vector:             0      0       0       0       0       0 

Number representation:    5
Binary encoding:        [2^5]  [2^4]   [2^3]   [2^2]   [2^1]   [2^0]  
Array/vector:             0      0       0       1       0       1  
</pre>

Usando una notación diferente, los mismos dígitos usando la representación de un vector activo se pueden mostrar como:

<pre>
Number representation:    0
One-hot encoding:        [5]   [4]    [3]    [2]    [1]   [0]  
Array/vector:             0     0      0      0      0     1   

Number representation:    5
One-hot encoding:        [5]   [4]    [3]    [2]    [1]    [0]  
Array/vector:             1     0      0      0      0      0   
</pre>

Esta es una operación estándar y se muestra a continuación.

In [9]:
print("categorical labels")
print(y_train[0:5])

# make labels one hot encoded
y_train = tf.one_hot(y_train, 10)
y_test = tf.one_hot(y_test, 10)

print("one hot encoded labels")
print(y_train[0:5])

categorical labels
[5 0 4 1 9]
one hot encoded labels
tf.Tensor(
[[0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]], shape=(5, 10), dtype=float32)


2021-12-08 14:15:42.062069: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcuda.so.1'; dlerror: libcuda.so.1: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: :/opt/oracle/instantclient_19_8
2021-12-08 14:15:42.062137: W tensorflow/stream_executor/cuda/cuda_driver.cc:269] failed call to cuInit: UNKNOWN ERROR (303)
2021-12-08 14:15:42.062173: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:156] kernel driver does not appear to be running on this host (virtual-machine): /proc/driver/nvidia/version does not exist
2021-12-08 14:15:42.062647: I tensorflow/core/platform/cpu_feature_guard.cc:151] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


## Entendiendo los datos importados

Los datos importados se pueden dividir de la siguiente manera:

*   Capacitación >> Utilice el conjunto de datos proporcionado con entradas y salidas relacionadas para la capacitación de NN. En nuestro caso, si da una imagen que sabe que representa un "nueve", este conjunto le dirá a la red neuronal que esperamos un "nueve" como salida.\
    \- 60.000 puntos de datos 
    \- x_train para entradas 
    \- tren_y para salidas / etiquetas


*   Prueba >> El modelo no tiene acceso a esta información antes de la fase de prueba. Se utiliza para evaluar el rendimiento y la precisión del modelo frente a "situaciones de la vida real". No hay más optimización más allá de este punto.
    - 10,000 puntos de datos - x_test para entradas - y_test para salidas / etiquetas


*   Los datos de validación no se utilizan en este ejemplo.

In [10]:
print("number of training examples:" , x_train.shape[0])
print("number of test examples:" , x_test.shape[0])

number of training examples: 60000
number of test examples: 10000


La nueva API de conjunto de datos en TensorFlow 2.X le permite definir tamaños de lote como parte del conjunto de datos. También ha mejorado las características de E / S y es la forma recomendada de cargar datos. Esto le permite iterar a través de subconjuntos (lotes) de datos durante el entrenamiento. Esta es una práctica común que mejora el rendimiento al calcular gradientes en lotes más pequeños. Veremos esto en acción durante el paso de entrenamiento.

Además, puede mezclar el conjunto de datos si cree que hay una distribución sesgada de datos en el conjunto de datos original que puede resultar en lotes con distribuciones diferentes. No estamos barajando datos aquí.


In [11]:
train_ds = tf.data.Dataset.from_tensor_slices((x_train, y_train)).batch(50)
test_ds = tf.data.Dataset.from_tensor_slices((x_test, y_test)).batch(50)

2021-12-08 14:33:30.796947: W tensorflow/core/framework/cpu_allocator_impl.cc:82] Allocation of 376320000 exceeds 10% of free system memory.


## Conversión de una imagen 2D en un vector 1D

Las imágenes MNIST son imágenes cuadradas en miniatura en blanco y negro con 28x28 píxeles. A cada píxel se le asigna una intensidad (originalmente en una escala de 0 a 255). Para que la entrada sea útil para nosotros, necesitamos que estos estén organizados en un vector 1D usando una estrategia consistente, como se muestra en la figura siguiente. Nosotros podemos usar Flattenpara realizar esta tarea.


In [12]:
# showing an example of the Flatten class and operation
from tensorflow.keras.layers import Flatten
flatten = Flatten(dtype='float32')

"original data shape"
print(x_train.shape)

"flattened shape"
print(flatten(x_train).shape)

(60000, 28, 28)


2021-12-08 14:35:28.651059: W tensorflow/core/framework/cpu_allocator_impl.cc:82] Allocation of 376320000 exceeds 10% of free system memory.
2021-12-08 14:35:35.037196: W tensorflow/core/framework/cpu_allocator_impl.cc:82] Allocation of 188160000 exceeds 10% of free system memory.


(60000, 784)


## Asignar sesgo y ponderaciones a tensores nulos ¶

Ahora vamos a crear los pesos y sesgos, para ello se utilizarán como matrices llenas de ceros. Los valores que elegimos aquí pueden ser críticos, pero cubriremos una mejor manera en la segunda parte, en lugar de este tipo de inicialización. Dado que estos valores se ajustarán durante el proceso de optimización, los definimos utilizando tf.Variable.

NOTA: tf.Variablecrea variables ajustables que están en el espacio de nombres global, por lo que cualquier función que haga referencia a estas variables no necesita pasar las variables. Pero son globales, ¡así que tenga cuidado al nombrar!

In [13]:
# Weight tensor
W = tf.Variable(tf.zeros([784, 10], tf.float32))
# Bias tensor
b = tf.Variable(tf.zeros([10], tf.float32))

## Adding Weights and Biases to input¶

The only difference for our next operation to the picture below is that we are using the mathematical convention for what is being executed in the illustration. The tf.matmul operation performs a matrix multiplication between x (inputs) and W (weights) and after the code add biases.


<img src="https://ibm.box.com/shared/static/88ksiymk1xkb10rgk0jwr3jw814jbfxo.png" alt="HTML5 Icon" style="width:350px"> 
<div style="text-align:center">Ilustración que muestra cómo se agregan pesos y sesgos a las neuronas / nodos. </div>

In [15]:
def forward(x):
    return tf.matmul(x,W) + b

## Softmax Regression

Softmax is an activation function that is normally used in classification problems. It generates the probabilities for the output. For example, our model will not be 100% sure that one digit is the number nine, instead, the answer will be a distribution of probabilities where, if the model is right, the nine number will have a larger probability than the other other digits.

For comparison, below is the one-hot vector for a nine digit label:
