## Resumen

### Redes neuronales profundas

La función de activación sigmoidea en realidad es bastante problemática en redes profundas. Aplasta todos los valores entre 0 y 1 y cuando se utiliza repetidamente, las salidas de neuronas y sus gradientes pueden desaparecer por completo. Las redes modernas usan RELU (Rectified Linear Unit).

In [2]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.filterwarnings("ignore")
import tensorflow as tf
from tensorflow.contrib.learn.python.learn.datasets.mnist import read_data_sets

NUM_ITERS=5000
LOTES=100

tf.set_random_seed(0)

mnist = read_data_sets("MNISTdata", one_hot=True, reshape=False, validation_size=0)

X = tf.placeholder(tf.float32, [None, 28, 28, 1])
Y_ = tf.placeholder(tf.float32, [None, 10])

Extracting MNISTdata\train-images-idx3-ubyte.gz
Extracting MNISTdata\train-labels-idx1-ubyte.gz
Extracting MNISTdata\t10k-images-idx3-ubyte.gz
Extracting MNISTdata\t10k-labels-idx1-ubyte.gz


In [3]:
# Capas a mostrar
L1 = 200
L2 = 100
L3 = 60
L4 = 30
L5 = 10

# Los pesos se inicializan con valores aleatorios desde una distribucion normal  estandar
# la salidad de una capa es la entrada para la otra

W1 = tf.Variable(tf.truncated_normal([784, L1], stddev=0.1))
b1 = tf.Variable(tf.zeros([L1]))

W2 = tf.Variable(tf.truncated_normal([L1, L2], stddev=0.1))
b2 = tf.Variable(tf.zeros([L2]))

W3 = tf.Variable(tf.truncated_normal([L2, L3], stddev=0.1))
b3 = tf.Variable(tf.zeros([L3]))

W4 = tf.Variable(tf.truncated_normal([L3, L4], stddev=0.1))
b4 = tf.Variable(tf.zeros([L4]))

W5 = tf.Variable(tf.truncated_normal([L4, L5], stddev=0.1))
b5 = tf.Variable(tf.zeros([L5]))


In [4]:
# Aplanamos las imágenes, se crea un  vector [784]
#  -1 en la definición de shape significa que calculamos automáticamente el tamaño de esta dimensión

XX = tf.reshape(X, [-1, 784])

# Definimos el modelo
Y1 = tf.nn.relu(tf.matmul(XX, W1) + b1)
Y2 = tf.nn.relu(tf.matmul(Y1, W2) + b2)
Y3 = tf.nn.relu(tf.matmul(Y2, W3) + b3)
Y4 = tf.nn.relu(tf.matmul(Y3, W4) + b4)
Ylogits = tf.matmul(Y4, W5) + b5
Y = tf.nn.softmax(Ylogits)

Utilizamos una función de Tensorflow para softmax.

In [6]:
entropia_cruzada = tf.nn.softmax_cross_entropy_with_logits(logits=Ylogits, labels=Y_)
entropia_cruzada= tf.reduce_mean(entropia_cruzada)*100

                                                          
# prediccion del modelo de entrenamiento
prediccion_correcta = tf.equal(tf.argmax(Y, 1), tf.argmax(Y_, 1))
prediccion = tf.reduce_mean(tf.cast(prediccion_correcta, tf.float32))

# Taza de aprendizaje
paso_entrenamiento = tf.train.AdamOptimizer(0.003).minimize(entropia_cruzada)

In [7]:
# Lancemos el modelo utilizando InteractiveSession:

sess = tf.InteractiveSession()
tf.global_variables_initializer().run()

In [8]:
 for i in range(NUM_ITERS+1):
        # Entrenamiento de lotes  100 imagenes con 100 etiquetas
        lote_X, lote_Y = mnist.train.next_batch(LOTES)
        sess.run(paso_entrenamiento, feed_dict={X: lote_X, Y_:lote_Y})

In [9]:
prediccion_correcta = tf.equal(tf.argmax(Y,1), tf.argmax(Y_,1))

In [10]:
prediccion = tf.reduce_mean(tf.cast(prediccion_correcta, tf.float32))

Finalmente, calculamos precisión de nuestros datos de  prueba.

In [11]:
print(sess.run(prediccion, feed_dict={X: mnist.test.images, Y_: mnist.test.labels}))

0.9782
