**Bibliografía:**
Practical Convolutional Neural Networks: Implement advanced deep learning models using Python

**Softmax**

La función softmax convierte sus entradas, conocidas como logit o logit scores, entre 0 y 1, y también normaliza las salidas para que todas sumen 1. En otras palabras, la función softmax convierte sus logits en probabilidades. Matemáticamente, la función softmax se define de la siguiente manera:

![Esta es una imagen de ejemplo](https://www.oreilly.com/library/view/practical-convolutional-neural/9781788392303/assets/f397aff3-9485-43c6-ae4f-7a33d9374b1e.png)

En TensorFlow, se implementa la función softmax. Toma logits y devuelve activaciones softmax que tienen el mismo tipo y forma que los logits de entrada, como se muestra en la siguiente imagen:

![](https://miro.medium.com/max/1058/0*2r10e7gw1jzOsHhC.png)

In [1]:
import tensorflow.compat.v1 as tf
tf.disable_v2_behavior() 

Instructions for updating:
non-resource variables are not supported in the long term


In [2]:
## The following code is used to implement this:
logit_data = [1.2, 0.9, 0.4]
logits = tf.placeholder(tf.float32)
softmax = tf.nn.softmax(logits)
with tf.Session() as sess:
    output = sess.run(softmax, feed_dict={logits: logit_data})
    print( output )

[0.45659032 0.3382504  0.20515925]


La forma en que representamos las etiquetas matemáticamente a menudo se denomina codificación one-hot. Cada etiqueta está representada por un vector que tiene 1.0 para la etiqueta correcta y 0.0 para todo lo demás. Esto funciona bien para la mayoría de los casos problemáticos. Sin embargo, cuando el problema tiene millones de etiquetas, la codificación one-hot no es eficiente, ya que la mayoría de los elementos vectoriales son ceros. Medimos la distancia de similitud entre dos vectores de probabilidad, conocida como entropía cruzada y denotada por D.

En el aprendizaje automático, definimos lo que significa que un modelo sea malo generalmente mediante una función matemática. Esta función se llama función de pérdida, costo o objetivo. Una función muy común que se utiliza para determinar la pérdida de un modelo se llama pérdida de entropía cruzada. Este concepto proviene de la teoría de la información (para obtener más información al respecto, consulte Teoría de la información visual en https://colah.github.io/posts/2015-09-Visual-Information/). Intuitivamente, la pérdida será alta si el modelo clasifica mal los datos de entrenamiento, y será baja en caso contrario, como se muestra aquí:

![](cross_entropy.png "cross entropy")

En TensorFlow, podemos escribir una función de entropía cruzada usando tf.reduce_sum (); toma una matriz de números y devuelve su suma como un tensor (consulte el siguiente bloque de código):

In [3]:
x = tf.constant([[1,1,1], [1,1,1]])
with tf.Session() as sess:
    print(sess.run(tf.reduce_sum([1,2,3]))) #returns 6
    print(sess.run(tf.reduce_sum(x,0))) #sum along x axis, prints [2,2,2]


6
[2 2 2]


Pero en la práctica, al calcular la función softmax, los términos intermedios pueden ser muy grandes debido a los exponenciales. Entonces, dividir números grandes puede ser numéricamente inestable. Deberíamos usar la API de pérdida de entropía cruzada y softmax proporcionada por TensorFlow. El siguiente fragmento de código calcula manualmente la pérdida de entropía cruzada y también imprime lo mismo con la API de TensorFlow:

In [4]:
softmax_data = [0.1,0.5,0.4]
onehot_data = [0.0,1.0,0.0]
softmax = tf.placeholder(tf.float32)
onehot_encoding = tf.placeholder(tf.float32)
cross_entropy = - tf.reduce_sum(tf.multiply(onehot_encoding,tf.log(softmax)))

cross_entropy_loss = tf.nn.softmax_cross_entropy_with_logits(logits=tf.log(softmax),
                                                             labels=onehot_encoding)
with tf.Session() as session:
    print(session.run(cross_entropy,feed_dict={softmax:softmax_data,
                                               onehot_encoding:onehot_data} ))
    print(session.run(cross_entropy_loss,feed_dict={softmax:softmax_data,
                                                    onehot_encoding:onehot_data} ))

Instructions for updating:

Future major versions of TensorFlow will allow gradients to flow
into the labels input on backprop by default.

See `tf.nn.softmax_cross_entropy_with_logits_v2`.

0.6931472
0.6931472
