# Funcion softmax de entropia cruzada con logits.

# Definicion

El nombre de la funcion en tensorflow es tf.nn.softmax_cross_entropy_with_logits.     El proposito de esta funcion medir el error de probabilidad en las tareas de clasificacion discretas en el cual las clases son mutuamente excluyentes, es decir que una entidad tiene una sola clase, como por ejemplo la entidad perro pertenece a la clase perro, una entidad no puede ser perro y gato al mismo tiempo, no puede ser representada por  una clase con nombre perroGato, esto es incorrecto.   En el paquete de imagenes CIFAR-10, cada imagen esta etiquetada con solo una etiqueta o un solo nombre, es decir que una imagen solo puede ser de una clase, como por ejemplo perro o gato, pero no ambas.  Mientras las clases son mutuamente excluyentes las probabilidades no lo son.   Los valores de las etiquetas pueden estar representados como valores resultantes de la funcion softmax o como valores one-hot encode.

Una restriccion es que el parametro logits y etiquetas (labels) deben tener la misma forma y el mismo tipo.   La forma de logits y las etiquetas (labels) puede ser de la siguiente forma [tamano_Lote, numero_clasess] y el tipo puede ser float16, float32 o float64.

# Sintaxis

La funcion en tensorFlow debe ser ejecutada de la siguiente forma:

    - softmax_cross_entropy_with_logits(_sentinel=None,labels=None,logits=None,dim=-1,name=None)

Los parametro de la funcion son los siguientes:
    - _sentinel = usado para prevenir los parametros posicionales.  Uso interno, no usar.
    - labels = Cada fila representada por etiqueta[indice] (label[i]), debe ser una distribucion de probabilidad valida.
    - logits = registro de las probabilidades sin escalar en un rango [-infinito, +infinito]
    - dim = La clase de dimensiones.   El valor predeterminado es -1, el cual significa que es la ultima clase.
    - name= Representa un nombre para la operacion.  Valor opcional.


La suma de las entradas para esta funcion puede cualquier numero, mayor o menor a cero, porque los valores no son probabilidades.

Para conocer mas sobre el parametro logits consulte el archivo con nombre logits.ipynb

# Objectivo

Medir el error de las probabilidades por cada clase en la capa totalmente conectada o fully connected layer.

Fitura 1. Capas de una red neuronal.
![](https://adeshpande3.github.io/assets/Cover.png)


# Ejemplos:
 * Ejemplo 1: calcula la activacion softmax con etropia de dos tensores, etiquetas (EtiquetasVerdaderasOneHot) y valores (valoresDelTensor).
 * Ejemplo 2: Demostrar el procedimiento corto y largo para calcular el total de error de la entropia cruzada, en el procedimiento corto se muestra el calculo de la entropia con aplicacion la formula tf.nn.softmax, tf.log, tf.reduce_sum y tf.reduce_mean
 * Ejemplo 3: Ejemplo 3: Demostrar la diferencia de las probabilidades de distribucion entre la aplicacion de la funcion softmax y la funcion softmax con entropia cruzada

# Referencias
* [Stackoverflow.com (2,017). What's the difference between softmax and softmax_cross entropy with logits?](https://stackoverflow.com/questions/34240703/whats-the-difference-between-softmax-and-softmax-cross-entropy-with-logits)
* [What is the meaning of the word logits in tensorflow](https://stackoverflow.com/questions/41455101/what-is-the-meaning-of-the-word-logits-in-tensorflow)
* [tf.nn.softmax_cross_entropy_with_logits](https://www.tensorflow.org/api_docs/python/tf/nn/softmax_cross_entropy_with_logits)
* [Calculating cross entropy in tensorflow](https://stackoverflow.com/questions/42521400/calculating-cross-entropy-in-tensorflow)
* [tf.nn.softmax](https://www.tensorflow.org/api_docs/python/tf/nn/softmax)
* [How to choose cross-entropy loss in tensorflow ?](https://stackoverflow.com/questions/47034888/how-to-choose-cross-entropy-loss-in-tensorflow/47034889)

In [11]:
#EJEMPLO 1: Calcular el error de la probabilidad en la tareas de clasificacion.
# IMPORTS
import tensorflow as tf
import numpy as np
import math

# CREATE SESSION
session = tf.Session()

#CREATE VARIABLES AND PLACEHOLDERS
valoresDelTensor = tf.constant(np.array([[-.2, .0, .1, .2],[.3, 0.4, .5, .6],[.7, .8, .9 , .1],[.7, .3, .5 , .1]]))
EtiquetasVerdaderasOneHot = tf.convert_to_tensor(np.array([[0.1, 0.0, 0.0, 0.0],[0.0, 1.0, 0.0, 0.0],[0.0, 0.0, 1.0, 0.0],[0.0, 0.0, 0.0, 1.0]]))

#INIT VARIABLES
session.run(tf.global_variables_initializer())

#RUN SESSION
EtiquetasVerdaderasOneHotResultado = session.run(EtiquetasVerdaderasOneHot)
softmaxWitCrossEntropy= tf.nn.softmax_cross_entropy_with_logits(None,EtiquetasVerdaderasOneHotResultado,valoresDelTensor,name="softmax")
softmaxWitCrossEntropyResult= session.run(softmaxWitCrossEntropy)

#Reduce_mean calcula la media a travez de las dimensiones de un tensor.
media=tf.reduce_mean(softmaxWitCrossEntropyResult)
mediaResultado=session.run(media)

print("Equiquetas verdaderas one hot \n"+str(EtiquetasVerdaderasOneHotResultado)+"\n")
print("Resutlado de la funcion softmax con cross entropy : \n "+str(softmaxWitCrossEntropyResult)+"\n")
print("Media de Error de probabilidad en la clasificacion : \n "+str(mediaResultado)+"\n")

perdida total en la entropiza cruzada 
[ 0.16219762  1.44253553  1.15464509  1.71115412]

Equiquetas verdaderas one hot 
[[ 0.1  0.   0.   0. ]
 [ 0.   1.   0.   0. ]
 [ 0.   0.   1.   0. ]
 [ 0.   0.   0.   1. ]]

softmax con cross entropy : 
 [ 0.16219762  1.44253553  1.15464509  1.71115412]

Error de probabilidad en la clasificacion : 
 1.11763309191



# Ejemplo 2

Demostrar el procedimiento corto y largo para calcular el total de error de la entropia cruzada, en el procedimiento corto se muestra el calculo de la entropia con aplicacion la formula tf.nn.softmax, tf.log, tf.reduce_sum y tf.reduce_mean

# Funciones utilizadas

* tf.nn.softmax: convierter un tensor con valones no normalizados en el rango [-infinito, +infinito] a un tensor normalizado con valores en el rango [0,1].
* tf.log: calcula el logaritmo de un tensor.
* tf.reduce_sum: calcula la suma de las dimensiones de un tensor
* tf.reduce_mean: calcula la media de la dimensiones de un tensor

# Referencias
* [tf.nn.softmax_cross_entropy_with_logits](https://www.tensorflow.org/api_docs/python/tf/nn/softmax_cross_entropy_with_logits)

In [7]:
# Ejemplo 2.

import tensorflow as tf
import numpy as np
sess = tf.Session()

# Procedimiento corto:

# PuntuacionesCalculadasPorClase: contiene los punteos calculados para cada clases por ejemplo: W*x +b
# los resultados pueden ser interpretados como las etiquetas predichas para las clases [a, b y c]
arregloDeDatos=np.array([[0.5, 1.5, 0.1],[2.2, 1.3, 1.7]])
PuntuacionesCalculadasPorClase = tf.convert_to_tensor(arregloDeDatos)
PuntuacionesCalculadasPorClaseResult=sess.run(PuntuacionesCalculadasPorClase)
print("Puntuaciones calculadas por clase \n"+str(PuntuacionesCalculadasPorClaseResult)+"\n")

EtiquetasVerdaderasOneHot = tf.convert_to_tensor(np.array([[0.0, 1.0, 0.0],[0.0, 0.0, 1.0]]))
EtiquetasVerdaderasOneHotResultado = sess.run(EtiquetasVerdaderasOneHot)
print("Equiquetas verdades one hot \n"+str(EtiquetasVerdaderasOneHotResultado)+"\n")

# Calcular la perdiad total de entropia cruzada.
# Forma 1: Procedimiento largo, calcular la perdida total de la entropia cruzada. 

PuntuacionesCalculadasPorClaseSoftmax = tf.nn.softmax(PuntuacionesCalculadasPorClase)
PuntuacionesCalculadasPorClaseSoftmaxResult = sess.run(PuntuacionesCalculadasPorClaseSoftmax)
print("Probabilidades normalizadas por cada clase usando softmax \n"+str(PuntuacionesCalculadasPorClaseSoftmaxResult)+"\n")

perdidaTotal = tf.reduce_mean(-tf.reduce_sum(PuntuacionesCalculadasPorClase * tf.log(PuntuacionesCalculadasPorClaseSoftmax),[1]))
perdidaTotalResultado = sess.run(perdidaTotal)
print("Perdida total (Proc. largo) \n"+str(perdidaTotalResultado))

#Forma 2: Procedimiento corto, es el equivalente del procedimiento corto para calcular la perdida total de entropia cruzada.
perdidaTotal2 = tf.reduce_mean(
                    tf.nn.softmax_cross_entropy_with_logits(
                        _sentinel=None,
                        logits=PuntuacionesCalculadasPorClaseSoftmaxResult,
                        labels=EtiquetasVerdaderasOneHotResultado))

perdidaTotal2Resultado = sess.run(perdidaTotal2)
print("Perdida total (Proc. corto) \n"+str(perdidaTotalResultado))

Puntuaciones calculadas por clase 
[[ 0.5  1.5  0.1]
 [ 2.2  1.3  1.7]]

Equiquetas verdades one hot 
[[ 0.  1.  0.]
 [ 0.  0.  1.]]

Probabilidades normalizadas por cada clase usando softmax 
[[ 0.227863    0.61939586  0.15274114]
 [ 0.49674623  0.20196195  0.30129182]]

Perdida total (Proc. largo) 
3.65211878273
Perdida total (Proc. corto) 
3.65211878273


# Ejemplo 3

La capa de salida o "Fully connected layer" de una red neuronal se debe calcular un arreglo que contiene los punteos de las clases para cada una de las instancias de entrenamiento, estas instancias son generadas a partir del calculo salida_de_sombrero = W*x + b.  Si salida_de_sombrero es una arreglo de 2x3 dimensiones, el numero de filas es 2 y el numero de columnas es 3, las filas son las instancias y las columnas son las clases de sombreros, entonces el arreglo tiene 2 instancias y 3 clases.

Tabla 1. Representacion de clases e instancias de un arreglo.

| Instancias  | Clase A     | Clase B     | Clase C     |
| ------      | ------      | ------      | ------      |
| Instancia 1 | 0.227863    | 0.61939586  | 0.15274114  |
| Instancia 2 | 0.49674623  | 0.20196195  | 0.30129182  |


Fitura 1. Capas de una red neuronal.
![](https://adeshpande3.github.io/assets/Cover.png)

# Descripcion de los pasos.
* Paso 1. Datos de entrada, son valores por clase no normalizados.
* Paso 2. Valores por clase normalizados con la funcion softmax.
* Paso 3. Resultados de probabilidad para cada clases de todas las instancias de entrenamiento.
* Paso 4. Modificar las puntuaciones por clase
* Paso 5, calcular la perdida por instancia, forma 1, se calcula el logaritmo sobre la puntuaciones calculadas con la funcion softmax.
* Paso 6, calcular la perdida total sin usar la funcion softmax con entropia cruzada, si se usan los valores resultantes de la funcion softmax y se aplica la funcion log, reduce_sum y reduce_mean
* Paso 7, calcular la perdida por instancia, forma 2, se calcula la perdida por instancia de los valores originales sin haber aplicado la funcion softmax, es la diferencia del paso 5 y el paso 7.
* Paso 8, calcular la perdidad total usando la funcion softmax con entropia cruzada, se usan los valores sin haber aplicado la funcion softmax.

# Conclusion:

Existe una diferencia minima en los decimales entre la perdidaTotalForma1 y perdidaTotalForma2, la perdidaTotalForma1 es mas extensa porque a los valores originales se le aplica la funcion softmax con el objetivo de normalizar los valores, para luego aplicarle la funcion reduce_sum y recude_min.  En la perdidaTotalForma2 no se aplica la funcion softmax, debido a que el tensor de entrada no requiere que los valores esten normalizados.

# Funciones utilizadas

* tf.nn.softmax: convierter un tensor con valones no normalizados en el rango [-infinito, +infinito] a un tensor normalizado con valores en el rango [0,1].
* tf.log: calcula el logaritmo de un tensor.
* tf.reduce_sum: calcula la suma de las dimensiones de un tensor
* tf.reduce_mean: calcula la media de la dimensiones de un tensor

# Referencias
* [tf.nn.softmax_cross_entropy_with_logits](https://www.tensorflow.org/api_docs/python/tf/nn/softmax_cross_entropy_with_logits)

In [13]:
# Ejemplo 3: Demostrar la diferencia de las probabilidades de distribucion entre la aplicacion de la funcion softmax y la funcion softmax con entropia cruzada

import tensorflow as tf
import numpy as np
sess = tf.Session()

# Paso 1. Valores por clase no normalizados.
# PuntuacionesCalculadasPorClase: contiene los punteos calculados para cada clases por ejemplo: W*x +b
# los resultados pueden ser interpretados como las etiquetas predichas para las clases [a, b y c]
# Los resultados no estan normalizado, los valores estan en el rango [-infinito, +infinito]
arregloDeDatos=np.array([[0.5, 1.5, 0.1],[2.2, 1.3, 1.7]])
PuntuacionesCalculadasPorClase = tf.convert_to_tensor(arregloDeDatos)
PuntuacionesCalculadasPorClaseResult=sess.run(PuntuacionesCalculadasPorClase)
print("Puntuaciones calculadas por clase (No normalizadas) \n"+str(PuntuacionesCalculadasPorClaseResult)+"\n")

# Paso 2. Valores por clase normalizado con la funcion softmax.
# Es importante entender los resultados de la funcion softmax, la interpretancion de los resultados es la siguiente, la probabilidad del entrenammiento de la instancia 1 y la clase B es de 0.61639578, asi mismo se pueden analizar los resultados para cada instancia por las clases existentes.

PuntuacionesCalculadasPorClaseSoftmax = tf.nn.softmax(PuntuacionesCalculadasPorClase)
PuntuacionesCalculadasPorClaseSoftmaxResult = sess.run(PuntuacionesCalculadasPorClaseSoftmax)
print("Puntuaciones calculadas por clase (Normalizadas con softmax) \n"+str(PuntuacionesCalculadasPorClaseSoftmaxResult)+"\n")

# Paso 3. Resultados de probabilidad para cada clases de todas las instancias de entrenamiento.
# Al aplicar la funcion argmax de cada instancia se puede obtener la probabilidad para cada clase, en los resultados anteriores el valor mas alto de la instancia 1 es la clase B y para la instancia 2 el resultado es la clase C.

ProbabilidadesPorInstancia = tf.argmax(PuntuacionesCalculadasPorClaseSoftmaxResult)
ProbabilidadesPorInstanciaResultado = sess.run(ProbabilidadesPorInstancia)
print("Probabilidades por instancia \n"+str(ProbabilidadesPorInstanciaResultado)+"\n")

# Paso 4. Modificar las puntuaciones por clase
#La pregunta mas importante es como sabemos si la clasificacion es correcta.  Para responder esta pregunta es necesario comparar la probabilidad de las puntuaciones por clase "PuntuacionesCalculadasPorClase" con la probabilidad de las puntuaciones por clase de la funcion softmax.    Para medir el error de las puntuaciones calculadas por clase con respecto a los valores de la funcion softmax es necesario aplicar la funcion cross-entropy loss.

PuntuacionesCalculadasPorClaseEjemplo2 = tf.convert_to_tensor(np.array([[0.0, 1.0, 0.0],[0.0, 0.0, 1.0]]))
PuntuacionesCalculadasPorClaseEjemplo2Resultado = sess.run(PuntuacionesCalculadasPorClaseEjemplo2)
print("Puntuaciones calculadas por clase (No normalizadas) \n"+str(PuntuacionesCalculadasPorClaseEjemplo2Resultado)+"\n")

# Paso 5, calcular la perdida por instancia, forma 1, se calcula el logaritmo sobre la puntuaciones calculadas con la funcion softmax.
perdidadDeInstanciaForma1 = -tf.reduce_sum(
                                PuntuacionesCalculadasPorClaseEjemplo2 * tf.log(PuntuacionesCalculadasPorClaseSoftmax),
                                reduction_indices=[1])

perdidadDeInstanciaForma1Resultado = sess.run(perdidadDeInstanciaForma1)
print("Perdida por instancia (forma 1) \n"+str(perdidadDeInstanciaForma1Resultado)+"\n")

# Paso 6, calcular la perdida total sin usar la funcion softmax con entropia cruzada, si se usan los valores resultantes de la funcion softmax y se aplica la funcion log, reduce_sum y reduce_mean
perdidaTotal = tf.reduce_mean(
                -tf.reduce_sum(
                    PuntuacionesCalculadasPorClaseEjemplo2 * tf.log(PuntuacionesCalculadasPorClaseSoftmax),
                    reduction_indices=[1]))

perdidaTotalResultado= sess.run(perdidaTotal)
print("Perdida total (sin funcion de entropia cruzada) \n"+str(perdidaTotalResultado)+"\n")

# Paso 7, calcular la perdida por instancia, forma 2, se calcula la perdida por instancia de los valores originales sin haber aplicado la funcion softmax, es la diferencia del paso 5 y el paso 7.
perdidaPorInstanciaForma2 = tf.nn.softmax_cross_entropy_with_logits(
                        _sentinel=None,
                        logits=PuntuacionesCalculadasPorClase,
                        labels=PuntuacionesCalculadasPorClaseEjemplo2)

perdidaPorInstanciaForma2Resultado = sess.run(perdidaPorInstanciaForma2)
print("Perdida por instancia (forma 2) \n"+str(perdidaPorInstanciaForma2Resultado)+"\n")

# Paso 8, calcular la perdidad total usando la funcion softmax con entropia cruzada, se usan los valores sin haber aplicado la funcion softmax.
perdidaTotalForma2 = tf.reduce_mean(
                        tf.nn.softmax_cross_entropy_with_logits(
                            _sentinel=None,
                            logits=PuntuacionesCalculadasPorClase,
                            labels=PuntuacionesCalculadasPorClaseEjemplo2))

perdidaTotalForma2Resultado = sess.run(perdidaTotalForma2)
print("Perdida total (con funcion de entropia cruzada) \n"+str(perdidaTotalForma2Resultado)+"\n")

Puntuaciones calculadas por clase (No normalizadas) 
[[ 0.5  1.5  0.1]
 [ 2.2  1.3  1.7]]

Puntuaciones calculadas por clase (Normalizadas con softmax) 
[[ 0.227863    0.61939586  0.15274114]
 [ 0.49674623  0.20196195  0.30129182]]

Arreglo de puntuacions por clase 
[[ 0.227863    0.61939586  0.15274114]
 [ 0.49674623  0.20196195  0.30129182]]

Probabilidades por instancia 
[1 0 1]

Puntuaciones calculadas por clase (No normalizadas) 
[[ 0.  1.  0.]
 [ 0.  0.  1.]]

Perdida por instancia (forma 1) 
[ 0.4790107   1.19967598]

Perdida total (sin funcion de entropia cruzada) 
0.839343338979

Perdida por instancia (forma 2) 
[ 0.4790107   1.19967598]

Perdida total (con funcion de entropia cruzada) 
0.839343338979

