# Funciones de pérdida y métricas.
### por Jorge Avila | javilac@udec.cl | Departamento de Ingeniería Matemática, Universidad de Concepción.

In [1]:
from IPython.display import display, Image, SVG, Math, YouTubeVideo, HTML

In [8]:
Image(url='https://cdn-images-1.medium.com/max/1600/1*pwPIG-GWHyaPVMVGG5OhAQ.gif')

***Abstract***
Las métricas son importantes para medir el desempeño de un modelo. Las funciones de pérdida permiten tener una medida de error a minimizar. Dependiendo del tipo de problema (clasificación binaria, multi-clase, multi-etiqueta o de regresión) estas pueden varíar. Para cada tipo de problema que encontramos en el aprendizaje supervisado mostraremos qué métricas y funciones de pérdida son las adecuadas, y cómo implementarlas en keras, además de un ejemplo práctico y análisis de los resultados. 

_Es importante conocer el contexto de nuestro problema antes de escoger una métrica._

***IMPORTANTE: En este cuaderno nos enfocaremos netamente en problemas de aprendizaje supervisado***

# ¿Qué es una función de pérdida? 
Una función de pérdida corresponde a la función objetivo que se quiere minimizar en el problema de optimización para ajustar los pesos de la red. Esta función realiza una comparación entre los output reales y los predichos por la red en la etapa de entrenamiento. También se le puede encontrar con el nombre de _Función de costo_

**Ejemplos de funciones de pérdida** 
1. Error cuadrático medio.
2. Error absoluto medio. 
3. Entropía cruzada binaria.
4. Entropía cruzada categórica.
5. Logaritmo del coseno hiperbólico.

https://keras.io/losses/

# ¿Qué es una métrica? 
Una métrica es una función usada para **evaluar el desempeño**  de nuestro modelo. 
Es bueno mencionar que una métrica es similar a una función de pérdida, pero la diferencia es que la evaluación de la métrica no es usada para entrenar el modelo, a diferencia de la función de pérdida. 

**Ejemplos de métricas** 
1. Error cuadrático medio.
2. Error absoluto medio.
3. Accuracy, Sensitivity, Sensibility. 
4. Accuracy binario.
5. Accuracy categórico. 

https://keras.io/metrics/
$$Función \hspace{0.1 cm} de \hspace{0.1 cm} Pérdida \Longrightarrow Métrica$$

## ¿Qué tienen en común las métricas con las funciones de pérdida? 
* Ambas requieren de los datos de salida reales y predichos por la red. 
* Ambas me ayudan a medir el desempeño de mi modelo.

## ¿Qué cuidado debo tener con las métricas y funciones de pérdida? 
* Dependiendo de cada tipo de problema, sea de regresión, clasificación binaria, multi clase o multi etiqueta, las métricas y funciones de pérdida pueden variar entre un tipo de problema y otro. 
* En general, las funciones de pérdida no son transversales a todos los problemas. 
* Dependiendo del objetivo real el problema a resolver, hay métricas que me pueden servir más que otras. 


# Escogiendo la métrica correcta para mi modelo
Ya debemos estar al tanto de que, en el aprendizaje supervisado, podemos abordar problemas de clasificación y regresión. 

En cada modelo existe una función de pérdida adecuada, función de activación en la capa de salida, y una métrica con la que podemos ir midiendo el desempeño de nuestras predicciones.

***¿Cómo elegir la métrica correcta para cada problema?*** 
Todo depende del tipo de problema que queramos abordar: regresión, clasificación (binaria, multi etiqueta o multi clase).
[Basado en este artículo](https://medium.com/usf-msds/choosing-the-right-metric-for-evaluating-machine-learning-models-part-2-86d5649a5428)

## Problemas de regresión. 

La función de pérdida más clásica en problemas de regresión es el Error Cuadrático Medio (Mean Squared Error / MSE).

\begin{equation}
\dfrac{1}{n} \sum_{j=1}^n(y_j - \hat{y}_j)^2
\end{equation}

Una variante natural de este función es el la raíz del Error Cuadrátivo Medio (Root Mean Squared Error / RMSE). 

\begin{equation}
\sqrt{\dfrac{1}{n} \sum_{j=1}^n(y_j - \hat{y}_j)^2}
\end{equation}

Y otra es el Error Absoluto Medio (Mean Absolute Error / MAE)
\begin{equation}
\dfrac{1}{n} \sum_{j=1}^n|y_j - \hat{y}_j|
\end{equation}

Estas funciones de pérdida también son las más usadas como métricas. 

**En keras**

In [None]:
# model.compile(loss='mean_squared_error', optimizer='sgd')

# model.compile(loss='mean_absolute_error', optimizer='sgd')

## Problemas de clasificación.
Nos podemos enfrentar a tres tipos de problemas en clasificación: binaria, multi-clase, o multi-etiqueta. Cada uno de ellos ataca problemas distintos en cuanto a su objetivo, pero se abordan de manera bastante similar. Existen diferencias en la función de activación de la última capa, además de la cantidad de neuronas, pero también en las métricas a utilizar para evaluar el desempeño de  cada modelo. 

Nos enfocaremos principalmente en el problema de clasificación binaria por el momento, pero luego se agregarán los detalles para los demás problemas. 

Escribiré los nombres en inglés de cada problema para que pueda serle fácil buscar mayor información en internet. 

In [7]:
print('Ejemplo de un problema de clasificación binaria')
Image(url='https://cdn-images-1.medium.com/max/1600/1*bhFifratH9DjKqMBTeQG5A.gif')

Ejemplo de un problema de clasificación binaria


### 1. Binary clasification
El problema de clasificación binaria consiste en construir un modelo para predecir una de dos categorías disponibles, por ejemplo, si en una imagen se encuentra un perro o un gato. La red será construida de tal forma que una y sólo una respuesta podrá ser posible.

Las métricas más utilizadas en estos casos se obtienen a partir de la **matriz de confusión**. 

#### ¿Qué es la matriz de confusión?
Es una matriz en la que las filas representan las predicciones (predicted), y las columnas los valores reales (ground truth /actual values). En cada componente de la matriz se contabiliza la cantidad de combinaciones obtenidas en lo **Real vs Predicho**. Para el entendimiento siguiente, se asume que una clase será identificada como **Positiva** y otra como la clase **Negativa** (análogo a una clase denotada por $1$, y la otra clase denotada por $0$)

In [13]:
Image(url = 'https://cdn-images-1.medium.com/max/800/1*7SgzmX05T81Ojaor9s5HWQ.png')

#### Una matriz de confusión para el caso binario se compone de
* TP: True Positives / Verdaderos Positivos. Aquellos valores de la clase 'Positiva' que fueron bien predichos.
* TN: True Negatives / Verdaderos Negativos. Aquellos valores de la clase 'Negativa' que fueron bien predichos. 
* FP: False Positives / Falsos Positivos.  Aquellos valores de la clase 'Positiva' que fueron predichos como 'Negativos'
* FN: False Negatives / Falsos Negativos.  Aquellos valores de la clase 'Negativa' que fueron predichos como 'Positivos'

Las principal métrica que podemos obtener de esta matriz de confusión es la cantidad de aciertos que hemos tenido sobre el conjunto total de datos. A esto se le llama **Accuracy** 

$$ Acc = \dfrac{TP + TN}{TP + TN + FP + FN}$$

Otras medidas que podemos sacar de esta matriz son: 

**Sensitivity/Recall/True Positive Rate** 
Número de items correctamente identificados como verdaderos positivos sobre el total de positivos. 

$$\dfrac{TP}{TP + FP}$$

**Specificity/True Negative Rate**
Número de items correctamente identificados como verdaderos negativos sobre el total de negativos. 

$$\dfrac{TN}{TN + FN}$$

**Precision** 
Números de items correctamente identificadas como positivas sobre el total de positivos. 

$$\dfrac{TP}{TP + FP}$$

**False Positive Rate/ Type Error I**
$$\dfrac{FP}{FP + TN}$$

**False Negative Rate / Type Error II**
$$\dfrac{FN}{FN + TP}$$

In [14]:
Image(url = 'https://cdn-images-1.medium.com/max/800/0*EuzJ9ydlpbZrTK5b.')

In [15]:
from sklearn.metrics import confusion_matrix
y_true = ["cat", "ant", "cat", "cat", "ant"]
y_pred = ["ant", "ant", "cat", "cat", "ant"]
confusion_matrix(y_true, y_pred, labels=["ant", "cat"])

array([[2, 0],
       [1, 2]])

Podrá notar que no es muy atractiva gráficamente la matriz de confusión anterior, ni tampoco clara ante un lector que no está trabajando en el problema ni conoce las clases consideradas. **Debemos ser capaces de entregar nuestros resultados de una forma clara**. 

#### ¿Qué función de activación debemos usar en la última capa? 
Lo idóneo para este tipo de problemas es utilizar a función softmax, pues nuestro objetivo es decidir por una de las dos categorías consideradas. 

\begin{align}
    softmax: \mathbb{R}^n & \rightarrow [0,1]^N \\
             x & \mapsto softmax(x)_{i} = \dfrac{exp(x_i)}{\sum_{j=1}^{N} exp(x_j)}
\end{align}

**Observe que la función softmax tiene como salidas $N$ componentes, donde cada componente $i$ corresponde a la exponencial de la componente $i$ de la entrada, dividida por la suma de las exponenciales de cada entrada. Por tanto, es fácil hacer las cuentas y darnos cuenta que la suma de las componente de la softmax es igual a 1.**

La función softmax combinará ambas salidas (recuerde tener dos neuronas en la última capa) de modo que en total sumen 1, al igual que una distribución de probabilidad. Por tanto, aquella salida con la _mayor probabilidad_ será la predicción de nuestra red. Por supuesto que hay que tener en consideración que nuestra salida esté modelada como variables dummy en $\{0,1\}$

### 2. Multi-class
En el caso de los problemas multi-clase, la salida puede contener más de una categoría/clase, pero la respuesta será una sola entre todas las opciones. 

In [6]:
print('Ejemplo de un problema multi-clase')
Image(url='https://thumbs.gfycat.com/DeadlyDeafeningAtlanticblackgoby-size_restricted.gif')

Ejemplo de un problema multi-clase


#### ¿Qué función de activación debemos usar en la última capa? 
Responda... softmax


### 3. Multi-label
El caso más general y complicado es cuando se dispone de muchas clases, y está la opción de elegir varias entre ellas. 

In [9]:
Image(url="https://cdn-images-1.medium.com/max/800/1*ejGoIM6k3KmOx2Kq1IE_xw.jpeg")

In [10]:
Image(url="https://www.pyimagesearch.com/wp-content/uploads/2018/05/keras_multi_label_animation.gif")

#### ¿Qué función de activación debemos usar en la última capa? 
Al usar la función sigmoidal como función de activación en la última capa, y la función de pérdida de entropía cruzada binaria, cada etiqueta será tratada como una clase independiente. 

# TRABAJAR CON TITANIC

# Referencias
1. 
2.   
3. 
