# Función de coste

Es una medida de que tan equivocado está nuestro modelo en términos de su habilidad para estimar la relación entre X e y.

La función de coste es un solo valor, no un vector. Esto es debido a que evalua qué tal actúa la red neuronal como un todo.

# Tipos de funciones de coste

Se dividen en 2 tipos:
- Funciones de coste para regresión.
- Funciones de coste para clasificación.

## 1.Funciones de coste para regresión

Considerando:

$Y$ - Output real

$\hat{Y}$ - Output predecido

Las funciones de coste en regresión son calculadas como errores basados en distancia:

$$Error = y - \hat{y}$$

Considerando `n` el número total de data points:

### 1.1 Mean Error (ME)

$$ME = \frac{1}{n} * \sum{(y - \hat{y})}$$

Los errores pueden ser tanto positivos como negativos. Esto haría que se cancelasen en la sumatoria, dando lugar a un modelo con media de error 0.

Por esto mismo, no es recomendado.

Sin embargo, sirve como fundamento para las siguientes funciones de coste.

### 1.2 Mean Squared Error (MSE)

$$MSE = \frac{1}{n} * \sum{(y - \hat{y})^2}$$

El cuadrado evita la existencia de valores negativos.

A este también se le conoce como el **L2 Loss**.

Debido a que cada error está al cuadrado, esto ayuda a penalizar incluso las pequeñas desviaciones en comparación con el ME.

Sin embargo, esto hace que sea **menos robusto ante outliers** porque aumentaría aún más el error ante estos.

### 1.3 Mean Absolute Error (MAE)

$$MAE = \frac{1}{n} * \sum{|y - \hat{y}|}$$

A este también se le conoce como el **L1 Loss**.

**Funciona bien ante la presencia de outliers**, así que obtendremos buenos resultados aunque nuestro dataset tenga ruido o outliers.

### 1.4 Root Mean Squared Error (RMSE)

La distancia euclediana entre dos puntos se representa de la siguiente forma:

$$distance(x,y) = \sqrt{\sum^n_{i=1}{(x_i - y_i)^2}}$$

El RMSE puede entenderse como una normalización en la distancia euclediana entre el vector de los valores predecidos y el vector de los valores reales:

$$RMSE = \sqrt{\sum^n_{i=1}{\frac{(y_i - \hat{y_i})^2}{n}}}$$

El problema de esta función de coste es que es sensible ante outliers. Aún así, la penalización es menor que en el MSE por la raíz cuadrada.

### 1.5 Root Mean Squared Logarithmic Error (RMSLE)

RMSLE es menos sensible ante outliers que la RMSE. Esto se debe a que disminuye la penalización de grandes errores por el uso del logaritmo aplicado antes de calcular la diferencia entre valores.

$$RMSLE = \sqrt{\frac{1}{n} * \sum^n_{i=1}{[log(y_i + 1) - log(\hat{y_i} + 1)]}}$$

## 2.Funciones de coste para clasificación

### 2.1 Binary Cross Entropy Cost Function (Log Loss)

En este caso, $y_i$ puede ser 0 (primera clase) o 1 (segunda clase). 

Si $y_i$ es 1, buscaremos conseguir $-log(p) = -y * log(p)$.

Si $y_i$ es 0, buscaremos conseguir $-log(1 - p) = - (1 - y) * log(1 - p)$.

Si unimos estas dos, obtendremos

$$-y * log(p) - (1 - y) * log(1 - p)$$

Y una vez normalizado para todos los data points:

$$CrossEntropy = -\frac{1}{n} * \sum^n_{i=1}{[-y * log(p) - (1 - y) * log(1 - p)]} $$


Para aprender más sobre esta función de coste, recomiendo el siguiente artículo:

[Understanding binary cross-entropy / log loss: a visual explanation](https://towardsdatascience.com/understanding-binary-cross-entropy-log-loss-a-visual-explanation-a3ac6025181a)

### 2.2 Multi-class Cross Entropy Cost Function

Podemos utilizar la misma cross entropy que en 2.1, utilizando una función de activación sigmoide en la última capa.

# Recursos:
- [Lista de las funciones de coste en redes neuronales y su aplicación](https://stats.stackexchange.com/questions/154879/a-list-of-cost-functions-used-in-neural-networks-alongside-applications)
- [Clasificación de las funciones de coste](https://www.analyticsvidhya.com/blog/2021/02/cost-function-is-no-rocket-science/)