# Matriz de Confusão para Classificação Multiclasse

Para problemas de classificação multiclasse também podemos definir a matriz de confusão. Para um exemplo com $k$ classes, com a segunda classe sendo a referência temos:

<p align="center"> <img src="Matriz de Confusão Multiclasse.png" width="800"> </p>

Neste caso de generalização, temos certos cuidados. Para cada classe $j$, temos:

- $\text{TP}_j$: Quantidade de elementos da $j$-ésima classe corretamente classificados;
- $\text{TN}_j$: Quantidade de elementos que não pertencem e não foram previstos a $j$-ésima classe;
- $\text{FN}_j$: Quantidade de elemento $j$-ésima classe incorretamente classificados;
- $\text{FP}_j$: Quantidade de elementos previstos na $j-$ésima classe que foram incorretamente classificados

# Acurácia

Acurácia é de longe a métrica mais fácil de ser definida quando o assunto é classificação multiclasse. Esta é nada mais do que a quantidade de elementos corretamente classificados pelo modelo:

$$\text{Acurácia} = \frac{\sum_{i=1}^k{\text{TP}}_i}{n}.$$

Onde $n$ é a quantidade de elementos na base de dados.

# Precisão

Precisão pode ser definida para cada $j-$ésima classe da maneira usual:

$$\text{Precisão}_j = \frac{\text{TP}_j}{\text{TP}_j + \text{FP}_j}$$

qual representa a quantidade de previsões da $j-$ésima classe corretamente realizadas.

Além disso, podemos definir a precisão geral do modelo como sendo a média das precisões entre as $k$ classes:

$$\text{Precisão} = k^{-1} \sum_{i=1}^k \text{Precisão}_i$$

# Recall

Recall pode ser definido para cada $j-$ésima classe da maneira usual:

$$\text{Recall}_j = \frac{\text{TP}_j}{\text{TP}_j + \text{FN}_j}$$

qual representa a quantidade de elementos da $j-$ésima classe corretamente classificados.

Além disso, podemos definir o recall geral do modelo como sendo a média dos recalls entre as $k$ classes:

$$\text{Recall} = k^{-1} \sum_{i=1}^k \text{Recall}_i$$

# F1-Score

F1-Score do modelo possuí a mesma definição que para o caso binário, sendo as médias geométricas da precisão e recall do modelo:

$$\text{F1-Score} = \frac{2 \text{Precisão} \cdot \text{Recall}}{\text{Precisão + \text{Recall}}} $$

# AUC-ROC

De longe a métrica mais difícil de generalizar quando o assunto é classificação multiclasse. Existem duas abordagens possíveis que comentaremos.

## OvR - One vs Rest

Para um problema com $k$ classes o método OvR consiste em subdividir o problema em $k$ problemas binários:

1. Para cada $j-$ésima classe, dividimos a base em evento (quando a classe j ocorre) e não evento (caso contrário);
2. Calculamos o AUC para cada problema binário;
3. O AUC do modelo é a média dos AUCs observados.

## OvO - One vs One

Para um problema com $k$ classes o método OvO consiste em observar todas as classes entre si e então considerar essas comparações como eventos binários:

1. Para cada $i-$ésima e $j-$ésima classe, dividimos a base em evento (quando a classe j ocorre) e não evento (quando a classe i ocorre). Elementos que não pertencem a nenhuma das duas classes são descartados;
2. Calculamos o AUC para as classes em questão;
3. O AUC do modelo é a média dos AUCs observados.

Neste caso, cada classe é considerada tanto quanto um evento como um não evento quando analisamos todos os cenários possíveis, levando a uma quantidade muito grande de AUCs para serem analisados.

- Se temos 3 classes, então temos 6 OvO scores;
- Se temos 4 classes, então temos 12 OvO Scores;
- Se temos $k$ classes, então temos $k!$ OvO Scores.

# Referências

- [Multiclass classification evaluation with ROC Curves and ROC AUC](https://towardsdatascience.com/multiclass-classification-evaluation-with-roc-curves-and-roc-auc-294fd4617e3a)