# Introdução

Até agora estudamos classificação binária, na qual temos dois possíveis resultados.
Denominamos uma das classes como sendo positiva (geralmente aquela cujo efeito queremos observar) e outra como sendo negativa, indicando ausência da característica que queremos observar.

Embora esse tipo de classificação seja amplamente utilizado e represente a maioria dos problemas do dia a dia, podemos nos deparar com problemas multiclasse, aqueles em que existem mais de 2 rótulos possíveis para uma tupla. 

Vimos que aguns algoritmos lidam naturalmente com problemas multiclasse, ou seja, conseguem, de maneira nativa, lidar com esse tipo de problema, tais como KNN e Decision Trees. Outros, por sua vez, como Regressão Logística e SVM, não conseguem e, por isso, utilizam artifícios que iremos aprender a partir de agora.


____________________

# Classificação Multiclasse



<br>
<img src="https://dalab.github.io/dissolve-struct/images/multiclass.png" align="center" width=500>
<br>


## One vs. Rest

A primeira forma de tratar o problema multiclasse é utilizando a técnica One vs. Rest, que cria um modelo diferente, cada um especializado em uma das classes. Por tanto, teremos n modelos treinados, n sendo igual ao número de classes possíveis.

<br>
<img src="https://miro.medium.com/max/1400/1*RElrybCZ4WPsUfRwDl7fqA.png" width=500>
<br>

No exemplo acima, temos 3 classes possíves: Green, Blue e Red. Dessa forma, Treinamos um primeiro modelo específico para a classe Green, em que Green é a classe positiva de interesse e todas as demais são consideradas como a classe negativa. E isso é feito para todas as demais classes.

No final do processo de treinamento, a classe cuja probabilide for a maior é escolhida. 

## One vs. One

<br>
<img src="https://miro.medium.com/max/1056/1*4xjYPBsT9ZHOe3u0MIRB2A.jpeg" width=400>
<br>

Nesse método, para as N classes no target, precisamos criar N* (N-1)/2 classificadores 
binários.

**Modelo 1**: Green vs. Blue<br>
**Modelo  2**: Green vs. Red<br>
**Modelo 3**: Blue vs. Red<br>
Aqui, cada classificador prediz um único label. Para decidir qual a classe prevista, fazemos votação majoritária.
Ou seja, escolhemos a classe que aparece no maior número de previsões binárias.

# Métricas 

Assim como calculamos as métricas na classificação binária, podemos calculá-las para um classificador multiclasse.

Imagine um classificador que precise identificar gatos, cães e peixes. Dele extraímos a seguinte matriz de confusão

<br>
<img src="https://miro.medium.com/max/1400/1*JqzG5_K4fWLa-_VFswQbxQ.png" width=400>
<br>

Asssim como calculamos precision, recall e f1-score para nossos modelos binários, também podemos calcular para casos multiclasse.

<br>
<img src="https://miro.medium.com/max/1400/1*a5jVpe1Q5DbGBFR3rakyig.png" width=400>
<br>

Por exemplo, o precision para a classe gato é igual ao número de gatos classificados corretamente (TP) 
dividido pela quantidade de previsões de gato(TP+FP).
Isso seria equivalente a Precision =  4/13=30.8%. 
Isso significa que apenas 30.8% das fotos classificadas como gatos são realmente gatos.


Por outro lado, o recall para a classe gato é quantidade de gatos identificados do total de gatos
que seria 4/6=66.7%. De maneira análoga, podemos calcular precision e recall para as demais classes. For Fish the numbers are 66.7% and 20.0% respectively. For Hen the number for both precision and recall is 66.7%. Go ahead and verify these results. You can use the two images below to help you.


Assim como na classificação binária, também teremos curvas ROC e PR, mas dessa vez para cada classe!!

# Exemplo

In [14]:
from sklearn.datasets import load_iris
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

In [18]:
df_iris = load_iris()


In [11]:
# Regressão Logística One vs Rest
reg_log = LogisticRegression(multi_class='ovr')
reg_log.fit(df_iris.data, df_iris.target)

In [22]:
y_pred_reg_log = reg_log.predict(df_iris.data)

In [23]:
print(classification_report(df_iris.target, y_pred_reg_log))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        50
           1       0.96      0.90      0.93        50
           2       0.91      0.96      0.93        50

    accuracy                           0.95       150
   macro avg       0.95      0.95      0.95       150
weighted avg       0.95      0.95      0.95       150



In [24]:
# SVM
svm_ovo = SVC(decision_function_shape='ovo')
svm_ovr = SVC(decision_function_shape='ovr')

In [25]:
svm_ovo.fit(df_iris.data, df_iris.target)
svm_ovr.fit(df_iris.data, df_iris.target)

SVC()

In [26]:
y_pred_svm_ovo = svm_ovo.predict(df_iris.data)
y_pred_svm_ovr = svm_ovr.predict(df_iris.data)

In [27]:
print(classification_report(df_iris.target, y_pred_svm_ovo))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        50
           1       0.96      0.96      0.96        50
           2       0.96      0.96      0.96        50

    accuracy                           0.97       150
   macro avg       0.97      0.97      0.97       150
weighted avg       0.97      0.97      0.97       150



In [28]:
print(classification_report(df_iris.target, y_pred_svm_ovr))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        50
           1       0.96      0.96      0.96        50
           2       0.96      0.96      0.96        50

    accuracy                           0.97       150
   macro avg       0.97      0.97      0.97       150
weighted avg       0.97      0.97      0.97       150



O que seriam Macro Avg e Weighted Avg??.

Macro Avg e Weighted Avg são medidas resumo do precision, recall e f1-score. 
- Macro Avg: Média aritmética das métricas
- Weighted Avg: Média ponderada das métricas 

Existem ainda as métricas micro.

<br>
<img src='https://phdstatsphys.files.wordpress.com/2018/10/Screenshot-from-2019-01-01-20-41-40.png'>
<br>

Nas métricas micro, aplicamos as fórmulas que já conhecemos, mas somamos todos os TP, todos os TN, todos os FN e todos os FP para calculá-las.

Note que temos pelo menos 9 métricas-resumo:
- Macro Precision
- Macro Recall
- Macro F1
- Micro Precision
- Micro Recall
- Micro F1
- Weighted Precision
- Weighted Recall
- Weighted F1

Quando estamos trabalhando com dados bem desbalanceados, as métricas Macro são melhores, pois dão um peso igual para todas as clases.