<img src="img/logoifsc.png">
<link rel="stylesheet" href="avaliacao_de_modelos.css">

---

Prof. Carlos Andrés Ferrero

# Mineração de Dados

## Avaliação de Modelos
    
---

## Conteúdo
- Introdução
- Estratégias para Avaliação de Modelos
- Exemplos

### Introdução

- A avaliação de modelos tem como objetivo conhecer a performance de um modelo no futuro, seja de classificação ou regressão.

- Para avaliar a performance de um modelo de classificação temos várias medidas. As mais comuns são:
    - Acurácia de classificação
    - Erro de classificação
    - Precisão vs. Recuperação (*Precision* and *Recall*)
    - Medida F (*F-measure*)

- Para extrair essas medidas é preciso construir uma *matriz de confusão* ou *tabela de confusão*

- Seja um problema de duas classes (*postiva* P e *negativa* N) a matriz de confusão de classificação definida por:

| Classe  | Predita P | Predita N  |
| --------------- |:-------------:| -----:|
| **Observada P** | $TP$ | $FN$ |
| **Observada N** | $FP$ | $TN$ |

- $TP$ (*True Positive*): número de instâncias positivas classificadas como positivas;
- $TN$ (*True Negative*): número de instâncias negativas classificadas como negativas;
- $FP$ (*False Postive*): número de instâncias negativas classificadas como positivas;
- $FN$ (*False Negative*): número de instâncias positivas classificadas como negativas;

- Exemplo: a avaliação de um modelo $m$ apresenta a seguinte tabela de confusão para 200 exemplos ($N = 200$):

| Classe  | Predita P | Predita N  |
| --------------- |-----------------:| -----:|
| **Observada P** | $TP=90$ | $FN=10$ |
| **Observada N** | $FP=20$ | $TN=80$ |


- Isso significa que, do total de 200 exemplos,
    - 90 exemplos da classe positiva foram classificados como positivos (corretamente)
    - 80 exemplos da classe negativa foram classificados como negativos (corretamente)
    - 10 exemplos da classe positiva foram classificados como negativos (incorretamente)
    - 20 exemplos da classe negativa foram classificados como positivos (incorretamente)


- Baseado nessa tabela de confusão podemos calcular as medidas.

- A **acurácia de classificação** consiste na proporção de exemplos classificados *corretamente* do total de exemplos.

$$ accuracy = \frac{TP + TN}{TP+TN+FP+FN} = \frac{TP + TN}{N} $$

- No exemplo, a **acurácia** do modelo $m$ é dada por:

$$ accuracy(m) = \frac{90 + 80}{200} =  \frac{170}{200} = 0.85$$

- O **erro de classificação** consiste na proporção de exemplos classificados *incorretamente* do total de exemplos.

$$ error = \frac{FP + FN}{TP+TN+FP+FN} = \frac{FP + FN}{N} $$

- No exemplo, o **erro** do modelo $m$ é dado por:

$$ error(m) = \frac{20 + 10}{200} =  \frac{30}{200} = 0.15 $$

- A **precisão** (*precision*) consiste na proporção de exemplos *positivos* classificados *corretamente* do total de exemplos classificados como positivos.

$$ precision = \frac{TP}{TP+FP} $$

- É também conhecida como Valor Preditivo Positivo.

- No exemplo, a **precisão** do modelo $m$ é dada por:

$$ precision(m) = \frac{90}{110} = 0.82 $$

- A **recuperção** (*recall*) consiste na proporção de exemplos *positivos* classificados *corretamente* do total de exemplos positivos no conjunto de dados.

$$ recall = \frac{TP}{TP+FN} $$

- É também conhecida como Taxa de Verdadeiros Positivos ou Sensibilidade do modelo.

- No exemplo a **recuperação** do modelo $m$ é dada por:

$$ recall(m) = \frac{90}{100} = 0.9 $$

- A partir dos valores de *precision* e *recall* é possível calcular o valor da **medida F** (*F-measure* ou também chamada de *F-score*)

- Essa medida permite balancear os valores de *precision* e *recall* calculando a média harmônica entre ambas as medidas.

$$ F = 2 \times \frac{precision \times recall}{precision + recall}  $$ 

- No exemplo, a **medida F** do modelo $m$ é dada por:

$$ F = 2 \times \frac{0.82 \times 0.9}{0.82 + 0.9} = 0.86 $$ 


A partir dos valores de *precision* e *recall* é possível calcular o valor da **medida F** (*F-measure* ou também chamada de *F-score*)

- Essa medida permite balancear os valores de *precision* e *recall* calculando a média harmônica entre ambas as medidas.

$$ F = 2 \times \frac{precision \times recall}{precision + recall}  $$ 

- No exemplo, a **medida F** do modelo $m$ é dada por:

$$ F = 2 \times \frac{0.82 \times 0.9}{0.82 + 0.9} = 0.86 $$ 

- Portanto, no exemplo apresentado os valores das medidas de avaliação foram os seguintes:

| Medida  | Valor | 
| --------------- |:-------------:|
| **acurácia**    | $0.85$ |
| **erro**        | $0.15$ |
| **precisão**    | $0.82$ |
| **recuperação** | $0.90$ |
| **F-measure**   | $0.86$ |


### Exercício

- Suponha que um novo modelo $m'$ foi contruído com a seguinte tabela de confusão.

| Classe  | Predita P | Predita N  |
| --------------- |:-------------:| ----------:|
| **Observada P** | $TP=85$ | $FN=15$ |
| **Observada N** | $FP=8$ | $TN=92$ |

- Calcule os valores das 5 medidas e compare os resultados. 

- Se tivesse que escolher entre os modelos $m$ e $m'$, qual você escolheria?

## Estratégias de Avaliação de Modelos

- Dentro da área de estudos de avaliação de modelos existem diferentes estratégias.

- É importante usar estratégias que permitam estimar o **erro verdadeiro do modelo**.

- O **erro verdadeiro do modelo** é um valor de erro desconhecido, mas muito importante para o futuro da utilização desse modelo. Esse erro vai determinar se, no futuro, o nosso erro de classificaçao será aceitável ou não.

- Como esse erro é desconhecido vamos tentar estimar esse erro usando diferentes estratégias.

- As principais estratégias de avaliação são:

    - Trianing set
  
    - Hold out
        
    - Cross-validation

- **Trianing set**
    - Nesta estratégia avalia-se o modelo utilizando o mesmo conjunto de dados utilizado para construir o modelo, chamado de conjunto de treinamento ou *training set*.
    - Em outras palavras eu uso um conjunto de dados $X_{train}$ para construir um modelo de classificação $m$.
    - Após construído o modelo $m$ classificamos novamente as instâncias $X_{train}$ (sem utilizar o atributo classe) e obtemos uma classe predita para cada exemplo.
    - Construímos a tabela de confusão confrontando a classe predita para os exemplos com a observada em $X_{train}$ e extraímos as medidas de avaliaçao.

- **Hold out**: 
    - Esta estratégia consiste em dividir o conjunto de dados em dois conjuntos: conjunto de treinamento (**training set**) e conjunto de teste (**test set**).
    - Assim, o modelo de classificação $m$ é construído usando o **training set** e testado com o **test set**. 
    - A matriz de confusão para extrair as medidas é baseada na comparação das classes dos exemplos preditas e observadas do **test set**
    - A escolha dos dados é aleatória e pode ser *estratificada* ou não. Será *estratificada* quando conservamos a mesma distribuição de classes no treino e no teste.
    - O percentual para treino e teste pode variar de acordo com o conjunto de dados, mas é bem comum utilizar $2/3$ para treino e $1/3$ para teste.    

- **Cross-validation**:
    - A validação cruzada (*cross-validation*) consiste em separar o conjunto em $n$ partições (*folds*) (que podem ser estratificados ou não).
    - Para cada partição de teste $i$ será construído um modelo $m_i$ utilizando as $n-1$ partições restantes.
    - Cada modelo é testado com a partição de teste (a que partição que ficou de fora do treinamento do modelo).
    - Para calcular as medidas de avaliação podemos construir uma única matriz de confusão ou construir uma para cada modelo e extrair média e desvio padrão das medidas.

- *10-folds cross validation*
    - Um dos tipos mais comuns de validação cruzada e divide o conjunto de dados em 10 partes.
    - São construídos ao todo 10 modelos cada um com seu erro de classficação.
    - Dessa forma é possível ter uma estimativa melhor do erro verdadeiro do modelo.
    - É interessante usar esta estratégia quando observamos que uma estratégia holdout apresenta variações para diferentes execuções.
    - No entanto, para conjuntos de dados muito grandes *holdout* e *cross-validation* tendem a ser parecidos.

- *5x2-folds cross validation*
    - Em algumas ocasiões temos um conjunto de dados menor, por exemplo 200 exemplos.
    - Se dividirmos esse conjunto em 10 partições ficaremos com apenas 20 exemplos para testar em cada modelo.
    - Isso pode gerar uma forte variação do erro de classificação.
    - Nesta estratégia executa-se 5 (cinco) repetições da estratégia *2-folds cross validation*.
    - Dessa forma, são construídos 10 modelos, cada um com o seu erro de classificação.    

- **Erro da classe majoritária**

    - O erro de classificação obtido pela estratégia de avaliação utilizada deve ser comparado inicialmente com o **erro da classe majoritária** ou prevalente.
    
    - Esse erro consiste na maior proporção de exemplos de uma classe no conjunto de dados sob estudo.
    
    - Por exemplo, em um problema de duas classes com 100 exemplos, onde 40 são da classe positiva e 60 são da classe negativa, o erro da classe majoritária é de $0.4$ ou $40\%$.   

- **Ganho de Aprendizado** 

    - Podemos pensar em um modelo $m_{majority}$ que apenas "chuta" na classe majoritária.
    
    - Quando conseguirmos melhorar o erro da classe majoritária dizemos que tivemos um **ganho de aprendizado** em relação ao estado inicial do problema.
    
    - Modelos que não melhoram o erro da classe majoritária são comumente retirados da análise pois não conseguiram aprender o suficiente.

- **Construção do Modelo Final**
    - Após executar qualquer estratégia de avaliação de modelos devemos construir o modelo final utilizando **todos os exemplos**.
    - A idéia de ter uma estratégia de avaliação é *estimar* o **erro verdadeiro do modelo**
    - Usar uma estratégia de avaliaçao para achar um modelo "bom" para escolher é um dos erros comuns em mineração de dados. Pois isso seria superestimar o erro verdadeiro do modelo construído, o que será muito difícil de sustentar em classificação futuras.

### Exemplo utilizando o conjunto iris (duas classes)

Avaliação usando **Trianing set**:

In [13]:
import pandas as pd
import numpy as np
import seaborn as sns
df_iris = sns.load_dataset("iris").query('species != "setosa"')
df_iris.head(10)                    

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor
55,5.7,2.8,4.5,1.3,versicolor
56,6.3,3.3,4.7,1.6,versicolor
57,4.9,2.4,3.3,1.0,versicolor
58,6.6,2.9,4.6,1.3,versicolor
59,5.2,2.7,3.9,1.4,versicolor


In [14]:
df_iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor
55,5.7,2.8,4.5,1.3,versicolor
56,6.3,3.3,4.7,1.6,versicolor
57,4.9,2.4,3.3,1.0,versicolor
58,6.6,2.9,4.6,1.3,versicolor
59,5.2,2.7,3.9,1.4,versicolor


In [15]:
target = 'species'
X = df_iris.drop([target], axis=1)
y = df_iris[target]

In [16]:
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(criterion="entropy")
model.fit(X,y)

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [17]:
y_pred = model.predict(X)

In [18]:
pd.DataFrame({
    'observed' : y,
    'predicted' : y_pred
})

Unnamed: 0,observed,predicted
50,versicolor,versicolor
51,versicolor,versicolor
52,versicolor,versicolor
53,versicolor,versicolor
54,versicolor,versicolor
55,versicolor,versicolor
56,versicolor,versicolor
57,versicolor,versicolor
58,versicolor,versicolor
59,versicolor,versicolor


In [47]:
pd.DataFrame( 
    confusion_matrix(y, y_pred),
    index = ['observed_versicolor','observed_virginica'],
    columns = ['predicted_versicolor','predicted_virginica']
    )

Unnamed: 0,predicted_versicolor,predicted_virginica
observed_versicolor,50,0
observed_virginica,0,50


In [48]:
from sklearn.metrics import accuracy_score
accuracy_score(y, y_pred)

1.0

Avaliar usando **Holdout**

In [68]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1)

In [69]:
model = DecisionTreeClassifier(criterion="entropy", random_state=1)
model.fit(X_train,y_train)

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=1,
            splitter='best')

In [70]:
y_test_pred = model.predict(X_test)

In [71]:
pd.DataFrame( 
    confusion_matrix(y_test, y_test_pred),
    index = ['observed_versicolor','observed_virginica'],
    columns = ['predicted_versicolor','predicted_virginica']
    )

Unnamed: 0,predicted_versicolor,predicted_virginica
observed_versicolor,12,2
observed_virginica,1,18


In [72]:
accuracy_score(y_test, y_test_pred)

0.9090909090909091

Avaliar usando **10-folds cross-validation**:

In [130]:
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X, y, cv=10)
df_scores = pd.DataFrame({'cv': scores})
df_scores.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
cv,1.0,0.9,1.0,0.9,0.9,0.8,0.9,0.9,1.0,1.0


In [131]:
df_scores.describe().loc[['mean','std'],:]

Unnamed: 0,cv
mean,0.93
std,0.067495


In [135]:
from sklearn.model_selection import cross_val_predict
y_pred = cross_val_predict(model, X, y, cv=10)

In [136]:
pd.DataFrame( 
    confusion_matrix(y, y_pred),
    index = ['observed_versicolor','observed_virginica'],
    columns = ['predicted_versicolor','predicted_virginica']
    )

Unnamed: 0,predicted_versicolor,predicted_virginica
observed_versicolor,47,3
observed_virginica,4,46


In [137]:
accuracy_score(y, y_pred)

0.93