## Aula 08 - Experimentos - Parte I

Objetivos da prática:
- Experimentar as várias métricas de avaliação;
- Utilizar curva ROC e AUC;
- Realizar teste de hipótese.



---
---

### Funções utilizadas na prática

Classificadores da biblioteca scikit-learn
http://scikit-learn.org/stable/supervised_learning.html

sklearn.metrics
- roc_auc_score(y_true, y_score, average=’macro’, sample_weight=None, max_fpr=None)
- roc_curve(y_true, y_score, pos_label=None, sample_weight=None, drop_intermediate=True)

Funções do módulo `scipy.stats`




---
---


## Prática VII


---


**Escolha apenas UM dataset de CLASSIFACAÇÃO para realizar os exercícios abaixo. Caso você não tenha utilizado um dataset desse tipo anteriormente escolha um novo para essa prática.**

**Se o seu dataset tem mais de duas classes transforme ele num problema binário.**

---

1- Realizar 10-fold Cross-Validation nos algoritmos da prática passada utilizando as métricas vista na aula de hoje (acuácia, precisão, revocação, sensitividade, especificidade, medida-F e média harmônica). Comentar se no seu cenário alguma dessa medidas apresentou algum problema, ex. se o dataset é muito desbalanceado e a acurácia retornou um valor próximo da proporção de classes significa que ela não é muito boa para julgar o desempenho do classificador nesse caso; comente sobre esses problemas para cada medida, leve em conta o desempenho dos classificadores, por ex. se todos os classificadores tiveram um desempenho ruim pode significar que a métrica não é adequada para esse cenário, ou pode ser apenas que esses classificadores que não são adequados, comente sobre isso.

A wikipedia tem bastante informação sobre essas medidas

https://en.wikipedia.org/wiki/Precision_and_recall

https://en.wikipedia.org/wiki/Sensitivity_and_specificity

https://en.wikipedia.org/wiki/Confusion_matrix


Uma função com os classificadores é fornecida no notebook.

---

2- Escolha **dois** classificadores e plot a curva ROC e calcule a AUC para os mesmos.



Para isso divida o dataset em 80% para treino e 20% para teste. Apenas para deixar claro, a curva ROC como é uma medida de desempenho deve ser calculada no conjunto de treino.

O Scikit-learn tem funções para calcular a curva e ROC e a área sobre a curva:
- http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html
- http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html

Leiam a documentação para entender seus parâmetros. Vocês só precisarão passar dois parâmetros para essas funções ** *y_true* ** e ** *y_score* **.

Atenção que a saída do classificador deve ser um score, uma medida de probabilidade da amostra pertencer à classe em questão. Exemplo, se o dataset é sobre cancer a saída do exemplo1 deve ser 0.8 se esse exemplo tem alta probabilidade de pertencer à classe cancer.

Atenção que alguns classificadores têm parâmetros para retornar um score dessa forma. SVM por exemplo tem um parâmetro ** *probability* ** que se True permite chamar uma função como ** *predict_proba* ** ou ** *decision_function* ** que podem ser interpretadas como probabilidades. Essas funções dependem da versão do sklearn que vocês estão utilizando, portanto verifique qual versão você tem instalado. Para verificar a versão carregue o módulo `import sklearn` e acesse a propriedade `sklearn.__version__`.

No link http://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html tem um exemplo de como plotar a curva ROC com essas funções.


3- Explique o desempenho dos classificadores que você treinou na questão anterior pela curva ROC. Como a AUC sintetiza a curva ROC e como podemos utilizá-la para comparar classificadores?

---

4- A decisão se um classificador é melhor que outro pode muitas vezes ser arbitrária e subjetiva, a fim de reduzir essa subjetividade e arbitrariedade utilizamos o teste de hipótese para julgar quando um é melhor que outro.

Como cada teste tem um conjunto de requisitos próprios que precisam ser satisfeitos para fazer sentido a utilização de determinado teste, primeiro é preciso identificar no cenário que se está avaliando algumas características.

A distribuição das amostras é um fator importante para a escolha do teste a ser utilizado. O mais comum é assumir que os dados do teste seguem uma distribuição normal, mas nem sempre isso é verdadeiro. Os testes que assumem alguma distribuição são chamados paramétricos, os não paramétricos não supoem uma distribuição dos dados. 

A quantidade de exemplos em cada amostra também é importante para a escolha do teste.

A escolha da quantidade de amostras que se está avaliando é importante para determinar qual teste utilizar. O mais comum é compara dois classificadores, mas as vezes temos vários classificadores e queremos determinar se algum é melhor dentre os vários. 



Abaixo temos uma imagem que sumariza os testes e seus requisitos.

![Slide1.JPG](attachment:Slide1.JPG)


No link abaixo é disponibilizado um artigo que também explica como escolher o teste.

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3116565/


Comparando dois classificadores, em geral, utilizamos testes não pareados, e se os dados seguem uma normal utilizamos o teste t não pareado, se não seguir uma normal podemos utilizar o teste U Mann-Whitney ou teste da soma dos ranks de Wilcoxon.

Como, em geral, utilizamos a média de uma medida, e a média tende uma normal é seguro utilizar o teste t não pareado.

Execute o 10-fold Cross Validation em dois algoritmos, escolha uma métrica que você ache adequada e avalie pelo teste de hipótese qual dos dois é o melhor com nível de significância de 5%.

Resumindo o procedimento:

- Executar o 10-fold CV para dois algoritmos
- Escolher o teste estatístico adequado
- Executar a função do teste e verificar se o pvalue atinge o nível de signifiância pedido

No módulo stats da biblioteca scipy tem vários testes já implementados sendo necessário apenas chamar o teste.

No notebook é dado um exemplo de como executar o teste.








---
## Entrega
A entrega da prática deve ser feita em formato de notebook do jupyter. Crie um notebook seu, nas primeiras linhas identifique os membros da dupla, salve o notebook com o nome pratica_7_nUSP1_nUSP2.
Submeta no tidia apenas o arquivo do notebook .ipynb, não crie pastas para separar as práticas, apenas faça o upload do arquivo .ipynb
Não precisa fazer o upload dos datasets utilizados.
A resolução desta prática deve seguir a mesma maneira da anterior. No corpo da prática primeiro identifique qual o conjunto de dados escolhido e começe a responder as perguntas no corpo do notebook. Procure utilizar as caixas de texto para a discussão (o notebook tem caixas de texto e de código).

**Os dois alunos precisam submeter a prática no seu respectivo escaninho**

O prazo de entrega é até 19/10 às 23:59



In [1]:
from sklearn.svm import SVC, SVR
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor
from sklearn.linear_model import Perceptron

from sklearn.model_selection import KFold
from sklearn.metrics import mean_squared_error
from numpy import mean, std

from sklearn.metrics import accuracy_score

import warnings
warnings.filterwarnings('ignore')

def classificacao(data, columns, target, score=accuracy_score, score_name='acurácia', 
                  folds=10, plot=True):
    """
    Executa classificação do conjunto de dados passado
    ---------------------------------------------------------------
    data:       DataFrame. Conjunto de dados
    columns:    Lista de inteiros. Índice das colunas utilizadas no treinamento e teste
    target:     Inteiro. Índice da coluna alvo
    score:      Função. A função que calcula a medida de desempenho desejada. Deve ser uma 
                função que compara dois vetores, o primeiro vetor são os valores preditos
                pelo classificador, o segundo os rótulos reais
                Vide exemplo das funções em 
                http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics
                como por exemplo, sklearn.metrics.accuracy_score
                http://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html
    score_name: String. Uma string com o nome da medida de desempenho
    folds:      Inteiro. Número de folds na validação cruzada
    plot:       Booleano. True para plotar os gráficos False para não plotar
    ---------------------------------------------------------------
    Realiza a classificação em 6 modelos (perceptron, 
    SVM com kernel polinomial de grau 3, Árvore de decisão, 3NN, 5NN, e 7NN)
    Plot o gráfico de desempenho para cada classificador.
    Retorna um dicionário com os classificadores treinados e as medidas de desempenho
    """
    import numpy as np
    # inicializa os modelos com os parâmetros solicitados
    prcp = Perceptron()
    #svm_n = SVC(C=10*len(data), kernel='poly', degree=3, gamma=1, coef0=1, cache_size=500, max_iter=1e6)
    dt = DecisionTreeClassifier(criterion='gini', splitter='best', min_samples_split=int(len(data)*0.1))
    _3nn = KNeighborsClassifier(n_neighbors=3, weights='uniform', algorithm='auto')
    _5nn = KNeighborsClassifier(n_neighbors=5, weights='uniform', algorithm='auto')
    _7nn = KNeighborsClassifier(n_neighbors=7, weights='uniform', algorithm='auto')
    
    clfs = [prcp, dt, _3nn, _5nn, _7nn]
    clfs_names = ['perceptron', 'dt', '3nn', '5nn', '7nn']
    
    # prepara validação cruzada
    # faz divisão do dataset em 5 partes
    cv = KFold(n_splits=5, shuffle=True)
    
    # itera para cada classificador fazendo treino e teste
    results = {'perceptron':[], 'dt':[], '3nn':[], '5nn':[], '7nn':[]}
    for c, c_name in zip(clfs, clfs_names):
        for train_index, test_index in cv.split(data):
            
            # separa conjunto de treino e de teste
            x_train, y_train = data.iloc[train_index, columns], data.iloc[train_index, target]
            x_test, y_test = data.iloc[test_index, columns], data.iloc[test_index, target]
            
            # faz o treino do modelo
            clf = c.fit(X=x_train, y=y_train)
            
            # valores predito pelo classificador
            y_pred = clf.predict(x_test)
            # rótulos verdadeiros convertidos para array
            y_test = np.array(y_test)
            
            # realiza predição no conjunto de teste e salva o resultado
            results[c_name].append( score(y_test, y_pred) )
    
    if not plot:
        return {'results': results, 'clfs':clfs}
    # faz o plot de desempenho dos classificadores
    plt.figure(figsize=(8,8))
    plt.bar(range(1, len(clfs)+1), [mean(results[name]) for name in clfs_names], 
                                yerr=[std(results[name]) for name in clfs_names])
    plt.xticks(range(1, len(clfs)+1), clfs_names, rotation=45)
    title = 'Desempenho dos classificadores - %s'%(score_name)
    plt.title(title)
    plt.show()
    
    return {'results': results, 'clfs':clfs}



In [3]:
import sklearn

sklearn.__version__

'0.19.2'

In [18]:
# Exemplo de como executar o teste estatístico

from scipy import stats
import numpy as np
np.random.seed(12345678)

# importando a função do t test para amostrar independentes
from scipy.stats import ttest_ind


# simulando os vetores com as medidas do 10-fold CV para 2 algoritmos
cv_alg1 = stats.norm.rvs(loc=5,scale=10,size=10)
cv_alg2 = stats.norm.rvs(loc=6,scale=10,size=10)

print(ttest_ind(cv_alg1, cv_alg2))

# com o pvalue de ~0.5 não temos evidência para refutar a hipótese nula, logo não podemos afirmar que um dos 
# algoritmos é melhor que o outro



cv_alg1 = stats.norm.rvs(loc=5,scale=10,size=10)
cv_alg2 = stats.norm.rvs(loc=11,scale=10,size=10)

print(ttest_ind(cv_alg1, cv_alg2))

# com o pvalue de ~0.03 podemos refutar a hipótese nula que os dois algoritmos são iguais, portanto, alg1 
# é melhor que alg2, considerando que quanto menor a medida melhor

Ttest_indResult(statistic=-0.7413587619610797, pvalue=0.4680388142614825)
Ttest_indResult(statistic=-2.339132702001416, pvalue=0.031060500748690267)
