## Avaliação de algoritmo de aprendizado de máquina
***

Vamos ter 2 base de dados, a base de dados de treinamento, que é a base de dados histórica para treinar o algoritmo e gerar a tabela de probabilidades e a base de dados de testes, ou seja, novos registros diferentes para ser analisado pelo algoritmo já treinado.

Os registros da base de dados de testes tem que ser diferentes dos registros da base de dados de treinamento.

#### Base de dados de treinamento

![img1](https://user-images.githubusercontent.com/14116020/50715942-82e0f400-1066-11e9-83d5-3df93c2e5134.png)

#### Base de dados de teste

![img2](https://user-images.githubusercontent.com/14116020/50715951-8c6a5c00-1066-11e9-8cff-bc375b393444.png)

A base de dados de teste, também deve ter seus riscos pré prenchidos, já que é através dele que vamos verificar se o algoritmo está gerando resultados satisfatórios, por exemplo, se o primeiro registro tem risco alto, e quando submetemos ao algoritmo ele nos retorna risco baixo, quer dizer que temos um erro.

A avaliação se da contabilizando a quantidade de acertos e erros que o algoritmo comete por meio das duas bases de testes. Quanto mais acerto tiver maior é a eficiência do algoritmo de aprendizado de máquina.

***
### Matriz de Confusão
***

Matriz de confusão é usada para identificar os acerto e erros relacionados as duas bases de dados (treinamento e teste) a diagonal principal é o acertos e o resto os erros. O Ideal é que o preenchimento se de somente na matriz principal.

<table>
    <tr>
        <th>Base de teste</th>
        <th colspan="3" style="text-align: center;">Base de treinamento</th>
    </tr>
    <tr>
        <th></th>
        <th>Alto</th>
        <th>Moderado</th>
        <th>Baixo</th>
    </tr>
    <tr>
        <th>Alto</th>
        <td style="text-align: center;"><b>28</b></td>
        <td style="text-align: center;">7</td>
        <td style="text-align: center;">3</td>
    </tr>
    <tr>
        <th>Moderado</th>
        <td style="text-align: center;">6</td>
        <td style="text-align: center;"><b>32</b></td>
        <td style="text-align: center;">2</td>
    </tr>
    <tr>
        <th>Baixo</th>
        <td style="text-align: center;">5</td>
        <td style="text-align: center;">8</td>
        <td style="text-align: center;"><b>25</b></td>
    </tr>
</table>

Podemos ler a tabela da seguinte forma: Pegando 38 registros que sabemos que tem risco alto (base de teste) e verificamos o resultado dela no algoritmo treinado (base de treinamento), o resultado deu 28 corretas, e 10 erradas.

O que está em negrito são os que foram classificados corretamente, ou seja, $28 + 32 + 25 = 85 = \frac{85}{116} = 0,73$ ou $73\%$ de acerto. E temos 31 erros, ou seja, $27\%$ de error.

Pegando cada risco temos:

* **38 registros com risco alto**: 73% de acerto e 27% de erros.
* **40 registros com risco moderado**: 80% de acerto e 20% de erros.
* **38 registros com risco baixo**: 65% de acerto e 35% de erros.

Com isso concluimos que a o treinamento com risco baixo é o que está dando mais erro e o com registros de riscos moderados é o que ta dando mais acertos.

Para saber se o percentual de acerto é suficiente depende de 3 fatores:

1. **Cenário/contexto**: Qual o impacto que esse percentual pode causar, por exemplo, em caso de remedios, temos que ter um percentual de 100% para que não haja mortes, ou seja, não pode haver previsões erradas.


2. **Número de Classes**: No exemplo temos 3 classes (risco alto, moderado e baixo) quanto mais classes menor a probabilidade de escolher uma, neste caso com 3 classes temos 33,33% de chance de tirar qualquer uma delas, então se queremos tirar risco alto, a chance de acerto tem que ser superior a 33,33% no mínimo.


3. **Aplicação de um algoritmo chamado zero-rules**: Pega a classe que tem a maior quantidade de registros da base de testes e vai classificar todos os novos registros com essa classe que tem mais registros. Por exemplo, todo cliente novo que gerar registro vou classifica-lo como moderado, que é a classe que teve mais registros (40). Para saber o acerto mínimo você pega a quantidade que teve mais registros (40) e divide pelo total de registros (116), no nosso caso, deu 34%, isso indica que toda vez que chegar um novo registro e classifica-lo como moderado, você sempre vai ter um acerto de no mínimo 34%, se der menos que isso, não vale a pena fazer aprendizado de máquina.

***

In [1]:
from pre_processamento import base_completa_treinamento, base_completa_teste
from nltk.metrics import ConfusionMatrix
import nltk

In [2]:
# Vamos pegar uma classe especifica para esse algoritmo
# essa classe irá montar essa tabela de probabilidades
# com a base de dados inserida, porém formatada extraindo stopwords e radicais
classificador = nltk.NaiveBayesClassifier.train(base_completa_treinamento)

In [3]:
# Classes
print(classificador.labels())

['alegria', 'medo', 'raiva', 'desgosto', 'tristeza', 'surpresa']


In [4]:
# Pega as caracteristicas mais informativa e mostra sua probabilidade
# de acordo com as labels
print(classificador.show_most_informative_features(5))
# Quando o radical dia = True, a frase tem 2.3 vezes mais chances de ser de alegria do que de medo

Most Informative Features
                 acredit = True           surpre : triste =      6.3 : 1.0
                    real = True           surpre : alegri =      5.8 : 1.0
                     vou = True            raiva : triste =      5.7 : 1.0
                     tão = True           surpre : raiva  =      4.3 : 1.0
                     pod = True             medo : alegri =      4.0 : 1.0
None


In [5]:
# Se você tiver uma base de dados para teste/avaliação você pode
# usar o comando abaixo para faze-lo.
print("{0:.2f}% de acerto com a base de treinamento".format(nltk.classify.accuracy(classificador, base_completa_treinamento) * 100))
print("{0:.2f}% de acerto com a base de teste".format(nltk.classify.accuracy(classificador, base_completa_teste) * 100))

93.31% de acerto com a base de treinamento
33.77% de acerto com a base de teste


1. **Contexto**: Para identificar emoções 33,77% de acerto é muito baixo ainda, em artigos ciêntificos já chegaram a 70% a 80% usando a base de teste (REPROVADO)


2. **Número de classes**: como são 6 classes, então o resultado tem que ta acima de 16,66% de acerto (APROVADO)


3. **ZeroR**: Na nossa base de dados, temos 30% de dados para teste e 70% para treinamento. Vamos pegar a classe que tem o maior número de registro (alegria) que tem 48 registros e dividir pelo total de registros (228), o resultado vai dar 21%, ou seja, nossa base de dados de treinamento passou nesse teste já que 33,77% é maior que 21%. (APROVADO)

In [6]:
# Construir a matriz de confusão
resultado_esperado = []
resultado_previsto = []

for (frase, emocao) in base_completa_teste:
    resultado = classificador.classify(frase)
    resultado_previsto.append(resultado)
    resultado_esperado.append(emocao)
    
matriz = ConfusionMatrix(resultado_esperado, resultado_previsto)
print(matriz)

         |     d        s  t |
         |  a  e        u  r |
         |  l  s        r  i |
         |  e  g     r  p  s |
         |  g  o  m  a  r  t |
         |  r  s  e  i  e  e |
         |  i  t  d  v  s  z |
         |  a  o  o  a  a  a |
---------+-------------------+
 alegria |<34> 3  .  8  1  2 |
desgosto | 15<18> .  2  .  1 |
    medo | 18  6 <5> 2  1  4 |
   raiva | 22  3  3 <5> .  3 |
surpresa | 27  .  .  1 <5> 3 |
tristeza | 21  3  1  1  .<10>|
---------+-------------------+
(row = reference; col = test)



De acordo com o resultado acima, podemos concluir que muitas frases estão sendo classificadas como alegria, talvez elas não estão muito bem anotadas, ou tem caracteres que ta em alegria e tem em outras emoções. Com essa matriz conseguimos saber onde podemos melhorar e aumentar a porcentagem de acerto.

In [7]:
# Vamos armazenar os erros
errors = []
for (frase, emocao) in base_completa_teste:
    resultado = classificador.classify(frase)
    
    palavras = []
    for palavra in frase:
        if frase[palavra] == True:
            palavras.append(palavra)
        
    if resultado != emocao:
        errors.append((emocao, resultado, palavras))

In [8]:
# Vamos agora visualiza-los
for (emocao, resultado, palavras) in errors:
    print("Emoção:", emocao, "\tResultado:", resultado, "\tPalavras:", palavras)

Emoção: alegria 	Resultado: raiva 	Palavras: ['ingress', 'precis']
Emoção: alegria 	Resultado: raiva 	Palavras: ['tod', 'med', 'nov']
Emoção: alegria 	Resultado: desgosto 	Palavras: ['ach', 'sapat']
Emoção: alegria 	Resultado: tristeza 	Palavras: ['ansi', 'cheg']
Emoção: alegria 	Resultado: raiva 	Palavras: ['difícil', 'taref']
Emoção: alegria 	Resultado: raiva 	Palavras: ['fer']
Emoção: alegria 	Resultado: desgosto 	Palavras: ['ach', 'assim', 'tant']
Emoção: alegria 	Resultado: raiva 	Palavras: ['client', 'consent', 'orç', 'vou']
Emoção: alegria 	Resultado: raiva 	Palavras: ['pal', 'cas', 'consent', 'pod']
Emoção: alegria 	Resultado: tristeza 	Palavras: ['acontec', 'preocup']
Emoção: alegria 	Resultado: surpresa 	Palavras: ['anim', 'cas', 'tão']
Emoção: alegria 	Resultado: raiva 	Palavras: ['temp', 'vest']
Emoção: alegria 	Resultado: raiva 	Palavras: ['hoj', 'compr', 'pud', 'celul']
Emoção: alegria 	Resultado: desgosto 	Palavras: ['garot']
Emoção: desgosto 	Resultado: alegria 	Palavra