# Analisando o bot

Este jupyter-notebook vai auxiliar na análise de detecção de intenções da Taís.

## Instalação

### Configurando jupyter

In [1]:
%matplotlib inline

import logging, io, json, warnings
logging.basicConfig(level="INFO")
warnings.filterwarnings('ignore')

def pprint(o):
    # small helper to make dict dumps a bit prettier
    print(json.dumps(o, indent=2))

### Listando versões

In [2]:
import rasa_nlu

print("rasa_nlu: {}".format(rasa_nlu.__version__))

rasa_nlu: 0.14.1


### Treinando o modelo do Rasa NLU

Na celula abaixo todas as intents na pasta `../data/intents/` serão utilizadas para gerar a matrix de confuzão para de avaliação do bot.

Ela irá treinar o modelo e executar a avaliação que pode ser verificada na saída da célula abaixo.

In [3]:
import os

from rasa_nlu.training_data import load_data
from rasa_nlu.model import Trainer
from rasa_nlu import config


intents_directory = '../../bot/data/intents/'

intents = {}

for intent_file in os.listdir(intents_directory):
    intent_file_path = os.path.join(intents_directory, intent_file)

    intents[intent_file] = {}

    intent_list = []
    intent_name = None

    with open(intent_file_path) as f:
        lines = f.readlines()

        for line in lines:
            line = line.strip()

            if line.startswith('##'):
                if intent_name is not None:
                    intents[intent_file][intent_name] = intent_list
                intent_name = line.replace('## intent:', '') 
                intent_list = []

            elif line.startswith('- '):
                intent_list.append(line.replace('- ', ''))


# loading the nlu training samples
training_data = load_data(intents_directory)

# trainer to educate our pipeline
trainer = Trainer(config.load("../../bot/nlu_config.yml"))

# train the model!
interpreter = trainer.train(training_data)

# store it for future use
model_directory = trainer.persist("./models/nlu", fixed_model_name="current")

INFO:rasa_nlu.training_data.loading:Training data format of ../../bot/data/intents/captacao.md is md
INFO:rasa_nlu.training_data.training_data:Training data stats: 
	- intent examples: 43 (3 distinct intents)
	- Found intents: 'captacao_quando_captar', 'captacao_como_captar', 'captacao'
	- entity examples: 0 (0 distinct entities)
	- found entities: 

INFO:rasa_nlu.training_data.loading:Training data format of ../../bot/data/intents/salic.md is md
INFO:rasa_nlu.training_data.training_data:Training data stats: 
	- intent examples: 144 (14 distinct intents)
	- Found intents: 'salic_cadastro_proponente', 'salic_preenchimento_campo_custo_auditoria', 'salic_erros_achar_proposta', 'salic_recuperacao_de_senha', 'salic_preenchimento', 'salic_preenchimento_cadastro_agencia_bancaria', 'salic_preenchimento_vinculo_cpf_proposta', 'salic_erros_vinculo_cpf_cnpj', 'salic_erros_salvamento_de_proposta', 'salic_erros', 'salic_preenchimento_cadastro_rubrica_advogado_contador', 'salic_cadastro_usuario', 's

In [4]:
from rasa_nlu.evaluate import run_evaluation
run_evaluation('../../bot/data/intents/', model_directory)

INFO:tensorflow:Restoring parameters from /work/notebooks/intents/./models/nlu/default/current/intent_classifier_tensorflow_embedding.ckpt
INFO:rasa_nlu.training_data.loading:Training data format of ../../bot/data/intents/captacao.md is md
INFO:rasa_nlu.training_data.training_data:Training data stats: 
	- intent examples: 43 (3 distinct intents)
	- Found intents: 'captacao_quando_captar', 'captacao_como_captar', 'captacao'
	- entity examples: 0 (0 distinct entities)
	- found entities: 

INFO:rasa_nlu.training_data.loading:Training data format of ../../bot/data/intents/salic.md is md
INFO:rasa_nlu.training_data.training_data:Training data stats: 
	- intent examples: 144 (14 distinct intents)
	- Found intents: 'salic_cadastro_proponente', 'salic_preenchimento_campo_custo_auditoria', 'salic_erros_achar_proposta', 'salic_recuperacao_de_senha', 'salic_preenchimento', 'salic_preenchimento_cadastro_agencia_bancaria', 'salic_preenchimento_vinculo_cpf_proposta', 'salic_erros_vinculo_cpf_cnpj', 

INFO:rasa_nlu.evaluate:Model prediction errors saved to errors.json.
INFO:rasa_nlu.evaluate:Entity evaluation results:
INFO:rasa_nlu.evaluate:Evaluation for entity extractor: ner_crf 
INFO:rasa_nlu.evaluate:F1-Score:  0.9990477271303264
INFO:rasa_nlu.evaluate:Precision: 0.9990781351200625
INFO:rasa_nlu.evaluate:Accuracy:  0.9990772779700116
INFO:rasa_nlu.evaluate:Classification report: 
              precision    recall  f1-score   support

 lei_rouanet       1.00      0.88      0.94        33
   no_entity       1.00      1.00      1.00      4302

   micro avg       1.00      1.00      1.00      4335
   macro avg       1.00      0.94      0.97      4335
weighted avg       1.00      1.00      1.00      4335



{'intent_evaluation': {'predictions': [{'text': 'quero falar sobre captacao',
    'intent': 'captacao',
    'predicted': 'captacao',
    'confidence': 0.8940427899360657},
   {'text': 'tenho duvidas sobre captacao',
    'intent': 'captacao',
    'predicted': 'captacao',
    'confidence': 0.9412751793861389},
   {'text': 'você sabe falar sobre captacao',
    'intent': 'captacao',
    'predicted': 'captacao',
    'confidence': 0.8843073844909668},
   {'text': 'quando poderei efetuar a captação de recursos do meu projeto',
    'intent': 'captacao_quando_captar',
    'predicted': 'captacao_quando_captar',
    'confidence': 0.9809207320213318},
   {'text': 'captação de recursos, quando fazer',
    'intent': 'captacao_quando_captar',
    'predicted': 'captacao_quando_captar',
    'confidence': 0.982875645160675},
   {'text': 'qual é o momento para fazer a captação de recursos',
    'intent': 'captacao_quando_captar',
    'predicted': 'captacao_quando_captar',
    'confidence': 0.964361131191

### Lista de Problemas

O arquivo `erros,json` mostra os erros encontrados após executar o comando `rasa_nlu.evaluate.run_evaluation`.

Normalmente os erros mostrados são textos repetidos nos exemplos de diferrentes `intents`.

Caso o arquivo não seja gerado significa que não foram encontrados erros.

In [5]:
%cat errors.json

[
    {
        "text": "quero",
        "intent": "afirmar",
        "intent_prediction": {
            "name": "lei_rouanet_quem_pode_ser_proponente",
            "confidence": 0.6433234214782715
        }
    }
]

### Avaliação do modelo de NLU treinado

Caso queira testar mensagens específicas mande a mensagem na célula seguinte:

In [6]:
pprint(interpreter.parse('posso terceirizar a captação de recursos?'))

{
  "intent": {
    "name": "captacao_como_captar",
    "confidence": 0.8698407411575317
  },
  "entities": [],
  "intent_ranking": [
    {
      "name": "captacao_como_captar",
      "confidence": 0.8698407411575317
    },
    {
      "name": "captacao_quando_captar",
      "confidence": 0.479306161403656
    },
    {
      "name": "processo_prazo_desarquivar",
      "confidence": 0.28130394220352173
    },
    {
      "name": "processo_prazo_desistir_recurso",
      "confidence": 0.2702309787273407
    },
    {
      "name": "lei_rouanet_valores_pagamento_caches",
      "confidence": 0.23853060603141785
    },
    {
      "name": "salic_preenchimento_valor_ingresso",
      "confidence": 0.22552567720413208
    },
    {
      "name": "lei_rouanet_beneficios_incentivo_projetos_culturais",
      "confidence": 0.21107304096221924
    },
    {
      "name": "lei_rouanet_quem_pode_ser_proponente",
      "confidence": 0.2074146419763565
    },
    {
      "name": "salic_recuperacao_de_senha