# Orquestrador de Chatbots - Configurações
-----------------------------------

Notebook para facilitar a modificação das configurações usadas pelos outros módulos. 

Faça as modificações que desejar por aqui e rode o notebook para que elas sejam salvas para o **config.json**.

In [12]:
import json
import os
import re
import glob

In [13]:
cfg = {}

In [14]:
cfg['nome_arquivo_configuracao'] = 'config.json'

## Uso de Stemmer

In [15]:
# Indica se será usado stemmer na preparação dos dados. 
cfg['aplicar_stemmer']=False

## Relação de Bots

In [16]:
# Bots disponíveis e seus respectivos arquivos de skills no formato JSON. O "id"  é o identificador de chatbot.
bots = [
    {'bot_id':1, 'nome':'Alistamento Militar', 'arquivo':'skill-alistamento-militar.json'},
    {'bot_id':2, 'nome':'COVID', 'arquivo':'skill-covid.json'},
    {'bot_id':3, 'nome':'Login Único', 'arquivo':'skill-login-unico.json'},
    {'bot_id':4, 'nome':'IRPF 2020', 'arquivo':'skill-perguntao-irpf-2020.json'},
    {'bot_id':5, 'nome':'PGMEI', 'arquivo':'skill-pgmei.json'},
    {'bot_id':6, 'nome':'Selo Turismo Responsável', 'arquivo':'skill-poc-selo-turismo-responsavel.json'},
    {'bot_id':7, 'nome':'Cadastur', 'arquivo':'skill-cadastur.json'},
    {'bot_id':8, 'nome':'Tuberculose', 'arquivo':'skill-tuberculose.json'}
]

cfg['bots'] = bots

## Nomes de Diretórios e Arquivos

In [17]:
# Diretório de Skills:
cfg['diretorio_skills'] = 'skills'

# Diretório de Dados
cfg['diretorio_dados'] = 'dados'

# Diretório dos Modelos
cfg['diretorio_modelos'] = 'modelos'

# Arquivo onde estão armazenadas perguntas fora de contexto ("Perguntas 0")
cfg['arquivo_perguntas_zero'] = 'bots_perguntas_0.csv'

# Nome do arquivo CSV onde serão armazenadas TODAS as perguntas extraídas, com rótulos.
cfg['arquivo_todas'] = 'bots_perguntas_todas.csv'

# Nome do arquivo CSV onde serão armazenadas as perguntas rotuladas, para treino e teste.
cfg['arquivo_treino_testes'] = 'treino_testes.csv'

# Nome do arquivo CSV onde serão armazenadas as perguntas de validação
cfg['arquivo_validacao'] = 'validacao.csv'

# Nome do arquivo CSV onde serão armazenadas as perguntas de validação, com perguntas fora de contexto ("Perguntas 0")
cfg['arquivo_validacao_com_zero'] = 'validacao_com_0.csv'

# Nome do arquivo CSV onde serão armazenados as perguntas processadas (limpas) da base de treino e teste
cfg['arquivo_treino_testes_processado'] = 'treino_testes_processado.csv'

# Nome do arquivo de vocabulário
cfg['arquivo_vocabulario'] = 'vocabulario.txt'

# Nome do arquivo do vetorizador
cfg['arquivo_vetorizador'] = 'vetorizador.pkl'

# Padrão de nome dos arquivos dos classificadores-base
cfg['padrao_arquivo_classificador_base'] = 'clf_base_%classe%.pkl'

# Padrão de nome dos arquivos dos Voting CLassifiers
cfg['padrao_arquivo_classificador_voting'] = 'clf_voting_%bot_id%.pkl'

# Nome do arquivo do classificador voting
cfg['arquivo_classificador_voting'] = 'clf_voting.pkl'

# Nome do arquivo de informacoes
cfg['arquivo_informacoes'] = 'info.json'

# Nome dos arquivo de resultados
cfg['arquivo_resultados'] = {'True':  'voting_resultados_com_stemmer.pkl', 
                             'False': 'voting_resultados_sem_stemmer.pkl'}

## Outras Configurações

In [18]:
# Percentual da base de validação.
cfg['validacao_size'] = 0.35

In [19]:
# Semente aleatória a ser usada ao longo desse notebook.
cfg['random_state']= 112020

In [20]:
# Configurações do Vocabulário:
# Frequencia mínima das palavras e Número de palavras mais frequentes a serem eliminadas
cfg['vocab'] = {
                'freq_min':0, 
                'remover_frequentes':0
                }

In [21]:
# Configurações do Vetorizador
cfg['vetorizador'] = {'ngram_range':(1,2), 'sublinear_tf':True, 'smooth_idf':False, 'norm':'l2'}

# Aplicar vocabulário no vetorizador?
cfg['vetorizador']['vector_vocab'] = False

## Salva as Configurações

In [22]:
with open(cfg['nome_arquivo_configuracao'], 'w') as fp:
    json.dump(cfg, fp, indent=2)
print('Configurações atualizadas em',cfg['nome_arquivo_configuracao'])

Configurações atualizadas em config.json
