Treinando um modelo

- O texto que irá treinar o modelo pode ser uma frase, parágrafo ou documento. Para melhores resultados, ele deve ser similar aos textos que o modelo encontrará quando rodar suas previsões
- Cada token pertence à apenas uma entidade
- O modelo precisa ser treinado com as entidades e o contexto que estão inseridas
- É também muito importante que o modelo aprende palavras que não são entidades
- Os dados de treinamento normalmente são criados por humanos, que atribuiem marcadores aos textos -> Uma parte pode ser automatizada com o matcher ou com ferramentas de anotações, como o Brat ou o Prodigy

In [1]:
#Ex

import json
from spacy.matcher import Matcher
from spacy.lang.en import English

# Abre um arquivo com textos para o treinamento
with open("exercises/en/iphone.json", encoding="utf8") as f:
    TEXTS = json.loads(f.read())

# Cria o padrão de busca
nlp = English()
matcher = Matcher(nlp.vocab)
pattern1 = [{"LOWER": "iphone"}, {"LOWER": "x"}]
pattern2 = [{"LOWER": "iphone"}, {"IS_DIGIT": True}]
matcher.add("GADGET", None, pattern1, pattern2)

TRAINING_DATA = []

# Cria um objeto Doc para cada frase em TEXTS
for doc in nlp.pipe(TEXTS):
    # Faz a correspondência com o doc e cria uma lista com as partições que houve correspondência
    spans = [doc[start:end] for match_id, start, end in matcher(doc)]
    # Obtêm as tuplas (caracter inicial, caracter final, rótulo) das partições com correspondência
    entities = [(span.start_char, span.end_char, "GADGET") for span in spans]
    # Formata as correspondência como uma tupla (doc.text, entities)
    training_example = (doc.text, {"entities": entities})
    # Adiciona o exemplo aos dados de treinamento
    TRAINING_DATA.append(training_example)

print(*TRAINING_DATA, sep="\n")

FileNotFoundError: [Errno 2] No such file or directory: 'exercises/en/iphone.json'

Loop de treinamento:
1) Repete uma série de vezes <br>
2) Embaralha os dados de treinamento <br>
3) Divide os dados em lotes <br>
4) Atualiza o modelo para cada lote <br>
5) Salva o modelo atualizado

In [2]:
#Ex

# Loop por 10 iterações
for i in range(10):
    # Embaralha os dados de treinamento
    random.shuffle(TRAINING_DATA)
    # Cria lotes e itera 
    for batch in spacy.util.minibatch(TRAINING_DATA):
        # Divide o lote em textos e anotações
        texts = [text for text, annotation in batch]
        annotations = [annotation for text, annotation in batch]
        # Atualiza o modelo
        nlp.update(texts, annotations)

# Salva o modelo 
nlp.to_disk(path_to_model)

NameError: name 'random' is not defined

Atualizar um modelo existente

- É útil para adicionar exemplos a um modelo existente, como "person" ou "organization"
- Ou para adicionar novas em um modelo já existente. Mas garanta que seus dados de treinamento contenham exemplos das novas categorias e exemplos das categorias previamente aprendidas, senão você corre o risco de prejudicar o que já foi aprendido anteriormente

In [3]:
#Definindo um novo fluxo de processamento a partir do zero

# Inicia o modelo vazio da língua inglesa
# O modelo vazio não tem nenhum componente no fluxo de processamento, apenas os dados do idioma e as regras de toquenização
nlp = spacy.blank("en")
# Cria identificador de entidades vazio, e adiciona ao fluxo de processamento
# NER = Named Entity Recognition
ner = nlp.create_pipe("ner")
nlp.add_pipe(ner)
# Adiciona um novo rótulo
ner.add_label("GADGET")

# Inicia o treinamento
nlp.begin_training()
# Treina por 10 iterações
for itn in range(10):
    random.shuffle(examples)
    # Divide os exemplos em lotes
    for batch in spacy.util.minibatch(examples, size=2):
        texts = [text for text, annotation in batch]
        annotations = [annotation for text, annotation in batch]
        # Atualiza o modelo
        nlp.update(texts, annotations)

NameError: name 'spacy' is not defined

Melhores práticas de treinamento

- Modelos podem esquecer -> Ao treinar um modelo existente, o modelo pode se superajustar (overfit) aos novos exemplos
    - Para prevenir esse problema, garanta que seus exemplos incluam também os exemplos daquilo que o modelo previu corretamente anteriormente
    - Você pode criar esses exemplos adicionais necessários simplesmente rodando o modelo existente em alguns textos e extraindo as partições de entidades que você deseja preservar.
    - Você pode então adicionar esses exemplos aos seus dados de treinamento e atualizar o modelo com todas essas anotações de entidades.
    
- A definição dos rótulos deve ser consistente e não deve ser muito específica
    - Para estimar categorias específicas, use regras