### Treinamento de modelos.

Com spacy é possível se treinar os próprios modelos (O que é obvio visto que é uma lib de NLP).
Neste caso, o treinamento pode ser apresentado da seguinte forma.
1. <strong>Inicializa</strong> os pesos de forma aleatória com <code>nlp.begin_training</code>.
2. <strong>Prevê</strong> alguns exemplos utilizando os pesos atuais com o <code>nlp.update</code>.
3. <strong>Calcula</strong> como alterar os pesos para melhorar as previsões.
4. <strong>Atualiaza</strong> ligeiramente os pesos do modelo.
5. Volta ao passo 2.

A imagem a seguir ilustra esse processo
![processo](https://course.spacy.io/training.png)

Importante salientar que:
1. <strong>Training Data:</strong> se refere aos dados de treinamento.
2. <strong>Text:</strong> se refere ao texto de entrada que a previsão deve ser feita.
3. <strong>Label:</strong> rótulo ou marcador, resultado da previsão do modelo.
4. <strong>Gradient:</strong> método usado para alterar os pesos e reduzir o erro.


Outro fator muito importante é que o spacy3.0, faz uso de um loop de treinamento diferente das versões anteriores.
Primeiro devemos levar em conta a classe <code>spacy.training.Example</code>. 
A função <code>nlp.update</code>, vai esperar justamente uma lista de Exemplos para treinar o modelo.

E uma pergunta que tava me vendo a mente quando lia a documentação foi: Vou ter que transformar em doc a string de treino ? Isso não vai obrigar a passar por todo pipeline ? - Engano meu, existe a função <code>nlp.make_doc</code> que eu tinha visto em um tutorial mas tinha esquecido da existência.

Assim, podemos criar um exemplo da seguinte forma:
<code>Example.from_dic(nlp.make_doc(text), annotation)</code>

Considere que <code>text</code> é uma string, e <code>annotation</code> é um dicionário contendo as anotações referente aquele doc.


In [14]:
import spacy

nlp = spacy.blank("pt")

### Pouco treino...
training = [
    ('Isso é um teste para saber se a parada tá funcionando', {"cats":{'TESTE': True, 'MSG': False}}),
    ('Oi, tudo bem com você ?', {"cats":{'TESTE': False, 'MSG': True}}),
    ('Testando 1,2,3...', {"cats":{'TESTE': True, 'MSG': False}}),
    ('Teste teste', {"cats":{'TESTE': True, 'MSG': False}}),
    ('Mais uma frase aleatória',{"cats":{'TESTE': False, 'MSG': True}})
]


textcat = nlp.add_pipe("textcat")
textcat.add_label("TESTE")
textcat.add_label("MSG")


print(nlp.pipe_names)

from spacy.util import minibatch
from spacy.training import Example
import random

def train(model, train_data, optimizer):
    losses = {}
    for epoch in range(30):
        random.shuffle(train_data)

        batches = minibatch(train_data, size=2)
        for batch in batches:
            # train_data is a list of tuples [(text0, label0), (text1, label1), ...]
            # Split batch into texts and labels
            texts = [text for text, annotation in batch]
            annotations = [annotation for text, annotation in batch]
            examples = []
            for text, annots in batch:
                examples.append(Example.from_dict(nlp.make_doc(text), annots))
                nlp.initialize(lambda: examples)
            # Update model with texts and labels
            model.update(examples, sgd=optimizer)
        
    return losses

train(nlp, training, nlp.begin_training())

['textcat']


{}

In [15]:
### Modelo horrivel rsrsrsrs
docs = list(nlp.pipe([
   "Isto foi um teste",
    "Meu nome é Clóvis",
    "Gosto de biscoito",
    "Não gosto de testar",
    "Mais outro teste"
]))
scores = nlp.get_pipe('textcat').predict(docs)
scores.argmax(axis=1),nlp.get_pipe('textcat').labels

(array([0, 1, 0, 0, 0], dtype=int64), ('TESTE', 'MSG'))

In [6]:
train(nlp, training, nlp.begin_training())

{}