# Treinar modelo para identificar entidades

# Tokenizar dados

In [23]:
import zipfile
import pandas as pd
import spacy

In [2]:
dados = []
with zipfile.ZipFile('data/texts.zip','r') as zip:
    for nome in zip.namelist():
        with zip.open(nome) as arquivo:
            conteudo = arquivo.read().decode('utf-8')
            palavras = conteudo.split()
            for palavra in palavras:
                dados.append([nome,palavra])
tabela = pd.DataFrame(dados, columns=['arquivo','palavra'])
tabela

Unnamed: 0,arquivo,palavra
0,ADI2TJDFT.txt,Órgão
1,ADI2TJDFT.txt,:
2,ADI2TJDFT.txt,Conselho
3,ADI2TJDFT.txt,Especial
4,ADI2TJDFT.txt,Classe
...,...,...
193487,ACORDAOTCU25052016.txt,Ministro-Substituto
193488,ACORDAOTCU25052016.txt,AUGUSTO
193489,ACORDAOTCU25052016.txt,SHERMAN
193490,ACORDAOTCU25052016.txt,CAVALCANTI


In [3]:
tabela.to_csv('data/palavras.csv', index=False,sep='\t')

# ROTULAR DADOS NO FORMATO IOB no sheets

In [4]:
dados_rotulados = pd.read_csv('data/palavras_IOB.tsv',sep='\t')
dados_rotulados

Unnamed: 0,arquivo,palavra,label
0,TCU4687.txt,GRUPO,O
1,TCU4687.txt,I,O
2,TCU4687.txt,CLASSE,O
3,TCU4687.txt,II,O
4,TCU4687.txt,2ª,B-ORGANIZACAO
...,...,...,...
229272,RR2574407120025020372.txt,de,O
229273,RR2574407120025020372.txt,Chaves,O
229274,RR2574407120025020372.txt,Públicas,O
229275,RR2574407120025020372.txt,Brasileira,O


# Transformar dados para spacy

In [5]:
grupos = dados_rotulados.groupby(by='arquivo')

In [16]:
documentos=[]
for filename in grupos.groups.keys():
    tabela_agrupada = grupos.get_group(filename)[['palavra','label']].values

    conteudo = ''
    anotacoes = {'entities': []}
    inicio = 0
    final = 0

    for texto,label in tabela_agrupada:
        texto = str(texto)
        inicio = final
        final = inicio + len(texto)+1

        if label != 'O':
            anotacao = (inicio,final-1,label)
            anotacoes['entities'].append(anotacao)
    
        conteudo += texto + ' '
    documentos.append((conteudo, anotacoes))

In [17]:
documentos[2]

("EMENTA : AÇÃO DE COBRANÇA - INDENIZAÇÃO DO SEGURO DPVAT - INVALIDEZ PERMANENTE PARCIAL INCOMPLETA - SÚMULA 474/STJ - CORREÇÃO MONETÁRIA - SÚMULA 580 DO STJ - JUROS DE MORA - SÚMULA 426/STJ - HONORÁRIOS ADVOCATÍCIOS - INTERESSE PROCESSUAL - REGISTRO DE OCORRÊNCIA - CERCEAMENTO DE DEFESA - PRESCRIÃO - TERMO INICIAL . `` A indenização do seguro DPVAT , em caso de invalidez parcial permanente do beneficiário , será paga de forma proporcional ao grau da invalidez . '' `` A correção monetária nas indenizações do seguro DPVAT por morte ou invalidez , prevista no § 7º do art . 5º da Lei n . 6.194/1974 , redação dada pela Lei n . 11.482/2007 , incide desde a data do evento danoso . '' `` Os juros de mora na indenização do seguro DPVAT fluem a partir da citação . '' Honorários advocatícios que se mostram adequados para o trabalho técnico realizado , natureza e importância da causa , não desafiam modulação redutiva . Contestada a ação , e produzida prova pericial que permite uma justa resolução

In [18]:
import random

In [24]:
random.shuffle(documentos)
dados_treino = documentos[:int(len(documentos)*0.8)]
dados_validacao = documentos[int(len(documentos)*0.8):]

In [25]:
len(dados_treino)

40

In [27]:
from tqdm import tqdm
from spacy.training import Example

In [28]:
def treinar_modelo(dados_treino,dados_validacao,epochs):
    model = spacy.load('pt_core_news_sm')
    if 'ner' not in model.pipe_names:
        ner = model.create_pipe('ner')
        model.add_pipe(ner,last=True)
    else:
        ner = model.get_pipe('ner')
    for _,anotacoes in dados_treino:
        for ent in anotacoes.get('entities'):
            ner.add_label(ent[2])

    outros_pipelines = [pipeline for pipeline in model.pipe_names if pipeline != 'ner']

    with model.disable_pipes(*outros_pipelines):
        spacy.util.fix_random_seed()
        otimizador = model.create_optimizer()
        for epoch in tqdm(range(epochs), 'Treinando o modelo'):
            random.seed(10)
            random.shuffle(dados_treino)
            losses = {'ner':0.0}

            for textos,anotacoes in dados_treino:
                exemplo = Example.from_dict(model.make_doc(textos), anotacoes)
                model.update([exemplo], drop=0.2, sgd=otimizador, losses=losses)
            print(f"\nEpoch: {epoch} - Loss: {losses['ner']/len(dados_treino)}")

            val_losses = {'ner':0.0}
            exemplos = []
            for textos,anotacoes in dados_validacao:
                exemplo = Example.from_dict(model.make_doc(textos),anotacoes)
                exemplos.append(exemplo)
            for exemplo in exemplos:
                model.update([exemplo],sgd=None,drop=0,losses=val_losses)

            print(f"\nEpoch: {epoch} - Val Loss: {val_losses['ner']/len(dados_validacao)}")
    return model

In [30]:
model = treinar_modelo(dados_treino,dados_validacao,27)

Treinando o modelo:   0%|          | 0/27 [00:00<?, ?it/s]


Epoch: 0 - Loss: 1039.836193271797


Treinando o modelo:   4%|▎         | 1/27 [01:14<32:21, 74.69s/it]


Epoch: 0 - Val Loss: 834.8725585102673

Epoch: 1 - Loss: 698.0798875186547


Treinando o modelo:   7%|▋         | 2/27 [02:26<30:29, 73.19s/it]


Epoch: 1 - Val Loss: 539.0278696424464

Epoch: 2 - Loss: 476.74858321722047


Treinando o modelo:  11%|█         | 3/27 [03:38<29:00, 72.51s/it]


Epoch: 2 - Val Loss: 352.58276097393696

Epoch: 3 - Loss: 351.6594219048658


Treinando o modelo:  15%|█▍        | 4/27 [04:52<28:04, 73.22s/it]


Epoch: 3 - Val Loss: 239.44381207243765

Epoch: 4 - Loss: 286.11837292338714


Treinando o modelo:  19%|█▊        | 5/27 [06:02<26:20, 71.84s/it]


Epoch: 4 - Val Loss: 224.99244832837257

Epoch: 5 - Loss: 236.9756275606366


Treinando o modelo:  22%|██▏       | 6/27 [07:11<24:49, 70.93s/it]


Epoch: 5 - Val Loss: 144.48192616410077

Epoch: 6 - Loss: 205.25607476523987


Treinando o modelo:  26%|██▌       | 7/27 [08:21<23:30, 70.53s/it]


Epoch: 6 - Val Loss: 96.17809688747906

Epoch: 7 - Loss: 183.8650016734474


Treinando o modelo:  30%|██▉       | 8/27 [09:33<22:30, 71.10s/it]


Epoch: 7 - Val Loss: 74.26827990260492

Epoch: 8 - Loss: 164.15619130296926


Treinando o modelo:  33%|███▎      | 9/27 [10:43<21:14, 70.79s/it]


Epoch: 8 - Val Loss: 62.118504077483635

Epoch: 9 - Loss: 140.56090899017602


Treinando o modelo:  37%|███▋      | 10/27 [11:52<19:54, 70.26s/it]


Epoch: 9 - Val Loss: 59.613490773959846

Epoch: 10 - Loss: 129.4361704928632


Treinando o modelo:  41%|████      | 11/27 [13:02<18:40, 70.03s/it]


Epoch: 10 - Val Loss: 48.312580651385055

Epoch: 11 - Loss: 116.370616868571


Treinando o modelo:  44%|████▍     | 12/27 [14:11<17:29, 69.96s/it]


Epoch: 11 - Val Loss: 60.97057246576944

Epoch: 12 - Loss: 116.4850332914652


Treinando o modelo:  48%|████▊     | 13/27 [15:21<16:15, 69.71s/it]


Epoch: 12 - Val Loss: 37.42738947003475

Epoch: 13 - Loss: 103.47291315069288


Treinando o modelo:  52%|█████▏    | 14/27 [16:29<15:01, 69.36s/it]


Epoch: 13 - Val Loss: 31.165029438882733

Epoch: 14 - Loss: 89.48774369067299


Treinando o modelo:  56%|█████▌    | 15/27 [17:38<13:49, 69.10s/it]


Epoch: 14 - Val Loss: 34.0881087730266

Epoch: 15 - Loss: 86.04906550093318


Treinando o modelo:  59%|█████▉    | 16/27 [18:47<12:39, 69.08s/it]


Epoch: 15 - Val Loss: 26.36700869358345

Epoch: 16 - Loss: 81.69042966804625


Treinando o modelo:  63%|██████▎   | 17/27 [19:55<11:27, 68.80s/it]


Epoch: 16 - Val Loss: 31.262082500231294

Epoch: 17 - Loss: 78.31053769195923


Treinando o modelo:  67%|██████▋   | 18/27 [21:05<10:21, 69.10s/it]


Epoch: 17 - Val Loss: 28.45896222857457

Epoch: 18 - Loss: 76.84978676629439


Treinando o modelo:  70%|███████   | 19/27 [22:14<09:13, 69.23s/it]


Epoch: 18 - Val Loss: 24.233701092006726

Epoch: 19 - Loss: 83.0789729373664


Treinando o modelo:  74%|███████▍  | 20/27 [23:22<08:02, 68.97s/it]


Epoch: 19 - Val Loss: 24.815358317045966

Epoch: 20 - Loss: 70.49254093176353


Treinando o modelo:  78%|███████▊  | 21/27 [24:33<06:56, 69.43s/it]


Epoch: 20 - Val Loss: 23.71174998427322

Epoch: 21 - Loss: 60.78175403674861


Treinando o modelo:  81%|████████▏ | 22/27 [25:42<05:45, 69.16s/it]


Epoch: 21 - Val Loss: 20.592742746590226

Epoch: 22 - Loss: 57.86881610789341


Treinando o modelo:  85%|████████▌ | 23/27 [26:50<04:35, 68.96s/it]


Epoch: 22 - Val Loss: 20.86203487807216

Epoch: 23 - Loss: 55.09105962876546


Treinando o modelo:  89%|████████▉ | 24/27 [28:01<03:29, 69.72s/it]


Epoch: 23 - Val Loss: 22.448863239415445

Epoch: 24 - Loss: 56.95467621779235


Treinando o modelo:  93%|█████████▎| 25/27 [29:23<02:26, 73.25s/it]


Epoch: 24 - Val Loss: 21.653428213289573

Epoch: 25 - Loss: 57.57413849568221


Treinando o modelo:  96%|█████████▋| 26/27 [30:31<01:11, 71.81s/it]


Epoch: 25 - Val Loss: 23.498616729347752

Epoch: 26 - Loss: 52.40602450650429


Treinando o modelo: 100%|██████████| 27/27 [31:40<00:00, 70.40s/it]


Epoch: 26 - Val Loss: 22.393006223056688





In [31]:
model.to_disk('modelo')