In [3]:
# Installing spacy
!pip install -U spacy -q

In [4]:
# Getting info spacy
!python -m spacy info

[1m

spaCy version    3.7.4                         
Location         C:\Users\paula\AppData\Roaming\Python\Python312\site-packages\spacy
Platform         Windows-11-10.0.22631-SP0     
Python version   3.12.2                        
Pipelines        pt_core_news_sm (3.7.0)       



In [5]:
# Loading packages 
import spacy 
from spacy.tokens import DocBin
from tqdm import tqdm 

nlp = spacy.blank("pt") #loading new spacy model
db = DocBin() # creating a DocBin object

In [4]:
# Loading Train_Model
import json
with open('C:/Users/paula/OneDrive/IPEA/Militares_2/annotations.json', encoding='utf-8') as f:
    TRAIN_DATA = json.load(f)

In [8]:
# Transforming the json file into a spaCy file
for annotation_data in tqdm(TRAIN_DATA['annotations']):
    if annotation_data is None:
        print("Skipping NoneType annotation data")
        continue

    if len(annotation_data) != 2:
        print("Invalid annotation data format:", annotation_data)
        continue

    text = annotation_data[0]
    annot = annotation_data[1]
    doc = nlp.make_doc(text)
    ents = []
    for start, end, label in annot.get("entities", []):
        span = doc.char_span(start, end, label=label, alignment_mode="contract")
        if span is None:
            print("Skipping entity")
        else:
            ents.append(span)
    doc.ents = ents
    db.add(doc)

db.to_disk("./training_data.spacy") #saving the docbin object 

 40%|███████████████████████████████▉                                               | 161/399 [00:00<00:00, 532.13it/s]

Skipping NoneType annotation data
Skipping NoneType annotation data
Skipping NoneType annotation data


 67%|█████████████████████████████████████████████████████▎                         | 269/399 [00:00<00:00, 521.86it/s]

Skipping NoneType annotation data
Skipping NoneType annotation data
Skipping NoneType annotation data


100%|███████████████████████████████████████████████████████████████████████████████| 399/399 [00:00<00:00, 540.52it/s]


In [15]:
!python -m spacy init fill-config base_config.cfg config.cfg

[38;5;2m[+] Auto-filled config with all values[0m
[38;5;2m[+] Saved config[0m
config.cfg
You can now add your data and train your pipeline:
python -m spacy train config.cfg --paths.train ./train.spacy --paths.dev ./dev.spacy


In [1]:
! python -m spacy train config.cfg --output ./ --paths.train ./training_data.spacy --paths.dev ./training_data.spacy

^C
[38;5;4m[i] Saving to output directory: .[0m
[38;5;4m[i] Using CPU[0m
[1m
[38;5;2m[+] Initialized pipeline[0m
[1m
[38;5;4m[i] Pipeline: ['tok2vec', 'ner'][0m
[38;5;4m[i] Initial learn rate: 0.001[0m
E    #       LOSS TOK2VEC  LOSS NER  ENTS_F  ENTS_P  ENTS_R  SCORE 
---  ------  ------------  --------  ------  ------  ------  ------
  0       0          0.00    155.41    0.00    0.00    0.00    0.00
  0     200       5869.97   6791.55   40.02   48.23   34.20    0.40
  0     400        840.25   1842.64   80.56   81.88   79.29    0.81
  1     600        249.37    980.38   87.51   89.08   86.00    0.88
  1     800        550.93    812.07   91.14   91.86   90.43    0.91
  1    1000        394.80    728.99   91.93   91.34   92.53    0.92
  2    1200        486.97    635.26   92.17   91.55   92.79    0.92
  2    1400        268.62    467.00   90.42   90.56   90.28    0.90
  3    1600        642.54    511.61   93.04   92.34   93.76    0.93
  3    1800        347.72    444.21   

In [9]:
nlp_ner = spacy.load("C:/Users/Paula/OneDrive/IPEA/Militares_2/scripts/model-best")

In [40]:
doc = nlp_ner('''O DIRETOR-GERAL DO MATERIAL DA MARINHADIRETOR-GERAL DO MATERIAL DA MARINHA, no uso da delegação de competência que lhe foi conferida pela Portaria nº 9, de 9 de janeiro de 2002, do Comandante da Marinha, resolve: Art. 1o Designar os militares a seguir mencionados para realizarem missão no exterior: Capitão-de-Fragata (EN) PEDRO LAUREANO PIRES BOTELHO Capitão-de-Fragata (EN) ANTONIO BERNOTAVICIUS DE ARAUJO Capitão-de-Fragata (EN) JUAN RENATO DARGAINS Capitão-de-Fragata (EN) CLEBER OLIVEIRA DE SIQUEIRA Missão - Participar do conclave referente à Visita Técnica à DCN (projeto de submarinos), em cumprimento ao previsto no evento nº 76/I da Portaria nº 329/2001, do CM. Local - Lorient - França. Período - de 21 de maio a 14 de junho de 2002. Despesas Autorizadas - Passagens até US$ 4.000,00 e diárias US$ 35.840,00. Art. 2o A referida missão é enquadrada como eventual, administrativa, sem mudança de sede ou alteração da lotação do militar e sem dependentes, de acordo com os art. 1º e 4º, da Portaria nº 271, de 19 de outubro de 2001, do Comandante da Marinha, que está em consonância com os art. 3º e 6º da Lei 5.809, de 10 de outubro de 1972. Art. 3o Deverá ser observado o contido no item 3, alínea h do PIMAR. Art. 4o Esta Portaria entra em vigor na presente data. ALTE ESQ JERONYMO FRANCISCO MAC DOWELL GONÇALVES''')


In [41]:
spacy.displacy.render(doc, style="ent", jupyter=True) # display in Jupyter