In [1]:
from spacy.tokens import DocBin
import spacy
import json
from tqdm import tqdm
import spacy
from spacy.tokens import DocBin
import random

In [2]:
def load_data(file):
    with open (file, "r", encoding="utf-8") as f:
        data = json.load(f)
    return (data)

def write_data(file, data):
    with open (file, "w", encoding="utf-8") as f:
        json.dump(data, f, indent=4)

In [3]:
from spacy.util import filter_spans
nlp = spacy.blank("en") 
def create_training(TRAIN_DATA):
    db = DocBin() # create a DocBin object
    for text, annot in tqdm(TRAIN_DATA): # data in previous format
        doc = nlp.make_doc(text) # create doc object from text
        ents = []
        for start, end, label in annot["entities"]: # add character indexes
            span = doc.char_span(start, end, label=label, alignment_mode="strict")
            if span is None:
                pass
            else:
                ents.append(span)
            
        doc.ents = filter_spans(ents) # label the text with the ents
        db.add(doc)
    return (db)

In [4]:
with open ("data/train_data.json", "r", encoding="utf-8") as f:
    train_data = json.load(f)

with open ("data/valid_data.json", "r", encoding="utf-8") as f:
    valid_data = json.load(f)

### From json -> spacy files

In [5]:
vlsp_2018_train = create_training(train_data)
vlsp_2018_train.to_disk("data/vlsp_2018_train.spacy")

vlsp_2018_valid = create_training(valid_data)
vlsp_2018_valid.to_disk("data/vlsp_2018_valid.spacy")

100%|██████████| 6188/6188 [00:07<00:00, 842.70it/s]
100%|██████████| 1548/1548 [00:03<00:00, 474.23it/s]


### Download base_config.cfg and make configuration from https://spacy.io/usage/training, then convert to the final training format

In [6]:
!python -m spacy init fill-config base_config.cfg config.cfg

[38;5;2m✔ Auto-filled config with all values[0m
[38;5;2m✔ Saved config[0m
config.cfg
You can now add your data and train your pipeline:
python -m spacy train config.cfg --paths.train ./train.spacy --paths.dev ./dev.spacy


### Train on local machine without GPU so it takes time!

In [8]:
!python -m spacy train config.cfg --output ./output --paths.train data/vlsp_2018_train.spacy --paths.dev data/vlsp_2018_valid.spacy

[38;5;2m✔ Created output directory: output[0m
[38;5;4mℹ Using CPU[0m
[1m
[2021-10-29 12:40:12,799] [INFO] Set up nlp object from config
[2021-10-29 12:40:12,810] [INFO] Pipeline: ['tok2vec', 'ner']
[2021-10-29 12:40:12,818] [INFO] Created vocabulary
[2021-10-29 12:40:12,819] [INFO] Finished initializing nlp object
[2021-10-29 12:40:23,397] [INFO] Initialized pipeline components: ['tok2vec', 'ner']
[38;5;2m✔ Initialized pipeline[0m
[1m
[38;5;4mℹ Pipeline: ['tok2vec', 'ner'][0m
[38;5;4mℹ Initial learn rate: 0.001[0m
E    #       LOSS TOK2VEC  LOSS NER  ENTS_F  ENTS_P  ENTS_R  SCORE 
---  ------  ------------  --------  ------  ------  ------  ------
  0       0          0.00     17.94    0.00    0.00    0.00    0.00
  0     200        208.62   2025.39   17.82   19.14   16.67    0.18
  0     400        105.09   1387.86   36.55   36.19   36.91    0.37
  0     600        156.58   1385.71   47.74   48.36   47.13    0.48
  0     800        188.91   1314.65   59.83   62.68   57.22 

In [10]:
nlp = spacy.load("output/model-best")

doc = nlp("Trận Việt Nam - Campuchia được chuyển ra Mỹ Đình thay vì Thống Nhất \
Thay vìsân Thống Nhất, sân Mỹ Đình sẽ là địa điểm tổ chức trận đấu giữa đội tuyển \
Việt Nam và đội tuyển Campuchia vào ngày 10.10 tới đây.")

for ent in doc.ents:
    print(ent, "----", ent.label_)

Việt Nam ---- LOCATION
Campuchia ---- LOCATION
Mỹ Đình ---- LOCATION
Thống Nhất Thay vìsân Thống Nhất ---- LOCATION
sân Mỹ Đình ---- LOCATION
Việt Nam ---- LOCATION
Campuchia ---- LOCATION


### The results are pretty good!

In [12]:
doc = nlp("Giống với mọi điệp viên khác ông sử dụng rất nhiều cái tên \
như Pierre Vũ Ngọc Nhạ, Vũ Ngọc Nhã, Hoàng Đức Nhã, Hai Long, \
…nhưng người ta biết tới Thiếu tướng Vũ Ngọc Nhạ nhiều nhất vẫn \
qua biệt danh 'Ông cố vấn'. Vũ Ngọc Nhạ sinh năm 1928 tại Thái Bình, từ nhỏ ông \
đã sống tại quê mẹ ở Giáo xứ Phát Diệm, Ninh Bình.")

for ent in doc.ents:
    print(ent, "----", ent.label_)

Pierre Vũ Ngọc Nhạ ---- PERSON
Vũ Ngọc Nhã ---- PERSON
Hoàng Đức Nhã ---- PERSON
Hai Long ---- LOCATION
Vũ Ngọc Nhạ ---- PERSON
Vũ Ngọc Nhạ ---- PERSON
Thái Bình ---- LOCATION
Giáo xứ Phát Diệm ---- LOCATION
Ninh Bình ---- LOCATION


### The custom model did well in recognizing entities, however mislabelling
-> We can tackle this by making it **compound words** -> spacy.blank('vi')

In [None]:
#!pip install pyvi
#pip install https://gitlab.com/trungtv/vi_spacy/-/raw/master/vi_core_news_lg/dist/vi_core_news_lg-0.0.1.tar.gz

In [17]:
vietnamese = spacy.blank('vi')
doc = vietnamese("Giống với mọi điệp viên khác ông sử dụng rất nhiều cái tên \
như Pierre Vũ Ngọc Nhạ, Vũ Ngọc Nhã, Hoàng Đức Nhã, Hai Long, \
…nhưng người ta biết tới Thiếu tướng Vũ Ngọc Nhạ nhiều nhất vẫn \
qua biệt danh 'Ông cố vấn'. Vũ Ngọc Nhạ sinh năm 1928 tại Thái Bình, từ nhỏ ông \
đã sống tại quê mẹ ở Giáo xứ Phát Diệm, Ninh Bình.")
print(doc)


Giống với mọi điệp_viên khác ông sử_dụng rất nhiều cái tên như Pierre_Vũ_Ngọc_Nhạ, Vũ_Ngọc_Nhã, Hoàng_Đức_Nhã, Hai Long, …nhưng người_ta biết tới Thiếu_tướng Vũ_Ngọc_Nhạ nhiều nhất vẫn qua biệt_danh 'Ông cố_vấn'.Vũ_Ngọc_Nhạsinhnăm1928tạiThái_Bình, từnhỏ ôngđãsốngtạiquêmẹở Giáo_xứ Phát_Diệm ,Ninh_Bình.


### However, vietnamese language in spacy at this time is not good enough at capturing compound words, leading to another problem to solve.
### For the sake of simplicity, the types of entities in the dataset are easy to label as long as entities are found.