In [5]:
import spacy 
from spacy.tokens import DocBin
from tqdm import tqdm

nlp = spacy.blank('en')     # Load a new blank model
db = DocBin()               # Create a Docbin object

In [4]:
import json
train = open("train.json", encoding='utf-8')
validation = open("validation.json", encoding='utf-8')
TRAIN_DATA = json.load(train)
VALIDATION_DATA = json.load(validation)

### For Training Data

In [6]:
for text, annot in tqdm(TRAIN_DATA['annotations']):
    doc = nlp.make_doc(text)
    ents = []
    for start, end, label in annot['entities']:
        span = doc.char_span(start, end, label=label, alignment_mode='contract')
        if span is None:
            print("Skipping Entities")
        else:
            ents.append(span)
    doc.ents = ents
    db.add(doc)

db.to_disk("./training_data.spacy")     # save the docbin object

100%|██████████| 5/5 [00:00<00:00, 12.34it/s]


### For Validation Data

In [7]:
for text, annot in tqdm(VALIDATION_DATA['annotations']):
    doc = nlp.make_doc(text)
    ents = []
    for start, end, label in annot['entities']:
        span = doc.char_span(start, end, label=label, alignment_mode = "contract")
        if span is None:
            print("Skipping Entities")
        else:
            ents.append(span)
    doc.ents = ents
    db.add(doc)
    
db.to_disk("./validation_data.spacy")

100%|██████████| 7/7 [00:00<00:00, 241.49it/s]


In [8]:
!python -m spacy init fill-config base_config.cfg config.cfg

✔ Auto-filled config with all values
✔ Saved config
config.cfg
You can now add your data and train your pipeline:
python -m spacy train config.cfg --paths.train ./train.spacy --paths.dev ./dev.spacy


In [9]:
!python -m spacy train config.cfg --output ./output

✔ Created output directory: output
ℹ Saving to output directory: output
ℹ Using CPU
[1m
✔ Initialized pipeline
[1m
ℹ Pipeline: ['tok2vec', 'ner']
ℹ Initial learn rate: 0.001
E    #       LOSS TOK2VEC  LOSS NER  ENTS_F  ENTS_P  ENTS_R  SCORE 
---  ------  ------------  --------  ------  ------  ------  ------
  0       0          0.00     99.73    0.00    0.00    0.00    0.00
 66     200       3111.09   2145.70   41.94   52.00   35.14    0.42
131     400          0.00      0.00   42.28   53.06   35.14    0.42
192     600          0.00      0.00   42.28   53.06   35.14    0.42
259     800          0.00      0.00   42.28   53.06   35.14    0.42
324    1000          0.00      0.00   42.28   53.06   35.14    0.42
398    1200          0.00      0.00   41.94   52.00   35.14    0.42
485    1400          0.00      0.00   41.60   50.98   35.14    0.42
585    1600          0.00      0.00   42.28   53.06   35.14    0.42
753    1800          0.00      0.00   42.28   53.06   35.14    0.42
953    2

[2022-04-09 20:06:15,849] [INFO] Set up nlp object from config
[2022-04-09 20:06:15,861] [INFO] Pipeline: ['tok2vec', 'ner']
[2022-04-09 20:06:15,865] [INFO] Created vocabulary
[2022-04-09 20:06:15,894] [INFO] Finished initializing nlp object
[2022-04-09 20:06:16,425] [INFO] Initialized pipeline components: ['tok2vec', 'ner']


In [10]:
nlp_ner = spacy.load('output/model-best')

In [11]:
doc = nlp_ner('''سپورٹس ڈائریکٹریٹ خیبر پختونخواہ وزیراعلی خیبر پختونخواہ کی وزارت ہے جن کے پاس کھیلوں کی وزارت اور سیاحت کی ڈیپارٹمنٹ کیلئے اتنا وقت ہے کہ وہ اپنے سوشل میڈیا کے پیج پر کھیلوں کی تصاویر شیئر کرتے ہیں باقی وہ یا تو جانتے بوجھتے انجان بنتے ہیں یا پھر واقعی بقول پنجاب کے علیم خان کے " چول " ہیں‘ خیر ہم تو چول نہیں کہہ سکتے یہ ان کے اپنی پارٹی کے لیڈر کی بات ہے جو اب منخرف ہو چکے ہیں لیکن یہ بات کہہ سکتے ہیں کہ وزیراعلی خیبر پختونخواہ اپنے ڈیپارٹمنٹ کے معاملے میں اللہ میاں کے گائے ہیں‘ انہیں بیورو کریسی جو کرنے کو دیتی ہیں اسی پر دستخط کرتے ہیں آگے پیچھے دیکھنے کی شائدان کے پاس وقت نہیں کہ پتہ کرے کہ ان کے ڈیپارٹمنٹ میں کتنے افسران و اہلکاروں کی کمی ہے اور کتنے ایسے اہلکار جو بیورو کریسی کے ناک کے بال بن کر دو دو جگہوں پر ڈیوٹی کررہے ہیں‘ ان کی پسند کی جگہوں پر لوگوں کے تبادلے بھی کروائے جاتے ہیں کیونکہ نئے آنیوالے ڈائریکٹر جنرل سپورٹس کو بھی انڈسٹریز کی طرز پر چلانے کی کوششوں میں مصروف ہیں. غریب کھلاڑیوں کے پاس تو عزت نفس ہوتی ہیں اگر ان کے پاس عزت نفس بھی نہ ہو نہ ان کے مسائل حل ہوں تو پھر سپورٹس کو ان لوگوں نے چاٹنا ہے کیا‘ ویسے بھی وہ سپورٹس جس کے کھیلوں کے ڈیپارٹمنٹس کو " ایک آمر "نے صرف اس لئے بند کرنے کے احکامات دئیے ہیں کیونکہ پاکستان اولمپک ایسوسی ایشن میں ووٹ لینا ان کیلئے مسئلہ تھا. بات کہیں اور نکل گئی غریب عوام کے ٹیکسوں پر پلنے والے سپورٹس ڈائریکٹریٹ کے ان افسران سے پوچھنے کی کوئی جرات کرسکتا ہے کہ گذشتہ دو سالوں کی کارکردگی کیا تھی‘ پرانے ڈی جی نے کتنا کام کیا‘ ڈویلپمنٹ کی مد میں‘ کھیلوں کی مد میں‘ اور نئے ڈائریکٹر جنرل کی کارکردگی کیا ہے‘ مستقبل کیلئے کیا منصوبے ہیں کیا ڈائریکٹریٹ میں بیٹھے بڑے بڑے افسران صرف تنخواہیں لینے پر ہی قادر ہیں.‘ گذشتہ چار ماہ سے تو سوائے تبادلوں کے سپورٹس ڈائریکٹریٹ میں کچھ بھی نہیں‘ وہ بھی مخصوص شخصیت کے کہنے پر''')

In [12]:
spacy.displacy.render(doc, style='ent')