# NER TRAINING WITH ONLY PERSON ENTITY DATASET

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import json

# Open the JSON file
with open("/content/drive/MyDrive/NER/merged_data.json", "r") as file:
    # Load the JSON data
    dataset = json.load(file)

len(dataset)

2895

In [None]:
import random
from spacy.util import minibatch, compounding


# Set the random seed for reproducibility
random.seed(42)

# Shuffle the dataset
random.shuffle(dataset)

# Define the split ratios
train_ratio = 0.6  # 80% for training
val_ratio = 0.2  # 10% for validation
test_ratio = 0.2  # 10% for testing

# Calculate the sizes of each split
total_size = len(dataset)
train_size = int(train_ratio * total_size)
val_size = int(val_ratio * total_size)

# Split the dataset into train, validation, and test sets
train_data = dataset[:train_size]
val_data = dataset[train_size:train_size + val_size]
test_data = dataset[train_size + val_size:]

# Print the sizes of each split
print(f"Training set size: {len(train_data)}")
print(f"Validation set size: {len(val_data)}")
print(f"Test set size: {len(test_data)}")


Training set size: 1737
Validation set size: 579
Test set size: 579


In [None]:
!mkdir data

In [None]:
with open("data/train.json", 'w') as fp:
        json.dump(train_data, fp, indent=2, ensure_ascii=False)


with open("data/test.json", 'w') as fp:
        json.dump(test_data, fp, indent=2, ensure_ascii=False)


with open("data/val.json", 'w') as fp:
        json.dump(val_data, fp, indent=2, ensure_ascii=False)


In [None]:
!python -m spacy convert data/train.json ./data
!python -m spacy convert data/test.json ./data
!python -m spacy convert data/val.json ./data

[38;5;2m✔ Generated output file (1737 documents): data/train.spacy[0m
[38;5;2m✔ Generated output file (579 documents): data/test.spacy[0m
[38;5;2m✔ Generated output file (579 documents): data/val.spacy[0m


In [None]:
!python -m spacy init fill-config base_config.cfg config.cfg

[38;5;2m✔ Auto-filled config with all values[0m
[38;5;2m✔ Saved config[0m
config.cfg
You can now add your data and train your pipeline:
python -m spacy train config.cfg --paths.train ./train.spacy --paths.dev ./dev.spacy


In [None]:
!python -m spacy train config.cfg --output ./output --paths.train data/train.spacy --paths.dev data/val.spacy --gpu-id 0

[38;5;2m✔ Created output directory: output[0m
[38;5;4mℹ Saving to output directory: output[0m
[38;5;4mℹ Using GPU: 0[0m
[1m
[2023-06-26 17:31:54,461] [INFO] Set up nlp object from config
[2023-06-26 17:31:54,476] [INFO] Pipeline: ['tok2vec', 'ner']
[2023-06-26 17:31:54,480] [INFO] Created vocabulary
[2023-06-26 17:31:54,480] [INFO] Finished initializing nlp object
[2023-06-26 17:32:13,475] [INFO] Initialized pipeline components: ['tok2vec', 'ner']
[38;5;2m✔ Initialized pipeline[0m
[1m
[38;5;4mℹ Pipeline: ['tok2vec', 'ner'][0m
[38;5;4mℹ Initial learn rate: 0.001[0m
E    #       LOSS TOK2VEC  LOSS NER  ENTS_F  ENTS_P  ENTS_R  SCORE 
---  ------  ------------  --------  ------  ------  ------  ------
  0       0          0.00     40.17    0.00    0.00    0.00    0.00
  0     200         54.79   2625.67   47.77   74.88   35.07    0.48
  1     400         91.85   1622.90   63.82   65.57   62.15    0.64
  1     600        143.57   1293.75   65.47   74.33   58.49    0.65
  2    

In [None]:
import spacy

nlp = spacy.load("/content/output/model-best")

text_list = [
    "বিএনপি নেতাদের সবচেয়ে বড় দুর্বলতা তাঁরা রাজনৈতিক কর্মী আর সন্ত্রাসী গুলিয়ে ফেলেছেন বলে মন্তব্য করেছেন তথ্যমন্ত্রী হাছান মাহমুদ",
    "আব্দুর রহিম নামের কাস্টমারকে একশ টাকা বাকি দিলাম",
    "পুতিনের দুর্বলতা ফাঁস করে দিয়েছে ভাগনার",
    "এবার বাবা শাহরুখের ছবিতে অভিনয় করবেন সুহানা",
    "বিনা প্রতিদ্বন্দ্বিতায় বান্দরবান পৌরসভার মেয়র হলেন আওয়ামী লীগের শামসুল",
    "রাত সাড়ে নয়টার দিকে রিটার্নিং কর্মকর্তা ফয়সল কাদের বেসরকারিভাবে আওয়ামী লীগের প্রার্থী মো. আনোয়ারুজ্জামান চৌধুরীকে বিজয়ী ঘোষণা করেন",
    " যাঁরা জায়েদ খানের পারফরম্যান্স দেখতে চান, তাঁরা আগামী দিনে ওয়াশিংটনে গেলে দেখতে পাবেন।"

]
for text in text_list:
    doc = nlp(text)

    print(f"Input: {text}")
    for entity in doc.ents:
        print(f"Entity: {entity.text}, Label: {entity.label_}")
    print("---")



Input: বিএনপি নেতাদের সবচেয়ে বড় দুর্বলতা তাঁরা রাজনৈতিক কর্মী আর সন্ত্রাসী গুলিয়ে ফেলেছেন বলে মন্তব্য করেছেন তথ্যমন্ত্রী হাছান মাহমুদ
Entity: হাছান মাহমুদ, Label: PER
---
Input: আব্দুর রহিম নামের কাস্টমারকে একশ টাকা বাকি দিলাম
Entity: আব্দুর রহিম, Label: PER
---
Input: পুতিনের দুর্বলতা ফাঁস করে দিয়েছে ভাগনার
---
Input: এবার বাবা শাহরুখের ছবিতে অভিনয় করবেন সুহানা
Entity: শাহরুখের, Label: PER
---
Input: বিনা প্রতিদ্বন্দ্বিতায় বান্দরবান পৌরসভার মেয়র হলেন আওয়ামী লীগের শামসুল
---
Input: রাত সাড়ে নয়টার দিকে রিটার্নিং কর্মকর্তা ফয়সল কাদের বেসরকারিভাবে আওয়ামী লীগের প্রার্থী মো. আনোয়ারুজ্জামান চৌধুরীকে বিজয়ী ঘোষণা করেন
Entity: ফয়সল কাদের, Label: PER
Entity: মো. আনোয়ারুজ্জামান চৌধুরীকে, Label: PER
---
Input:  যাঁরা জায়েদ খানের পারফরম্যান্স দেখতে চান, তাঁরা আগামী দিনে ওয়াশিংটনে গেলে দেখতে পাবেন।
Entity: জায়েদ খানের, Label: PER
---


In [None]:
import os
# os.mkdir('result')
!python -m spacy evaluate output//model-best data/test.spacy

[38;5;4mℹ Using CPU[0m
[38;5;4mℹ To switch to GPU 0, use the option: --gpu-id 0[0m
[1m

TOK     -    
NER P   79.13
NER R   63.42
NER F   70.41
SPEED   21952

[1m

          P       R       F
PER   79.13   63.42   70.41



In [None]:
!python -m spacy evaluate output//model-best data/val.spacy

[38;5;4mℹ Using CPU[0m
[38;5;4mℹ To switch to GPU 0, use the option: --gpu-id 0[0m
[1m

TOK     -    
NER P   79.20
NER R   63.82
NER F   70.68
SPEED   22291

[1m

          P       R       F
PER   79.20   63.82   70.68



# All Entity Considered

In [None]:
import json

# Open the JSON file
with open("/content/drive/MyDrive/NER/all_entity_merged_data.json", "r") as file:
    # Load the JSON data
    dataset = json.load(file)

len(dataset)

6685

In [None]:
import random
from spacy.util import minibatch, compounding


# Set the random seed for reproducibility
random.seed(42)

# Shuffle the dataset
random.shuffle(dataset)

# Define the split ratios
train_ratio = 0.6  # 80% for training
val_ratio = 0.2  # 10% for validation
test_ratio = 0.2  # 10% for testing

# Calculate the sizes of each split
total_size = len(dataset)
train_size = int(train_ratio * total_size)
val_size = int(val_ratio * total_size)

# Split the dataset into train, validation, and test sets
train_data = dataset[:train_size]
val_data = dataset[train_size:train_size + val_size]
test_data = dataset[train_size + val_size:]

# Print the sizes of each split
print(f"Training set size: {len(train_data)}")
print(f"Validation set size: {len(val_data)}")
print(f"Test set size: {len(test_data)}")


Training set size: 4011
Validation set size: 1337
Test set size: 1337


In [None]:
import os
!mkdir "all_data"

In [None]:
with open("all_data/train.json", 'w') as fp:
        json.dump(train_data, fp, indent=2, ensure_ascii=False)


with open("all_data/test.json", 'w') as fp:
        json.dump(test_data, fp, indent=2, ensure_ascii=False)


with open("all_data/val.json", 'w') as fp:
        json.dump(val_data, fp, indent=2, ensure_ascii=False)


In [None]:
!python -m spacy convert all_data/train.json ./all_data
!python -m spacy convert all_data/test.json ./all_data
!python -m spacy convert all_data/val.json ./all_data

[38;5;2m✔ Generated output file (4011 documents): all_data/train.spacy[0m
[38;5;2m✔ Generated output file (1337 documents): all_data/test.spacy[0m
[38;5;2m✔ Generated output file (1337 documents): all_data/val.spacy[0m


In [None]:
!python -m spacy train config.cfg --output ./all_output --paths.train all_data/train.spacy --paths.dev all_data/val.spacy --gpu-id 0

[38;5;2m✔ Created output directory: all_output[0m
[38;5;4mℹ Saving to output directory: all_output[0m
[38;5;4mℹ Using GPU: 0[0m
[1m
[2023-06-26 17:54:52,283] [INFO] Set up nlp object from config
[2023-06-26 17:54:52,300] [INFO] Pipeline: ['tok2vec', 'ner']
[2023-06-26 17:54:52,303] [INFO] Created vocabulary
[2023-06-26 17:54:52,303] [INFO] Finished initializing nlp object
[2023-06-26 17:55:05,333] [INFO] Initialized pipeline components: ['tok2vec', 'ner']
[38;5;2m✔ Initialized pipeline[0m
[1m
[38;5;4mℹ Pipeline: ['tok2vec', 'ner'][0m
[38;5;4mℹ Initial learn rate: 0.001[0m
E    #       LOSS TOK2VEC  LOSS NER  ENTS_F  ENTS_P  ENTS_R  SCORE 
---  ------  ------------  --------  ------  ------  ------  ------
  0       0          0.00     49.43    0.00    0.00    0.00    0.00
  0     200        200.87   4551.93   20.73   59.76   12.54    0.21
  0     400        199.02   3710.36   33.60   58.71   23.54    0.34
  0     600        279.90   4128.71   52.05   67.01   42.54    0.52

In [None]:
import spacy

nlp = spacy.load("/content/all_output/model-best")

text_list = [
    "বিএনপি নেতাদের সবচেয়ে বড় দুর্বলতা তাঁরা রাজনৈতিক কর্মী আর সন্ত্রাসী গুলিয়ে ফেলেছেন বলে মন্তব্য করেছেন তথ্যমন্ত্রী হাছান মাহমুদ",
    "আব্দুর রহিম নামের কাস্টমারকে একশ টাকা বাকি দিলাম",
    "পুতিনের দুর্বলতা ফাঁস করে দিয়েছে ভাগনার",
    "এবার বাবা শাহরুখের ছবিতে অভিনয় করবেন সুহানা",
    "বিনা প্রতিদ্বন্দ্বিতায় বান্দরবান পৌরসভার মেয়র হলেন আওয়ামী লীগের শামসুল",
    "রাত সাড়ে নয়টার দিকে রিটার্নিং কর্মকর্তা ফয়সল কাদের বেসরকারিভাবে আওয়ামী লীগের প্রার্থী মো. আনোয়ারুজ্জামান চৌধুরীকে বিজয়ী ঘোষণা করেন",
    " যাঁরা জায়েদ খানের পারফরম্যান্স দেখতে চান, তাঁরা আগামী দিনে ওয়াশিংটনে গেলে দেখতে পাবেন।"

]
for text in text_list:
    doc = nlp(text)

    print(f"Input: {text}")
    for entity in doc.ents:
        print(f"Entity: {entity.text}, Label: {entity.label_}")
    print("---")



Input: বিএনপি নেতাদের সবচেয়ে বড় দুর্বলতা তাঁরা রাজনৈতিক কর্মী আর সন্ত্রাসী গুলিয়ে ফেলেছেন বলে মন্তব্য করেছেন তথ্যমন্ত্রী হাছান মাহমুদ
Entity: বিএনপি, Label: ORG
Entity: হাছান মাহমুদ, Label: PER
---
Input: আব্দুর রহিম নামের কাস্টমারকে একশ টাকা বাকি দিলাম
Entity: আব্দুর রহিম, Label: PER
---
Input: পুতিনের দুর্বলতা ফাঁস করে দিয়েছে ভাগনার
Entity: পুতিনের, Label: ORG
Entity: ভাগনার, Label: LOC
---
Input: এবার বাবা শাহরুখের ছবিতে অভিনয় করবেন সুহানা
Entity: শাহরুখের, Label: PER
---
Input: বিনা প্রতিদ্বন্দ্বিতায় বান্দরবান পৌরসভার মেয়র হলেন আওয়ামী লীগের শামসুল
Entity: আওয়ামী লীগের, Label: ORG
---
Input: রাত সাড়ে নয়টার দিকে রিটার্নিং কর্মকর্তা ফয়সল কাদের বেসরকারিভাবে আওয়ামী লীগের প্রার্থী মো. আনোয়ারুজ্জামান চৌধুরীকে বিজয়ী ঘোষণা করেন
Entity: রাত, Label: M
Entity: নয়টার, Label: M
Entity: ফয়সল কাদের, Label: PER
Entity: আওয়ামী লীগের, Label: ORG
Entity: মো. আনোয়ারুজ্জামান চৌধুরীকে, Label: PER
---
Input:  যাঁরা জায়েদ খানের পারফরম্যান্স দেখতে চান, তাঁরা আগামী দিনে ওয়াশিংটনে গেলে দেখতে পাবেন।
Entity: 

In [None]:
!python -m spacy evaluate all_output//model-best all_data/val.spacy

[38;5;4mℹ Using CPU[0m
[38;5;4mℹ To switch to GPU 0, use the option: --gpu-id 0[0m
[1m

TOK     -    
NER P   70.95
NER R   60.78
NER F   65.47
SPEED   23055

[1m

           P       R       F
M      81.22   79.18   80.19
PER    64.72   59.62   62.07
LOC    70.89   61.31   65.75
ORG    72.23   53.85   61.70
DATE   84.27   75.00   79.37
GPE    62.57   47.95   54.29
LAW     0.00    0.00    0.00



In [None]:
import os
# os.mkdir('all_result')
!python -m spacy evaluate all_output//model-best all_data/test.spacy

[38;5;4mℹ Using CPU[0m
[38;5;4mℹ To switch to GPU 0, use the option: --gpu-id 0[0m
[1m

TOK     -    
NER P   70.41
NER R   60.49
NER F   65.07
SPEED   23460

[1m

           P       R       F
M      82.31   78.05   80.13
ORG    66.40   52.16   58.42
GPE    57.81   45.68   51.03
LOC    67.81   55.87   61.26
PER    70.47   62.82   66.43
DATE   68.09   64.00   65.98
LAW    75.00   42.86   54.55

