# Step 1: Change Data in Txt file to DocBin format SPACY

In [2]:
import spacy
from spacy.tokens import Doc, DocBin, Span
from spacy.training import Example, offsets_to_biluo_tags

# Create a blank SpaCy model for a custom language ("xx" is used for custom/unspecified languages)
nlp = spacy.blank("xx")

# Optionally, set a custom language code
nlp.lang = "ku"  # Assign 'ku' as the language code for Kurdish

# Add the NER component to the pipeline
ner = nlp.add_pipe("ner")

# Read the annotated text file (ensure UTF-8 encoding)
with open("annotated_text.txt", "r", encoding="utf-8") as file:
    sentences = file.read().strip().split("\n\n")

# Initialize a DocBin to store the training examples
doc_bin = DocBin(attrs=["ENT_IOB", "ENT_TYPE"])

for sentence in sentences:
    words = []
    labels = []
    
    for line in sentence.split("\n"):
        word, label = line.split()
        words.append(word)
        labels.append(label)
    
    # Create a SpaCy Doc object
    doc = Doc(nlp.vocab, words=words)
    
    # Create entities using token indices
    ents = []
    for i, label in enumerate(labels):
        if label.startswith("B-"):
            start = i
            entity_type = label[2:]
            while i + 1 < len(labels) and labels[i + 1].startswith("I-"):
                i += 1
            end = i + 1
            span = Span(doc, start, end, label=entity_type)
            ents.append(span)
    
    # Assign the entities to the doc
    doc.ents = ents

    # Create an Example object
    example = Example.from_dict(doc, {"entities": [(ent.start, ent.end, ent.label_) for ent in ents]})
    
    # Add the Example to the DocBin
    doc_bin.add(doc)

# Serialize the DocBin to a binary file
with open("training_data.spacy", "wb") as f:
    f.write(doc_bin.to_bytes())

# Step 2: Inspecting the DocBin File

In [3]:
import spacy
from spacy.tokens import DocBin

# Load the DocBin file
with open("training_data.spacy", "rb") as f:
    doc_bin = DocBin().from_bytes(f.read())

# Load a blank SpaCy model for the same language
nlp = spacy.blank("xx")
nlp.lang = "ku"

# Get the docs from the DocBin
docs = list(doc_bin.get_docs(nlp.vocab))

# Inspect the content
for doc in docs:
    print("Text:", doc.text)
    for ent in doc.ents:
        print(f"Entity: {ent.text}, Label: {ent.label_}")

Text: مەهدی ئۆزدەمیر ، جێگری سەرۆکی بارۆی ئامەد رایگەیاند ، دابینکردنی خزمەتگوزارییە گشتییەکان بە زمانە جیاوازەکان لە رووی یاسایی و دەستوورییەوە لە تورکیا کێشە دروست ناکات . 
Entity: مەهدی ئۆزدەمیر, Label: PER
Entity: بارۆی ئامەد, Label: ORG
Entity: خزمەتگوزارییە گشتییەکان, Label: MISC
Entity: زمانە جیاوازەکان, Label: MISC
Entity: یاسایی, Label: MISC
Entity: دەستوورییەوە, Label: MISC
Entity: تورکیا, Label: LOC
Text: ئۆزدەمیر گوتی لە مادەی ١٣ـی یاسای شارەوانی ژمارە ٥٣٩٣ ـدا هاتووە ؛ شارەوانییەکان بۆ چ مەبەستێک و بە چ ئەرک و بەرپرسیارێتییەک کار دەکەن . 
Entity: ئۆزدەمیر, Label: PER
Entity: مادەی ١٣ـی یاسای شارەوانی, Label: MISC
Entity: شارەوانییەکان, Label: ORG
Text: ئۆزدەمیر گوتی هەرچەندە لەو فەرمانەی لە لایەن وەزارەتی ناوخۆوە بڵاوکرایەوە باس لەوە کرابوو پابەند نەبوون بە هەندێک پێوەر هەیە ، بەڵام ئەو هێمایانەی هاتووچۆ بە کوردی نووسراون ، لە رووی چەندایەتی و کوالێتی و قەبارەوە هەمان هێماکانی هاتووچۆی کوردین کە پێشتر بەکاردەهێندران . 
Entity: ئۆزدەمیر, Label: PER
Entity: وەزارەتی ناوخۆوە,

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)

