In [None]:
!pip install shekar

### Introduction

This notebook showcases the new **Named Entity Recognition (NER)** feature in the `shekar` library. Powered by a quantized ALBERT model fine-tuned for Persian, the NER module accurately extracts and classifies entities such as persons, locations, organizations, and dates from Persian text.

For demonstration, we apply the pipeline to a short biographical excerpt of **شاهرخ مسکوب**, sourced from **Wikipedia**. After a light normalization step, the text is passed to the NER module, which outputs a list of identified named entities and their labels all in a few lines of code.

This example highlights the simplicity and effectiveness of `shekar.NER` for real-world Persian language applications.

In [1]:
from shekar import NER
from shekar import Normalizer

input_text = "شاهرخ مسکوب به سالِ ۱۳۰۴ در بابل زاده شد و دوره ابتدایی را در تهران و در مدرسه علمیه پشت مسجد سپهسالار گذراند. از کلاس پنجم ابتدایی مطالعه رمان و آثار ادبی را شروع کرد. از همان زمان در دبیرستان ادب اصفهان ادامه تحصیل داد. پس از پایان تحصیلات دبیرستان در سال ۱۳۲۴ از اصفهان به تهران رفت و در رشته حقوق دانشگاه تهران مشغول به تحصیل شد. در همین سال‌ها بود که به روزنامه «قیام ایران» رفت و به تفسیر اخبار خارجی پرداخت. این «اولین کار نویسندگی» او بود. علاوه بر این، مِسکوب در این سال‌ها زبان فرانسه را آموخت. گرایش او به جریانات چپ و اشتیاق فراوانش برای دانستن اطلاعات روز و مطالعه مطبوعات چپ فرانسه، یکی از اصلی‌ترین انگیزه‌های او در این زمینه بود."

normalizer = Normalizer()
normalized_text = normalizer(input_text)

albert_ner = NER()
entities = albert_ner(normalized_text)

for text, label in entities:
    print(f"{text} → {label}")

a3d2b1d2c167abd01e6b663279d3f8c3bb1b3d0411f693515cd0b31a5a3d3e80
C:\Users\amiri\.shekar\albert_persian_ner_q8.onnx
79716aa7d8aeee80d362835da4f33e2b36b69fe65c257ead32c5ecd850e9ed17
C:\Users\amiri\.shekar\albert_persian_tokenizer.json
شاهرخ مسکوب → PER
سال ۱۳۰۴ → DAT
بابل → LOC
دوره ابتدایی → DAT
تهران → LOC
مدرسه علمیه → LOC
مسجد سپهسالار → LOC
دبیرستان ادب اصفهان → LOC
در سال ۱۳۲۴ → DAT
اصفهان → LOC
تهران → LOC
دانشگاه تهران → ORG
فرانسه → LOC


### Chaining Components

Thanks to `shekar`’s modular design, components like the `Normalizer` and `NER` can be **chained using the `|` operator** for cleaner, more intuitive pipelines.
This enables streamlined workflows without manual intermediate steps, ideal for building larger NLP pipelines with minimal code.

In [2]:
ner_pipeline = normalizer | albert_ner
entities = ner_pipeline(input_text)

for text, label in entities:
    print(f"{text} → {label}")

شاهرخ مسکوب → PER
سال ۱۳۰۴ → DAT
بابل → LOC
دوره ابتدایی → DAT
تهران → LOC
مدرسه علمیه → LOC
مسجد سپهسالار → LOC
دبیرستان ادب اصفهان → LOC
در سال ۱۳۲۴ → DAT
اصفهان → LOC
تهران → LOC
دانشگاه تهران → ORG
فرانسه → LOC
