In [34]:
from hazm import Normalizer as HNormalizer
from hazm import WordTokenizer as HTokenizer
from hazm import Stemmer, Lemmatizer
from parsivar import Normalizer as PNormalizer
from parsivar import Tokenizer as PTokenizer
from parsivar import FindStems
from dadmatools.models.normalizer import Normalizer as DNormalizer

In [35]:
sample = """عنوان مقاله: صفحهٔ اصلی

<p>متن ویکی‌پدیا فارسی</p>

من john هستم و در ب.م.م گیری تخصص دارم!

کلمات عربي مانند اصلاح كاف و يا ي برای توکنایزر ما اَهمیت دارند.

ما می  ‌دانیم که در تاریخ ۲۰ سپتامبر ۲۰۰۴ (۲۹ شهریور،۱۳۸۳) مقاله های "ویکی پدیا" در ۱۰۵ زبان به یک میلیون رسید.
که این مقالات شامل زمــــان های پیشین نیستند.

در ویکی‌پدیا فارسی ممکن است ( گاهی ) فاصله پرانتز ها رعایت نشده باشد، یا حتی ممکن است درباره محبوب ترین های فارسی صحبت شده باشد.
در اینجا یک ایمیل آزمایشی از من sh@sbu.ac.ir قرار دارد.

برای اطلاعات بیشتر می‌توانید به وبسایت ویکی‌پیدا فارسی به آدرس http://wikipedia.com سر بزنید.
(داخل پرانتز بگویم، این یک متن تستی است. حداقل به من اینطور گفته شده است.)

مجلهٔ تایم در گزارش سال ۲۰۰۶ خود، جیمی ویلز را در گروه ۱۰۰ فرد تأثیرگذار سال اعلام کرد.

همچنین در همین سال ویکی پدیای روسی برندهٔ جایزهٔ رانِت (روسی: Премия Рунета) در بخش «دانش و آموزش» شد. این جایزه از طرف دولت اعطا می شود.

همچنین ویکی پدیا جایزهٔ یک میلیون دلاریِ مدیریت پروژه را از همایش  صفاجو دریافت کرد.

پلتفورم اهداف توسعه پایدار United Nations:

چندین پروژهٔ متن-آزاد دارد که وظایف غیردانشنامه ای را انجام می دهند"""

In [36]:
hnormalizer = HNormalizer(
    correct_spacing=True,
    remove_diacritics=True,
    remove_specials_chars=True,
    decrease_repeated_chars=True,
    persian_style=True,
    persian_numbers=True,
    unicodes_replacement=True,
    seperate_mi=True
)
hnormalized_sample = hnormalizer.normalize(sample)
hnormalized_sample

'عنوان مقاله: صفحه اصلی\n\n<p>متن ویکی\u200cپدیا فارسی< / p>\n\nمن john هستم و در ب. م. م گیری تخصص دارم! \n\nکلمات عربی مانند اصلاح کاف و یا\u200cی برای توکنایزر ما اهمیت دارند. \n\nما می\u200cدانیم که در تاریخ ۲۰ سپتامبر ۲۰۰۴ (۲۹ شهریور، ۱۳۸۳) مقاله\u200cهای «ویکی پدیا» در ۱۰۵ زبان به یک\u200cمیلیون رسید. \nکه این مقالات شامل زمان\u200cهای پیشین نیستند. \n\nدر ویکی\u200cپدیا فارسی ممکن است (گاهی) فاصله پرانتز\u200cها رعایت نشده باشد، یا حتی ممکن است درباره محبوب\u200cترین\u200cهای فارسی صحبت شده باشد. \nدر اینجا یک ایمیل آزمایشی از من sh@sbu. ac. ir قرار دارد. \n\nبرای اطلاعات بیشتر می\u200cتوانید به وبسایت ویکی\u200cپیدا فارسی به آدرس http: / / wikipedia. com سر بزنید. \n (داخل پرانتز بگویم، این یک متن تستی است. حداقل به من اینطور گفته\u200cشده است.) \n\nمجله تایم در گزارش سال ۲۰۰۶ خود، جیمی ویلز را در گروه ۱۰۰ فرد تأثیرگذار سال اعلام کرد. \n\nهمچنین در همین سال ویکی پدیای روسی برنده جایزه رانت (روسی: Премия Рунета) در بخش «دانش و آموزش» شد. این جایزه از طرف دولت اعطا می\u200cشود. \

In [37]:
pnormalizer = PNormalizer(date_normalizing_needed=True)
pnormalized_sample = pnormalizer.normalize(sample)
pnormalized_sample

'عنوان مقاله : صفحهٔ اصلی < p > متن ویکی\u200cپدیا فارسی </ p > من john هستم و در ب . م . م\u200cگیری تخصص دارم ! کلمات عربی مانند اصلاح کاف و یا ی برای توکنایزر ما اهمیت دارند . ما می\u200c\u200cدانیم که در تاریخ 20 سپتامبر 2004 ( y0m6d29 ، 1383 ) مقاله\u200cهای " ویکی پدیا " در 105 زبان به 1000000 رسید . که این مقالات شامل زمان\u200cهای پیشین نیستند . در ویکی\u200cپدیا فارسی ممکن است ( گاهی ) فاصله پرانتز\u200cها رعایت\u200cنشده\u200cباشد ، یا حتی ممکن است درباره محبوب ترین\u200cهای فارسی صحبت\u200cشده\u200cباشد . در اینجا 1 ایمیل آزمایشی از من sh@sbu . ac . ir قرار دارد . برای اطلاعات بیشتر می\u200cتوانید به وبسایت ویکی\u200cپیدا فارسی به آدرس http :// wikipedia . com سر بزنید . ( داخل پرانتز بگویم ، این 1 متن تستی است . حداقل به من اینطور گفته\u200cشده\u200cاست .) مجلهٔ تایم در گزارش سال y0m0d2006 خود ، جیمی ویلز را در گروه 100 فرد تاثیرگذار سال اعلام کرد . همچنین در همین سال ویکی پدیای روسی برندهٔ جایزهٔ رانت ( روسی : Премия Рунета ) در بخش « دانش و آموزش » شد . این جایزه از طرف د

In [38]:
dnormalizer = DNormalizer(
    full_cleaning=False,
    unify_chars=True,
    refine_punc_spacing=True,
    remove_extra_space=True,
    replace_email_with="<EMAIL>",
    replace_number_with="<NUM>",
    replace_url_with="<URL>"
)
dnormalized_sample = dnormalizer.normalize(sample)
dnormalized_sample

'عنوان مقاله: صفحهٔ اصلی <p>متن ویکی\u200cپدیا فارسی</p> من john هستم و در ب. م. م گیری تخصص دارم! کلمات عربی مانند اصلاح کاف و یا ی برای توکنایزر ما اَهمیت دارند. ما می \u200cدانیم که در تاریخ <NUM> سپتامبر <NUM> (<NUM> شهریور، <NUM>) مقاله های "ویکی پدیا" در <NUM> زبان به یک میلیون رسید. که این مقالات شامل زمــــان های پیشین نیستند. در ویکی\u200cپدیا فارسی ممکن است (گاهی) فاصله پرانتز ها رعایت نشده باشد، یا حتی ممکن است درباره محبوب ترین های فارسی صحبت شده باشد. در اینجا یک ایمیل آزمایشی از من <EMAIL> قرار دارد. برای اطلاعات بیشتر می\u200cتوانید به وبسایت ویکی\u200cپیدا فارسی به آدرس <URL> سر بزنید. (داخل پرانتز بگویم، این یک متن تستی است. حداقل به من اینطور گفته شده است.) مجلهٔ تایم در گزارش سال <NUM> خود، جیمی ویلز را در گروه <NUM> فرد تاثیرگذار سال اعلام کرد. همچنین در همین سال ویکی پدیای روسی برندهٔ جایزهٔ رانِت (روسی: Премия Рунета) در بخش «دانش و آموزش» شد. این جایزه از طرف دولت اعطا می شود. همچنین ویکی پدیا جایزهٔ یک میلیون دلاریِ مدیریت پروژه را از همایش صفاجو دریافت کرد. پلت

In [39]:
htokenizer = HTokenizer(
    join_verb_parts=True,
    join_abbreviations=True,
    replace_links=True,
    replace_emails=True,
    replace_numbers=True,
)
htokenized_sample = htokenizer.tokenize(hnormalized_sample)
htokenized_sample

['عنوان',
 'مقاله',
 ':',
 'صفحه',
 'اصلی',
 '<p>متن',
 'ویکی\u200cپدیا',
 'فارسی<',
 '/',
 'p>',
 'من',
 'john',
 'هستم',
 'و',
 'در',
 'ب',
 '.',
 'NUM',
 '4',
 'م',
 'گیری',
 'تخصص',
 'دارم',
 '!',
 'کلمات',
 'عربی',
 'مانند',
 'اصلاح',
 'کاف',
 'و',
 'یا\u200cی',
 'برای',
 'توکنایزر',
 'ما',
 'اهمیت',
 'دارند',
 '.',
 'ما',
 'می\u200cدانیم',
 'که',
 'در',
 'تاریخ',
 'NUM',
 '2',
 'سپتامبر',
 'NUM',
 '4',
 '(',
 'NUM',
 '2',
 'شهریور',
 '،',
 'NUM',
 '4',
 ')',
 'مقاله\u200cهای',
 '«',
 'ویکی',
 'پدیا',
 '»',
 'در',
 'NUM',
 '3',
 'زبان',
 'به',
 'یک\u200cمیلیون',
 'رسید',
 '.',
 'که',
 'این',
 'مقالات',
 'شامل',
 'زمان\u200cهای',
 'پیشین',
 'نیستند',
 '.',
 'در',
 'ویکی\u200cپدیا',
 'فارسی',
 'ممکن',
 'است',
 '(',
 'گاهی',
 ')',
 'فاصله',
 'پرانتز\u200cها',
 'رعایت',
 'نشده_باشد',
 '،',
 'یا',
 'حتی',
 'ممکن',
 'است',
 'درباره',
 'محبوب\u200cترین\u200cهای',
 'فارسی',
 'صحبت',
 'شده_باشد',
 '.',
 'در',
 'اینجا',
 'یک',
 'ایمیل',
 'آزمایشی',
 'از',
 'من',
 'sh@sbu',
 '.',
 'ac',
 '.'

In [40]:
ptokenizer = PTokenizer()
ptokenized_sample = ptokenizer.tokenize_words(pnormalized_sample)
ptokenized_sample

['عنوان',
 'مقاله',
 ':',
 'صفحهٔ',
 'اصلی',
 '<',
 'p',
 '>',
 'متن',
 'ویکی\u200cپدیا',
 'فارسی',
 '</',
 'p',
 '>',
 'من',
 'john',
 'هستم',
 'و',
 'در',
 'ب',
 '.',
 'م',
 '.',
 'م\u200cگیری',
 'تخصص',
 'دارم',
 '!',
 'کلمات',
 'عربی',
 'مانند',
 'اصلاح',
 'کاف',
 'و',
 'یا',
 'ی',
 'برای',
 'توکنایزر',
 'ما',
 'اهمیت',
 'دارند',
 '.',
 'ما',
 'می\u200c\u200cدانیم',
 'که',
 'در',
 'تاریخ',
 '20',
 'سپتامبر',
 '2004',
 '(',
 'y0m6d29',
 '،',
 '1383',
 ')',
 'مقاله\u200cهای',
 '"',
 'ویکی',
 'پدیا',
 '"',
 'در',
 '105',
 'زبان',
 'به',
 '1000000',
 'رسید',
 '.',
 'که',
 'این',
 'مقالات',
 'شامل',
 'زمان\u200cهای',
 'پیشین',
 'نیستند',
 '.',
 'در',
 'ویکی\u200cپدیا',
 'فارسی',
 'ممکن',
 'است',
 '(',
 'گاهی',
 ')',
 'فاصله',
 'پرانتز\u200cها',
 'رعایت\u200cنشده\u200cباشد',
 '،',
 'یا',
 'حتی',
 'ممکن',
 'است',
 'درباره',
 'محبوب',
 'ترین\u200cهای',
 'فارسی',
 'صحبت\u200cشده\u200cباشد',
 '.',
 'در',
 'اینجا',
 '1',
 'ایمیل',
 'آزمایشی',
 'از',
 'من',
 'sh@sbu',
 '.',
 'ac',
 '.',
 'ir',

In [41]:
stemmer = Stemmer()
hstemmed_sample = [stemmer.stem(v)for v in htokenized_sample]
hstemmed_sample

['عنو',
 'مقاله',
 ':',
 'صفحه',
 'اصل',
 '<p>متن',
 'ویکی\u200cپدیا',
 'فارسی<',
 '/',
 'p>',
 'من',
 'john',
 'هس',
 'و',
 'در',
 'ب',
 '.',
 'NUM',
 '4',
 '',
 'گیر',
 'تخصص',
 'دار',
 '!',
 'کل',
 'عرب',
 'مانند',
 'اصلاح',
 'کاف',
 'و',
 'یا',
 'برا',
 'توکنایزر',
 'ما',
 'اهم',
 'دارند',
 '.',
 'ما',
 'می\u200cدان',
 'که',
 'در',
 'تاریخ',
 'NUM',
 '2',
 'سپتامبر',
 'NUM',
 '4',
 '(',
 'NUM',
 '2',
 'شهریور',
 '،',
 'NUM',
 '4',
 ')',
 'مقاله',
 '«',
 'ویک',
 'پدیا',
 '»',
 'در',
 'NUM',
 '3',
 'زب',
 'به',
 'یک\u200cمیلیون',
 'رسید',
 '.',
 'که',
 'این',
 'مقال',
 'شامل',
 'زمان',
 'پیشین',
 'نیستند',
 '.',
 'در',
 'ویکی\u200cپدیا',
 'فارس',
 'ممکن',
 'اس',
 '(',
 'گاه',
 ')',
 'فاصله',
 'پرانتز',
 'رعا',
 'نشده_باشد',
 '،',
 'یا',
 'حت',
 'ممکن',
 'اس',
 'درباره',
 'محبوب\u200cترین',
 'فارس',
 'صحب',
 'شده_باشد',
 '.',
 'در',
 'اینجا',
 'یک',
 'ایمیل',
 'آزمایش',
 'از',
 'من',
 'sh@sbu',
 '.',
 'ac',
 '.',
 'ir',
 'قرار',
 'دارد',
 '.',
 'برا',
 'اطلاع',
 'ب',
 'می\u200cتوانید'

In [42]:
lemmatizer = Lemmatizer()
hlemmatized_sample = [lemmatizer.lemmatize(v)for v in hstemmed_sample]
hlemmatized_sample

['عنو',
 'مقاله',
 ':',
 'صفحه',
 'اصل',
 '<p>متن',
 'ویکی\u200cپدیا',
 'فارسی<',
 '/',
 'p>',
 'من',
 'john',
 'هس',
 'و',
 'در',
 'ب',
 '.',
 'NUM',
 '4',
 '#هست',
 'گیر',
 'تخصص',
 'دار',
 '!',
 'کل',
 'عرب',
 'مانند',
 'اصلاح',
 'کاف',
 'و',
 'یا',
 'برا',
 'توکنایزر',
 'ما',
 'اهم',
 'داشت#دار',
 '.',
 'ما',
 'می\u200cدان',
 'که',
 'در',
 'تاریخ',
 'NUM',
 '2',
 'سپتامبر',
 'NUM',
 '4',
 '(',
 'NUM',
 '2',
 'شهریور',
 '،',
 'NUM',
 '4',
 ')',
 'مقاله',
 '«',
 'ویک',
 'پدیا',
 '»',
 'در',
 'NUM',
 '3',
 'زب',
 'به',
 'یک\u200cمیلیون',
 'رسید',
 '.',
 'که',
 'این',
 'مقال',
 'شامل',
 'زمان',
 'پیشین',
 'نیستند',
 '.',
 'در',
 'ویکی\u200cپدیا',
 'فارس',
 'ممکن',
 'اس',
 '(',
 'گاه',
 ')',
 'فاصله',
 'پرانتز',
 'رعا',
 'شد#شو',
 '،',
 'یا',
 'حت',
 'ممکن',
 'اس',
 'درباره',
 'محبوب',
 'فارس',
 'صحب',
 'شد#شو',
 '.',
 'در',
 'اینجا',
 'یک',
 'ایمیل',
 'آزمایش',
 'از',
 'من',
 'sh@sbu',
 '.',
 'ac',
 '.',
 'ir',
 'قرار',
 'داشت#دار',
 '.',
 'برا',
 'اطلاع',
 'ب',
 'توانست#توان',
 'به',


In [43]:
pstemmer = FindStems()
pstemmed_sample = [pstemmer.convert_to_stem(v) for v in ptokenized_sample]
pstemmed_sample

['عنوان',
 'مقاله',
 ':',
 'صفحهٔ',
 'اصلی',
 '<',
 'p',
 '>',
 'متن',
 'ویکی\u200cپدیا',
 'فارسی',
 '</',
 'p',
 '>',
 'من',
 'john',
 'هست',
 'و',
 'در',
 'ب',
 '.',
 'م',
 '.',
 'م\u200cگیری',
 'تخصص',
 'داشت&دار',
 '!',
 'کلمات',
 'عربی',
 'مانند',
 'اصلاح',
 'کاف',
 'و',
 'یا',
 'ی',
 'برای',
 'توکنایزر',
 'ما',
 'اهمیت',
 'داشت&دار',
 '.',
 'ما',
 'دانست&دان',
 'که',
 'در',
 'تاریخ',
 '20',
 'سپتامبر',
 '2004',
 '(',
 'y0m6d29',
 '،',
 '1383',
 ')',
 'مقاله',
 '"',
 'ویکی',
 'پدیا',
 '"',
 'در',
 '105',
 'زبان',
 'به',
 '1000000',
 'رسید',
 '.',
 'که',
 'این',
 'مقالات',
 'شامل',
 'زمان',
 'پیشین',
 'نیستند',
 '.',
 'در',
 'ویکی\u200cپدیا',
 'فارسی',
 'ممکن',
 'اس',
 '(',
 'گاهی',
 ')',
 'فاصله',
 'پرانتز',
 'رعایت\u200cنشده\u200cباشد',
 '،',
 'یا',
 'حتی',
 'ممکن',
 'اس',
 'درباره',
 'محبوب',
 'ترین\u200cهای',
 'فارسی',
 'صحبت\u200cشده\u200cباشد',
 '.',
 'در',
 'اینجا',
 '1',
 'ایمیل',
 'آزمایشی',
 'از',
 'من',
 'sh@sbu',
 '.',
 'ac',
 '.',
 'ir',
 'قرار',
 'داشت&دارد',
 '.',
 '