Skip to content

mh-salari/davat

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Davat(دوات)

A very simple python library for normalizing and cleaning Persian text.

  • Text Normalizing
  • Text Cleaning
  • Python 3.x support

Usage

>>> import davat

>>> sample_text = "بِسْمِ اللَّهِ الرَّحْمنِ الرَّحِيمِ"

>>> davat.normalize(sample_text)
'بسم الله الرحمن الرحیم'

>>> sample_text = """این یك متن تست است که حروف عربي ، کشیـــــده 
'اعداد 12345' و... دارد     که می خواهیم آن را نرمالایز کنیم ."""

>>> print(davat.normalize(sample_text))
این یک متن تست است که حروف عربی، کشیده
«اعداد ۱۲۳۴۵» ودارد  که میخواهیم آن را نرمالایز کنیم.

>>> sample_text = """
... متنی برای برسی تابع تمیز کردن متن
... که #هشتگ_ها را خیلی عاااااللللییییی!!!! تبدیل به متن عادی می‌کند!
... منشن‌ها @mh_salari و لینک‌ها www.mh-salari.ir را حذف می‌کند.
... حروف غیر فارسی  a b c d و اموجی‌ها :( 🐈‍ را حذف می‌کند
... علائم دستوری/نگارشی ?!٫ را حذف نمی‌کند
... و ...
... http://localhost:8888
... """


>>> # davat.clean(
... #     text: str,
... #     remove_links=True,
... #     remove_mentions=True,
... #     remove_hashtags=False,
... #     remove_hashtag=True,
... #     remove_underline=True,
... #     remove_emojis=True,
... #     normalize_persian=True,
... #     remove_punctuations=False,
... #     fix_multiple_punctuations=True,
... #     remove_3dots=False,
... #     remove_non_persian_letters=True,
... #     remove_extraspaces=True,
... #)
... 


>>> text = davat.clean(sample_text)
>>> print(text)
متنی برای برسی تابع تمیز کردن متن 
 که هشتگها را خیلی عااللیی! تبدیل به متن عادی میکند! 
 منشنها و لینکها را حذف میکند. 
 حروف غیر فارسی و اموجیها را حذف میکند 
 علائم دستوری/نگارشی؟!، را حذف نمیکند 
 و

Installation

The latest stable version of Davat can be installed through pip:

pip install davat

Thanks to:

About

davat(دوات) is a very simple tools for normalizeing and cleaning Persian text

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Sponsor this project

Packages

No packages published

Languages