bel-digital-handwriting-py - гэта Python бібліятэка, з дапамогай якой вы можаце хутка аналізаваць беларускія тэксты па спецыяльных крытэрыях.
import BelDigitalHandwriting.BelDHAnalyser as BelDHAnalyser
text_file = open("text.txt", "r", encoding="utf-8")
text = text_file.read()
analyze = BelDHAnalyser.analyse_text(text)
- Аналізаваць тэксты:
analyze = BelDHAnalyser.analyse_text(text)
- Сумяшчаць аналізы тэкстаў
commom_analyze = analyze_1 + analyze_2
Каб пачаць выкарыстоўваць bel-digital-handwriting-py, вы павінны ўсталяваць бібліятэку праз PIP:
pip install bel-digital-handwriting-py
У гэтым раздзеле будуць апісаны асноўныя прынцыпы работы bel-digital-handwriting-py
Для выяўлення лічбавага почырку пісьменніка быў складзены спіс крытыэрыяў, па якім будзе праходзіць аналіз тэксту:
- Частата з'яўлення ў тэксце кожнага сімвала:
- Частата з'яўлення ў тэксце галосных і зычных літар:
- Сярэдняя даўжыня слова:
- Сярэдняя даўжыня сказа (па колькасьці сімвалаў і колькасьці слоў):
- Сярэдняя колькасць косак (,;) на сказ:
- Працэнт клічных і пытальных сказаў:
- Частата выкарыстання слоў кожнай часціны мовы (больш падрабязна пра гэта напісана ў наступным раздзеле):
- Статыстыка па парам слоў, якія пачынаюцца/заканчваюцца на галосны/зычны (ГГ, ГЗ, ЗГ, ЗЗ):
Для вызначэння часціны мовы, да якой адносіцца канкрэтнае слова была выкарыстана Граматычная база беларускай мовы. З дапамогай распрацаванага мною Python скрыпта ўсе словаформы кожнай часціны мовы былі сабраныя па асобных файлах ў фармаце:
слова#слова#слова#слова#слова#...
- У праекце выкарыстоўваюцца слоўнікі Беларускага N-корпусу. Спасылка на іх рэпазітар Github - GrammarDB. Граматычная база распаўсюджвацца па ліцэнзіі CC BY-SA 4.0. Спасылка на ліцэнзію Граматычнай базы - CC BY-SA 4.0