bel-digital-handwriting-py

bel-digital-handwriting-py - гэта Python бібліятэка, з дапамогай якой вы можаце хутка аналізаваць беларускія тэксты па спецыяльных крытэрыях.

import BelDigitalHandwriting.BelDHAnalyser as BelDHAnalyser

text_file = open("text.txt", "r", encoding="utf-8")
text = text_file.read()

analyze = BelDHAnalyser.analyse_text(text)

Што можа гэта бібліятэка

Аналізаваць тэксты:

analyze = BelDHAnalyser.analyse_text(text)

Сумяшчаць аналізы тэкстаў
```
commom_analyze = analyze_1 + analyze_2
```

Як карыстацца гэтай бібліятэкай

Каб пачаць выкарыстоўваць bel-digital-handwriting-py, вы павінны ўсталяваць бібліятэку праз PIP:

pip install bel-digital-handwriting-py

Як працуе гэты пакет

У гэтым раздзеле будуць апісаны асноўныя прынцыпы работы bel-digital-handwriting-py

Крытыэрыі аналізу

Для выяўлення лічбавага почырку пісьменніка быў складзены спіс крытыэрыяў, па якім будзе праходзіць аналіз тэксту:

Частата з'яўлення ў тэксце кожнага сімвала:

$$ \nu_{сімвала} = {колькасць\ паўтарэнняў\ сімвала \over колькасць\ сімвалаў}$$

Частата з'яўлення ў тэксце галосных і зычных літар:

$$ \nu_{галосных} = {колькасць\ галосных \over колькасць\ літар}\qquad \nu_{зычных} = {колькасць\ зычных \over колькасць\ літар}$$

Сярэдняя даўжыня слова:

$$ \langle l_{слова} \rangle = {сума\ даўжынь\ усіх\ слоў \over колькасць\ слоў}$$

Сярэдняя даўжыня сказа (па колькасьці сімвалаў і колькасьці слоў):

$$ \langle l_{сказа:\ сімвалы} \rangle = {колькасць\ усіх\ сімвалаў \over колькасць\ сказаў} \qquad \langle l_{сказа:\ словы} \rangle = {колькасць\ усіх\ слоў \over колькасць\ сказаў}$$

Сярэдняя колькасць косак (,;) на сказ:

$$ \langle N_{косак} \rangle = {колькасць\ усіх\ косак \over колькасць\ сказаў}$$

Працэнт клічных і пытальных сказаў:

$$ \nu_{кліч} = {колькасць\ клічнікаў \over колькасць\ сказаў}\qquad \nu_{пыт} = {колькасць\ пытальнікаў \over колькасць\ сказаў}$$

Частата выкарыстання слоў кожнай часціны мовы (больш падрабязна пра гэта напісана ў наступным раздзеле):

$$ \nu_x = {колькасць\ слоў\ гэтай\ часціны\ мовы \over колькасць\ слоў}$$

Статыстыка па парам слоў, якія пачынаюцца/заканчваюцца на галосны/зычны (ГГ, ГЗ, ЗГ, ЗЗ):

$$ \nu_{тыпа\ пар} = {колькасць\ пар\ аднаго\ тыпа \over колькасць\ ўсіх\ пар}$$

Выкарыстанне Граматычнай базы

Для вызначэння часціны мовы, да якой адносіцца канкрэтнае слова была выкарыстана Граматычная база беларускай мовы. З дапамогай распрацаванага мною Python скрыпта ўсе словаформы кожнай часціны мовы былі сабраныя па асобных файлах ў фармаце:

слова#слова#слова#слова#слова#...

Спасылкі на выкарыстоўваемые матэрыялы

У праекце выкарыстоўваюцца слоўнікі Беларускага N-корпусу. Спасылка на іх рэпазітар Github - GrammarDB. Граматычная база распаўсюджвацца па ліцэнзіі CC BY-SA 4.0. Спасылка на ліцэнзію Граматычнай базы - CC BY-SA 4.0

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.github/workflows		.github/workflows
BelDigitalHandwriting		BelDigitalHandwriting
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
SlounikParser.py		SlounikParser.py
main.py		main.py
setup.py		setup.py
test_text.txt		test_text.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

bel-digital-handwriting-py

Што можа гэта бібліятэка

Як карыстацца гэтай бібліятэкай

Як працуе гэты пакет

Крытыэрыі аналізу

Выкарыстанне Граматычнай базы

Спасылкі на выкарыстоўваемые матэрыялы

About

Releases 1

Packages

Languages

License

daniilkananenka/bel-digital-handwriting-py

Folders and files

Latest commit

History

Repository files navigation

bel-digital-handwriting-py

Што можа гэта бібліятэка

Як карыстацца гэтай бібліятэкай

Як працуе гэты пакет

Крытыэрыі аналізу

Выкарыстанне Граматычнай базы

Спасылкі на выкарыстоўваемые матэрыялы

About

Topics

Resources

License

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages