Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Разница между ruts.DiversityStats и отдельными функциями #18

Open
Ndron opened this issue Mar 1, 2023 · 2 comments

Comments

@Ndron
Copy link

Ndron commented Mar 1, 2023

Заметил странное поведение , все значения разные.
t1 = 'Бальзам хороший, но пришёл один а не два, как написано '

import ruts
ds = ruts.DiversityStats(t1)
ds.get_stats()

{'ttr': 1.0,
'rttr': 3.162277660168379,
'cttr': 2.23606797749979,
'httr': 1.0,
'sttr': 0,
'mttr': 0.0,
'dttr': 0,
'mattr': 1.0,
'msttr': 1.0,
'mtld': 0.0,
'mamtld': 1.0,
'hdd': -1,
'simpson_index': 0,
'hapax_index': 0}

vs

print('ttr' , ruts.diversity_stats.calc_ttr(t1))
print('rttr',ruts.diversity_stats.calc_rttr(t1))
print('cttr',ruts.diversity_stats.calc_cttr(t1))
print('httr',ruts.diversity_stats.calc_httr(t1))
print('sttr',ruts.diversity_stats.calc_sttr(t1))
print('mttr',ruts.diversity_stats.calc_mttr(t1))
print('dttr',ruts.diversity_stats.calc_dttr(t1))
print('mattr',ruts.diversity_stats.calc_mattr(t1))
print('msttr',ruts.diversity_stats.calc_msttr(t1))
print('mtld',ruts.diversity_stats.calc_mtld(t1))
print('mamtld',ruts.diversity_stats.calc_mamtld(t1))
print('hdd',ruts.diversity_stats.calc_hdd(t1))
print('simpson_index' , ruts.diversity_stats.calc_simpson_index(t1) )
print('hapax_index',ruts.diversity_stats.calc_hapax_index(t1) )

ttr 0.4
rttr 2.9664793948382653
cttr 2.0976176963403033
httr 0.7713465066366824
sttr 0.5314553128319692
mttr 0.1313826679597258
dttr 7.611354035728222
mattr 0.41
msttr 0.42
mtld 14.338133470257823
mamtld 12.708333333333334
hdd 0.4587105249530551
simpson_index 15.0
hapax_index 319.06649307394474

@Ndron
Copy link
Author

Ndron commented Mar 1, 2023

с более длинными текстами , значения также различаются
версия 0.8.1

@turbcool
Copy link

turbcool commented Aug 6, 2023

В вашем примере есть ошибка - при вызове методов (напр. ruts.diversity_stats.calc_ttr(t1) - вы передаёте строку целиком (переменная t1), а нужно передавать массив слов.

Если хотите рассчитать только одну метрику для экономии ресурсов - делайте это так:

words = WordsExtractor(lowercase=True).extract(post.text_)
print(ruts.diversity_stats.calc_ttr(words)) # ttr - одна из метрик

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants