キーワード抽出
Higashi edited this page Nov 14, 2020
·
4 revisions
入力されたtextをstemmingする.
elasticsearchのanalyzerのmax_token_sizeは10000なので、sentenceに分割してから入力する
idf=log(1+(N-n+0.5)/(n+0.5))
└─ n:文書に含まれるtermの数、N:全文書数
descriontion.pのnd,Nd / abstract.pのna,Nd / claims.claimのnc,Nc
n = nd+na+nc N = max(Nd,Na,Nc)