add TrendTag function and API #109

fvh-P · 2017-11-02T10:28:32Z

Related #85.

Add a function aggregating trend tags using statuses in the past 30 minutes, and an API showing trend tags.

過去30分間の投稿からトレンドタグを集計する機能、および集計結果を表示するAPIを追加します。

集計について

集計は10分ごとに行います。
10分前から現在までに用いられたハッシュタグとその使用回数を取得し、Redisに格納してある1期前(10~20分前)と2期前(20~30分前)の使用回数データも用いて集計します。

トレンドスコアの算出は以下の計算式で行います。
当期の使用回数をn、1期前の使用回数をl、2期前の使用回数をbとすると
n + (n - l) + (l * 3 / 4.0) + ((l - b) / 2.0) + (b / 4.0)
つまり、

	2期前	1期前	当期
使用回数	×0.25	×0.75	×1
前期からの増分	--	×0.5	×1
スコア	--	--	X

この表の各倍率をかけて足した値がXになります。

具体例)
タグA

	0:10	0:20	0:30	0:40	0:50	1:00	1:10	1:20
回数	2	4	4	10	4	4	0	0
増分	2	2	0	6	-6	0	-4	0
スコア	4	8.5	8.5	20	9.5	6.5	0	-1

タグB

	0:00	0:10	0:20	0:30	0:40	0:50	1:00	1:10	1:20
回数	4	4	4	4	4	4	4	4	4
増分	0	0	0	0	0	0	0	0	0
スコア	8	8	8	8	8	8	8	8	8

増分を計算に含めることで、一気に盛り上がったタグの値を急上昇させることができます。(タグAの0:40)
前期、前々期の値を計算に使用することで、使用回数が減少した場合でも、スコアの下落をある程度なだらかにすることができます。(タグAの0:50)
常に同じペースで使用されるハッシュタグは増分が0に近くなるため、同じ使用回数であっても、前期から回数が増えた(盛り上がった)場合に比べてスコアが低くなります。(0:20と0:30)

より精度の良い計算式募集中です

APIについて

GET https://imastodon.net/api/v1/trend_tag
でトレンドタグの集計結果をJSON形式で返します。アクセストークンは不要にしています。

なお、過去30分間にハッシュタグが一切使われていない場合は以下のようなレスポンスになります。

lnanase · 2017-11-05T09:17:28Z

app/models/statuses_tag.rb

+        s = n + (n - l) + (l * 3 / 4.0) + ((l - b) / 2.0) + (b / 4.0)
+        tag = Tag.find(k.to_i)
+        trend_score[tag[:name]] = s
+      end


個人的な好みが大きいですが、ここの重み付けのロジックは
個別にメソッドを分けて、ユニットテストをしやすいようにした方がいいかと思います。
汎用的なスコア算出のロジッククラスに出来そうであれば、
別クラスにするのもありだと思います。

ご検討をお願い致します。

lnanase · 2017-11-05T09:22:10Z

app/models/statuses_tag.rb

+    end
+
+    def status_ids_in(t_min)
+      statuses = Status.where(created_at: (Time.now - t_min.minutes)..Time.now, local: true)


Time.now も引数にするのはどうでしょうか？

fvh-P · 2017-11-10T09:38:12Z

ちょっと見直したところかなり無駄なコードが多かったので、Reviewに基づく修正を兼ねてリファクタリングをしました。やってることは特に変わりません。

rinsuki · 2017-11-10T10:04:47Z

config/sidekiq.yml

@@ -27,3 +27,6 @@
  ip_cleanup_scheduler:
    cron: '<%= Random.rand(0..59) %> <%= Random.rand(3..5) %> * * *'
    class: Scheduler::IpCleanupScheduler
+  trend_tag_scheduler:
+    cron: '0,10,20,30,40,50 * * * *'


*/10 * * * *のような書き方にしたほうが簡潔でわかりやすいかと思います。
~~また、単純に一定間隔で実行したいだけならばcron:を使うのではなくevery:を使ってシンプルに書ける方法もあるようです。~~(これだとx0分に実行の要件がクリアできませんでした)
sidekiq-schedulerのREADMEを見てみてください。

deflis · 2017-11-11T11:06:42Z

config/sidekiq.yml

@@ -27,3 +27,6 @@
  ip_cleanup_scheduler:
    cron: '<%= Random.rand(0..59) %> <%= Random.rand(3..5) %> * * *'
    class: Scheduler::IpCleanupScheduler
+  trend_tag_scheduler:
+    cron: '5-55/10 * * * *'


元の仕様に合わせるなら */10 になると思いますけど…。
5-55/10 だと 5,15,... になるけど意図的ですか？

意図的なものです。
先日アイマストドンにて話したんですが、アイマス関連番組（ラジオなど）は0分、30分などキリの良い時間に開始・終了するものが大多数で、*/10だと0分では全く反映されず、30分ではしっかり反映されるもののすでに終わっているということになってしまうので、5-55/10にするのがいいのではないかということです。

了解です。意図的であれば問題ないです。

fvh-P · 2017-11-11T15:08:21Z

以前もお話ししたように、トレンドスコアの算出方法について、定量的な妥当性の検証が不可能に近いため、機能を稼働させつつ調整をするしかないのですが、いっそのこと試験的に同時に2つの算出方法を使って結果を公開するのが良いのではないかと思ったので2つ目の算出関数を追加しました。

需要予測に用いられる二重指数平滑法を使用して、次期の需要予測値をトレンドスコアとして利用します。水準の重みαとトレンドの重みγはあらかじめ自分で用意したデータを使って良さそうな組み合わせを探して設定しています。

APIでは "score_ex": {"tag1": 1.2}のような項目が追加されます。

導入後ある程度の期間試した後にどちらにするかなど検討する形になるかと思います。

追記:
試験導入が終了しscore_exの算出・公開を停止するときには、Redis上のscore_ex関連のデータを手動で削除していただくことになるかと思われます。

takayamaki

メソッドの分け方とか少しリファクタリングしたい感ありますが、とりあえず出してみたいのでこれで取り込みます

takayamaki · 2017-11-16T04:15:51Z

app/models/statuses_tag.rb

+        tag = Tag.find(k.to_i)
+        trend_score[tag[:name]] = score(now: n, last: l, before: b)
+      end
+      redis.hmset('trend_tag', 'updated_at', Time.now.utc.iso8601, 'score', trend_score.to_json, 'last', now.to_json, 'before', last.to_json)


この辺、redisへのhmsetと計算そのものと外から呼び出されるメソッドとは別々にしたいところです

takayamaki · 2017-11-16T04:16:07Z

app/models/statuses_tag.rb

+        trend_now[k] = st.round(3)
+        trend_score_des[tag[:name]] = (sl + st).round(3)
+      end
+      redis.hmset('trend_tag', 'score_ex', trend_score_des.to_json, 'level_L', level_now.to_json, 'trend_L', trend_now.to_json)


ここも上と同様

fvh-P force-pushed the trendtag branch from c1b80d3 to 35b2dfa Compare November 2, 2017 12:45

lnanase reviewed Nov 5, 2017

View reviewed changes

takayamaki force-pushed the imastodon branch from 2b9b89e to fa1028b Compare November 8, 2017 02:31

fvh-P force-pushed the trendtag branch 4 times, most recently from a0b86b0 to ed14506 Compare November 10, 2017 09:34

rinsuki reviewed Nov 10, 2017

View reviewed changes

fvh-P added 2 commits November 11, 2017 10:25

add trend_tag function

05d6ab6

add trend_tag api

fbbecc5

fvh-P force-pushed the trendtag branch from ed14506 to fbbecc5 Compare November 11, 2017 10:25

deflis reviewed Nov 11, 2017

View reviewed changes

fvh-P force-pushed the trendtag branch from e207530 to 87d32c7 Compare November 11, 2017 14:36

add experimental scoring

6594796

fvh-P force-pushed the trendtag branch from 87d32c7 to 6594796 Compare November 11, 2017 14:53

takayamaki approved these changes Nov 16, 2017

View reviewed changes

takayamaki merged commit d409333 into imas:imastodon Nov 16, 2017

fvh-P mentioned this pull request Nov 25, 2017

modify trendtag algorithm #119

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

add TrendTag function and API #109

add TrendTag function and API #109

fvh-P commented Nov 2, 2017 •

edited

Loading

lnanase Nov 5, 2017

lnanase Nov 5, 2017

fvh-P commented Nov 10, 2017

rinsuki Nov 10, 2017 •

edited

Loading

deflis Nov 11, 2017

fvh-P Nov 11, 2017

deflis Nov 11, 2017

fvh-P commented Nov 11, 2017 •

edited

Loading

takayamaki left a comment

takayamaki Nov 16, 2017

takayamaki Nov 16, 2017

add TrendTag function and API #109

add TrendTag function and API #109

Conversation

fvh-P commented Nov 2, 2017 • edited Loading

集計について

APIについて

lnanase Nov 5, 2017

Choose a reason for hiding this comment

lnanase Nov 5, 2017

Choose a reason for hiding this comment

fvh-P commented Nov 10, 2017

rinsuki Nov 10, 2017 • edited Loading

Choose a reason for hiding this comment

deflis Nov 11, 2017

Choose a reason for hiding this comment

fvh-P Nov 11, 2017

Choose a reason for hiding this comment

deflis Nov 11, 2017

Choose a reason for hiding this comment

fvh-P commented Nov 11, 2017 • edited Loading

takayamaki left a comment

Choose a reason for hiding this comment

takayamaki Nov 16, 2017

Choose a reason for hiding this comment

takayamaki Nov 16, 2017

Choose a reason for hiding this comment

fvh-P commented Nov 2, 2017 •

edited

Loading

rinsuki Nov 10, 2017 •

edited

Loading

fvh-P commented Nov 11, 2017 •

edited

Loading