#履歴から新聞を作りたい
##研究概要1 インターネットが普及し始めて15年近くが立つ。 ブラウザはどんどんと進化していくが、閲覧履歴の表示方法は昔から変わっていない。 ブラウザの閲覧履歴にはユーザーに関するデータが多く含まれており、これをこのままにしておくのはもったいない。 (に利用する機会を逃している)
本研究ではブラウザの閲覧履歴を、一画面にWeb新聞のように表示することで、 閲覧履歴をユーザーのライフログとして利用することを目的としている。
本研究において重要な点は、閲覧履歴をユーザーのデータとして持たない点にある。 閲覧履歴は極めて重大なユーザーの個人情報であり、 それをすべて収集し解析することは、個人情報の侵害に当たる可能性が大きい。 (ユーザーごとに似ているユーザを解析して、ほかのユーザーがみたページを推薦するなど) だからそういうのをあんまり解析しないで重要ページを抽出するよー
##研究概要2 近年、Gunosyやpaper.liなどの、Webページを推薦したり、まとめのページを作るようなサービスが増えている。 それらのWebページはTwitterやFaceBookでシェアされた少ないページ郡の中、もしくは他人のシェアした情報などから抽出されている。 しかし、既存のサービスはユーザの限られた情報しか使っていないため、本当に自分にマッチした情報を得るには不完全である。
そこで本研究では、ブラウザの閲覧履歴に注目した。 ブラウザの閲覧履歴はユーザー特有のものであり、ユーザが実際に興味を持って見たページの分析することができると考えられる。 本研究ではブラウザの閲覧履歴から、今後興味を示して実際に見るであろうページの予測するシステムを作るための前段階として、 ブラウザの閲覧履歴を一画面にまとめ、ユーザーのライフログとして記録していくシステムを提案する。
##目的
- 知りたかったページ 検索したページ
- 自分の過去を思い出す
- ライフログとしての記録
#課題
##1.記事の区切り方、レイアウト
- ある手法からいろんなレイアウトを作成し、SAで評価の良いものを選んでいく?
- とりあえず現在はTreemapを使っている
###問題 ある長方形(面積S)の中に、いくつかの長方形(面積s_0 ~ s_n)がぴったり入っている。 各々の長方形の面積をできるだけ保ったまま、形を正方形に近づけよ
条件1 : 各々の長方形は横長になってもいいが、縦長になってはいけない 条件2 : 正方形に近づけるため、長方形を2つまで削除してもよい
元のSをサイズをかえる sのサイズをかえる sを削除する
####手法1 正方形でレイアウト
- 縦 H、横 W/A の長方形 R を作る (図 2-1 の赤い枠)。
- 長方形 R の縦 H を、c こに分割する。
- 辺の長さ H/c の正方形を、W/A に一番近くなる整数 r 分 だけ並べる
- 縦横に並べた正方形の数 rc が N 以下で合った場合、c += 1 をして 2. に戻る
- 長方形 R の横幅を、(W/r)∗(H/c) 倍する
- rc が N よりも大きい場合、N になるまで縦横を1つずつ 結合させることによって大きい長方形を作る。 (参考:図 2-3) 左右上下のどこに重みを置くかを指定することで、ど こから結合していくかを決定する。参考図では左上と右下 に重みをおいた場合である。 このアルゴリズムを適用すると、3 ∗ 39 つの長方形の統合の 仕方は、3 ∗ 3 が1つ, 2 ∗ 2 が1つと 1 ∗ 1 が5つ、1 ∗ 1 が9つの 3種類がある。これらの分割で配置できる記事の数は、1, 6, 9 である。一つ長方形を統合することで、表示できる記事の数は 最小でも 3 つ減ってしまうため、完全にアスペクト比が同じ長 方形を生成できる替わりに、最大 2 つ記事を配置できない可能性ができてしまうという欠点がある。
###評価関数
- 黄金比に近いか
- 同じサイズが近くに配置されてるか(5と4が近くに配置されてる必要はない)
- この辺もっと調べる
###設定するもの
- 横,横の最大ストリップ数
- 左右上下の重み付け
- 最低限の大きさ
###枠の大きさの設定
- 何種類もない方がいい?
##2.記事の選び方 ###クラスタリング 本文中、タイトルのキーワードで記事をクラスタリング クラスタリング数min (上限(ex.20), 履歴の数)
###記事の重要度
- T 滞在時間
- M キーワードが、実際に検索したキーワードを含んでいる数
- Pアクセスの貴重度(今日のアクセス数/最近1ヶ月のページへのアクセス数) #####priority = P(T +nM)
###クラスタの重要度
- Kキーワード群(Kij:i番目の記事のj番目のキーワード)
- N キーワード群 Ki のキーワードの数
- M クラスタに分類された記事の数
- TKi j キーワード Ki j の出現回数
- IKij キーワードKij のidf値 MN #####∑∑TKijIKij
##3.記事データの抽出
- 画像抽出->画像データどこにおく (データベース作る?)
- ogタグで画像だけとる
- 要約抽出
- 本文抽出 Webstemme
##4.本文抽出アルゴリズム
- 一番上のarticle
- ある程度句読点の多いブロック要素で一番先頭にあるもの
- タイトルに含まれるキーワードを重視する
##5.ローカルストレージのデータ構造
-
{"URL": [Contens, UpDated]}
- 欠点 毎日 O(n)チェックする必要がある
-
{"URL": Contents}, {"Date", ["URL1", "URL2"],} 消す日を登録していく
- 欠点 Date のほうのURLを更新するたび書き換える必要がある
##アンケートを考える ####前提 画像や本文は抽出する予定
####目的
- 開発優先順位
- 5人くらいにやってもらう
- 就活用
###各記事に対して
- 人とシェアしたいと思うような記事ですか?
- 自分がもう一度読みたい、復習したいと思う記事ですか?
- この記事は必要ないと思いますか
###全体に対して 4. 今日を振り返ることができるような内容でしたか? 5. 4.で足りないと思うページ、要らないと思うページを教えてください
####あなたの一日を履歴で振り返るとして、どんな記事が選出されてほしいか
- その日初めて訪れたページ
- よく訪れるページ
- その日に検索したキーワードと関係のあるページ
- その日によく訪れたカテゴリのページ
#####現在のページ選出のしかた
- ここ2,3ヶ月のうち初めて訪れたページ
- 3その日訪れた回数が3回
##タイトルを考える
###特徴
- あなた専用、ユーザー個人
- ブラウザ閲覧履歴
- 毎日
- 新聞
- 雑誌
- スクラップブック
- 日記
- ライフログ
- 綺麗にレイアウトするのは、スクラップとは少し違う?
- 新聞に寄る気がする
###候補
-
あの日のブラウザ閲覧履歴をまとめたScrapBook
-
HistoryPaper:
-
ユーザー個人の閲覧履歴から作る〇〇新聞
-
ブラウザ閲覧履歴を用いた。。。。。。s
-
振り返る
-
HistoryPaper:ユーザー個人のブラウザ履歴から作る毎日を可視化するサービス
-
HistoryPaper:ユーザー個人のブラウザ履歴を用いた毎日の可視化
-
HistoryPaper:ユーザー個人の閲覧履歴から作る毎日の要約と可視化
##前回のアンケート結果 ####表示してほしいページ
- Youtube /現在除外中
- 推薦があったらいいな / ちょっと別問題かも
- あるページからリンクされていて、自分ではキーワードとして検索しなそう&リンク元のタイトルのみからはリンク先の情報が推定できなそうなページ
- もっといろんな(関連があまりない)ページがそれぞれ表示されて欲しかったです。
####表示されたくないページ
- ニュースサイトの「指定されたURLは存在しません」というページ
- Google Scholar のキーワード検索結果一覧のページ(表示する必要がないというより、右の検索キーワードみたいな感じでは残っていて欲しいかも)
- 関連のあるページが別に表示されていたので、そこは1つでいいなと思いました。
####こうなったらいいなと思うところ
- 他のページを開かないうちに(履歴が新しく溜まってないうちに)リロードをおした時にも違うページが表示されたりタイルの形が変わったりすると、より弄ってみたいと思わせそうだと感じました。
- ジャンル別に色が別れるなど / 難しそう・・・
- 一度に表示する数によると思うけれど、一覧表示する数が少ないのであれば、同じタイトル・キーワードのページはどれか代表1つでいいかもと思います。
- 表示するときの配置を新聞がテーマだったら新聞みたいな配置になったら面白いかなと思いました。
####自分の意見
- History-Paperのページが表示されるのはよくない。。。
- "検索結果"みたいなページはない方がいい / 通販、論文
####ゼミ
- Strip treemap
- Orderd treemap (並べたい順
- どこが見られているのか 視線追跡
- バランス的に良いか -> レイアウト 研究
- 横長になる
- はてなブックマークのエントリ数
##学会とか 3. Vis, Webインテリジェンス&インタフェース, wi2, EC, どの 4. http://www.entcomp.org/sig/2013/index.php?page=ForSubmitters 5. http://youngjump.jp/voice/
#解決した話
###記事の抽出の仕方 #####1.その日初めて訪れたページ優先
- 1週間のうちで初めて訪れたページ
- 何度もアクセスしない(3回までくらい?)
- 検索したキーワード
#####2.なんか他
- js でクリック監視
- 滞在時間などから、その人にとっての重要なページを見つける
#####検索にでてきたキーワードをタイトルにもつページの重要度を高く
####記事の排除の仕方 現在の状態
- タイトルがない
- png/jpgなどの画像データ/音楽データ
- youtube他動画サイト
- 同じドメインからはひとつ
- タイトルに同じキーワードが入ってたら少し順位を下げる
- 同じタイトルはとらない