GitHub

#履歴から新聞を作りたい

##研究概要1 インターネットが普及し始めて15年近くが立つ。ブラウザはどんどんと進化していくが、閲覧履歴の表示方法は昔から変わっていない。ブラウザの閲覧履歴にはユーザーに関するデータが多く含まれており、これをこのままにしておくのはもったいない。 (に利用する機会を逃している)

本研究ではブラウザの閲覧履歴を、一画面にWeb新聞のように表示することで、閲覧履歴をユーザーのライフログとして利用することを目的としている。

本研究において重要な点は、閲覧履歴をユーザーのデータとして持たない点にある。閲覧履歴は極めて重大なユーザーの個人情報であり、それをすべて収集し解析することは、個人情報の侵害に当たる可能性が大きい。（ユーザーごとに似ているユーザを解析して、ほかのユーザーがみたページを推薦するなど）だからそういうのをあんまり解析しないで重要ページを抽出するよー

##研究概要2 近年、Gunosyやpaper.liなどの、Webページを推薦したり、まとめのページを作るようなサービスが増えている。それらのWebページはTwitterやFaceBookでシェアされた少ないページ郡の中、もしくは他人のシェアした情報などから抽出されている。しかし、既存のサービスはユーザの限られた情報しか使っていないため、本当に自分にマッチした情報を得るには不完全である。

そこで本研究では、ブラウザの閲覧履歴に注目した。ブラウザの閲覧履歴はユーザー特有のものであり、ユーザが実際に興味を持って見たページの分析することができると考えられる。本研究ではブラウザの閲覧履歴から、今後興味を示して実際に見るであろうページの予測するシステムを作るための前段階として、ブラウザの閲覧履歴を一画面にまとめ、ユーザーのライフログとして記録していくシステムを提案する。

##目的

知りたかったページ　検索したページ
自分の過去を思い出す
ライフログとしての記録

#課題

##1.記事の区切り方、レイアウト

ある手法からいろんなレイアウトを作成し、SAで評価の良いものを選んでいく?
とりあえず現在はTreemapを使っている

###問題ある長方形(面積S)の中に、いくつかの長方形(面積s_0 ~ s_n)がぴったり入っている。各々の長方形の面積をできるだけ保ったまま、形を正方形に近づけよ

条件1 : 各々の長方形は横長になってもいいが、縦長になってはいけない条件2 : 正方形に近づけるため、長方形を2つまで削除してもよい

元のSをサイズをかえる sのサイズをかえる sを削除する

####手法1 正方形でレイアウト

縦 H、横 W/A の長方形 R を作る (図 2-1 の赤い枠)。
長方形 R の縦 H を、c こに分割する。
辺の長さ H/c の正方形を、W/A に一番近くなる整数 r 分だけ並べる
縦横に並べた正方形の数 rc が N 以下で合った場合、c += 1 をして 2. に戻る
長方形 R の横幅を、(W/r)∗(H/c) 倍する
rc が N よりも大きい場合、N になるまで縦横を1つずつ結合させることによって大きい長方形を作る。 (参考:図 2-3) 左右上下のどこに重みを置くかを指定することで、どこから結合していくかを決定する。参考図では左上と右下に重みをおいた場合である。このアルゴリズムを適用すると、3 ∗ 39 つの長方形の統合の仕方は、3 ∗ 3 が1つ, 2 ∗ 2 が1つと 1 ∗ 1 が5つ、1 ∗ 1 が9つの 3種類がある。これらの分割で配置できる記事の数は、1, 6, 9 である。一つ長方形を統合することで、表示できる記事の数は最小でも 3 つ減ってしまうため、完全にアスペクト比が同じ長方形を生成できる替わりに、最大 2 つ記事を配置できない可能性ができてしまうという欠点がある。

###評価関数

黄金比に近いか
同じサイズが近くに配置されてるか(5と4が近くに配置されてる必要はない)
この辺もっと調べる

###設定するもの

横,横の最大ストリップ数
左右上下の重み付け
最低限の大きさ

###枠の大きさの設定

何種類もない方がいい？

##2.記事の選び方 ###クラスタリング本文中、タイトルのキーワードで記事をクラスタリングクラスタリング数min (上限(ex.20), 履歴の数)

###記事の重要度

T 滞在時間
M キーワードが、実際に検索したキーワードを含んでいる数
Pアクセスの貴重度(今日のアクセス数/最近1ヶ月のページへのアクセス数) #####priority = P(T +nM)

###クラスタの重要度

Kキーワード群(Kij:i番目の記事のj番目のキーワード)
N キーワード群 Ki のキーワードの数
M クラスタに分類された記事の数
TKi j キーワード Ki j の出現回数
IKij キーワードKij のidf値 MN #####∑∑TKijIKij

##3.記事データの抽出

画像抽出->画像データどこにおく (データベース作る?)
ogタグで画像だけとる
要約抽出
本文抽出 Webstemme

##4.本文抽出アルゴリズム

一番上のarticle
ある程度句読点の多いブロック要素で一番先頭にあるもの
タイトルに含まれるキーワードを重視する

##5.ローカルストレージのデータ構造

{"URL": [Contens, UpDated]}
- 欠点毎日 O(n)チェックする必要がある
{"URL": Contents}, {"Date", ["URL1", "URL2"],} 消す日を登録していく
- 欠点 Date のほうのURLを更新するたび書き換える必要がある

##アンケートを考える ####前提画像や本文は抽出する予定

####目的

開発優先順位
5人くらいにやってもらう
就活用

###各記事に対して

人とシェアしたいと思うような記事ですか？
自分がもう一度読みたい、復習したいと思う記事ですか？
この記事は必要ないと思いますか

###全体に対して 4. 今日を振り返ることができるような内容でしたか？ 5. 4.で足りないと思うページ、要らないと思うページを教えてください

####あなたの一日を履歴で振り返るとして、どんな記事が選出されてほしいか

その日初めて訪れたページ
よく訪れるページ
その日に検索したキーワードと関係のあるページ
その日によく訪れたカテゴリのページ

#####現在のページ選出のしかた

ここ2,3ヶ月のうち初めて訪れたページ
3その日訪れた回数が3回

##タイトルを考える

###特徴

あなた専用、ユーザー個人
ブラウザ閲覧履歴
毎日

スタイル

新聞
雑誌
スクラップブック
日記
ライフログ

いろいろ

綺麗にレイアウトするのは、スクラップとは少し違う？
新聞に寄る気がする

###候補

あの日のブラウザ閲覧履歴をまとめたScrapBook
HistoryPaper:
ユーザー個人の閲覧履歴から作る〇〇新聞
ブラウザ閲覧履歴を用いた。。。。。。s
振り返る
HistoryPaper:ユーザー個人のブラウザ履歴から作る毎日を可視化するサービス
HistoryPaper:ユーザー個人のブラウザ履歴を用いた毎日の可視化
HistoryPaper:ユーザー個人の閲覧履歴から作る毎日の要約と可視化

##前回のアンケート結果 ####表示してほしいページ

Youtube /現在除外中
推薦があったらいいな / ちょっと別問題かも
あるページからリンクされていて、自分ではキーワードとして検索しなそう＆リンク元のタイトルのみからはリンク先の情報が推定できなそうなページ
もっといろんな（関連があまりない）ページがそれぞれ表示されて欲しかったです。

####表示されたくないページ

ニュースサイトの「指定されたURLは存在しません」というページ
Google Scholar のキーワード検索結果一覧のページ(表示する必要がないというより、右の検索キーワードみたいな感じでは残っていて欲しいかも)
関連のあるページが別に表示されていたので、そこは1つでいいなと思いました。

####こうなったらいいなと思うところ

他のページを開かないうちに(履歴が新しく溜まってないうちに)リロードをおした時にも違うページが表示されたりタイルの形が変わったりすると、より弄ってみたいと思わせそうだと感じました。
ジャンル別に色が別れるなど / 難しそう・・・
一度に表示する数によると思うけれど、一覧表示する数が少ないのであれば、同じタイトル・キーワードのページはどれか代表1つでいいかもと思います。
表示するときの配置を新聞がテーマだったら新聞みたいな配置になったら面白いかなと思いました。

####自分の意見

History-Paperのページが表示されるのはよくない。。。
"検索結果"みたいなページはない方がいい / 通販、論文

####ゼミ

Strip treemap
Orderd treemap (並べたい順
どこが見られているのか視線追跡
バランス的に良いか -> レイアウト研究
横長になる
はてなブックマークのエントリ数

##学会とか 3. Vis, Webインテリジェンス&インタフェース, wi2, EC, どの 4. http://www.entcomp.org/sig/2013/index.php?page=ForSubmitters 5. http://youngjump.jp/voice/

#解決した話

###記事の抽出の仕方 #####1.その日初めて訪れたページ優先

１週間のうちで初めて訪れたページ
何度もアクセスしない(3回までくらい?)
検索したキーワード

#####2.なんか他

js でクリック監視
滞在時間などから、その人にとっての重要なページを見つける

#####検索にでてきたキーワードをタイトルにもつページの重要度を高く

####記事の排除の仕方現在の状態

タイトルがない
png/jpgなどの画像データ/音楽データ
youtube他動画サイト
同じドメインからはひとつ
タイトルに同じキーワードが入ってたら少し順位を下げる
同じタイトルはとらない

Name		Name	Last commit message	Last commit date
Latest commit History 39 Commits
chrome		chrome
test		test
.gitignore		.gitignore
README.md		README.md
npm-debug.log		npm-debug.log

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

スタイル

いろいろ

About

Releases

Packages

Languages

cocodrips/HistoryPaper

Folders and files

Latest commit

History

Repository files navigation

スタイル

いろいろ

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages