Skip to content

Latest commit

 

History

History
79 lines (67 loc) · 1.86 KB

20160228_weekly_report.md

File metadata and controls

79 lines (67 loc) · 1.86 KB

Weekly Report

Xihao Liang, 2016.02.28


畢設

小結

  1. 基於字符的LSTM運行成功
  2. 評論下載遇到問題: 1) 狀態已被刪除 2) 評論已被刪除
  3. 基於現有數據集對HowNet進行性能測試
n_token: 325577
token_coverage: 11.6%
n_content: 8087623
content_coverage: 76.6%

提案

  1. 定立評論下載規則 (參考output/commclist.txt)

    1. 是否考慮時間: 否 (08~12年的差别應該不大)
    2. 是否考慮用戶: 否 (評論中帶表情的評論未必/不必來自微博發布者)
    3. 是否考慮評論數量: 可 (鑒於每次請求最多返回約15條評論, 可先篩去comments_count <= M = 10?)
    4. 數據量: 根據評論中帶單個表情符的評論數量 > N = ? (可先下載40000條微博的評論, 根據表情符分布情況, 決定表情數量, 以及為不足的表情继续下載數據)
# Distribution of comments_count 
   comments_count (number of blogs, percentage of blogs)
1. 0 (106491984, 68.1%)
2. 1 (14370817, 9.2%)
3. 2 (9146855, 5.8%)
4. 3 (4940370, 3.2%)
5. 4 (4006039, 2.6%)
6. 5 (2734368, 1.7%)
7. 6 (2300994, 1.5%)
8. 7 (1703436, 1.1%)
9. 8 (1460357, 0.9%)
10. 9 (1132778, 0.7%)
11. 10 (992080, 0.6%)
12. 11 (792403, 0.5%)
13. 12 (693994, 0.4%)
14. 13 (569826, 0.4%)
15. 14 (501765, 0.3%)
16. 15 (421449, 0.3%)
17. 16 (376089, 0.2%)
18. 17 (318141, 0.2%)
19. 18 (284978, 0.2%)
20. 19 (245442, 0.2%)
21. 20 (224123, 0.1%)
22. 21 (192992, 0.1%)
23. 22 (176425, 0.1%)
24. 23 (153845, 0.1%)
25. 24 (140683, 0.1%)
26. 25 (123529, 0.1%)
27. 26 (113395, 0.1%)
28. 27 (100851, 0.1%)
# number of blogs with comments_count > 10
2012~      5616929
2011~2012  2240569
2010~2011  217912
2009~2010  1598
  1. 詞特征選取

    1. jieba分詞 -> 矩陣分解
    2. jieba詞性標注
    3. HowNet標籤
  2. 基於多維向量的LSTM使用


Created on 2016.02.28