-
Notifications
You must be signed in to change notification settings - Fork 0
/
log.txt
66 lines (51 loc) · 2.58 KB
/
log.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
# Research Log
Xihao Liang, 2016.02.15
---
## Procedure
1. 篩選出僅包含一種表情符, 文字非空, 評論非空的微博, 得出不同表情符對應的微博 mid (statica.collect_emo_mids > emo_mids.pkl)
2. 统计出不同表情符的覆蓋率 (statica.analyse_emo_mids)
3. 把emo_mids.pkl拆出子文件方便讀取 (statica.split_emo_mids > eid_mids/$EID.txt)
4. 得出不同emo 對應的mids 各自對應的uids (statica.export_uids > eid_uids/$EID.pkl)
5. 對不同eid 對應的微博篩選出4000條微博, 另外透過檢查樣例添加剔除規則 (如除去韓文在等1.中未實現) (sampler.sample(eid))
6. 觀察用戶分布情況 (userdist.py)
7. 為數據集建立字符編碼 (tfcoder.init > dataset/tfcoder.pkl)
8. 建立字符編碼組成的訓練數據 (unidatica.prepare > dataset/unidata.pkl)
8. 字符編碼-LSTM 運行 (lstm.py)
9. 在數據庫中找出數據集中每條微博的上文(該作者的前數條微博) (lastblog.get / lastblog.exists)
10. 檢查HowNet對數據集的覆蓋率, hownet對每一句的覆蓋率 (hownettest.test)
11. 未覆蓋詞檢查 (hownettestt.test)
12. 篩選出足夠多評論的微博信息 (MYSQL select user_id, mid, text, comments_count from microblogs where comments_count >= 10 limit 400000 into outfile 'blogs_400000.txt')
13. 從blogs_400000.txt 中根據blogger.extract() is not None篩選出blogs_subset.txt (commdatca.prepare)
14. 分析blogs_400000.txt (commdatica.analyse)
15. 觀察數據 (weiboparser.test_one)
1) 評論過多者經常出現廣告
2) 帶表情的微博一般有"質量較佳"的評論
16. 測試多線程微博評論下載 (weibolauncher.test)
17. lstm代碼修改完成 (lstm.main > data/lstm_model.npz, lstm_model.npz.pkl)
18. lstm測試結果生成 (lstm.valid > output/lstm_result.pkl)
19. lstm測試結果分析 (lstmreporter.test)
20. 選擇詞表示方法
1) 字符編碼
2) 隨機詞向量 (原lstm.py中param['Wemb'])
3) matrix factorization (SVD)
4) denoise autocoder
5) word2vec
## NEXT
1. 數據收集
1) 選定40,000 ~ 100,000條微博
2) 部署到3台機器上運行
3) 分析數據質量
4) 決定下載更多或開始整理
2. 特征提取
1) 基於第一批數據完成 20. 中5種詞表示方法的代碼
2) 編寫腳本結合lstm 和特征提取的代碼
3) 運行4個程式
## LATER
*. 各腳本的數據讀取函數load將统一移至datica.py
*. 修改commdatica.py作為流程腳本或測試腳本
*. 人工標注工具開發
## Extra
1. 對樣本集進行分詞 (zhprocessor.segment)
2. 實現基於occurrence matrix的詞向量訓練器 (concept.ConceptClassifier)
---
Created on 2016.02.06