In [1]:
import pandas as pd
import jieba
import re
from collections import Counter
from optparse import OptionParser
import jieba.analyse

In [2]:
# read csv
CAPTIONS = (pd.read_csv('tongyishidai.csv', parse_dates=['datetime'])
                .drop(columns='Unnamed: 0'))

In [3]:
# add stop word for jieba
with open('add_stopword.txt') as f:
    stopword = f.read()

jieba.add_word(stopword)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ronn\AppData\Local\Temp\jieba.cache
Loading model cost 1.287 seconds.
Prefix dict has been built succesfully.


# 1. Test one caption

In [4]:
CAPTIONS.head(20)

Unnamed: 0,datetime,caption
0,2016-12-31 22:34:34,✨✨✨\r\n_\r\n_\r\n_\r\n#Taiwan #Igeroftheday #p...
1,2016-12-31 19:44:48,路邊的冷～😒😒😒
2,2016-12-31 19:37:46,有人硬要比說他的天婦羅比我高🙄
3,2016-12-31 18:15:02,溜小孩
4,2016-12-31 17:47:02,2016年的最後一天\r\n妳們在幹嘛😋
5,2016-12-31 17:21:58,Lol #withfriends #bff #hangout #newyearevent #...
6,2016-12-31 17:19:45,2017請多多指教
7,2016-12-31 16:46:45,好喝～～
8,2016-12-31 16:42:38,今年的101煙火好好看啊！
9,2016-12-31 15:55:58,下班接跨年 結束這回合🎉🎉🎉


In [5]:
Counter({ x for x in jieba.cut(CAPTIONS['caption'][12].strip()) })

Counter({'加上': 1,
         '閃': 1,
         '兩個': 1,
         '晚會前': 1,
         '瞎': 1,
         '妹子': 1,
         '只有': 1,
         '十萬顆': 1,
         '製': 1,
         '已經': 1,
         '被': 1,
         '吸引': 1,
         '我': 1,
         '水晶': 1,
         '啊': 1,
         '再': 1,
         '三樓': 1,
         '一個': 1,
         '麋鹿': 1,
         '特別': 1,
         '了': 1,
         '逛統': 1,
         '經過': 1,
         '帥哥': 1,
         '！': 1,
         '時候': 1,
         '和': 1,
         '很': 1,
         '展場': 1,
         '～': 1,
         '😅': 1,
         '成': 1,
         '由': 1,
         '旁邊': 1,
         '快': 1,
         '你們': 1,
         '是': 1,
         '先來': 1,
         '跨年': 1,
         '，': 1,
         '代百貨': 1,
         '…': 1,
         '一時': 1,
         '還有': 1,
         '的': 1,
         '人': 1,
         '閃亮': 1,
         '眼睛': 1})

In [6]:
CAPTIONS['caption'][12]

'跨年晚會前先來逛統一時代百貨，經過三樓的時候一個展場吸引了我，是由十萬顆水晶製成的麋鹿，特別閃亮，旁邊還有兩個妹子和一個帥哥…我只有一個人啊！水晶已經很閃了，再加上你們，我眼睛快被閃瞎了～😅'

# 2. Jieba TF IDF top 20 ranking

In [7]:
captions = CAPTIONS['caption'].str.cat()

In [8]:
jieba.analyse.set_idf_path('./idf.txt.big')
tags = jieba.analyse.extract_tags(captions, topK=100)

In [9]:
tags

['台北',
 'taipei',
 '統一時',
 '代百貨',
 '今天',
 'taiwan',
 '聖誕節',
 '真的',
 '我們',
 '聖誕樹',
 '2016',
 '一個',
 'Taipei',
 'merrychristmas',
 '謝謝',
 'Christmas',
 '還是',
 'christmas',
 '就是',
 '聖誕',
 '信義區',
 '快樂',
 '自己',
 'sharing',
 '一起',
 '台灣',
 'love',
 '木馬',
 '好吃',
 'xmas',
 '一天',
 '101',
 '轉木馬',
 '覺得',
 '什麼',
 '還有',
 '...',
 'Taiwan',
 '一下',
 '12',
 '市集',
 '今年',
 '台湾',
 '週年慶',
 '看到',
 '拍照',
 '一直',
 'christmastree',
 '阪急',
 '耶誕',
 'instagood',
 '少女',
 '旋轉',
 'life',
 '蛋糕',
 '統一時代',
 'happy',
 'starbucks',
 '球鞋',
 '開始',
 '希望',
 '怎麼',
 'Sharing',
 '起司',
 '星巴克',
 '這樣',
 '統一阪',
 '知道',
 '一樣',
 '這個',
 '開心',
 'vscotaiwan',
 '星冰樂',
 '哈哈',
 'ootd',
 '哈哈哈',
 '幸福',
 'night',
 '禮物',
 '限定',
 '不是',
 '工作',
 '晚餐',
 'food',
 '生日',
 '下班',
 '今日',
 'travel',
 '上班',
 '回家',
 '美食',
 'instadaily',
 'muji',
 'isharing',
 '快來',
 '這麼',
 '好久',
 '00',
 '11',
 '感謝']

In [10]:
# TextRank

In [11]:
jieba.analyse.textrank(captions, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) 

['時代',
 '百貨',
 '統一',
 '台北',
 '木馬',
 '旋轉',
 '沒有',
 '好吃',
 '覺得',
 '信義區',
 '可愛',
 '台灣',
 '大家',
 '喜歡',
 '看到',
 '開心',
 '市集',
 '下班',
 '時間',
 '拍照']