# PART1: 以 jieba 探索文本主題 (歌詞文本)

In [6]:
import matplotlib.pyplot as plt
import numpy as np
import jieba.analyse
import codecs
import pandas as pd
#文字雲
from wordcloud import WordCloud

## 設定為繁中字典

In [3]:
jieba.set_dictionary("jieba_dict/dict.txt.big")

## 1. 透過 tf-idf 原理，取每首歌的前10大重要的tag (共33首歌)

In [7]:
df = pd.read_csv('./data/merged.csv')
df = df[['Singer', 'Name', 'Lyric', 'Category']].astype(str)
df.drop(df[df.Singer == 'nan'].index, inplace=True)
df.drop(df[df.Name == 'Name'].index, inplace=True)
print("\033[32mTotal number of data: %d\033[0m" %len(df))
df

[32mTotal number of data: 991[0m


Unnamed: 0,Singer,Name,Lyric,Category
0,A-Lin,One Life,白雲撞進藍天 激起昨天畫面我想起你的臉好久不見 在遠方的My Friend不論晴天雨天 也會...,友情
1,A-Lin,最好的朋友在身邊,一起笑一起哭一起鬧久別的回憶又浮現一點點一天天一年年最好的朋友在身邊一起走一起跑一起跳相聚到...,友情
2,A-Lin,愛的可能,你出現我身邊 像個奇蹟發生沒想到會是你 讓我如此失魂我心中的感覺是這樣陌生快樂的牽掛在相聚的...,友情
3,A-Lin,太太太耐斯,孩子還沒睡 拜託別鬧手遊聲太吵 狗狗在叫碗盤在洗碗槽 主婦的煩惱惱公不瞭 他先洗澡奶瓶把香水...,反抗反駁反諷
4,A-Lin,抱歉 我不抱歉,恨 什麼叫恨 這個單字 好陌生我只記得 一路走來 愛的人就算他們 多可恨等 雖然溫柔 還打不...,反抗反駁反諷
...,...,...,...,...
992,鄧紫棋,回憶的沙漏,拼圖一片片失落　像楓葉的冷漠牆上的鐘　默默數著寂寞咖啡飄散過香味　剩苦澀陪著我想念的心　埋葬...,離別
993,鄧紫棋,多遠都要在一起,想聽你聽過的音樂 想看你看過的小說我想收集每一刻 我想看到你眼裡的世界想到你到過的地方 和你...,離別
994,鄧紫棋,兩個自己,像 從不認識你像全部的回憶 都已被你拋棄無法看透你直覺你心裡有 太多的秘密被你蒙住了眼...,離別
995,鄧紫棋,兩個你(粵),像 未曾認識你像全部憶記 你早拋棄太異樣 想要望穿你直覺這刻你有 太多可揭秘這場遊戲...,離別


In [8]:
def remove_punctuation(line):
    line = str(line)
    if line.strip() == '':
        return ''
    re_han = re.compile(u"[^a-zA-Z0-9\u4E00-\u9FA5]")
    line = re_han.sub('', line)
    return line

In [9]:
def getTopTen(line):
    words = jieba.analyse.extract_tags(line, 10)
    return words

In [11]:
stopwords = [line.strip() for line in open('./data/stopwords.txt', 'r', encoding='utf-8').readlines()]
df['top_10'] = df['Lyric'].apply(getTopTen)

In [12]:
df

Unnamed: 0,Singer,Name,Lyric,Category,top_10
0,A-Lin,One Life,白雲撞進藍天 激起昨天畫面我想起你的臉好久不見 在遠方的My Friend不論晴天雨天 也會...,友情,"[Life, 我們, 一天, 期待, 哪邊, 邊要, 出現, 守成, 整夜, 重逢]"
1,A-Lin,最好的朋友在身邊,一起笑一起哭一起鬧久別的回憶又浮現一點點一天天一年年最好的朋友在身邊一起走一起跑一起跳相聚到...,友情,"[一起, 一天天, 永在, 鬧久, 別的, 回憶, 浮現, 一點點, 身邊, 永遠]"
2,A-Lin,愛的可能,你出現我身邊 像個奇蹟發生沒想到會是你 讓我如此失魂我心中的感覺是這樣陌生快樂的牽掛在相聚的...,友情,"[我會, 屬於, 不會, 記得, 孤單, 時候, 因為, 還有, 傷神, 我的門]"
3,A-Lin,太太太耐斯,孩子還沒睡 拜託別鬧手遊聲太吵 狗狗在叫碗盤在洗碗槽 主婦的煩惱惱公不瞭 他先洗澡奶瓶把香水...,反抗反駁反諷,"[太太, 太耐斯, 什麼, 超過, 太過, 發脾氣, 心軟, 忘我, 晚餐, 候命]"
4,A-Lin,抱歉 我不抱歉,恨 什麼叫恨 這個單字 好陌生我只記得 一路走來 愛的人就算他們 多可恨等 雖然溫柔 還打不...,反抗反駁反諷,"[抱歉, 他們, 每枝, 什麼, 雖然, 我們, 每個, 每張, 真實, 還原]"
...,...,...,...,...,...
992,鄧紫棋,回憶的沙漏,拼圖一片片失落　像楓葉的冷漠牆上的鐘　默默數著寂寞咖啡飄散過香味　剩苦澀陪著我想念的心　埋葬...,離別,"[墜落, 流星, 過後, 沙漏, 燦爛, 奪去, 輪廓, 剎那, 回憶, 絢麗]"
993,鄧紫棋,多遠都要在一起,想聽你聽過的音樂 想看你看過的小說我想收集每一刻 我想看到你眼裡的世界想到你到過的地方 和你...,離別,"[遠距離, 離開, 每一刻, 習慣, 總是, 寧願, 換個, 還能, 遙遠, 愛著]"
994,鄧紫棋,兩個自己,像 從不認識你像全部的回憶 都已被你拋棄無法看透你直覺你心裡有 太多的秘密被你蒙住了眼...,離別,"[兩個, 一個, 心裡, 自己, 我該, 離去, 還是, 繼續, 忘記, 逃離]"
995,鄧紫棋,兩個你(粵),像 未曾認識你像全部憶記 你早拋棄太異樣 想要望穿你直覺這刻你有 太多可揭秘這場遊戲...,離別,"[兩個, 一個, 這場, 遊戲, 學懂, 怎樣, 識別, 抽離, 轉機, 忘記]"


## 2. 把所有歌的 10 大 tags 再取前 N 個tags，N 可自行決定，此處先取 N = 15 做示範 print 出
- 文章當中是取 N = 200

In [17]:
all_tags = []
for tag in df['top_10']:
    all_tags.extend(tag)
all_tags_s = " ".join(all_tags)
all_tags_s

'Life 我們 一天 期待 哪邊 邊要 出現 守成 整夜 重逢 一起 一天天 永在 鬧久 別的 回憶 浮現 一點點 身邊 永遠 我會 屬於 不會 記得 孤單 時候 因為 還有 傷神 我的門 太太 太耐斯 什麼 超過 太過 發脾氣 心軟 忘我 晚餐 候命 抱歉 他們 每枝 什麼 雖然 我們 每個 每張 真實 還原 YA 笑笑 還是 城門 味道 鬧鐘 吃飽 飆一飆 機會 苗條 討好 變成 其實 血脈 奔馳 愛著 防著 複雜 一個 Yeah 麻煩 over 愛我 一位 Oh 極限 具備 全職 溫柔 大排長龍 頒給 男主角 娛樂 有完沒完 好戲 最佳 看戲 愛心 只在乎 大師級 這個 變得 一點 他會 男人 愛變 珍貴 鑽石 昂貴 可憐 算了吧 也罷 不上不下 一個 還是 自顧不暇 一念之差 那就算了 何必 不如 無邊 無悔 蒼穹 羽化成仙 逍遙 風雨 千渡 萬劫 蒼茫 心魔 就讓 完美 傷心 奪眶 偽裝 沒人 咬牙 好不好 看到 做夢 我們 遙遠 風景 如詩 變遷 游離 溫暖 仍教 下個 終點 悲傷 感覺 表現 一個 討厭 依賴 回頭 每當 虧欠 遠遠 無人知曉 怎麼 風吹 心湖 陣陣 攪和 沙沙 欲言又止 不平 那些 難得 哪裡 不用 厭煩 中斷 聯繫 不會 忘記 什麼 關係 Boom BoomBoom 我們 Sha 風度翩翩 風情萬種 女人 GentlewomanI Gentlewoman 難道 Hey Dancing Oh 快樂 一舞 鍾情 sky my life 全世界 的話 太久 正要 不急不徐 你悶 前戲 漫長 爆點 太解 鎂光燈 怎麼 Bye 快快 喜歡 身邊 煩煩 現在 這個 上帝 十年 LaLaLa 極限 Lin yourself 念頭 綻放 快樂 再美 不過 擋不住 不要 my love 默契 愛到 求饒 打造 需要 互相 Cheer OH 你點 音樂 快樂 骨頭 感覺 IOH 立刻 孤獨 自轉 打烊 我心 Ma Baby Honey MaMa 給予 念頭 純真 投幣 值得 那個 因為 只為 自己 更好 脫掉 換上 選擇 離開 一個 終點 聽見 地平線 一邊 呼喚 多遠 乘著風 瘋狂 因為 那麼 靜靜地 撫摸 溫柔 臉龐 告訴 我天 盡頭 何模樣 一落 沒有 逃避 不如 哪個 療傷 溫暖 什麼 愛上你 這麼 負荷 別人 怎麼 喜歡 起來 現在 自己 

In [19]:
tags = jieba.analyse.extract_tags(all_tags_s, 50) #取Ｎ個tags
print(",".join(tags))

我們,什麼,沒有,一個,愛情,怎麼,快樂,不會,因為,還是,永遠,感覺,時間,那麼,Oh,也許,一點,最後,擁抱,開始,這樣,愛的,時候,愛我,現在,離開,已經,一種,me,我要,回憶,眼淚,記得,未來,my,喜歡,love,發現,原來,無法,總是,以後,一樣,變成,終於,美麗,每個,曾經,oh,這是


## 3. 文字雲呈現
- WordCloud Module 功能
- stopwords 停用字調整
- 存檔

In [20]:
# 讀取欲透過文字雲計算詞頻的檔案
text = all_tags_s
# 建立停用字
stopwords = {}.fromkeys(["沒有","一個","什麼","那個"])  

wc = WordCloud(font_path="NotoSerifCJKtc-Black.otf", #設置字體
               background_color="white", #背景顏色
               max_words = 2000 , #文字雲顯示最大詞數
               stopwords=stopwords) #停用字詞

# 產生文字雲
wc.generate(text)

# 視覺化
plt.imshow(wc)
plt.axis("off")
plt.figure(figsize=(10,6), dpi = 100)
plt.show()

# 存檔
wc.to_file("lyrics/wordcloud1.jpg")

OSError: cannot open resource

## 討論：文字雲針對不同程度資料處理 part
- 原歌詞檔案（未斷詞）
- 原歌詞檔案（有斷詞）
- 每首歌取前 10 大關鍵字（共 330 個）
- 最終關鍵字（從上述 330 個挑 200 個）

In [15]:
#原歌詞檔案_未斷詞
text = open("lyrics/test1.txt").read()
stopwords = {}.fromkeys(["沒有","一個","什麼","那個"])  

wc = WordCloud(font_path="HYQiHei-25J.otf", #設置字體
               background_color="white", #背景顏色
               max_words = 2000 , #文字雲顯示最大詞數
               stopwords=stopwords) #停用字詞
wc.generate(text)
plt.imshow(wc)
plt.axis("off")
plt.figure(figsize=(10,6), dpi = 100)
plt.show()

# 存檔
wc.to_file("lyrics/wordcloud_test1.jpg")

UnicodeDecodeError: 'cp950' codec can't decode byte 0xe6 in position 0: illegal multibyte sequence

In [12]:
#已斷詞
text = open("lyrics/lyrics_cut_mayday.dataset", encoding = "utf-8").read()
stopwords = {}.fromkeys(["沒有","一個","什麼","那個"])  

wc = WordCloud(font_path="DroidSansMono.otf", #設置字體
               background_color="white", #背景顏色
               max_words = 2000 , #文字雲顯示最大詞數
               stopwords=stopwords) #停用字詞
wc.generate(text)
plt.imshow(wc)
plt.axis("off")
plt.figure(figsize=(10,6), dpi = 100)
#plt.imshow(alice_mask, cmap=plt.cm.gray, interpolation='bilinear')
plt.show()

# save
wc.to_file("lyrics/wordcloud_test2.jpg")

OSError: cannot open resource

In [13]:
# 把所有歌的10大tags取tags，也就是從330個tags (33*10) 精煉成取100個tags
wtags_all = codecs.open("lyrics/lyrics_tags_combine.txt", "w", "utf-8")
with open("lyrics/lyrics_tags.txt", "rb") as f3:
    for line in f3:
        tags = jieba.analyse.extract_tags(line,200)
        wtags_all.write(" ".join(tags))
f3.close()

In [14]:
#最終關鍵字
text = open("lyrics/lyrics_tags_combine.txt").read()
stopwords = {}.fromkeys(["沒有","一個","什麼","那個"])  

wc = WordCloud(font_path="NotoSerifCJKtc-Black.otf", #設置字體
               background_color="white", #背景顏色
               max_words = 2000 , #文字雲顯示最大詞數
               stopwords=stopwords) #停用字詞
wc.generate(text)
plt.imshow(wc)
plt.axis("off")
plt.figure(figsize=(10,6), dpi = 100)
#plt.imshow(alice_mask, cmap=plt.cm.gray, interpolation='bilinear')
plt.show()

# save
wc.to_file("lyrics/wordcloud_test4.jpg")

ValueError: We need at least 1 word to plot a word cloud, got 0.