### 歌詞分析
歌詞分析主要用到的是 <code>jieba.analyse.extract_tags</code>，背後的原理為 tf-idf 算法。

1. tf - idf 簡介 ( term frequency–inverse document frequency )
tf - idf 是一種統計方法，此原理為評估一個字詞對於一個檔案集，或一個語料庫中的其中一份檔案的重要程度，這個概念十分重要。

<ul>
<li> tf (term frequency )：詞頻，計算該詞語在文章所出現的次數</li>
<li> idf ( inverse document frequency )：逆文檔頻率，衡量該字詞的重要性</li>
</ul>

$w_{x,y} = tf_{x,y} \times \log{\left(\dfrac{N}{df_x}\right)}$
- tf - idf : term x within document y
- $tf_{x,y} : \text{frequency of } x \text{ in } y.$
- $df_{x,y} : \text{number of documents containing } x.$

[Formula of $\textit{\textbf{tf - idf}}$](https://miro.medium.com/max/4800/1*n1ReZe2OGaEBYg3kvzYhkQ.png)

[Text Clustering : Get quick insights from Unstructured Data](https://miro.medium.com/max/1400/1*4LbwZZRFJZwgqKDyWQl6JA.png)

字詞的重要性隨著它在檔案中**出現的次數成正比增加**，但同時會隨著它在語料庫中**出現的頻率成反比下降**。

也就是說，當 tf 值很高，而 df 值很低，這時得到的權重值就能夠把常見的關鍵字濾掉。

In [19]:
import jieba.analyse
jieba.set_dictionary("C:\python310\lib\site-packages\jieba\dict.txt")

In [20]:
with open("data/single_song.txt", "rb") as f:
   for line in f:
      tags = jieba.analyse.extract_tags(line, topK=10, withWeight=True)
      for tag, weight in tags:
         print(tag + "," + str(int(weight * 10000)))

Building prefix dict from C:\python310\lib\site-packages\jieba\dict.txt ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.u18c4b1509d688ff112c4dc9458dfd7be.cache
Loading model cost 0.546 seconds.
Prefix dict has been built successfully.


love,14661
ing,14661
戀愛,7894
改變,6766
happy,3383
噴射機,3383
黎明,3026
心情,2395
心跳,2358
沒關,2255


### 從歌詞萃取重要關鍵字

In [21]:
with open("data/mayday.txt", "rb") as f:
   for line in f:
      tags = jieba.analyse.extract_tags(line, 10)
      print(",".join(tags))

時間,一天,會不會,許會,終點,舉起,回憶釀,悠悠的,真的,一杯
我們,不曾,哪裡,相識,那個,場景,出現,相遇,每秒,那一刻
我們,好好,變老,時間,喧囂,最後的,知道,大人,失散多年,寫成
我們,人生,快樂,無論,一個,期待,然後呢,回憶,也許,走著
入陣曲,無悔,夜未央,天未亮,倖存,沙場,淚未,心未涼,什麼,此生
最好,day,一天,閉上,瞬間,銀河,best,那天,地球,無數
OAOA,太短,人生,飢渴,一種,無止,和諧,一個,瞬間,眼淚
la,will,high,孤單,怎麼,everything,alright,Tomorrow,fine,High
oh,party,hey,let,go,night,lonely,我們,對動物,many
什麼,拯救,殘酷,攻擊,能夠,那麼,無策,愛情,結局,束手
決定,快樂,保護色,不愛了,靈魂,關在,永遠,鎖上,軀殼,真正
一個,兄弟,我們,這樣,怎樣,一點,一次,身旁,人生,一場
人生,部門,沒有,過嗎,富貴榮華,目標,飛黃騰,無限,有限,傻瓜
盡頭,怎麼樣,終點,有光,我們,成名,那夜,起點,可會亮,綻放
變成,交響,我心,每個,孤單,一個,沒人,還有,崩壞,旋律
記得,卡片,西天,夥伴,掏耳朵,累不累,荒馬亂,改變過,下滿天,人類
怎麼,擁有,快樂,足夠,當一陣,風吹來,風箏,飛上,祈禱,感動
我們,人們,未來,無數,如海,怎樣,無數命,運流轉,相異,航向
yeah,出現,呼喚,越來,一種,電影,情節,黎明,無法,當我們
頑固,一次,深處,活在,淚滴,拼回,一天,吞下,相信,自己
do,ever,shine,die,try,現在,jalalan,jalalala,還是,細節
人們,改變,容顏,擁有,問你何,以求,春天,就算,終日,難免
煩惱,噗通,甩掉,跳越,丟掉,地球,一顆,一瞬,忘掉,再也
love,ing,戀愛,改變,happy,噴射機,黎明,心情,心跳,沒關
我們,任意,那個,走過,唱片,無數,盡歲,搭著,肩環遊,無法
回憶,有人,自傳,終章,愛情,最難,遺忘,原來,飛翔,身旁
決定,快樂,傷心,有什麼,潮落,潮起,整個,拋棄,了不起,東西
動次,oh,快樂,不管,慢歌,反正,感覺,活著,趴著,音樂
一層,空氣,洋蔥,永遠,願意,剝開,你會,沉默,偷偷,如果
溫柔,這是,自由,什麼,我給,沒有,不明,想要

In [22]:
import codecs
wtags = codecs.open("data/mayday_tags.txt", "w", "utf-8")
with open("data/mayday.txt", "r", encoding="utf-8") as f1:
   for line in f1:
      words = jieba.analyse.extract_tags(line, 10)
      wtags.write(" ".join(words))
      wtags.write("\n")
f1.close()

with open("data/mayday_tags.txt", "rb") as f2:
   for line in f2:
      tags = jieba.analyse.extract_tags(line,15)
      print(",".join(tags))
f2.close()

時間,會不會,許會,終點,舉起,回憶釀,悠悠的,一杯,真的,一天
我們,哪裡,相識,那個,場景,出現,每秒,那一刻,相遇,不曾
失散多年,我們,變老,時間,喧囂,寫成,好好,大人,知道
我們,快樂,無論,一個,然後呢,回憶,也許,走著,人生,期待
夜未央,入陣曲,無悔,天未亮,倖存,沙場,淚未,心未涼,什麼,此生
day,閉上,瞬間,銀河,best,無數,那天,地球,最好,一天
OAOA,飢渴,一種,無止,和諧,一個,瞬間,眼淚,太短,人生
la,will,high,孤單,怎麼,everything,alright,Tomorrow,fine,High
oh,party,hey,let,go,night,lonely,我們,對動物,many
什麼,殘酷,攻擊,能夠,那麼,無策,愛情,結局,束手,拯救
決定,快樂,保護色,不愛了,靈魂,關在,永遠,鎖上,軀殼,真正
一個,我們,這樣,怎樣,一點,一場,身旁,人生,兄弟,一次
部門,沒有,過嗎,富貴榮華,目標,飛黃騰,無限,傻瓜,人生,有限
盡頭,怎麼樣,終點,有光,我們,起點,可會亮,綻放,那夜,成名
變成,交響,每個,孤單,一個,沒人,還有,崩壞,我心,旋律
夥伴,掏耳朵,累不累,記得,荒馬亂,改變過,下滿天,人類,卡片,西天
怎麼,擁有,快樂,足夠,當一陣,風吹來,風箏,飛上,祈禱,感動
我們,人們,未來,無數,如海,怎樣,無數命,運流轉,相異,航向
yeah,出現,呼喚,越來,一種,電影,情節,無法,當我們,黎明
頑固,深處,淚滴,拼回,活在,吞下,相信,一天,一次,自己
do,ever,shine,die,try,現在,jalalan,jalalala,還是,細節
人們,改變,容顏,擁有,問你何,終日,難免,以求,春天,就算
跳越,煩惱,丟掉,一顆,噗通,一瞬,甩掉,忘掉,再也,地球
love,ing,戀愛,改變,happy,噴射機,沒關,心跳,黎明,心情
我們,那個,走過,無數,盡歲,搭著,肩環遊,無法,唱片,任意
回憶,自傳,終章,愛情,最難,遺忘,原來,飛翔,身旁,有人
決定,快樂,傷心,有什麼,整個,拋棄,東西,潮落,潮起,了不起
動次,oh,快樂,慢歌,感覺,活著,趴著,音樂,反正,不管
一層,空氣,洋蔥,永遠,願意,剝開,偷偷,沉默,如果
溫柔,這是,什麼,我給,沒有,單到,那愛情,不明,想要,自由

### 使用 wordcloud 呈現

預設是英文字體。

※下方code還需要debug，尚不清楚原因。

In [47]:
from multiprocessing.resource_sharer import stop
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS
from PIL import Image
import nltk

# 讀取每首歌的前10個tags
text = open("data/mayday_tags.txt", 'r', encoding = "utf-8").read()
text = ' '.join(nltk.word_tokenize(text))
# print(text)

# 設定停用字(排除常用詞、無法代表特殊意義的字詞)
stopwords = ("沒有","一個","什麼","那個")

# stopwords = set(STOPWORDS)
# stopwords.add("沒有")
# stopwords.add("一個")
# stopwords.add("什麼")
# stopwords.add("那個")
print(stopwords)

# 產生文字雲
font = "MSJH.TTC"
wc = WordCloud(font_path = font,
               background_color = "white",
               max_words = 2000,
               stopwords = stopwords)

wc.generate(text)
wc.to_file("data/output.png")

# # 視覺化呈現
# plt.imshow(wc)
# plt.axis("off")
# plt.figure(figsize=(10,6), dpi = 100)
# plt.show()

('沒有', '一個', '什麼', '那個')


OSError: cannot open resource