# 情緒分析基本用法

In [1]:
from snownlp import SnowNLP

## 一句範例

In [2]:
onesentence = "我覺得那家餐廳服務很不好"

# 計算情緒分數
nlp = SnowNLP(onesentence)
nlp.sentiments  # 很不好這個詞的判斷會有失準

0.41709449987497127

In [3]:
onesentence = "我覺得那家餐廳服務不好"

# 計算情緒分數
s1 = SnowNLP(onesentence)
s1.sentiments  # 不好的這個詞判斷則準

0.2783442094948876

## 多句範例

In [4]:
sentence_example = (
    "我今天要到高雄小港機場搭飛機出差，黛安芬運動內衣很好穿，我覺得那家餐廳很糟糕"
)
# sentence_example='我今天要到高雄小港機場搭飛機出差黛安芬運動內衣很好穿我覺得那家餐廳很糟糕' #有沒有標點符號沒差

# 計算情緒分數
nlp = SnowNLP(sentence_example)
print(f"情緒分數: {nlp.sentiments}\n")  # 整個句子情緒分數

情緒分數: 0.9127024762571652



標點符號不影響情緒分析的判斷。

In [5]:
sentence_example = "我今天要到高雄小港機場搭飛機出差黛安芬運動內衣很好穿我覺得那家餐廳很糟糕"  # 有沒有標點符號沒差

# 計算情緒分數
nlp = SnowNLP(sentence_example)
print(f"情緒分數: {nlp.sentiments}\n")  # 整個句子情緒分數

情緒分數: 0.9127024762571652



## 其他用法

切成幾個字詞，斷詞結果，常見是單字為主（snownlp 的分詞器較簡單）。

In [6]:
nlp.words

['我',
 '今天',
 '要',
 '到',
 '高雄',
 '小',
 '港',
 '機',
 '場',
 '搭',
 '飛',
 '機',
 '出差',
 '黛',
 '安',
 '芬',
 '運',
 '動',
 '內衣',
 '很',
 '好',
 '穿',
 '我',
 '覺得',
 '那',
 '家',
 '餐',
 '廳',
 '很',
 '糟糕']

句子明細，自動切割的句子，根據標點符號與語意分隔。

In [7]:
nlp.sentences

['我今天要到高雄小港機場搭飛機出差黛安芬運動內衣很好穿我覺得那家餐廳很糟糕']

句子存放型態。

In [8]:
type(nlp.sentences)

list

幾個句子？

In [9]:
len(nlp.sentences)

1

## 練習：個別句子的情緒分數如何取得？

In [11]:
"""
# 我今天要到高雄小港機場搭飛機出差 情緒分數 : 0.15
# 黛安芬運動內衣很好穿 情緒分數 : 0.98
#我覺得那家餐廳很糟糕 情緒分數 : 0.72"""

stmts = [
    "我今天要到高雄小港機場搭飛機出差",
    "黛安芬運動內衣很好穿",
    "我覺得那家餐廳很糟糕"
]

for stmt in stmts:
    nlp = SnowNLP(stmt)
    print(f'{stmt} 情緒分數 : {nlp.sentiments:.2f}')

我今天要到高雄小港機場搭飛機出差 情緒分數 : 0.15
黛安芬運動內衣很好穿 情緒分數 : 0.97
我覺得那家餐廳很糟糕 情緒分數 : 0.72


## 多句識別範例（用 list 傳入）

In [13]:
l = [
    "卧槽",
    "牛逼",
    "他妈的",
    "打死你",
    "优秀",
    "哈哈哈哈哈啊哈",
    "好评",
    "信不信我弄死你啊",
    "强强强强强强强强",
]


for j in l:
    s = SnowNLP(j)
    if s.sentiments <= 0.4:
        print("負面情感:" + j + "\t" + str(s.sentiments))
    else:
        print("正面情感:" + j + "\t" + str(s.sentiments))

正面情感:卧槽	0.5
正面情感:牛逼	0.6923786120385603
負面情感:他妈的	0.3124999999999998
負面情感:打死你	0.3150105708245242
正面情感:优秀	0.8703703703703702
正面情感:哈哈哈哈哈啊哈	0.8684210526315791
正面情感:好评	0.44578313253012036
負面情感:信不信我弄死你啊	0.07091943747997087
正面情感:强强强强强强强强	0.421874597530976


## 多句識別範例（用長字串傳入）

In [14]:
text = """
自然語言處理是電腦科學領域與人工智慧領域中的一個重要方向。
它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。
自然語言處理是一門融語言學、電腦科學、數學於一體的科學。
因此，這一領域的研究將涉及自然語言，即人們日常使用的語言，
所以它與語言學的研究有著密切的聯絡，但又有重要的區別。
自然語言處理並不是一般地研究自然語言，
而在於研製能有效地實現自然語言通訊的計算機系統，
特別是其中的軟體系統。因而它是電腦科學的一部分。
"""

s = SnowNLP(text)

print(f"情緒分數:{s.sentiments}")  # 整段情緒
print(f"切割句子:{s.sentences}")  # 句子
print(
    f"關鍵詞:{s.keywords(limit=3)}"
)  # 關鍵詞提取,效果比較不好。建議用jieba.analyse比較好

# 文章摘要
summary = s.summary(limit=2)
print(summary)
for i in summary:
    print(i)

情緒分數:0.998583617054737
切割句子:['自然語言處理是電腦科學領域與人工智慧領域中的一個重要方向', '它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法', '自然語言處理是一門融語言學、電腦科學、數學於一體的科學', '因此', '這一領域的研究將涉及自然語言', '即人們日常使用的語言', '所以它與語言學的研究有著密切的聯絡', '但又有重要的區別', '自然語言處理並不是一般地研究自然語言', '而在於研製能有效地實現自然語言通訊的計算機系統', '特別是其中的軟體系統', '因而它是電腦科學的一部分']
關鍵詞:['語言', '自然', '學']
['自然語言處理是電腦科學領域與人工智慧領域中的一個重要方向', '因而它是電腦科學的一部分']
自然語言處理是電腦科學領域與人工智慧領域中的一個重要方向
因而它是電腦科學的一部分


### 與 Jieba 比較 (TF-IDF)

In [15]:
import jieba.analyse

keywords_top = jieba.analyse.extract_tags(
    text, topK=3, withWeight=True
)  # 基于TF-IDF算法進行關鍵詞抽取
keywords_top

  re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%\-]+)", re.U)
  re_skip_default = re.compile("(\r\n|\s)", re.U)
  re_skip = re.compile("([a-zA-Z0-9]+(?:\.\d+)?%?)")
  re_skip_detail = re.compile("([\.0-9]+|[a-zA-Z0-9]+)")
  re_han_internal = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)")
  re_skip_internal = re.compile("(\r\n|\s)")
  re_num = re.compile("[\.0-9]+")
Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/qj/62r8d09n5hn3nm_bdzf0dcpr0000gn/T/jieba.cache
Loading model cost 0.237 seconds.
Prefix dict has been built successfully.


[('語言', 0.9693054732081081),
 ('科學', 0.6462036488054054),
 ('電腦', 0.48465273660405406)]

## 練習：請將下列句子用上述方法做一遍，計算情緒分數，切割句子，關鍵詞，文章摘要

In [23]:
Synopsis = """《蝙蝠俠》將聚焦於一個年輕版本的布魯斯韋恩，並從中檢視他在面罩之下的靈魂。
羅伯派汀森將在新版《蝙蝠俠》中飾演這位DC超級英雄，電影是由《猩球崛起：終極決戰》導演麥特李維斯（Matt Reeves）所執導。"""

nlp = SnowNLP(Synopsis)

print(f"情緒分數：\t{nlp.sentiments}")
print(f"切割句子：\t{nlp.sentences}")
print(f"關鍵詞：\t\t{nlp.keywords(limit=3)}")
print(f"文章摘要：\t\n{"\n".join(nlp.summary(limit=2))}")

keywords_top = jieba.analyse.extract_tags(Synopsis, topK=3)
print(f"Jieba 關鍵詞：\t{keywords_top}")

情緒分數：	0.03803159211868101
切割句子：	['《蝙蝠俠》將聚焦於一個年輕版本的布魯斯韋恩', '並從中檢視他在面罩之下的靈魂', '羅伯派汀森將在新版《蝙蝠俠》中飾演這位DC超級英雄', '電影是由《猩球崛起：終極決戰》導演麥特李維斯（Matt Reeves）所執導']
關鍵詞：		['演', '中', '導']
文章摘要：	
《蝙蝠俠》將聚焦於一個年輕版本的布魯斯韋恩
並從中檢視他在面罩之下的靈魂
Jieba 關鍵詞：	['蝙蝠', '一個', '布魯斯']
