# Exploring SnowNLP

In this notebook, I explore the SnowNLP Python library that is written 
based on the Textblob Python library to analyze Chinese text instead of
English text. I explore the utility of the functions and compare the 
accuracy of some SnowNLP functions to corresponding Textblob functions.

In [10]:
# import snownlp (download link: https://github.com/isnowfy/snownlp)
from snownlp import SnowNLP

Here the following functions are tested: `str.words`, `str.tags`, `str.pinyin`.

In [11]:
# small example
s = SnowNLP(u'我喜欢看电影。') # the 'u' ensures the string is unicode (not necessary for Python 3+)

In [12]:
# separates unicode text based on phrases
s.words

['我', '喜欢', '看', '电影', '。']

In [13]:
# assigns tags to words (r: pronoun, v: verb, n: noun, w: punctuation)
list(s.tags)

[('我', 'r'), ('喜欢', 'v'), ('看', 'v'), ('电影', 'n'), ('。', 'w')]

In [14]:
# finds pinyin (without tones) for each word
s.pinyin

['wo', 'xi', 'huan', 'kan', 'dian', 'ying', '。']

### Traditional to Simpified 

Here I test out the function that processes traditional Chinese characters and produces an output of the corresponding simplified characters.

In [20]:
s = SnowNLP('漢語')

In [22]:
s.han

'汉语'

### Splitting into Sentences

Here is an example of how SnowNLP can be used to split a chunk of Chinese text into sentences.

In [26]:
s = SnowNLP('文化 清静 价 更 高 小 雷斯 的 母亲 看 着 小 雷 斯玩 了 很 长 时间 ， 便 哄 着 他 去 练琴 ， 对 他 说 亲爱 的 ， 快 去 琴房 练 钢琴 ！ 练完 后 我 给 你 1 英镑 买 巧克力 吃 。 小 雷斯嘟 着 嘴 说 可 隔壁 的 邻居 说 ， 如果 我 不 练琴 ， 他们 将 给 我 2 英镑 。')
s.sentences

['文化 清静 价 更 高 小 雷斯 的 母亲 看 着 小 雷 斯玩 了 很 长 时间',
 '便 哄 着 他 去 练琴',
 '对 他 说 亲爱 的',
 '快 去 琴房 练 钢琴',
 '练完 后 我 给 你 1 英镑 买 巧克力 吃',
 '小 雷斯嘟 着 嘴 说 可 隔壁 的 邻居 说',
 '如果 我 不 练琴',
 '他们 将 给 我 2 英镑']

The above demonstration of `str.sentences` is on an example from Leiden Weibo Corpus. The presence of spaces in the splits sentences is a result of spaces in the original input of the corpus.

### Extracting Keywords

SnowNLP also has a `str.keywords()` function that takes an integer parameter and extracts that integer amount of keywords from the `str`. Similarly, `str.summary()` takes an integer parameter as well and extracts that integer amount of sentences from `str` that it believes best summarizes `str`.

In [27]:
s = SnowNLP('文化 清静 价 更 高 小 雷斯 的 母亲 看 着 小 雷 斯玩 了 很 长 时间 ， 便 哄 着 他 去 练琴 ， 对 他 说 亲爱 的 ， 快 去 琴房 练 钢琴 ！ 练完 后 我 给 你 1 英镑 买 巧克力 吃 。 小 雷斯嘟 着 嘴 说 可 隔壁 的 邻居 说 ， 如果 我 不 练琴 ， 他们 将 给 我 2 英镑 。')
s.keywords(5)

['练', '小', '雷斯', '英镑', '琴']

### Sentiment Analysis

The main function of SnowNLP that I will explore is it's ability to calculate sentiment in comparision with Textblob's sentiment calculations. The funciton `str.sentiments` does the trick in SnowNLP. Below I analyze the same Weibo corpus above and calculate the sentiment for each sentence in the corpus.

In [32]:
text = SnowNLP('文化 清静 价 更 高 小 雷斯 的 母亲 看 着 小 雷 斯玩 了 很 长 时间 ， 便 哄 着 他 去 练琴 ， 对 他 说 亲爱 的 ， 快 去 琴房 练 钢琴 ！ 练完 后 我 给 你 1 英镑 买 巧克力 吃 。 小 雷斯嘟 着 嘴 说 可 隔壁 的 邻居 说 ， 如果 我 不 练琴 ， 他们 将 给 我 2 英镑 。')
sents = text.sentences

for sent in sents:
    s = SnowNLP(sent)
    print(s.sentiments, str(sent))

0.999990110897581 文化 清静 价 更 高 小 雷斯 的 母亲 看 着 小 雷 斯玩 了 很 长 时间
0.9239844197032276 便 哄 着 他 去 练琴
0.8384346092683924 对 他 说 亲爱 的
0.9590587243130785 快 去 琴房 练 钢琴
0.9391460729160547 练完 后 我 给 你 1 英镑 买 巧克力 吃
0.5935921936045641 小 雷斯嘟 着 嘴 说 可 隔壁 的 邻居 说
0.9427240910332184 如果 我 不 练琴
0.5714872631884823 他们 将 给 我 2 英镑
