<h1><a>Lec 02 NLP基础与扫盲</a></h1>

本节以NLTK为基础配合讲解自然语言处理的原理。

## 目录：
- <a href='#nltk'>NLTK</a>
- <a href='#textprocessing'>文本处理流程</a>
    - <a href='#tokenize'>分词</a>
    - <a href='#standard'>归一化</a>
    - <a href='#stopwords'>停止词</a>
- <a href='#3examples'>NLP经典三案例</a>
    - <a href='#sentiment'>情感分析</a>
    - <a href='#similarity'>文本相似度</a>
    - <a href='#classification'>文本分类</a>
- <a href='#deeplearning'>深度学习加持</a>
    - <a herf='#autoencoder'>Autoencoder</a>
    - <a herf='#word2vec'>Word2Vec</a>

----

<h2><a name='nltk'>1.NLTK</a></h2>

官网：http://www.nltk.org/

Python上著名的自然语言处理库。自带语料库、词性分类库、自带分类、分词，等等功能强大的社区支持，还有N多的简单版wrapper。

In [None]:
# 安装语料库
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


### NLTK功能一览表
|NLTK Modules|Functionality|
|:-|:-:|
|nltk.corpus|Corpus|
|nltk.tokenize, nltk.stem| Tokenizers, stemmers|
|nltk.collocations|t-test, chi-squared, mutual-info|
|nltk.tag|n-gram, backoff, Brill, HMM, TnT|
|nltk.classify, nltk.cluster| Decision tree, Naive Bayes, K-means|
|nltk.chunk| Regex, n-gram, named entity|
|nltk.parsing| Parsing|
|nltk.sem, nltk.interence| Semantic interpretation|
|nltk.metrics| Evaluation metrics|
|nltk.probability| Probability & Estimation|
|nltk.app, nltk.chat| Applications|

### NLTK自带语料库

In [1]:
from nltk.corpus import brown
brown.categories()

['adventure',
 'belles_lettres',
 'editorial',
 'fiction',
 'government',
 'hobbies',
 'humor',
 'learned',
 'lore',
 'mystery',
 'news',
 'religion',
 'reviews',
 'romance',
 'science_fiction']

In [2]:
len(brown.sents())

57340

In [3]:
len(brown.words())

1161192

<h2><a name='textprocessing'>2.文本处理流程</a><h2>

<img src='./images/nltk01.png' width='70%'/>

<h3><a name='tokenize'>2.1 分词</a></h3>

Tokenize

将长句子拆成有“意义”的小部件。

In [4]:
import nltk
sentence = 'hello, world!'
tokens = nltk.word_tokenize(sentence)
tokens

['hello', ',', 'world', '!']

#### 中英文NLP的区别

<img src='./images/nltk02.png' width='70%'/>
<img src='./images/nltk03.png' width='30%'/>

In [5]:
# 中文分词
import jieba
seg_list = jieba.cut('我来到北京清华大学', cut_all=True) # 全模式
print('Full Mode:', '/'.join(seg_list))

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/w2/qnnfb62x2g760j3nkh9q4ptr0000gn/T/jieba.cache
Loading model cost 0.733 seconds.
Prefix dict has been built succesfully.


Full Mode: 我/来到/北京/清华/清华大学/华大/大学


In [6]:
seg_list = jieba.cut('我来到北京清华大学', cut_all=False) # 精确模式
print('Default Mode:', '/'.join(seg_list))

Default Mode: 我/来到/北京/清华大学


seg_list = jieba.cut('他来到了网易杭研大厦') # 默认是精确模式
print('Default Mode:', ','.join(seg_list))

In [10]:
seg_list = jieba.cut_for_search('小明硕士毕业于中国科学院计算所，后在日本京都大学深造') # 搜索引擎模式
print(','.join(seg_list))

小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,，,后,在,日本,京都,大学,日本京都大学,深造


#### 分词之后的效果
<img src='./images/nltk04.png' width='50%'/>

#### 有时候tokenize没那么简单
比如：  
社交网络上，这些乱七八糟的不和语法不合逻辑的语言很多：   
拯救@某人，表情符号，URL，#话题符号

<img src='./images/nltk05.png' width='50%'/>

In [11]:
# 社交网络语言的tokenize
from nltk.tokenize import word_tokenize

tweet = 'RT @angelababy: love you baby! :D http://ah.love #168cm'
print(word_tokenize(tweet))

['RT', '@', 'angelababy', ':', 'love', 'you', 'baby', '!', ':', 'D', 'http', ':', '//ah.love', '#', '168cm']


#### 对社交网络语言的tokenize，在预处理过程中，用re正则表达式预处理。

In [13]:
import re
emoticons_str = r'''
(?:
    [:=;] #眼睛
    [oO\-]? # ⿐鼻⼦子
    [D\)\]\(\]/\\OpP] # 嘴
)
'''
regex_str = [emoticons_str, 
            r'<[^>]+>', # HTML tags
            r'(?:@[\w_]+)', # @某⼈人
            r"(?:\#+[\w_]+[\w\'_\-]*[\w_]+)", # 话题标签
            r'http[s]?://(?:[a-z]|[0-9]|[$-_@.&amp;+]|[!*\(\),]|(?:%[0-9a-f][0-9a-f]))+',
            # URLs
            r'(?:(?:\d+,?)+(?:\.?\d+)?)', # 数字
            r"(?:[a-z][a-z'\-_]+[a-z])", # 含有 - 和 ‘ 的单词
            r'(?:[\w_]+)', # 其他
            r'(?:\S)' # 其他
            ]

#### 正则表达式
对照表：
http://www.regexlab.com/zh/regref.htm

<h3><a name='standard'>2.2 归一化</a></h3>

<h3><a name='stopwords'>2.3 停止词</a></h3>

<h2><a name='3examples'>3.NLP经典三案例</a></h2>

<h3><a name='sentiment'>3.1 情感分析</a></h3>

<h3><a name='similarity'>3.2 文本相似度</a></h3>

<h3><a name='classification'>3.3 文本分类</a></h3>

<h2><a name='deeplearning'>4.深度学习加持</a></h2>

<h3><a name='autoencoder'>4.1 Autoencoder</a></h3>

<h3><a name='word2vec'>4.2 Word2Vec</a></h3>