<h1><a>Lec 02 NLP基础与扫盲</a></h1>

本节以NLTK为基础配合讲解自然语言处理的原理。

## 目录：
- <a href='#nltk'>NLTK</a>
- <a href='#textprocessing'>文本处理流程</a>
    - <a href='#tokenize'>分词</a>
    - <a href='#standard'>归一化</a>
    - <a href='#stopwords'>停止词</a>
- <a href='#3examples'>NLP经典三案例</a>
    - <a href='#sentiment'>情感分析</a>
    - <a href='#similarity'>文本相似度</a>
    - <a href='#classification'>文本分类</a>
- <a href='#deeplearning'>深度学习加持</a>
    - <a herf='#autoencoder'>Autoencoder</a>
    - <a herf='#word2vec'>Word2Vec</a>

----

<h2><a name='nltk'>1.NLTK</a></h2>

官网：http://www.nltk.org/

Python上著名的自然语言处理库。自带语料库、词性分类库、自带分类、分词，等等功能强大的社区支持，还有N多的简单版wrapper。

textblob就是NLTK的简版版wrapper。
参考网址：https://textblob.readthedocs.io/en/dev/

In [None]:
# 安装语料库
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


### NLTK功能一览表
|NLTK Modules|Functionality||
|:-|:-:|:-:|
|nltk.corpus|Corpus|语料|
|nltk.tokenize, nltk.stem| Tokenizers, stemmers|分词、词干提取|
|nltk.collocations|t-test, chi-squared, mutual-info|配置|
|nltk.tag|n-gram, backoff, Brill, HMM, TnT||
|nltk.classify, nltk.cluster| Decision tree, Naive Bayes, K-means|分类器|
|nltk.chunk| Regex, n-gram, named entity||
|nltk.parsing| Parsing|treebank 主谓宾，文法树，主要用于NER|
|nltk.sem, nltk.interence| Semantic interpretation|情感分析|
|nltk.metrics| Evaluation metrics|测量|
|nltk.probability| Probability & Estimation|概率|
|nltk.app, nltk.chat| Applications|应用|

### NLTK自带语料库

In [1]:
from nltk.corpus import brown
brown.categories()

['adventure',
 'belles_lettres',
 'editorial',
 'fiction',
 'government',
 'hobbies',
 'humor',
 'learned',
 'lore',
 'mystery',
 'news',
 'religion',
 'reviews',
 'romance',
 'science_fiction']

In [2]:
len(brown.sents())

57340

In [3]:
len(brown.words())

1161192

<h2><a name='textprocessing'>2.文本处理流程</a><h2>

特征工程：将文本分词，（词性标注、词干提取（词性还原）），中止词去除，得到word list，最终数字化。

<img src='./images/nltk01.png' width='50%'/>

<h3>NLTK文本处理流程：一条typical的文本预处理流水线</h3>

<img src='./images/nltk10.png' width='35%'/>

<h3><a name='tokenize'>2.1 分词</a></h3>

Tokenize

将长句子拆成有“意义”的小部件。

In [4]:
import nltk
sentence = 'hello, world!'
tokens = nltk.word_tokenize(sentence)
tokens

['hello', ',', 'world', '!']

#### 中英文NLP的区别
英文天然带有分隔符，用空格“ ”作为分隔符。
中文等非拉丁语言，分词就会有两种：
- rule: 启发式（查字典）
- generative: 机器学习/统计方法：HMM、CRF

<img src='./images/nltk02.png' width='70%'/>

In [5]:
# 中文分词
import jieba
seg_list = jieba.cut('我来到北京清华大学', cut_all=True) # 全模式
print('Full Mode:', '/'.join(seg_list))

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/w2/qnnfb62x2g760j3nkh9q4ptr0000gn/T/jieba.cache
Loading model cost 0.720 seconds.
Prefix dict has been built succesfully.


Full Mode: 我/来到/北京/清华/清华大学/华大/大学


In [6]:
seg_list = jieba.cut('我来到北京清华大学', cut_all=False) # 精确模式
print('Default Mode:', '/'.join(seg_list))

Default Mode: 我/来到/北京/清华大学


In [7]:
seg_list = jieba.cut('他来到了网易杭研大厦') # 默认是精确模式
print('Default Mode:', ','.join(seg_list))

Default Mode: 他,来到,了,网易,杭研,大厦


【新词识别】：他, 来到, 了了, ⽹网易易, 杭研, ⼤大厦    
(此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了了)

In [8]:
seg_list = jieba.cut_for_search('小明硕士毕业于中国科学院计算所，后在日本京都大学深造') # 搜索引擎模式
print(','.join(seg_list))

小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,，,后,在,日本,京都,大学,日本京都大学,深造


#### 分词之后的效果：list of words
<img src='./images/nltk04.png' width='50%'/>

#### 有时候tokenize没那么简单
比如：  
社交网络上，这些乱七八糟的不和语法不合逻辑的语言很多：   
拯救@某人，表情符号，URL，#话题符号

<img src='./images/nltk05.png' width='50%'/>

In [10]:
# 社交网络语言的tokenize
from nltk.tokenize import word_tokenize

tweet = 'RT @angelababy: love you baby! :D http://ah.love #168cm'
print(word_tokenize(tweet))

['RT', '@', 'angelababy', ':', 'love', 'you', 'baby', '!', ':', 'D', 'http', ':', '//ah.love', '#', '168cm']


#### 对社交网络语言的tokenize，在预处理过程中，用re正则表达式预处理。

#### 正则表达式
对照表：
http://www.regexlab.com/zh/regref.htm

In [11]:
import re
emoticons_str = r'''
(?:
    [:=;] #眼睛
    [oO\-]? # ⿐子
    [D\)\]\(\]/\\OpP] # 嘴
)
'''
regex_str = [emoticons_str, 
            r'<[^>]+>', # HTML tags
            r'(?:@[\w_]+)', # @某⼈
            r"(?:\#+[\w_]+[\w\'_\-]*[\w_]+)", # 话题标签
            r'http[s]?://(?:[a-z]|[0-9]|[$-_@.&amp;+]|[!*\(\),]|(?:%[0-9a-f][0-9a-f]))+',
            # URLs
            r'(?:(?:\d+,?)+(?:\.?\d+)?)', # 数字
            r"(?:[a-z][a-z'\-_]+[a-z])", # 含有 - 和 ‘ 的单词
            r'(?:[\w_]+)', # 其他
            r'(?:\S)' # 其他
            ]

In [12]:
tokens_re = re.compile(r'('+'|'.join(regex_str)+')', re.VERBOSE | re.IGNORECASE)
emoticon_re = re.compile(r'^'+emoticons_str+'$', re.VERBOSE | re.IGNORECASE)

In [13]:
def preprocess(s, lowercase=False):
    def tokenize(s):
        return tokens_re.findall(s)
    tokens = tokenize(s)
    if lowercase:
        tokenize = [token if emotion_re.search(token) else token.lower() for token in tokens]
    return tokens

In [14]:
tweet = 'RT @angelababy: love you baby! :D http://ah.love #168cm'
print(preprocess(tweet))

['RT', '@angelababy', ':', 'love', 'you', 'baby', '!', ':D', 'http://ah.love', '#168cm']


<h3><a name='standard'>2.2 归一化</a></h3>

- 纷繁复杂的词形

<img src='./images/nltk06.png' width='50%'/>
<img src='./images/nltk07.png' width='70%'/>

#### 词形归一化
- Stemming 词干提取：一般来说，就是把不影响词性的inflection的小尾巴砍掉
    - walking 砍掉ing => walk
    - walked 砍掉ed => walk
    
- Lemmatization 词形归一：把各种类型的词的变形，都归为一个形式（“查表”的方式）
    - went 归一 => go
    - are 归一 => be

#### NLTK实现Stemming：nltk.stem.porter.PorterStemmer

In [15]:
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()
porter_stemmer.stem('maximum')

'maximum'

In [16]:
porter_stemmer.stem('presumably')

'presum'

In [17]:
porter_stemmer.stem('multiply')

'multipli'

In [18]:
porter_stemmer.stem('provision')

'provis'

In [19]:
porter_stemmer.stem('went')

'went'

In [20]:
porter_stemmer.stem('wenting')

'went'

#### NLTK实现Stemming：nltk.stem.SnowballStemmer

In [21]:
from nltk.stem import SnowballStemmer
snowball_stemmer = SnowballStemmer('english')
snowball_stemmer.stem('maximum')

'maximum'

In [22]:
snowball_stemmer.stem('presumably')

'presum'

#### NLTK实现Stemming：nltk.stem.lancaster.LancasterStemmer

In [23]:
from nltk.stem.lancaster import LancasterStemmer
lancaster_stemmer = LancasterStemmer()
lancaster_stemmer.stem('maximum')

'maxim'

In [24]:
lancaster_stemmer.stem('presumably')

'presum'

In [25]:
lancaster_stemmer.stem('presumably')

'presum'

#### NLTK实现Lemma: nltk.stem.WordNetLemmatizer

In [26]:
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
wordnet_lemmatizer.lemmatize('dogs')

'dog'

In [27]:
wordnet_lemmatizer.lemmatize('churches')

'church'

In [28]:
wordnet_lemmatizer.lemmatize('aardwolves')

'aardwolf'

In [29]:
wordnet_lemmatizer.lemmatize('abaci')

'abacus'

In [30]:
wordnet_lemmatizer.lemmatize('hardrock')

'hardrock'

#### Lemma的小问题
<img src='./images/nltk08.png' width='33%'/>

#### NLTK更好地实现Lemma

In [31]:
# 没有PosTag词性标注，默认是 NN(名词)
wordnet_lemmatizer.lemmatize('are')

'are'

In [32]:
wordnet_lemmatizer.lemmatize('is')

'is'

In [33]:
# 加上Pos Tag（词性标注）
wordnet_lemmatizer.lemmatize('is', pos='v')

'be'

In [34]:
wordnet_lemmatizer.lemmatize('are', pos='v')

'be'

#### 词形标注Part-Of-Speech
<img src='./images/nltk09.png' width='70%'/>

In [61]:
# NLTK的词性标注 POS Tag
import nltk
text = nltk.word_tokenize('what does the fox say') # 先分词
print(text)
print(nltk.pos_tag(text)) # 后POS Tag

['what', 'does', 'the', 'fox', 'say']
[('what', 'WDT'), ('does', 'VBZ'), ('the', 'DT'), ('fox', 'NNS'), ('say', 'VBP')]


<h3><a name='stopwords'>2.3 停止词</a></h3>

一千个he，有一千种指代。    
一千个the，有一千种指事。

对于注重理解文本【意思】的应用场景来说，歧义太多。

全体stopwords列表：http://www.ranks.nl/stopwords

#### NLTK去除stopwords
首先，记得在console里面加载一下词库，或者，nltk.download('stopwords')

In [65]:
from nltk.corpus import stopwords
# 先tokenize分词，得到word_list
word_list = nltk.word_tokenize('I am chinese.')
# 然后filter一把
filtered_words = [word for word in word_list if word not in stopwords.words('english')]
print(filtered_words)

['I', 'chinese', '.']


----

<h2><a name='3examples'>3.NLP经典三案例</a></h2>

什么是自然语言处理？

<img src='./images/nltk11.png' width='40%'/>

文本预处理让我们得到了什么？
<img src='./images/nltk12.png' width='40%'/>

NLTK在NLP上的经典应用：情感分析、文本相似度、文本分类。

<h3><a name='sentiment'>3.1 情感分析</a></h3>

工业界还是很受欢迎，常用于行研报告，舆情分析。
<img src='./images/nltk13.png' width='60%'/>

最简单的sentiment dictionary:
- like 1
- good 2
- bad -2
- terrible -3

类似于关键词打分机制

比如：AFINN-111
http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010

工业界确实是有公司用**中文的情感词库**，通过情感词库的关键词打分，最后得出结论。

#### NLTK完成简单的情感分析

In [36]:
sentiment_dictionary = {}
for line in open('./AFINN/AFINN-111.txt'):
    word, score = line.split('\t')
    sentiment_dictionary[word] = int(score)

In [68]:
print(len(sentiment_dictionary))
print(sentiment_dictionary['crash'])

2477
-2


In [40]:
words = nltk.word_tokenize('I love you! Beatiful Girl!')
# 把这个打分表记录在一个Dict上以后
# 跑一遍整个句子，把对应的值相加
total_score = sum(sentiment_dictionary.get(word, 0) for word in words)
# 有值就是Dict中的值，没有就是0

# 于是就得到了一个sentiment score
total_score

3

显然，这个方法太Naive。   
好处是：稳定。   
坏处是：不够高级。   
- 新词怎么半？
- 特殊词汇怎么办？
- 更深层次的玩意儿怎么办？

#### 升级：配上ML的情感分析

In [46]:
from nltk.classify import NaiveBayesClassifier

# 随手造训练集
s1 = 'this is a good book'
s2 = 'this is a awesome book'
s3 = 'this is a bad book'
s4 = 'this is a terrible book'

def preprocess(s):
    # Func：句子处理
    # 这里简单的用了split()，把句子中每个单词分开
    # 显然，还有更多的processiing method可以用
    return {word:True for word in s.lower().split()}
    # return⻓长这样:
    # {'this': True, 'is':True, 'a':True, 'good':True, 'book':True}
    # 其中, 前一个叫fname, 对应每个出现的文本单词;
    # 后一个叫fval, 指的是每个⽂本单词对应的值。
    # 这里我们用最简单的True,来表示,这个词『出现在当前的句句⼦子中』的意义。
    # 当然啦, 我们以后可以升级这个方程, 让它带有更加⽜逼的fval, ⽐如 word2vec

In [69]:
preprocess('this is a good book')

{'this': True, 'is': True, 'a': True, 'good': True, 'book': True}

In [73]:
# 把训练集给做成标准形式
training_data = [[preprocess(s1), 'pos'],
                 [preprocess(s2), 'pos'],
                 [preprocess(s3), 'neg'],
                 [preprocess(s4), 'neg'],
                ]

# 喂给model
model = NaiveBayesClassifier.train(training_data)

print(model.classify(preprocess('this is a good boy')))

pos


In [70]:
training_data

[[{'this': True, 'is': True, 'a': True, 'good': True, 'book': True}, 'pos'],
 [{'this': True, 'is': True, 'a': True, 'awesome': True, 'book': True}, 'pos'],
 [{'this': True, 'is': True, 'a': True, 'bad': True, 'book': True}, 'neg'],
 [{'this': True, 'is': True, 'a': True, 'terrible': True, 'book': True},
  'neg']]

<h3><a name='similarity'>3.2 文本相似度</a></h3>

<img src='./images/nltk14.png' width='60%'/>

#### 用元素频率表示文本特征
<img src='./images/nltk15.png' width='60%'/>

转换为向量就是：
{1,0,3,0,1,1},    
{1,0,2,0,1,1},   
{0,1,0,1,0,0},   此处用词频表示句子的特征向量。

通过**余弦定理**计算两个向量在二维空间内的相似度。

#### 余弦定理
$$similarity = \cos \theta = \frac{A \cdot B}{||A|| ||B||}$$

对于二维空间，根据向量点积公式，显然可以得知：
$$\cos \theta = \frac{A \cdot B}{||A|| ||B||}$$

假设向量a,b的坐标分别为$(x_1,y_1)$,$(x_2,y_2)$，则：
$$\cos \theta = \frac{x_1x_2 + y_1 y_2}{\sqrt{x_1^2+y_1^2} \sqrt{x_2^2+y_2^2}}$$

设向量A=$(A_1, A_2, ..., A_n)$, B=$(B_1, B_2,..., B_n)$。推广到多维：
$$\cos \theta=\frac{\sum A_i * B_i}{\sqrt{\sum A_i^2}\sqrt{\sum B_i^2}}$$

余弦值的范围在[-1,1]之间，
- 值越趋近于1，代表两个向量的方向越接近；
- 越趋近于-1，他们的方向越相反；
- 接近于0，表示两个向量近乎于正交。

最常见的应用就是计算文本相似度。将两个文本根据他们词，建立两个向量，计算这两个向量的余弦值，就可以知道两个文本在统计学方法中他们的相似度情况。实践证明，这是一个非常有效的方法。

#### Frequency频率统计

In [48]:
import nltk
from nltk import FreqDist

# 做个词库
corpus = 'this is my sentence this is my life this is the day'

# 文本预处理tokenize
# 可以根据需要做任何的preprocessing: stopwords, lemma, stemming , etc
tokens = nltk.word_tokenize(corpus)
print(tokens)

['this', 'is', 'my', 'sentence', 'this', 'is', 'my', 'life', 'this', 'is', 'the', 'day']


In [49]:
# 借用NLTK的FreqDist统计一下文字出现的评率
fdist = FreqDist(tokens)

# fdist就类似于一个Dict,带上某个单词，可以看到它在整个文章中出现的次数。
print(fdist['is'])

3


In [50]:
fdist

FreqDist({'this': 3, 'is': 3, 'my': 2, 'sentence': 1, 'life': 1, 'the': 1, 'day': 1})

In [52]:
# 把最常用的50个单词拿出来
standard_freq_vector = fdist.most_common(50)
size = len(standard_freq_vector)
print(size)
print(standard_freq_vector)

7
[('this', 3), ('is', 3), ('my', 2), ('sentence', 1), ('life', 1), ('the', 1), ('day', 1)]


In [55]:
# Func: 按照出现频率大小，记录下每一个单词的位置
def position_lookup(v):
    res = {}
    counter = 0
    for word in v:
        res[word[0]] = counter
        counter +=1
    return res

# 把标准的单词位置记录下来，得到一个位置对照表
standard_position_dict = position_lookup(standard_freq_vector)
print(standard_position_dict)

{'this': 0, 'is': 1, 'my': 2, 'sentence': 3, 'life': 4, 'the': 5, 'day': 6}


In [57]:
# 这时，如果我们有一个新句子
sentence = 'this is cool'

# 先新建一个跟我们的标准vector同样大小的向量
freq_vector = [0] * size

# 简单的preprocessing
tokens = nltk.word_tokenize(sentence)

# 对这个新句子里面的每一个单词
for word in tokens:
    try:
        # 如果在我们的词库中出现过，那么就在“标准位置“上+1
        freq_vector[standard_position_dict[word]] +=1
    except KeyError:
        continue
    
print(freq_vector)

[1, 1, 0, 0, 0, 0, 0]


<h3><a name='classification'>3.3 文本分类</a></h3>

<img src='./images/nltk16.png' width='60%'/>

在文本分类中，用TF-IDF来表示文本的特征向量。

相对于词频统计，在业界，TF-IDF是用得非常多的。
词频是可以用的，但是对于单词的选取是有一定的问题的，计算出来的相似度没有一定的代表性。更加推荐TF-IDF。

#### TF-IDF
- TF: Term Frequency，衡量一个term在文档中出现得有多频繁。

$$TF(t) = \frac{t出现在文档中的次数}{文档中term的总数}$$

- IDF: Inverse Document Frequency，衡量一个term有多重要。
有写词出现的很多，但是明显不是很有卵用。比如：'is','the','and'之类的。
为了平衡，我们把罕见的词的重要性（weight）搞高，把常见词的重要性搞低。

$$IDF(t) = \log_e \frac{文档总数}{含有t的文档总数}$$

$$TF-IDF = TF*IDF$$

举个例子：   
一个文档有100个词，其中单词baby出现了3次。   
那么，TF(baby) = (3/100) =0.03。

好，现在我们如果有10M的文档，baby出现在其中的1000个文档中。   
那么，IDF(baby) = $\log_{10} (10000000/1000) $= 4

所以，$TF-IDF(baby) = TF(baby) * IDF(baby) = 0.03 * 4 =0.12$

In [75]:
import math
math.log(10000, 10)

4.0

数学之美中是以2为底的log函数，此处文档中是以e为底的log函数，但示例中是以10为底的log函数。

#### NLTK实现TF-IDF

In [132]:
from nltk.text import TextCollection
# ⾸先, 把所有的⽂档放到TextCollection类中。
# 这个类会⾃动帮你断句, 做统计, 做计算
corpus = TextCollection(['this is sentence one',
                                'this is sentence two',
                                'this is sentence three'])
# 直接就能算出tfidf
# (term: ⼀句话中的某个term, text: 这句话)
print(corpus.tf_idf('this', 'this is sentence four'))
# 0.444342

# 同理, 怎么得到⼀个标准⼤小的vector来表示所有的句子?
# 对于每个新句子
new_sentence = 'this is sentence five'
# 遍历⼀遍所有的vocabulary中的词:
for word in corpus.tokens:
    print(corpus.tf_idf(word, new_sentence))
# 我们会得到⼀个巨长(=所有vocab⻓度)的向量

0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0


In [116]:
from nltk.text import TextCollection

# 就所有文档放到TextCollection类中，该类会自动断句，做统计，做计算
corpus = ['this is sentence one','this is sentence two', 'this is sentence three']
tokens = [nltk.word_tokenize(sentence) for sentence in corpus]
textC= TextCollection(tokens)

# 直接算出tf_idf
print(textC.tf_idf('this', 'this is sentence one'))

0.0


In [128]:
textC.idf('go')

0.0

In [108]:
import nltk.corpus
from nltk.text import TextCollection
from nltk.book import text1,text2,text3
gutenberg = TextCollection(nltk.corpus.gutenberg)
mytexts = TextCollection([text1, text2, text3])

In [112]:
print(mytexts.tf('the', 'in the world'))
print(mytexts.tf_idf('the', 'in the world'))
print(mytexts.idf('the'))

0.08333333333333333
0.0
0.0


注意：此处nltk.text.TextCollection跑出来结果很奇怪，很难获得如最上面示例的结果。可能是包的安装不完全，或者是用法改变等原因。

**接下来？可以用机器学习的模型**：

<img src='./images/nltk17.png' width='30%'/>

文本分类中，Label可以是：小说，新闻，等类别标签。

<h2><a name='deeplearning'>4.深度学习加持</a></h2>

**Deep learning** is a branch of machine learning based on a set of algorithms that attempt to model **high-level abbstractions** in data by using a deep graph with multiple processing layers, composed of multiple linear and non-linear transformations.

<img src='./images/nltk18.png' width='40%'/>

Keras:基于Theano和TensorFlow的深度学习库   
Keras是一个高层神经网络API，Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。Keras 为支持快速实验而生，能够把你的idea迅速转换为结果，如果你有如下需求，请选择Keras：
- 简易和快速的原型设计（keras具有高度模块化，极简，和可扩充特性）
- 支持CNN和RNN，或二者的结合
- 无缝CPU和GPU切换

gensim:业界最好的做Word2Vec的库。   
Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。   
- 它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法， 
- 支持流式训练，
- 并提供了诸如相似度计算，信息检索等一些常用任务的API接口

<h3><a name='autoencoder'>4.1 Auto-Encoder</a></h3>

<img src='./images/nltk19.png' width='60%'/>

自动编码器是一种数据的**压缩算法**，其中数据的**压缩**和**解压缩**函数是数据相关的、有损的、从样本中自动学习的。
- Data-specific 只能指定模型学习的数据，如学习的是动物图片，就不能勇看来数字图片。
- Lossy 有损耗的
- Learn from examples

在大部分提到自动编码器的场合，压缩和解压缩的函数是通过神经网络实现的。

1）自动编码器是数据相关的（data-specific 或 data-dependent），这意味着自动编码器只能压缩那些与训练数据类似的数据。比如，使用人脸训练出来的自动编码器在压缩别的图片，比如树木时性能很差，因为它学习到的特征是与人脸相关的。

2）自动编码器是有损的，意思是解压缩的输出与原来的输入相比是退化的，MP3，JPEG等压缩算法也是如此。这与无损压缩算法不同。

3）自动编码器是从数据样本中自动学习的，这意味着很容易对指定类的输入训练出一种特定的编码器，而不需要完成任何新工作。

搭建一个自动编码器需要完成下面三样工作：
- 搭建编码器，
- 搭建解码器，
- 设定一个损失函数，用以衡量由于压缩而损失掉的信息。

编码器和解码器一般都是参数化的方程，并关于损失函数可导，典型情况是使用神经网络。
编码器和解码器的参数可以通过**最小化损失函数而优化**，例如SGD。

自编码器是一个**自监督的算法，并不是一个无监督算法**。    
自监督学习是监督学习的一个实例，其标签产生自输入数据。要获得一个自监督的模型，你需要**一个靠谱的目标跟一个损失函数**，仅仅把目标设定为重构输入可能不是正确的选项。     
基本上，要求模型在像素级上精确重构输入不是机器学习的兴趣所在，**学习到高级的抽象特征才是。**   
事实上，当主要任务是**分类、定位**之类的任务时，那些对这类任务而言的最好的特征基本上都是重构输入时的最差的那种特征。

目前自编码器的应用主要有两个方面：
- 第一是数据去噪，
- 第二是为进行可视化而降维。    
配合适当的维度和稀疏约束，自编码器可以学习到比PCA等技术更有意思的数据投影。

对于2D的数据可视化，t-SNE（读作tee-snee）或许是目前最好的算法，但通常还是需要原数据的维度相对低一些。   
所以，**可视化高维数据的一个好办法是**:
- 首先使用自编码器将维度降低到较低的水平（如32维），
- 然后再使用t-SNE将其投影在2D平面上。

In [134]:
from keras.layers import Input, Dense
from keras.models import Model
from sklearn.cluster import KMeans

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


In [163]:
class ASCIIAutoencoder():
    '''基于字符的Autoencoder.'''
    
    def __init__(self, sen_len=512, encoding_dim=32, epoch=50, val_ratio=0.3):
        '''
        :param sen_len: 把sentences pad成相同的长度
        :param encoding_dim: 压缩后的维度dim
        :param epoch: 要跑多少epoch
        :param kmeanmodel: 简单的KNN Clustering 模型
        把512长度的长度压缩成32位的编码。
        '''
        self.sen_len = sen_len
        self.encoding_dim = encoding_dim
        self.autoencoder = None
        self.encoder = None
        self.kmeanmodel = KMeans(n_clusters=2)
        self.epoch = epoch
    
    def fit(self, x):
        '''
        模型构建。
        :param x: input text
        '''
        # 把所有的trainset都搞成同一个size，并把每一个字符都换成ascii码
        x_train = self.preprocess(x, length=self.sen_len)
        # 然后给input预留好位置
        input_text = Input(shape=(self.sen_len, ))
        # 'encoded' 每经过一层，都被刷新成小一点的“压缩后表达式”
        encoded = Dense(1024, activation='tanh')(input_text)
        encoded = Dense(512, activation='tanh')(encoded)
        encoded = Dense(128, activation='tanh')(encoded)
        encoded = Dense(self.encoding_dim, activation='tanh')(encoded)
        
        # 'decoded' 就是把刚刚压缩完的东西，给反过来还原成input_text
        decoded = Dense(128, activation='tanh')(encoded)
        decoded = Dense(512, activation='tanh')(decoded)
        decoded = Dense(1024, activation='tanh')(decoded)
        decoded = Dense(self.sen_len, activation='sigmoid')(decoded)
        
        # 整个从大到小再到大的model，叫autoencoder
        self.autoencoder = Model(input=input_text, output=decoded)
        
        # 那么，只从大到小（也就是一半的model）就叫 encoder
        self.encoder = Model(input=input_text, output=encoded)
        
        # 同理，我们接下来搞一个decoder出来，也就是从小到大的model
        # 首先，encoded的input size给预留好
        encoded_input = Input(shape=(1024,))
        # autoencoder的最后一层，就应该是decoder的第一层
        decoder_layer = self.autoencoder.layers[-1]
        # 然后，我们从头到尾连起来，就是一个decoder了！
        decoder = Model(input=encoded_input, output=decoder_layer(encoded_input))
        
        # compile
        self.autoencoder.compile(optimizer='adam', loss='mse')
        
        # 跑起来
        self.autoencoder.fit(x_train, x_train, nb_epoch=self.epoch, batch_size=1000, shuffle=True)
        
        # 这一部分是自己拿自己train一下KNN，一件简单的基于距离的分类器
        x_train = self.encoder.predict(x_train)
        self.kmeanmodel.fit(x_train)
        
    def predict(self, x):
        '''
        做预测。
        :param x: input text
        :param: predictions
        '''
        # 同理，第一步：把来的都搞成ASCII化，并且长度相同
        x_test = self.preprocess(x, length=self.sen_len)
        # 然后用encoder把test集给压缩
        x_test = self.encoder.predict(x_test)
        # KNN给分类出来
        preds = self.kmeanmodel.predict(x_test)
        
        return preds
    
    def preprocess(self, s_list, length=256):
        ''''''

In [161]:
a

<tf.Tensor 'input_2:0' shape=(?, 10) dtype=float32>

<h3><a name='word2vec'>4.2 Word2Vec</a></h3>

<img src='./images/nltk20.png' width='60%'/>

- Lexical Taxonomy 词汇分类：WordNet (Miller, 1990)
- Symbolic Representation 符号表示：One-Hot (Turian et al., 2010)
- Distributional Similarity Based Representation 相似度表示：
- Full document: TF-IDF (Joachims, 1996)
- Window: co-occurrence matrix + SVD (Bullinaria & Levy, 2012)

语料：   
Are you kidding?   
No, I am serious?   
I am kidding.   
You are serious.  
Are you serious?   
Am I kidding?   

window=1时的矩阵化表示：
<img src='./images/nltk21.png' width='60%'/>

<img src='./images/nltk22.png' width='60%'/>

<img src='./images/nltk23.png' width='40%'/>

<img src='./images/nltk24.png' width='40%'/>

<img src='./images/nltk25.png' width='40%'/>

**Skip-gram**:
    works well with small amount of the training data, represents well even rate words or phrases.

**CBOW**:
    several times faster to train than the skip-gram, slightly better accuracy for the frequent words.

In [262]:
from bs4 import BeautifulSoup

# 1. 去除HTML，用到BeautifulSoup
raw_text = """
<html><head><title>The Dormouse's story</title></head>

<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
beautiful_text = BeautifulSoup(raw_text).get_text()

beautiful_text



 BeautifulSoup(YOUR_MARKUP})

to this:

 BeautifulSoup(YOUR_MARKUP, "lxml")

  markup_type=markup_type))


"The Dormouse's story\nThe Dormouse's story\nOnce upon a time there were three little sisters; and their names were\nElsie,\nLacie and\nTillie;\nand they lived at the bottom of a well.\n...\n"

In [263]:
# 2. 把字母的去掉，用正则表达式解决
import re
letters_only = re.sub(r'[^a-zA-Z]',' ', beautiful_text)


In [267]:
# 3. 全部小写化
words = letters_only.lower().split()
words[:5]

['the', 'dormouse', 's', 'story', 'the']

In [268]:
# 4. 去除stopwords
from nltk.corpus import stopwords
stops = set(stopwords.words('english'))
meaningful_words = [w for w in words if not w in stops]

In [276]:
# 5. 高阶文字处理：Lemmatization
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
lemmatization_words =[wordnet_lemmatizer.lemmatize(w) for w in meaningful_words]

In [280]:
# 6. 合并成长string
' '.join(lemmatization_words)

'dormouse story dormouse story upon time three little sister name elsie lacie tillie lived bottom well'

In [289]:
# tokenizer: 把原来的string训练集，变成list of lists:
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
tokenizer

<nltk.tokenize.punkt.PunktSentenceTokenizer at 0x1142e52e8>

In [290]:
sentences = [['hello', 'how'], ['fine', 'thank']]