# <center>自然语言处理——小练习</center>

### 练习1：基于词袋模型表示的分类方法

```py
from collections import Counter
def vectorize_wordbag(sequences, dimension=3000):
    results = np.zeros((len(sequences), dimension)) #数据集长度，每个评论维度3000
    for i, sequence in enumerate(sequences):
        ct = Counter(sequence)
        results[i] = [ct[i+1] for i in range(dimension)] # 词袋模型
    return results
```

In [None]:
# 小练习
# 基于词袋模型表示的分类方法

import numpy as np
from keras.datasets import imdb
from collections import Counter
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation

num_words = 3000
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=num_words)

def vectorize_wordbag(sequences, dimension=3000):
    results = np.zeros((len(sequences), dimension)) #数据集长度，每个评论维度3000
    for i, sequence in enumerate(sequences):
        ct = Counter(sequence)
        results[i] = [ct[i+1] for i in range(dimension)] # 词袋模型
    return results

x_train = vectorize_wordbag(train_data)
x_test = vectorize_wordbag(test_data)

y_train = np.asarray(train_labels).astype('float32') # 向量化标签数据
y_test = np.asarray(test_labels).astype('float32')

model = Sequential()
model.add(Dense(16, activation='relu', input_shape=(num_words,)))
model.add(Dense(16, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='adam',
                       loss='binary_crossentropy',
                       metrics=['accuracy'])

model.summary()

model.fit(x_train, y_train, epochs=20, batch_size=512, validation_data=(x_test, y_test))

scores = model.evaluate(x_test, y_test, verbose=0)
print("Accuracy: %.2f%%" % (scores[1]*100))

### 练习2：基于LeNet-5模型的IMDB评论分类

![image](images/LeNet.jpg)

In [None]:
# 小练习 
# 基于LeNet-5模型的IMDB评论分类

from keras.datasets import imdb
from keras import preprocessing
from keras.utils.np_utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Flatten
from keras.layers import Embedding
from keras.layers import Conv1D, MaxPooling1D

######### 只考虑最常见的3000个词 ########
num_words = 3000

######### 导入数据 #########
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=num_words)

# 对数据集切片，取一部分来实验
train_data = train_data[:5000]
train_labels = train_labels[:5000]
test_data = test_data[:5000]
test_labels = test_labels[:5000]

# 1. 数据处理
max_len = 50
x_train = preprocessing.sequence.pad_sequences(train_data, maxlen=max_len)
x_test = preprocessing.sequence.pad_sequences(test_data, maxlen=max_len)

num_class = 2
y_train = to_categorical(train_labels, num_class)
y_test = to_categorical(test_labels, num_class)
# 2. 构建模型
max_features = 3000
embedding_dims = 50
filters = 16
kernel_size = 3
hidden_dims = 64

print('Build model...')
model = Sequential()
model.add(Embedding(max_features, embedding_dims, input_length=max_len))
model.add(Conv1D(filters, kernel_size, padding = 'same', activation = 'relu'))
model.add(MaxPooling1D(pool_size = 2))
model.add(Conv1D(filters, kernel_size, padding = 'same', activation = 'relu'))
model.add(MaxPooling1D(pool_size = 2))
model.add(Dropout(0.25))
model.add(Dense(120, activation = 'relu'))
model.add(Dense(84, activation = 'relu'))
model.add(Flatten())
model.add(Dense(2, activation = 'softmax'))

print(model.summary())
# 3. 模型训练
# sigmoid sotftmax
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['acc'])

history_cnn = model.fit(x_train, y_train,
                        batch_size=32,
                        epochs=2,
                        validation_split=0.2)
# 4. 模型评价
scores = model.evaluate(x_test, y_test, verbose=0)
print("Accuracy: %.2f%%" % (scores[1]*100))

### 练习3：基于GRU网络的IMDB评论分类

```py
from keras.layers import GRU
```

In [None]:
# 小练习 
# 基于GRU网络的IMDB评论分类

from keras.datasets import imdb
from keras import preprocessing
from keras.utils.np_utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Flatten
from keras.layers import Embedding, GRU

######### 只考虑最常见的3000个词 ########
num_words = 3000

######### 导入数据 #########
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=num_words)

# 对数据集切片，取一部分来实验
train_data = train_data[:5000]
train_labels = train_labels[:5000]
test_data = test_data[:5000]
test_labels = test_labels[:5000]

# 1. 数据处理
max_len = 50
x_train = preprocessing.sequence.pad_sequences(train_data, maxlen=max_len)
x_test = preprocessing.sequence.pad_sequences(test_data, maxlen=max_len)

num_class = 2
y_train = to_categorical(train_labels, num_class)
y_test = to_categorical(test_labels, num_class)
# 2. 构建模型
max_features = 3000
embedding_dims = 50
filters = 16
kernel_size = 3
hidden_dims = 64

print('Build model...')
model = Sequential()
model.add(Embedding(max_features, 32))  #将每个词原来是整数，转换为 32位的向量
model.add(GRU(32))                       #LSTM
model.add(Dense(2, activation = 'softmax'))

print(model.summary())
# 3. 模型训练
# sigmoid sotftmax
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['acc'])

history_cnn = model.fit(x_train, y_train,
                        batch_size=32,
                        epochs=2,
                        validation_split=0.2)
# 4. 模型评价
scores = model.evaluate(x_test, y_test, verbose=0)
print("Accuracy: %.2f%%" % (scores[1]*100))

### 练习4：文本匹配与相似度计算

* 训练数据
```py
train_documents = [
    '南京江心洲污泥偷排或处置不当而造成的污染问题，不断被媒体曝光',
    '面对美国金融危机冲击与国内经济增速下滑形势，中国政府在2008年11月初快速推出“4万亿”投资十项措施',
    '全国大面积出现的雾霾，使解决我国环境质量恶化问题的紧迫性得到全社会的广泛关注',
    '大约是1962年的夏天吧，潘文突然出现在我们居住的安宁巷中，她旁边走着40号王孃孃家的大儿子，一看就知道，他们是一对恋人。那时候，潘文梳着一条长长的独辫',
    '坐落在美国科罗拉多州的小镇蒙特苏马有一座4200平方英尺(约合390平方米)的房子，该建筑外表上与普通民居毫无区别，但其内在构造却别有洞天',
    '据英国《每日邮报》报道，美国威斯康辛州的非营利组织“占领麦迪逊建筑公司”(OMBuild)在华盛顿和俄勒冈州打造了99平方英尺(约9平方米)的迷你房屋',
    '长沙市公安局官方微博@长沙警事发布消息称，3月14日上午10时15分许，长沙市开福区伍家岭沙湖桥菜市场内，两名摊贩因纠纷引发互殴，其中一人被对方砍死',
    '乌克兰克里米亚就留在乌克兰还是加入俄罗斯举行全民公投，全部选票的统计结果表明，96.6%的选民赞成克里米亚加入俄罗斯，但未获得乌克兰和国际社会的普遍承认',
    '京津冀的大气污染，造成了巨大的综合负面效应，显性的是空气污染、水质变差、交通拥堵、食品不安全等，隐性的是各种恶性疾病的患者增加，生存环境越来越差',
    '1954年2月19日，苏联最高苏维埃主席团，在“兄弟的乌克兰与俄罗斯结盟300周年之际”通过决议，将俄罗斯联邦的克里米亚州，划归乌克兰加盟共和国',
    '北京市昌平区一航空训练基地，演练人员身穿训练服，从机舱逃生门滑降到地面',
    '腾讯入股京东的公告如期而至，与三周前的传闻吻合。毫无疑问，仅仅是传闻阶段的“联姻”，已经改变了京东赴美上市的舆论氛围',
    '国防部网站消息，3月8日凌晨，马来西亚航空公司MH370航班起飞后与地面失去联系，西安卫星测控中心在第一时间启动应急机制，配合地面搜救人员开展对失联航班的搜索救援行动',
    '新华社昆明3月2日电，记者从昆明市政府新闻办获悉，昆明“3·01”事件事发现场证据表明，这是一起由新疆分裂势力一手策划组织的严重暴力恐怖事件',
    '在即将召开的全国“两会”上，中国政府将提出2014年GDP增长7.5%左右、CPI通胀率控制在3.5%的目标',
    '中共中央总书记、国家主席、中央军委主席习近平看望出席全国政协十二届二次会议的委员并参加分组讨论时强调，团结稳定是福，分裂动乱是祸。全国各族人民都要珍惜民族大团结的政治局面，都要坚决反对一切危害各民族大团结的言行'
]
```
* 测试数据
```py
test_document = '媒体曝光南京江心洲污泥偷排或处置不当而造成的污染问题'
```

In [None]:
import jieba
import numpy as np
from gensim.models import LdaModel
from sklearn.metrics.pairwise import cosine_similarity
from gensim import corpora, similarities, models

In [None]:
# 训练样本
train_documents = [
    '南京江心洲污泥偷排或处置不当而造成的污染问题，不断被媒体曝光',
    '面对美国金融危机冲击与国内经济增速下滑形势，中国政府在2008年11月初快速推出“4万亿”投资十项措施',
    '全国大面积出现的雾霾，使解决我国环境质量恶化问题的紧迫性得到全社会的广泛关注',
    '大约是1962年的夏天吧，潘文突然出现在我们居住的安宁巷中，她旁边走着40号王孃孃家的大儿子，一看就知道，他们是一对恋人。那时候，潘文梳着一条长长的独辫',
    '坐落在美国科罗拉多州的小镇蒙特苏马有一座4200平方英尺(约合390平方米)的房子，该建筑外表上与普通民居毫无区别，但其内在构造却别有洞天',
    '据英国《每日邮报》报道，美国威斯康辛州的非营利组织“占领麦迪逊建筑公司”(OMBuild)在华盛顿和俄勒冈州打造了99平方英尺(约9平方米)的迷你房屋',
    '长沙市公安局官方微博@长沙警事发布消息称，3月14日上午10时15分许，长沙市开福区伍家岭沙湖桥菜市场内，两名摊贩因纠纷引发互殴，其中一人被对方砍死',
    '乌克兰克里米亚就留在乌克兰还是加入俄罗斯举行全民公投，全部选票的统计结果表明，96.6%的选民赞成克里米亚加入俄罗斯，但未获得乌克兰和国际社会的普遍承认',
    '京津冀的大气污染，造成了巨大的综合负面效应，显性的是空气污染、水质变差、交通拥堵、食品不安全等，隐性的是各种恶性疾病的患者增加，生存环境越来越差',
    '1954年2月19日，苏联最高苏维埃主席团，在“兄弟的乌克兰与俄罗斯结盟300周年之际”通过决议，将俄罗斯联邦的克里米亚州，划归乌克兰加盟共和国',
    '北京市昌平区一航空训练基地，演练人员身穿训练服，从机舱逃生门滑降到地面',
    '腾讯入股京东的公告如期而至，与三周前的传闻吻合。毫无疑问，仅仅是传闻阶段的“联姻”，已经改变了京东赴美上市的舆论氛围',
    '国防部网站消息，3月8日凌晨，马来西亚航空公司MH370航班起飞后与地面失去联系，西安卫星测控中心在第一时间启动应急机制，配合地面搜救人员开展对失联航班的搜索救援行动',
    '新华社昆明3月2日电，记者从昆明市政府新闻办获悉，昆明“3·01”事件事发现场证据表明，这是一起由新疆分裂势力一手策划组织的严重暴力恐怖事件',
    '在即将召开的全国“两会”上，中国政府将提出2014年GDP增长7.5%左右、CPI通胀率控制在3.5%的目标',
    '中共中央总书记、国家主席、中央军委主席习近平看望出席全国政协十二届二次会议的委员并参加分组讨论时强调，团结稳定是福，分裂动乱是祸。全国各族人民都要珍惜民族大团结的政治局面，都要坚决反对一切危害各民族大团结的言行'
]

In [None]:
# 分词处理，文档序列
corpora_documents = []
for item_text in train_documents:
    item_seg = list(jieba.cut(item_text))
    corpora_documents.append(item_seg)
corpora_documents

In [None]:
# 生成字典
dictionary = corpora.Dictionary(corpora_documents)
# dictionary.save('tmp/exercise.dict') #保存
# dictionary=Dictionary.load('tmp/exercise.dict')#加载
dictionary

In [None]:
# 生成向量语料
# 通过下面一句得到语料中每一篇文档对应的稀疏向量（这里是bow向量）
corpus = [dictionary.doc2bow(text) for text in corpora_documents]
# 向量的每一个元素代表了一个word在这篇文档中出现的次数
# corpora.MmCorpus.serialize('tmp/exercise.mm',corpus)#保存
# corpus=corpora.MmCorpus('tmp/exercise.mm')#加载
corpus

In [None]:
test_document = '媒体曝光南京江心洲污泥偷排或处置不当而造成的污染问题'
test_seq = list(jieba.cut(test_document))
test_seq

In [None]:
lda_model = models.LdaModel(corpus=corpus, id2word=dictionary, num_topics=10)

In [None]:
vec_bow = dictionary.doc2bow(test_seq)
vec_lda = lda_model[vec_bow] 
vec_lda

In [None]:
index = similarities.MatrixSimilarity(lda_model[corpus])
sims = index[vec_lda] 
print(list(enumerate(sims)))

In [None]:
tfidf_model = models.TfidfModel(corpus=corpus, id2word=dictionary)

In [None]:
vec_bow = dictionary.doc2bow(test_seq)
vec_tfidf = tfidf_model[vec_bow] 
vec_tfidf

In [None]:
index = similarities.MatrixSimilarity(tfidf_model[corpus])
sims = index[vec_tfidf] 
print(list(enumerate(sims)))

In [None]:
word2vec_model = models.KeyedVectors.load_word2vec_format('tmp/sgns.wiki.bigram-char',binary=False)

In [None]:
word2vec_model.vector_size

In [None]:
test_vector = np.zeros(300)
for word in test_seq:
    if word in word2vec_model:
        test_vector = np.add(test_vector, word2vec_model[word])
test_vector = np.divide(test_vector, len(test_seq))

In [None]:
train_vectors = []
for sentence in corpora_documents:
    sentenceVector = np.zeros(300)
    for word in sentence:
        if word in word2vec_model:
            sentenceVector = np.add(sentenceVector, word2vec_model[word])
    sentenceVector = np.divide(sentenceVector, len(sentence))
    train_vectors.append(sentenceVector)

In [None]:
all_vectors = train_vectors[:]

In [None]:
all_vectors.insert(0, test_vector)

In [None]:
similarity=cosine_similarity(all_vectors)
similarity[0]