## 一.import相关模块

In [1]:
import numpy as np
import keras  # 导入keras框架
from keras.datasets import imdb  # 数据集
from keras.models import Sequential  # 序列模型
from keras.layers import Dense, Dropout, Activation  # 不同层需要用到的
from keras.preprocessing.text import Tokenizer # Tokenizer是一个分词器的模块
from keras import optimizers  # 导入优化器
import matplotlib.pyplot as plt  
%matplotlib inline
np.random.seed(42)

Using TensorFlow backend.


## 二.载入数据集

该数据集预先加载了 Keras，所以load_data命令就可以我们训练和测试数据。 num_words设置为1000，代表常用的词为1000个。

In [2]:
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=1000)  # num_words代表常用词 1000个词

print(x_train.shape)
print(y_train.shape)
print(x_test.shape)
print(y_test.shape)

(25000,)
(25000,)
(25000,)
(25000,)


## 三.向量化文本，即将文本转化为序列

ont-hot编码处理。例如，如果预处理的向量包含数字 14，则在处理的向量中，第 14 个输入将是 1。 其中，Tokenizer是一个用于向量化文本，或将文本转换为序列（即单词在字典中的下标构成的列表，从1算起）。

In [3]:
tokenizer = Tokenizer(num_words=1000) # 将文本转换成序列，长度为1000
x_train = tokenizer.sequences_to_matrix(x_train, mode='binary')  # 对输入的训练集进行one-hot编码
x_test = tokenizer.sequences_to_matrix(x_test, mode='binary')  # 对输入的测试集进行one-hot编码

num_classes = 2
y_train = keras.utils.to_categorical(y_train, num_classes)  # 对输出的训练集进行one-hot编码
y_test = keras.utils.to_categorical(y_test, num_classes)  # 对输出的测试集进行one-hot编码

## 四.keras搭建神经网络

In [6]:
model = Sequential()    #  #创建序列模型，网络结构是1000*512*60*2
model.add(Dense(100, activation='sigmoid', input_dim=1000))  # 输入层节点是1000，全连接层的节点是100，激活函数是sigmoid
model.add(Dropout(0.5))  # 使用dropout技术
model.add(Dense(60,activation='sigmoid')) # 添加隐藏层节点60，激活函数是sigmoid
model.add(Dropout(0.5))
model.add(Dense(10,activation='relu')) # 激活函数是relu
model.add(Dropout(0.5))
model.add(Dense(num_classes, activation='softmax'))  # 输出层采用softmax激活函数
model.summary()  # 查看模型结构

model.compile(loss='categorical_crossentropy',
              optimizer='Adam',  # 优化器采用Adam，sgd优化效果没有这个好
              metrics=['accuracy'])

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_5 (Dense)              (None, 100)               100100    
_________________________________________________________________
dropout_4 (Dropout)          (None, 100)               0         
_________________________________________________________________
dense_6 (Dense)              (None, 60)                6060      
_________________________________________________________________
dropout_5 (Dropout)          (None, 60)                0         
_________________________________________________________________
dense_7 (Dense)              (None, 10)                610       
_________________________________________________________________
dropout_6 (Dropout)          (None, 10)                0         
_________________________________________________________________
dense_8 (Dense)              (None, 2)                 22        
Total para

## 五.训练神经网络

In [7]:
hist = model.fit(x_train,
                 y_train, 
                 batch_size=100,
                 epochs=100,
                 validation_data=(x_test, y_test), 
                 verbose=2)

Train on 25000 samples, validate on 25000 samples
Epoch 1/100


InternalError: GPU sync failed

## 六.评估模型的精确度

In [8]:
score = model.evaluate(x_test, y_test, verbose=0)
print("Accuracy: ", score[1])

(25000, 2)
(25000, 2)
