In [2]:
import IPYNB_IMPORTER
import Phase2
from DivisionForP2 import Dataset
import numpy as np
import keras
from sklearn.utils import shuffle
from sklearn.preprocessing import MinMaxScaler
from keras.utils import to_categorical
from keras.models import Sequential, load_model
from keras.layers import Dense, Activation,Dropout,Conv2D,MaxPooling2D, Flatten
from keras.optimizers import RMSprop,Nadam,Adam
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt
import random
from keras.utils.vis_utils import plot_model

ModuleNotFoundError: No module named 'Phase2'

In [None]:
class LossHistory(keras.callbacks.Callback):
    def on_train_begin(self, logs={}):
        self.losses = {'batch':[], 'epoch':[]}
        self.accuracy = {'batch':[], 'epoch':[]}
        self.val_loss = {'batch':[], 'epoch':[]}
        self.val_acc = {'batch':[], 'epoch':[]} 
        
    def on_batch_end(self, batch, logs={}):

        self.losses['batch'].append(logs.get('loss'))
        self.accuracy['batch'].append(logs.get('accuracy'))
        self.val_loss['batch'].append(logs.get('val_loss'))
        self.val_acc['batch'].append(logs.get('val_accuracy'))
        
    def on_epoch_end(self, batch, logs={}):
        
        self.losses['epoch'].append(logs.get('loss'))
        self.accuracy['epoch'].append(logs.get('accuracy'))
        self.val_loss['epoch'].append(logs.get('val_loss'))
        self.val_acc['epoch'].append(logs.get('val_accuracy'))

    def loss_plot(self, loss_type,modelname):
        iters = range(len(self.losses[loss_type]))
    
        # acc
        plt.figure()
        plt.plot(iters, self.accuracy[loss_type], 'r', label='train acc')
        if loss_type == 'epoch':
            # val_acc
            plt.plot(iters, self.val_acc[loss_type], 'b', label='val acc')
        plt.grid(True)
        plt.xlabel(loss_type)
        plt.ylabel('acc')
        plt.legend(loc="upper right")
        plt.savefig(modelname+"_acc.png")
        plt.show()

        # loss
        plt.figure()
        plt.plot(iters, self.losses[loss_type], 'g', label='train loss')
        if loss_type == 'epoch':
            # val_loss
            plt.plot(iters, self.val_loss[loss_type], 'k', label='val loss')
        plt.grid(True)
        plt.xlabel(loss_type)
        plt.ylabel('loss')
        plt.legend(loc="upper right")
        plt.savefig(modelname+"_los.png")
        plt.show()


In [None]:
# 样本数据处理
# 输入：训练集样本数据或者测试集样本数据
# 输出：匹配CNN模型的输入数据
def X_data_processing(X):
    X[X==0] = -120
    normalize = MinMaxScaler()
    normalize.fit(X)
    X = normalize.transform(X)
    zero_test = np.zeros((len(X),15),dtype=float) #生成15个全零，用于扩充训练数据（469-》484=22*22）
    X_process = np.concatenate((X,zero_test),axis=1)    # 延长每个向量到22*22
    X_process = X_process.reshape(len(X_process),22,22)
    X_process = np.expand_dims(X_process,axis=3)
    return X_process
    

In [None]:
# 区域号数据处理
# 输入：区域号
# 输出：one-hot编码之后的区域号
def area_data_processing(area):
    area = area -1
    area = to_categorical(area,32) 
    return area
    

In [None]:
# 尝试写一个用于数据增强的数据生成器，这个生成器将放在fit_generator里面使用，直接生成增强数据
## 它应该接收原本用于训练的数据集作为输入
# X：原始样本，样本数不定，样本长度为469.未经过预处理。
# y：原始标签，样本数随X，长度为3，（区域，x，y），仅使用区域，需进一步处理和提取。
## 它应该输出一个用于训练的元组（gen_x,gen_y）
######gen_y :按照训练集生成的虚拟样本的标签，要根据该标签生成样本，它应该是经过预处理之后的标签，而不是长度为3的原始样子。
# gen_y的生成法：等概率地随机抽取区域。
# gen_y的预处理法：区域标记序号自然数将转化为长度为32的one-hot向量。
######gen_x：按照训练集生成的虚拟样本，它们应该依据样本特性随机产生，产生后需要经过预处理，以便直接投入模型训练。
# gen_x的生成法：首先确定该次随机样本的区域，根据区域特点确定每个AP的随机规则*，依次随机AP的读数。
# gen_x的预处理法：对0读数赋予-120的rssi值，再进行最大最小标准化。
#####################
# *随机规则：1.认为每个区域具有相同的属性。
#            2.该AP在该区域是否在实际数据集中取到过值？
#                Y: 计算取到值和未取到（0）之间的比例，从而计算未取到值（0）的概率p，进入下一行；
#                   该AP的随机读数将有p的概率为0。若随机结果为“是0”，退出，结果为0；若随机结果是“不为0”，进入下一行；
#                   计算该AP历史实际读数的最大值max、最小值min，该AP的随机读数r将在区间[min,max]随机产生，进入下一行；
#                   添加随机波动，r = r ± 5，退出。
#                N: 为0，退出。

def datagen(X,y,normalizer,batch_size=32): #X是训练数据集，y是训练标签集
    # 第一步：计算各个区域的每AP的属性。
    # 属性：为0的概率p。
    #       取值历史最小值min。
    #       取值历史最大值max。
    x_div_by_area,y_div_by_area = Phase2.DivByArea(X,y)#按区域进行划分
    attr = {}
    for area,samples in x_div_by_area.items():          #对于每一个区域
        total = len(samples)    # 该区域样本总个数
        zero = sum(samples == 0)  # 该区域每一列0的个数
        ratio = zero/total       # 该区域样本每个ap取0的可能性
        min_ = np.amin(samples,axis=0)   # 该区域可以取到的最小值
        samples[samples==0] = -120
        max_ = np.amax(samples,axis=0)   # 该区域可以取到的最大值
        # 已计算出 ratio min_ max_
        attr[area] = (ratio,min_,max_)
    while True:  
        vXs = [] #随机变换之后的样本集
        vys = [] #随机变换之后的标签集   
        for i in range(batch_size):
            area = random.randint(1,32)     # 每一次随机选择样本所处区域
            vX = []                # 预设一个虚拟X
            #取出需要的区域参数
            ratio = attr[area][0] #为0的概率
            min_ = attr[area][1]  #最小的可能取值
            max_ = attr[area][2] #最大的可能取值
            for apnum in range(len(X[0])):
                if random.random() < ratio[apnum]: #随机结果的概率小于该列取零的概率，即随机结果认为该AP取值应该为0 
                    ##random.random() 返回随机生成的一个在[0,1]范围的实数
                    vX.append(0)
                else:         # 随机结果认为该ap取值不应为0
                    temp = random.randint(min_[apnum],max_[apnum])#就在该列取值的最大值和最小值之间随机生成一个数
                    error = random.randint(-5,5) #随机产生一个（-5，5）之间的误差
                    temp = temp+error #随机结果认为该AP应该的取值
                    vX.append(temp)
            vXs.append(vX)
            vys.append(area)
            
        ###################### 下面是预处理流程
        vXs = np.array(vXs)   # 转为numpy数组
        vys = np.array(vys) 
        vXs_exp = X_data_processing(vXs)#处理vXs数据
        vys = area_data_processing(vys)
        yield (vXs_exp,vys)
    
    
    

In [None]:
y_test,X_test = Dataset("Test_1.csv")
y_train,X_train = Dataset("Train_1.csv")
normalize = MinMaxScaler()
X_test_exp = X_data_processing(X_test)#处理样本数据
area_test = y_test[:,0]
area_test = area_data_processing(area_test)
area_true = np.argmax(area_test,axis=1)+1

In [None]:
mymodel = Sequential([
    Conv2D(32,(3,3),activation='relu',input_shape=(22,22,1)),
    MaxPooling2D(pool_size=(2, 2)), #最大池化层
    Conv2D(32,(3, 3), activation='relu'),
    MaxPooling2D(pool_size=(2, 2)),
    Flatten(),  
    Dense(64,activation='relu'),
    Dropout(0.5),
    Dense(32),
    Activation('softmax'),
])

# 定义优化器
rmsprop = RMSprop(lr=0.001, rho=0.9, epsilon=1e-08, decay=0.0)
mymodel.compile(optimizer=rmsprop,
              loss='categorical_crossentropy',
              metrics=['accuracy']) # metrics赋值为'accuracy'，会在训练过程中输出正确率

history = LossHistory()


In [None]:
mymodel.summary()
plot_model(mymodel,to_file="./Picture/model_2.png",show_shapes=True)

In [None]:

print('Training ------------')
mymodel.fit_generator(datagen(X_train,y_train,normalize), steps_per_epoch = 100, epochs = 50, validation_data=(X_test_exp,area_test), callbacks=[history])
print('\nTesting ------------')
# 评价训练出的网络
loss, accuracy = mymodel.evaluate(X_test_exp, area_test)

print('test loss: ', loss)
print('test accuracy: ', accuracy)
history.loss_plot('epoch',"./Phase_1/model_2")

mymodel.save("./Phase_1/model_2.h5")

In [None]:
print(mymodel.predict_classes(X_test_exp))#返回类别的索引标签