In [1]:
import os
import matplotlib.pyplot as plt
from collections import Counter
import numpy as np
import tensorflow as tf

In [2]:
def load_data():
    # 读取数据
    x = np.load('train_data/train_data.npy')
    y = np.load('train_data/label.npy')
    num = len(Counter(y))
    print("类别数量为：", num)
    return x, y, num

In [3]:
def create_train_data(x, y, ratio=0.8):
    """
    x:数据
    y:类别
    ratio:生成训练集比率
    """
    # 打乱顺序
    # 读取data矩阵的第一维数（图片的个数）
    num_example = x.shape[0]
    # 产生一个num_example范围，步长为1的序列
    arr = np.arange(num_example)
    # 调用函数，打乱顺序
    np.random.seed(99)
    np.random.shuffle(arr)
    # 按照打乱的顺序，重新排序
    arr_data = x[arr]
    arr_label = y[arr]
    # 将数据集分为训练集80%、测试集20%
    s = int(num_example * ratio)
    x_train = arr_data[:s]
    y_train = arr_label[:s]
    x_val = arr_data[s:]
    y_val = arr_label[s:]
    print("训练集shape", x_train.shape)
    print("训练集类别：", Counter(y_train))
    print("测试集shape", x_val.shape)
    print("测试集类别：", Counter(y_val))
    return x_train, y_train, x_val, y_val

In [4]:
# 读取数据
data, label, label_count = load_data()
# 生成训练集测试集,70%用作训练，30%用作测试
train_data, train_label, val_data, val_label = create_train_data(data, label, 0.7)
print("*"*10)
print("训练集数量：",len(train_label))
print("测试集数量：",len(val_label))

类别数量为： 7
训练集shape (4410, 1000, 3)
训练集类别： Counter({3: 647, 0: 639, 6: 628, 5: 627, 1: 625, 4: 623, 2: 621})
测试集shape (1890, 1000, 3)
测试集类别： Counter({2: 279, 4: 277, 1: 275, 5: 273, 6: 272, 0: 261, 3: 253})
**********
训练集数量： 4410
测试集数量： 1890


In [5]:
# 使用机器学习算法需要对多维数据进行降维
m_train = train_data.reshape(train_data.shape[0],train_data.shape[1]*train_data.shape[2])
m_val = val_data.reshape(val_data.shape[0],val_data.shape[1]*val_data.shape[2])

# 设置训练迭代次数
epoch = 20

In [6]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_curve,roc_auc_score,classification_report,accuracy_score,log_loss
from sklearn.model_selection import GridSearchCV,train_test_split
from sklearn import model_selection
from sklearn.preprocessing import  OneHotEncoder

In [7]:
# 模型参数设置
rfc = RandomForestClassifier(n_estimators = 50,min_samples_split = 5,min_samples_leaf = 4,max_depth = 5)

# 模型准确率和损失值
acc_list = []
loss_list = []
train_acc_list = []
print("开始训练")
for i in range(1,epoch +1):

    # 模型训练
    rfc.fit(m_train,train_label)

    # # 训练集
    # y_train = rfc.predict(m_train)

    # 测试集
    y_pred = np.asarray(rfc.predict(m_val),dtype = 'int64')

    # 计算准确率
    acc = round(accuracy_score(val_label, y_pred),3)
    
    # 训练集
    y_pred = np.asarray(rfc.predict(m_train),dtype = 'int64')
    # 计算准确率
    train_acc = round(accuracy_score(train_label, y_pred),3)
    
    # print('测试集准确率:', round(accuracy_score(val_label, y_pred),3))
    acc_list.append(acc)
    train_acc_list.append(train_acc)
    
    # 计算损失值
    # 使用one-hot编码计算损失值
    noe_hot = OneHotEncoder(sparse = False)

    y_pred_o = noe_hot.fit_transform(y_pred.reshape(1, -1))
    val_label_o = noe_hot.fit_transform(val_label.reshape(1, -1))
#     loss = round(log_loss(val_label_o,y_pred_o),3)
    # print("loss：",round(log_loss(val_label,y_pred),3))
#     loss_list.append(loss)
    print("完成第",i,"轮训练，测试集准确率：",acc)

开始训练
完成第 1 轮训练，测试集准确率： 0.749
完成第 2 轮训练，测试集准确率： 0.748
完成第 3 轮训练，测试集准确率： 0.766
完成第 4 轮训练，测试集准确率： 0.767
完成第 5 轮训练，测试集准确率： 0.75
完成第 6 轮训练，测试集准确率： 0.77
完成第 7 轮训练，测试集准确率： 0.744
完成第 8 轮训练，测试集准确率： 0.757
完成第 9 轮训练，测试集准确率： 0.75
完成第 10 轮训练，测试集准确率： 0.741
完成第 11 轮训练，测试集准确率： 0.758
完成第 12 轮训练，测试集准确率： 0.754
完成第 13 轮训练，测试集准确率： 0.743
完成第 14 轮训练，测试集准确率： 0.736
完成第 15 轮训练，测试集准确率： 0.75
完成第 16 轮训练，测试集准确率： 0.757
完成第 17 轮训练，测试集准确率： 0.749
完成第 18 轮训练，测试集准确率： 0.744
完成第 19 轮训练，测试集准确率： 0.761
完成第 20 轮训练，测试集准确率： 0.753
