In [1]:
import torch
import numpy as np
import pandas as pd
from scipy import stats
from sklearn.preprocessing import RobustScaler
from torch.utils.data import Dataset
from torchvision import transforms


def best_transform(data):
    """
    Функция с ироничным названием и функционал,
    целью существования которой является ее
    применение к уже обработанным данным, но
    для структуры датасета необходима функция
    преобразования
    """
    return data


def mnist_transform():
    """
    Функция предназаченная для примения
    в датасете MNIST
    :return: функция преобразования
    """
    transform = transforms.Compose([
        transforms.ToPILImage(),
        # transforms.Grayscale(num_output_channels=3),
        transforms.ToTensor(),
        transforms.Normalize(
            (0.1307,), (0.3081,))
    ])
    return transform


class TrainDataset(Dataset):
    """
    Класс, описывающий набор данных для обучения
    """
    def __init__(self, features, labels, Transform):
        self.x = features
        self.y = labels
        self.transform = Transform

    def __len__(self):
        return len(self.x)

    def __getitem__(self, index):
        return self.transform(self.x[index]), self.y[index]


def get_mnist_data(df, Transform=best_transform):
    """
    Предобработка,для MNIST датасета
    """
    x_features = df.iloc[:, 1:].values
    y_labels = df.label.values
    x_features = x_features.reshape(-1, 1, 28, 28)
    x_features = np.uint8(x_features)
    x_features = torch.from_numpy(x_features)
    y_labels = torch.from_numpy(y_labels)
    return TrainDataset(x_features, y_labels, Transform)


def resize_data(X, y, time_steps=1, step=1):
    """
    Разбиение набора данных на пересекающие фреймы
    :param X: матрица признаков
    :param y: целевое значение
    :param time_steps: размер временного окна
    :param step: шаг между началами окон
    :return:
    """
    Xs, ys = [], []
    for i in range(0, len(X) - time_steps, step):
        v = X.iloc[i:(i + time_steps)].values
        labels = y.iloc[i: i + time_steps]
        Xs.append(v)
        ys.append(stats.mode(labels)[0][0])
    return np.array(Xs), np.array(ys).reshape(-1)


def get_smartiliser_data(df, Transform=best_transform):
    """
    Функция для предобработки смартилайзеровских данных
    :param df: DataFrame
    :param Transform: функция преобразования
    :return: TrainDataset
    """
    # Параметры временного окна
    time_steps = 40
    step = 10
    # Снижение частоты дискретизации
    df = df[::2]
    # Отбор классов для обучения
    df = df[(df.activityMode == 5) | (df.activityMode == 6) | (df.activityMode == 7)]
    y_labels = df.activityMode - 5
    # Отбор признаков для обучения
    scale_columns = ['accX', 'accY', 'accZ', 'gyrX', 'gyrY', 'gyrZ']
    df = df[scale_columns]
    # Применение надежного скалера
    scaler = RobustScaler()
    scaler = scaler.fit(df)
    df.loc[:, scale_columns] = scaler.transform(df[scale_columns].to_numpy())
    x_features = df
    # Преобразование временных рядов в набор временных окон
    x_features, y_labels = resize_data(x_features, y_labels, time_steps, step)
    x_features = x_features.reshape(len(x_features), -1)
    # Приведение матрицы признаков к float 32
    x_features = np.float32(x_features)
    return TrainDataset(x_features, y_labels, Transform)


def get_data_loader(path, batch_size, data_name='MNIST'):
    """
    Функция для получения необходимого DataLoader
    :param path: путь к CSV файлу
    :param batch_size: размер пакета
    :param data_name: название набора данных
    :return: DataLoader
    """
    # Чтение CSV файла
    train_df = pd.read_csv(path)
    # Словарь предобработок
    preprocces = {
        'MNIST': get_mnist_data,
        'smartiliser': get_smartiliser_data
    }
    # Словарь функций преобразования
    transform = {
        'MNIST': mnist_transform(),
        'smartiliser': best_transform,
    }
    train_loader = torch.utils.data.DataLoader(
        preprocces[data_name](train_df, transform[data_name]),
        batch_size=batch_size, shuffle=True)

    return train_loader


In [3]:
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim


loss_functions = {
    ''
}

class MiningSettings:
    """
    Класс для сериализации настроек алгоритма для
    обучения нейронной сети
    """
    def __init__(self, algorithm, loss_function, epochs, learning_rate, momentum, batch_size):
        self.algorithm = algorithm
        self.loss_function = loss_function
        self.epochs = epochs
        self.learning_rate = learning_rate
        self.momentum = momentum
        self.batch_size = batch_size

class UniversalNet(nn.Module):
    """
    Класс универсальной модели
    """
    def __init__(self, layers, activations, normalizations):
        super(UniversalNet, self).__init__()
        self.number_of_layers = len(layers)
        self.layers = nn.ModuleList(layers)
        self.activations = activations
        self.normalizations = normalizations

    def forward(self, x):
        """
        Метод для прямого прохода по нейронной сети
        :param x: данные для прохода
        :return: данные после прохода
        """
        for i in range(self.number_of_layers):
            # Прохождения слоя
            x = self.layers[i](x)
            # Применение функции активации
            x = self.activations[i](x)
            # Применение нормализации
            x = self.normalizations[i](x)
        return x


def evaluate(test_loader, criterion, net):
    """
    Функция оценки точности модели
    :param test_loader: DataLoader
    :param criterion: функция потерь
    :param net: UniversalNet
    :return: точность и ошибка
    """
    test_loss = 0
    correct = 0
    for data, target in test_loader:
        data, target = Variable(data, volatile=True), Variable(target)
        data = data.view(-1, 40 * 6)
        net_out = net(data)
        # sum up batch loss
        test_loss += criterion(net_out, target).data.item()
        pred = net_out.data.max(1)[1]  # get the index of the max log-probability
        correct += pred.eq(target.data).sum()

    test_loss /= len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.3f})\n'.format(
        test_loss, correct, len(test_loader.dataset),
        correct / len(test_loader.dataset)))


def fit(net, train_loader, epochs, criterion, optimizer):
    """
    Функция, тренировки модели
    :param net: UniversalNet
    :param train_loader: DataLoader
    :param epochs: количество эпох
    :param criterion: функция потерь
    :param optimizer: метод оптимизации
    :return: UniversalNet
    """
    for epoch in range(epochs):
        for batch_idx, (data, target) in enumerate(train_loader):
            data, target = Variable(data), Variable(target)
            data = data.view(-1, 40*6)

            optimizer.zero_grad()
            net_out = net(data)
            loss = criterion(net_out, target)
            loss.backward()
            optimizer.step()
            # print(loss.data)
            #if batch_idx % 100 == 0:
            #     print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
            #         epoch, batch_idx * len(data), len(train_loader.dataset),
            #                100. * batch_idx / len(train_loader), loss.item()))
    return net


def train_evaluate(net, path='D:/FL_client/data/MNIST/train.csv', settings='nothing', data_name='MNIST'):
    """
    Функция для обучения и оценки точности модели
    :param net: UniversalNet
    :param path: путь к CSV файлу
    :param settings: MiningSettings
    :param data_name: название набора данных
    :return: UniversalNet
    """
    # Загрузка набора данных
    train_loader = get_data_loader(path, settings.batch_size, data_name=data_name)
    # Создание объекта для метода оптимизации
    optimizer = optim.SGD(net.parameters(), lr=settings.learning_rate, momentum=settings.momentum)
    # Создание объекта для функции потерь
    criterion = settings.loss_function()
    # Вызов функции обучения
    net = fit(net, train_loader, settings.epochs, criterion, optimizer)
    # Вызов функции оценки точности модели
    evaluate(train_loader, criterion, net)
    return net, len(train_loader)

In [4]:
layers = [
        nn.Linear(240, 200),
        nn.Linear(200, 200),
        nn.Linear(200, 3)
]
activations = [
        F.relu,
        F.relu,
        F.log_softmax
]
normalizations = [
        nn.BatchNorm1d(200),
        nn.BatchNorm1d(200),
        lambda x: x
]
settings = MiningSettings(
        algorithm='SGD',
        loss_function=nn.NLLLoss,
        epochs=10,
        learning_rate=0.1,
        momentum=0.9,
        batch_size=10
)
net = UniversalNet(layers, activations, normalizations)
net = train_evaluate(net=net, path='D:\FL_client\data\smartilizer\Video-11-15-40-560.csv', data_name='smartiliser', settings=settings)





Test set: Average loss: 0.0206, Accuracy: 103690/106753 (0.971)



In [5]:
test = get_data_loader('D:\FL_client\data\smartilizer\Video-16-8-9-212.csv', batch_size=10, data_name='smartiliser')

In [6]:
criterion = settings.loss_function()

In [8]:
evaluate(test, criterion, net[0])




Test set: Average loss: 0.1672, Accuracy: 15502/17767 (0.873)



In [20]:
import os
path = 'D:\\FL_client\\data\\smartilizer'
datasets = []
for folder in os.listdir(path)[1:]:
    path_sub = os.path.join(path, folder)
    for file in os.listdir(path_sub):
        path_file = os.path.join(path_sub, file)
        datasets.append(get_data_loader(path_file, batch_size=10, data_name='smartiliser'))


NotADirectoryError: [WinError 267] Неверно задано имя папки: 'D:\\FL_client\\data\\smartilizer\\Video-10-15-12-812.csv'

In [19]:
os.listdir(path)

['.~lock.Video-9-59-58-842.csv#',
 'Video-10-15-12-812.csv',
 'Video-10-56-50-611.csv',
 'Video-11-12-5-821.csv',
 'Video-11-15-40-560.csv',
 'Video-11-21-6-412.csv',
 'Video-11-22-26-986.csv',
 'Video-11-35-58-544.csv',
 'Video-11-36-16-421.csv',
 'Video-11-37-36-962.csv',
 'Video-11-5-46-280.csv',
 'Video-11-51-13-731.csv',
 'Video-11-51-26-279.csv',
 'Video-11-52-46-801.csv',
 'Video-11-7-16-943.csv',
 'Video-12-21-33-548.csv',
 'Video-12-36-43-645.csv',
 'Video-12-37-13-775.csv',
 'Video-12-51-53-673.csv',
 'Video-12-52-27-629.csv',
 'Video-12-6-23-828.csv',
 'Video-13-7-37-524.csv',
 'Video-14-21-33-333.csv',
 'Video-14-36-46-42.csv',
 'Video-14-39-8-297.csv',
 'Video-14-48-30-939.csv',
 'Video-14-54-21-750.csv',
 'Video-15-11-18-475.csv',
 'Video-15-16-36-989.csv',
 'Video-15-24-39-448.csv',
 'Video-15-3-46-79.csv',
 'Video-15-37-46-645.csv',
 'Video-15-52-59-950.csv',
 'Video-15-9-30-558.csv',
 'Video-16-10-56-463.csv',
 'Video-16-16-44-458.csv',
 'Video-16-21-31-998.csv',
 'Vid