In [1]:
import pandas as pd
import numpy as np


import matplotlib.pyplot as plt

from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split

from itertools import combinations

from nets_algo import *

## Функция потерь

Создание функции потерь в torch
https://neptune.ai/blog/pytorch-loss-functions. Для задач бинарной классификации рекомендуют использовать CrossEntropy функцию потерь

In [2]:
loss_fn = nn.BCELoss()

# Загрузка и подговтовка данных

In [3]:
data = pd.read_csv(
    "/home/dranik/KFA/university/proc_2.csv", 
    index_col = 0
)

save_ind = data[data['Y'] == 0].sample(
    sum(data['Y']), random_state = 0
).index.union(data[data['Y'] == 1].index)
data = data.loc[save_ind]

Нужно провести One Hot Encoding

In [4]:
Y = np.array(data[['Y']])
X = data.drop('Y', axis = 1)

X = np.concatenate([
    OneHotEncoder(sparse = False).\
    fit_transform(X.loc[:,X.dtypes == "O"]),
    X.loc[:,X.dtypes != "O"].to_numpy()
], axis = 1)

Y.shape

(13926, 1)

Разбивка на Train/Test

In [5]:
X_train, X_test, y_train, y_test = \
    train_test_split(
        X,Y, random_state = 0, stratify = Y
)

## Создание набора данных и загрузчика данных

In [6]:
train_data = My_data_set(
    torch.tensor(X_train.astype('float32')), 
    torch.tensor(y_train.astype('float32'))
)

In [7]:
train_data_loader =\
torch.utils.data.DataLoader(
    train_data, batch_size=1000
)

# Эксперименты с построителем модели

Модель на которой планируется проводить тестирование

In [65]:
def create_model():
    
    torch.manual_seed(0)
    net = ResultNet(
        [train_data_loader.dataset.X.shape[1], 5]
    )

    optimizer = optim.Adam(
        net.parameters(), 
        weight_decay = 0.5,
        lr = 0.1
    )
    
    return [net, optimizer]

Базовый построитель

In [35]:

def train_basic(
    model, optimizer, loss_fn, 
    train_loader, epochs=20
):
    '''Алгоритм обучения сети'''
    # inputs:
    # model - модель которая подлежит обучению
    # optimizer - оптимизатор, который педполагается использовать
    # loss_fn - функция потерь
    # train_loader - загрузчик обучающих данных
    # epochs - эпохи используемые в нейронной сети
    # lr_decr - степень понижения параметра learning rate
    
    initial_loss = get_loss_value(
        loss_fn, model, train_loader
    )
    
    fun_arr = []
    fun_arr.append(initial_loss)
    
    for epoch in range(epochs):

        model.train()
        for batch in train_loader:
            optimizer.zero_grad()
            inputs, targets = batch
            output = model(inputs)
            loss = loss_fn(output, targets)
            loss.backward()
            optimizer.step()
            
        # для отслеживания процесса
        # обучения буду сохранять текущее
        # значение целевой функии
        fun_arr.append(get_loss_value(
            loss_fn, model, train_loader
        ))

    
    return fun_arr


In [69]:
net, optimizer = create_model()

train_basic(
    net, optimizer, loss_fn, 
    train_data_loader, epochs = 3
)

[28.521753311157227, 21.808807373046875, 10.963159561157227, 7.656264305114746]

Улучшенный построитель с возможностью торможения learning rate

In [None]:
def train_basic(
    model, optimizer, loss_fn, 
    train_loader, epochs=20
):
    '''Алгоритм обучения сети'''
    # inputs:
    # model - модель которая подлежит обучению
    # optimizer - оптимизатор, который педполагается использовать
    # loss_fn - функция потерь
    # train_loader - загрузчик обучающих данных
    # epochs - эпохи используемые в нейронной сети
    # lr_decr - степень понижения параметра learning rate
    
    initial_loss = get_loss_value(
        loss_fn, model, train_loader
    )
    
    fun_arr = []
    fun_arr.append(initial_loss)
    
    for epoch in range(epochs):

        model.train()
        for batch in train_loader:
            optimizer.zero_grad()
            inputs, targets = batch
            output = model(inputs)
            loss = loss_fn(output, targets)
            loss.backward()
            optimizer.step()
            
        # для отслеживания процесса
        # обучения буду сохранять текущее
        # значение целевой функии
        fun_arr.append(get_loss_value(
            loss_fn, model, train_loader
        ))

    
    return fun_arr

In [71]:
net, optimizer = create_model()

train_basic(
    net, optimizer, loss_fn, 
    train_data_loader, epochs = 3
)

[28.521753311157227, 21.808807373046875, 10.963159561157227, 7.656264305114746]

In [73]:
def train(
    model, optimizer, loss_fn, 
    train_loader, epochs=20, lr_sheduler = None
):
    '''Алгоритм обучения сети'''
    # inputs:
    # model - модель которая подлежит обучению
    # optimizer - оптимизатор, который педполагается использовать
    # loss_fn - функция потерь
    # train_loader - загрузчик обучающих данных
    # epochs - эпохи используемые в нейронной сети
    # lr_decr - степень понижения параметра learning rate
    
    initial_loss = get_loss_value(
        loss_fn, model, train_loader
    )
    
    fun_arr = []
    fun_arr.append(initial_loss)
    
    for epoch in range(epochs):

        model.train()
        for batch in train_loader:
            optimizer.zero_grad()
            inputs, targets = batch
            output = model(inputs)
            loss = loss_fn(output, targets)
            loss.backward()
            optimizer.step()
        if lr_sheduler:
            lr_sheduler.step()
            
        # для отслеживания процесса
        # обучения буду сохранять текущее
        # значение целевой функии
        fun_arr.append(get_loss_value(
            loss_fn, model, train_loader
        ))

    
    return fun_arr

In [74]:
net, optimizer = create_model()
optim.lr_sheduler.ExponentialLR(
    optimizer, gamma = 0.1
)

train(
    net, optimizer, loss_fn, 
    train_data_loader, epochs = 3
)

[28.521753311157227, 21.808807373046875, 10.963159561157227, 7.656264305114746]