task2_02.py

import random
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import torch
from torch import nn
import sklearn.model_selection
from sklearn.feature_extraction import text
from sklearn.metrics import f1_score
import math

func_act_names = {
    0: "Sigmoid",
    1: "Tanh",
    2: "ReLU",
    3: "ELU"
}

optim_names = {
    0: "SGD",
    1: "SGD with momentum",
    2: "RMSprop",
    3: "Adam"
}


def accuracy(y_pred, y):
    return (torch.round(y_pred) == y).float().sum() / len(y_pred)


def f1(y_pred, y):
    return f1_score(y.detach().numpy(), y_pred.round().detach().numpy(), average='macro')


def kill_random():
    seed = 1
    torch.manual_seed(seed)
    random.seed(seed)
    np.random.seed(seed)
    torch.use_deterministic_algorithms(True)


def prepare(data):
    data.pop("severe_toxic")
    data.pop("obscene")
    data.pop("threat")
    data.pop("insult")
    data.pop("identity_hate")

    teach_data, test_data = sklearn.model_selection.train_test_split(data, test_size=0.2, random_state=5)

    vectorizer = text.CountVectorizer(lowercase=True, ngram_range=(1, 1), strip_accents='unicode',
                                      stop_words={'english'}, analyzer='word')
    vectorizer.fit(data['comment_text'])

    X = vectorizer.transform(teach_data["comment_text"]).toarray()
    y_tr = teach_data['toxic'].to_numpy()
    y = torch.tensor(y_tr).float()
    y = torch.Tensor(np.array([np.array([y_s]) for y_s in y]))

    X_test = vectorizer.transform(test_data["comment_text"]).toarray()
    y_te = test_data['toxic'].to_numpy()
    y_test = torch.tensor(y_te).float()
    y_test = torch.Tensor(np.array([np.array([y_s]) for y_s in y_test]))

    return X, y, X_test, y_test


def create_model(amount_of_batches, layers=1, func=2, optim_type=2, has_batch=False, dropout_prob=None):
    func_activ = {
        0: nn.Sigmoid(),
        1: nn.Tanh(),
        2: nn.ReLU(),
        3: nn.ELU()
    }
    model = nn.Sequential()

    if has_batch:
        model.add_module('b1', nn.BatchNorm1d(amount_of_batches, True))

    for i in range(1, layers):
        model.add_module(f'l{i}',
                         nn.Linear(in_features=amount_of_batches, out_features=(math.ceil(amount_of_batches / 10))))
        model.add_module(f'a{i}', func_activ.get(func))
        amount_of_batches = math.ceil(amount_of_batches / 10)

    model.add_module(f'l{layers}', nn.Linear(in_features=amount_of_batches, out_features=1))
    model.add_module(f'a{layers}', nn.Sigmoid())

    if dropout_prob is not None:
        model.add_module('d1', nn.Dropout(p=dropout_prob))

    optims = {
        0: torch.optim.SGD(model.parameters(), lr=0.01, momentum=0),
        1: torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.5),
        2: torch.optim.RMSprop(model.parameters(), lr=0.01, alpha=0.5, momentum=0),
        3: torch.optim.Adam(model.parameters())
    }

    return model, optims.get(optim_type)


def training(X, y, model, optim):
    loss = nn.BCELoss()

    for epoch in range(1000):
        optim.zero_grad()
        model.train()

        y_pred = model.forward(torch.tensor(X).float())

        loss_f = loss(y_pred, y)
        loss_f.backward()

        optim.step()

    return loss(model.forward(torch.tensor(X).float()), y).item(), \
           accuracy(model.forward(torch.tensor(X).float()), y), \
           f1(model.forward(torch.tensor(X).float()), y)


def predicting(X, y, model):
    loss = nn.BCELoss()
    return loss(model.forward(torch.tensor(X).float()), y).item(), \
           accuracy(model.forward(torch.tensor(X).float()), y), \
           f1(model.forward(torch.tensor(X).float()), y)


def print_graph(loss, loss_test, acc, acc_test):
    plt.plot(loss, 'ob', label="train")
    plt.plot(loss_test, 'or', label="test")
    plt.legend(loc="upper left")
    plt.show()

    plt.plot(acc, 'ob', label="train")
    plt.plot(acc_test, 'or', label="test")
    plt.legend(loc="upper left")
    plt.show()


def start():
    print("Read data from csv")
    data = pd.read_csv("train.csv")
    data = data.iloc[0:1000]

    print("Prepare data")
    X, y, X_test, y_test = prepare(data)

    amount_of_batches = len(X[0])

    loss = []
    loss_test = []
    acc = []
    acc_test = []
    f1_test = []

    # ----------------------------------------------------------------------
    print("Task 2.3")
    loss_test.clear()
    loss.clear()
    acc_test.clear()
    acc.clear()
    f1_test.clear()

    kill_random()

    for i in range(1, 5):
        print(f'amount of layers: {i}')
        model, optim = create_model(amount_of_batches, layers=i)
        loss_t, acc_t, f1_t = training(X, y, model, optim)
        loss_p, acc_p, f1_p = predicting(X_test, y_test, model)

        loss.append(loss_t)
        acc.append(acc_t)

        loss_test.append(loss_p)
        acc_test.append(acc_p)
        f1_test.append(f1_p)

        print(f1_p)

    print(f1_test)
    print_graph(loss, loss_test, acc, acc_test)

    # ----------------------------------------------------------------------
    print('\n', '-' * 20)
    print("Task 2.4")
    loss_test.clear()
    loss.clear()
    acc_test.clear()
    acc.clear()
    f1_test.clear()

    kill_random()

    for i in range(4):
        print(f'type of activation function: {func_act_names.get(i)}')
        model, optim = create_model(amount_of_batches, layers=4, func=i)
        loss_t, acc_t, f1_t = training(X, y, model, optim)
        loss_p, acc_p, f1_p = predicting(X_test, y_test, model)

        loss.append(loss_t)
        acc.append(acc_t)

        loss_test.append(loss_p)
        acc_test.append(acc_p)
        f1_test.append(f1_p)

        print(f1_p)

    print(f1_test)
    print_graph(loss, loss_test, acc, acc_test)

    # ----------------------------------------------------------------------
    print('\n', '-' * 20)
    print("Task 2.5")
    loss_test.clear()
    loss.clear()
    acc_test.clear()
    acc.clear()
    f1_test.clear()

    kill_random()

    for i in range(4):
        print(f'type of optimizer: {optim_names.get(i)}')
        model, optim = create_model(amount_of_batches, layers=4, func=2, optim_type=i)
        loss_t, acc_t, f1_t = training(X, y, model, optim)
        loss_p, acc_p, f1_p = predicting(X_test, y_test, model)

        loss.append(loss_t)
        acc.append(acc_t)

        loss_test.append(loss_p)
        acc_test.append(acc_p)
        f1_test.append(f1_p)

        print(f1_p)

    print(f1_test)
    print_graph(loss, loss_test, acc, acc_test)

    # ----------------------------------------------------------------------
    print('\n', '-' * 20)
    print("Task 2.6")
    loss_test.clear()
    loss.clear()
    acc_test.clear()
    acc.clear()
    f1_test.clear()

    kill_random()

    for i in [None, 0.2, 0.5]:
        for j in [False, True]:
            print(f'has batchNorm: {j}, probability of dropout: {i}')
            model, optim = create_model(amount_of_batches, layers=4, func=2, optim_type=2, has_batch=j, dropout_prob=i)
            loss_t, acc_t, f1_t = training(X, y, model, optim)
            loss_p, acc_p, f1_p = predicting(X_test, y_test, model)

            loss.append(loss_t)
            acc.append(acc_t)

            loss_test.append(loss_p)
            acc_test.append(acc_p)
            f1_test.append(f1_p)

            print(f1_p)

    print(f1_test)
    print_graph(loss, loss_test, acc, acc_test)

    # ----------------------------------------------------------------------
    print('\n', '-' * 20)
    print("Task 2.7")
    loss_test.clear()
    loss.clear()
    acc_test.clear()
    acc.clear()
    f1_test.clear()

    kill_random()

    model, optim = create_model(amount_of_batches, layers=4, func=2, optim_type=2, has_batch=False, dropout_prob=None)
    loss_t, acc_t, f1_t = training(X, y, model, optim)
    loss_p, acc_p, f1_p = predicting(X_test, y_test, model)

    print(f1_p)


if __name__ == '__main__':
    start()