In [1]:
import os
os.chdir('../../../')

In [2]:

from Code.DataProcessing.NameDataSet import NameDataSet
from Code.utils.set_seed import set_seed
from Code.utils.torch_utils import calculate_loss_on_batch, calculate_loss_on_data_loader,generate_new_word_from_torch_model


import torch as t
from torch import nn
from torch.optim import Adam
from torch.utils.data import random_split
from torch.utils.data import DataLoader

In [3]:
seed = 2131
padding = 3
file_name = './Data/Processed/names.txt'

set_seed(seed)

Random seed set as 2131


In [4]:


data = NameDataSet(file_name, add_padding=padding)

input = data.to_numpy()

In [14]:
train_size = int(0.8 * len(input))
valid_size = len(input) - train_size

train_dataset, valid_dataset = random_split(input, [train_size, valid_size])
train_dataset = t.Tensor(train_dataset).type(t.LongTensor)
valid_dataset = t.Tensor(valid_dataset).type(t.LongTensor)

In [15]:
number_of_characters = len(data.characters)
embedding_dim = 2
hidden_size = 100

In [16]:
model = nn.Sequential(
    nn.Embedding(number_of_characters, embedding_dim),
    nn.Flatten(),
    nn.Linear(padding*embedding_dim,hidden_size),
    nn.BatchNorm1d(hidden_size),
    nn.ReLU(),
    nn.Linear(hidden_size, number_of_characters)
)

In [17]:
epochs = 20
batch_size = 512
lr = .01

valid_loader = DataLoader(valid_dataset, batch_size=batch_size, shuffle=False)

In [18]:


optimizer = Adam(model.parameters(), lr=lr)

train_loss_list = []
valid_loss_list = []

for epoch in range(epochs):

    model.train()
    epoch_train_loss = []
    train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

    for batch in train_loader:
        loss = calculate_loss_on_batch(model, batch)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    with t.no_grad():
        valid_loss = calculate_loss_on_data_loader(model, valid_loader)
        valid_loss_list.append(valid_loss)
    
        train_loss = calculate_loss_on_data_loader(model, train_loader)
        train_loss_list.append(train_loss)
    
    print(f'train : {train_loss_list[-1]} | valid : {valid_loss_list[-1]}')

train : 2.0516269207000732 | valid : 2.065709114074707
train : 1.9764305353164673 | valid : 2.001750946044922
train : 1.9401575326919556 | valid : 1.9749449491500854
train : 1.9176167249679565 | valid : 1.958815336227417
train : 1.8958930969238281 | valid : 1.9414628744125366
train : 1.8882064819335938 | valid : 1.9414864778518677
train : 1.873475193977356 | valid : 1.919724702835083
train : 1.8728091716766357 | valid : 1.922545313835144
train : 1.8566153049468994 | valid : 1.9142165184020996
train : 1.8489621877670288 | valid : 1.9109246730804443
train : 1.8404197692871094 | valid : 1.9027405977249146
train : 1.8375804424285889 | valid : 1.9078409671783447
train : 1.8273080587387085 | valid : 1.8954378366470337
train : 1.825286626815796 | valid : 1.8980555534362793
train : 1.8208345174789429 | valid : 1.8972927331924438
train : 1.8163747787475586 | valid : 1.895886778831482
train : 1.8100426197052002 | valid : 1.8873236179351807
train : 1.8015775680541992 | valid : 1.8838926553726196


In [19]:
    


for i in range(100):
    print(generate_new_word_from_torch_model(model, data.start_character, data.end_character, data.padding, data.ctoi, data.itoc))


صاج
محمدباسن
دیتی
ژین
مان
سرین
سبر
رمحمدام
امین
سمیفبامیرشارل
جرپین
شور
تهپاسس
مهله
دلسحس
فوعیی
ماکبان
مالس
آنل
میدامه
شعیاق
دجا
عهاس
محمدالرکالی
ماهپرسآفرا
رریر
محن
فبالبه
گلیام
اعالفرنین
سنهنسب
صهرا
گهیدین
محمدعام
ذارا
خواهن
نهشر
مسمضاا
گلین
سضدفلان
جایم
عیه
مهراندش
محمدخت
اشو
اندخت
سوز
بایش
کاین
نگز
سوفخن
پربی
برفم
کوسحا
حسه
آلز
مهران
اهپاعان
پریددیر
بفیسمساس
معاحدیبهتاد
محمدمدریسمهرمند
فید
گلان
شرواد
فهد
مهساو
بور
روشموعه
گلس
شما
گلفئر
لریسبادد
نثسری
میسبسانو
رهن
گلاه
حمچدا
گرمید
میمسلب
مدروان
دلیرا
نازلهرال
زودالل
بهر
پنا
امرهلاتا
نتوتالی
پار
شفر
کدریا
گلور
صرالمه
لوا
بهار
یمان
ژوروا
گلسهرهادارامارحتاا
پانه
گلآلانل
