In [None]:
!pip install accelerate peft transformers

In [None]:
from google.colab import drive
drive.mount('/content/drive')

import zipfile

zip_path = '/content/drive/MyDrive/ukr_lit.zip'
extract_path = '/content/data'

with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    zip_ref.extractall(extract_path)


In [None]:
import os

content_path = "/content/data/ukr_lit/texts/1"
all_text = ""

# Сортуємо, якщо потрібен порядок
for filename in sorted(os.listdir(content_path)):
    if filename.endswith('.txt'):
        with open(os.path.join(content_path, filename), 'r', encoding='utf-8') as f:
            content = f.read()
            # print(f"content {content}")
            all_text += content + "\n\n<|sep|>\n\n"

# with open("dataset.txt", "w", encoding="utf-8") as out_file:
#     out_file.write(all_text)

In [None]:
!pip install datasets

In [None]:
from datasets import Dataset
import re

samples = all_text.split("<|sep|>")

# Очищаємо зайві пробіли
samples = [
    re.sub(r'\n+', ' ', re.sub(r'\n+Тарас Шевченко\n+', ' ', s))  # Спочатку прибираємо "Тарас Шевченко", потім заміняємо всі переноси на пробіл
    for s in samples
]

print(len(samples))

dataset = Dataset.from_dict({
    "text": samples
})

In [None]:
from sklearn.model_selection import train_test_split

shuffled_dataset = dataset.shuffle(seed=42)
train_dataset, val_dataset = shuffled_dataset.train_test_split(test_size=0.1).values()

In [None]:
dataset[0]

In [None]:
# from transformers import GPT2Tokenizer, GPT2LMHeadModel

# tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
# model = GPT2LMHeadModel.from_pretrained('gpt2')

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("malteos/gpt2-uk")
model = AutoModelForCausalLM.from_pretrained("malteos/gpt2-uk")

In [None]:
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True, max_length=512, add_special_tokens=True)

tokenized_train_dataset = train_dataset.map(tokenize_function, batched=True)
tokenized_val_dataset = val_dataset.map(tokenize_function, batched=True)

In [None]:
from torch.utils.data import DataLoader
from torch.utils.data import Dataset as TorchDataset
import torch

class CustomDataset(TorchDataset):
    def __init__(self, tokenizer, dataset):
        self.tokenizer = tokenizer
        self.dataset = dataset

    def __len__(self):
        return len(self.dataset)

    def __getitem__(self, idx):
        item = self.dataset[idx]
        input_ids = torch.tensor(item['input_ids'])
        attention_mask = torch.tensor(item['attention_mask'])
        return {
            'input_ids': input_ids,
            'attention_mask': attention_mask,
        }

# Створюємо датасет PyTorch
train_dataset = CustomDataset(tokenizer, tokenized_train_dataset)
val_dataset = CustomDataset(tokenizer, tokenized_val_dataset)

batch_size=8

# Створюємо DataLoader
train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
val_dataloader = DataLoader(val_dataset, batch_size=batch_size)

# Новий розділ

In [None]:
import torch
import math

def calculate_perplexity(model, val_dataloader, device):
    model.to(device)
    model.eval()  # Перемикаємо модель на режим оцінки
    total_loss = 0
    with torch.no_grad():  # Вимикаємо обчислення градієнтів
        for batch in val_dataloader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)

            # Прямий прохід
            outputs = model(input_ids, attention_mask=attention_mask, labels=input_ids)
            loss = outputs.loss
            total_loss += loss.item()

    # Обчислюємо Perplexity
    avg_loss = total_loss / len(val_dataloader)
    perplexity = math.exp(avg_loss)  # Експоненціємо середні втрати
    return perplexity

# Приклад використання
perplexity = calculate_perplexity(model, val_dataloader,  'cuda')
print(f"Perplexity: {perplexity}")

In [None]:
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction

def calculate_bleu_score(model, dataloader, device):
    model.eval()  # Перемикаємо модель на режим оцінки
    references = []
    hypotheses = []

    with torch.no_grad():  # Вимикаємо обчислення градієнтів
        for batch in dataloader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)

            # Генерація тексту
            outputs = model.generate(input_ids, attention_mask=attention_mask, max_new_tokens=50)
            generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

            # Додаємо еталонні та згенеровані тексти
            reference_text = tokenizer.decode(input_ids[0], skip_special_tokens=True)
            references.append([reference_text])  # Зберігаємо як список рядків
            hypotheses.append(generated_text)  # Зберігаємо як рядок

    # Обчислюємо BLEU score для всього набору даних
    smoothing_function = SmoothingFunction().method4  # Можна змінити метод згладжування
    bleu_score = sentence_bleu(references, hypotheses, smoothing_function=smoothing_function)
    return bleu_score

# Приклад використання
bleu_score = calculate_bleu_score(model, val_dataloader, 'cuda')
print(f"BLEU Score: {bleu_score}")

# Новий розділ

In [None]:
import torch.optim as optim
from tqdm import tqdm

optimizer = optim.Adam(model.parameters(), lr=5e-5)
device = "cuda"
num_epochs = 3

def evaluate_model(model, val_dataloader, device):
    model.eval()  # Set the model to evaluation mode
    val_loss = 0
    with torch.no_grad():  # Disable gradient calculation
        for batch in val_dataloader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)

            # Forward pass on the validation set
            outputs = model(input_ids, attention_mask=attention_mask, labels=input_ids)
            loss = outputs.loss
            val_loss += loss.item()

    # Print the average validation loss
    return val_loss / len(val_dataloader)

def train_model(model, train_dataloader, optimizer, num_epochs, device):
    model.to(device)  # Move model to the appropriate device (GPU or CPU)
    model.train()  # Set the model to training mode

    for epoch in range(num_epochs):
        epoch_loss = 0  # To track loss for the entire epoch
        for batch in tqdm(train_dataloader, desc=f"Training Epoch {epoch+1}/{num_epochs}"):
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)

            # Forward pass
            outputs = model(input_ids, attention_mask=attention_mask, labels=input_ids)
            loss = outputs.loss

            # Backward pass
            optimizer.zero_grad()  # Zero gradients before backward pass
            loss.backward()  # Backpropagate the loss
            optimizer.step()  # Update the model's parameters

            epoch_loss += loss.item()  # Accumulate loss for the epoch

        # Print the average loss for the epoch
        print(f"Epoch {epoch + 1}/{num_epochs} | Average Loss: {epoch_loss / len(train_dataloader)}")

        val_loss = evaluate_model(model, val_dataloader, device)
        print(f"Epoch {epoch + 1}/{num_epochs} | Validation Loss: {val_loss}")


train_model(model, train_dataloader, optimizer, num_epochs, device)

In [None]:
import torch
import math

def calculate_perplexity(model, val_dataloader, device):
    model.eval()  # Перемикаємо модель на режим оцінки
    total_loss = 0
    with torch.no_grad():  # Вимикаємо обчислення градієнтів
        for batch in val_dataloader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)

            # Прямий прохід
            outputs = model(input_ids, attention_mask=attention_mask, labels=input_ids)
            loss = outputs.loss
            total_loss += loss.item()

    # Обчислюємо Perplexity
    avg_loss = total_loss / len(val_dataloader)
    perplexity = math.exp(avg_loss)  # Експоненціємо середні втрати
    return perplexity

# Приклад використання
perplexity = calculate_perplexity(model, val_dataloader, device)
print(f"Perplexity: {perplexity}")

In [None]:
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction

def calculate_bleu_score(model, dataloader, device):
    model.eval()  # Перемикаємо модель на режим оцінки
    references = []
    hypotheses = []

    with torch.no_grad():  # Вимикаємо обчислення градієнтів
        for batch in dataloader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)

            # Генерація тексту
            outputs = model.generate(input_ids, attention_mask=attention_mask, max_new_tokens=50)
            generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

            # Додаємо еталонні та згенеровані тексти
            reference_text = tokenizer.decode(input_ids[0], skip_special_tokens=True)
            references.append([reference_text])  # Зберігаємо як список рядків
            hypotheses.append(generated_text)  # Зберігаємо як рядок

    # Обчислюємо BLEU score для всього набору даних
    smoothing_function = SmoothingFunction().method4  # Можна змінити метод згладжування
    bleu_score = sentence_bleu(references, hypotheses, smoothing_function=smoothing_function)
    return bleu_score

# Приклад використання
bleu_score = calculate_bleu_score(model, val_dataloader, device)
print(f"BLEU Score: {bleu_score}")

In [None]:
inputs = [
    "як умру то пох",
    "Зоре моя вечірняя, зійди над горою,",
    "Чого мені тяжко, чого мені нудно, чого серце плаче, ридає, кричить,",
    "Якось-то йдучи уночі понад Невою… та, йдучи, міркую сам-таки з собою: 'якби-то,— думаю,",
    "Мені здається, я не знаю",
    "У тієї Катерини"
]

model.eval()  # Перемикаємо модель на режим оцінки
with torch.no_grad():  # Вимикаємо обчислення градієнтів
    for input_text in inputs:
        input_ids = tokenizer.encode(input_text, return_tensors='pt').to(device)
        attention_mask = torch.ones(input_ids.shape, device=device)

        # Генерація тексту
        outputs = model.generate(input_ids, attention_mask=attention_mask, max_length=200, temperature=0.7, top_p=0.9, top_k=50)
        generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

        print(f"Input: {input_text}")
        print(f"Generated: {generated_text}")
        print("="*50)