In [2]:
import torch
import torch.nn as nn
import re
import random
from datasets import load_dataset
from torch.utils.data import Dataset, DataLoader
from datasets import load_dataset
from transformers import BertTokenizerFast
from tqdm import tqdm
from sklearn.model_selection import train_test_split

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
# импортируем библиотеки, которые пригодятся для задачи
random.seed(42)
torch.manual_seed(42)

# функция для "чистки" текстов
def clean_string(text):
    # приведение к нижнему регистру
    text = text.lower()
    # удаление всего, кроме латинских букв, цифр и пробелов
    text = re.sub(r'[^a-z0-9\s]', '', text)
    # удаление дублирующихся пробелов, удаление пробелов по краям
    text = re.sub(r'\s+', ' ', text).strip()
    return text

# загружаем датасет WikiText-2
dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="train")

# длины последовательностей в датасете
# seq_len = 7 => 3 токена до <MASK> + токен <MASK> + 3 токена после
seq_len = 7

# удаляем слишком короткие тексты
texts = [line for line in dataset["text"] if len(line.split()) >= seq_len]

# "чистим" тексты
cleaned_texts = list(map(clean_string, texts))

# для упрощения используем только max_texts_count текстов
max_texts_count = 7000

# разбиение на тренировочную и валидационную выборки
val_size = 0.05

train_texts, val_texts = train_test_split(cleaned_texts[:max_texts_count], test_size=val_size, random_state=42)
print(f"Train texts: {len(train_texts)}, Val texts: {len(val_texts)}")

'(ReadTimeoutError("HTTPSConnectionPool(host='huggingface.co', port=443): Read timed out. (read timeout=10)"), '(Request ID: e8bf35bf-65cd-40e1-8548-51e68061ecaf)')' thrown while requesting HEAD https://huggingface.co/datasets/wikitext/resolve/b08601e04326c79dfdd32d625aee71d232d685c3/wikitext.py
Retrying in 1s [Retry 1/5].


Train texts: 6650, Val texts: 350


In [75]:
# класс датасета
class MaskedBertDataset(Dataset):
    def __init__(self, texts, tokenizer, seq_len=7):
        # self.samples - список пар (x, y)
        # x - токенизированный текст с пропущенным токеном
        # y - пропущенный токен
        self.samples = []
        for line in texts:
            token_ids = tokenizer(line, truncation=True)['input_ids'] # токенизируйте строку line
            # если строка слишком короткая, то пропускаем её
            if len(token_ids) < seq_len:
                continue
            # проходимся по всем токенам в последовательности
            for i in range(1, len(token_ids) - 1):
                '''
                context - список из seq_len // 2 токенов до i-го токена, токена tokenizer.mask_token_id, и seq_len // 2 токенов после i-го токена
                '''
                context = token_ids[(i-seq_len)*(i > seq_len):i] + [tokenizer.mask_token_id] + token_ids[i+1: i+seq_len+1] # соберите контекст вокруг i-го токена
                # если контекст слишком короткий, то пропускаем его
                if len(context) < seq_len:
                    continue
                target = token_ids[i] # возьмите i-ый токен последовательности
                self.samples.append((context, target))
           
    def __len__(self):
        return len(self.samples) # верните размер датасета

    def __getitem__(self, idx):
        x, y =  self.samples[idx] # получите контекст и таргет для элемента с индексом idx
        return torch.tensor(x), torch.tensor(y)

# загружаем токенизатор
tokenizer = BertTokenizerFast.from_pretrained("bert-base-uncased")

# тренировочный и валидационный датасеты
train_dataset = MaskedBertDataset(train_texts, tokenizer, seq_len=seq_len)
val_dataset = MaskedBertDataset(val_texts, tokenizer, seq_len=seq_len)

# даталоадеры
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=64)


In [68]:
l = list(range(10, 20))
seq_len = 3
i = 3
print(l)
print(l[(i-seq_len)*(i > seq_len):i] + l[i+1: i+seq_len+1])

[10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
[10, 11, 12, 14, 15, 16]


In [41]:
import numpy as np

lengths = [len(tokenizer(t, truncation=False)['input_ids']) for t in texts]
print(f"95% текстов ≤ {np.percentile(lengths, 95):.0f} токенов")

95% текстов ≤ 278 токенов
