In [63]:
import torch
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence

texts = [
    [5, 9, 12, 34, 23, 76, 89],          # len = 7
    [2, 45, 23],                         # len = 3
    [12, 56, 78, 90, 43, 22, 11, 8],     # len = 8
    [65, 12, 99, 54],                    # len = 4
    [3, 7, 8, 5, 1, 4, 6, 10, 11],       # len = 9
]
labels = [0, 1, 0, 2, 1]

class TextDataset(Dataset):
    def __init__(self, texts, labels):
        self.texts = texts
        self.labels = labels

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        return {'text': torch.tensor(self.texts[idx], dtype=torch.long),
                'label': torch.tensor(self.labels[idx], dtype=torch.long)}

def collate_fn(batch):
    texts = [item['text'] for item in batch]
    labels = torch.stack([item['label'] for item in batch])
 # посчитайте длины текстов в батче
    l = [len(c) for c in texts]
    all = [(l[i], texts[i], labels[i]) for i in range(len(texts))]
                 
    # отсортируйте тексты и классы по убыванию длины текстов
    all = sorted(all, key = lambda x: x[0], reverse=True)
    lengths = [c[0] for c in all]
    texts = [c[1] for c in all]
    labels = [c[2] for c in all]

    # дополните тексты пэддингом
    padded_texts = pad_sequence(texts, batch_first=True, padding_value=0)
    
    
    # посчитайте маску для батча
    masks = (padded_texts != 0).long()

    return {
        'texts': padded_texts,
        'masks': masks,
        'labels': labels,
        'lengths': lengths
    }





dataset = TextDataset(texts, labels)


# создайте объект dataloader с batch_size=3 и реализованным collate_fn
dataloader = DataLoader(dataset, batch_size=3, collate_fn=collate_fn)

for batch in dataloader:
    print("Texts:\n", batch['texts'])
    print("Masks:\n", batch['masks'])
    print("Labels:", batch['labels'])
    print("Lengths:", batch['lengths'])
    print("=" * 40)

Texts:
 tensor([[12, 56, 78, 90, 43, 22, 11,  8],
        [ 5,  9, 12, 34, 23, 76, 89,  0],
        [ 2, 45, 23,  0,  0,  0,  0,  0]])
Masks:
 tensor([[1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 0],
        [1, 1, 1, 0, 0, 0, 0, 0]])
Labels: [tensor(0), tensor(0), tensor(1)]
Lengths: [8, 7, 3]
Texts:
 tensor([[ 3,  7,  8,  5,  1,  4,  6, 10, 11],
        [65, 12, 99, 54,  0,  0,  0,  0,  0]])
Masks:
 tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 0, 0, 0, 0, 0]])
Labels: [tensor(1), tensor(2)]
Lengths: [9, 4]


In [62]:
# имортируем нужные библиотеки
import torch
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence

# создаем датасет, наследуясь от класса Dataset из PyTorch
class RawDataset(Dataset):
    # в конструкторе просто сохраняем тексты и классы
    def __init__(self, texts, labels, max_len):
        self.texts = texts
        self.labels = labels
        self.max_len = max_len

    # возвращаем размер датасета (кол-во текстов)
    def __len__(self):
        return len(self.texts)
    
    def __getitem__(self, idx):
        # возвращаем текст и его класс
        # для текста ограничиваем длину
        # не делаем никаких доп. преобразований как padding и masking
        return {
            'text': torch.tensor(self.texts[idx][:self.max_len], dtype=torch.long),
            'label': torch.tensor(self.labels[idx], dtype=torch.long)
        }

def collate_fn(batch):
    # список текстов и классов из батча
    texts = [item['text'] for item in batch]
    labels = torch.stack([item['label'] for item in batch])
    print(labels)
    # дополняем тексты в батче padding'ом
    padded_texts = pad_sequence(texts, batch_first=True, padding_value=0)
    # считаем маски
    masks = (padded_texts != 0).long()
    # возвращаем преобразованный батч
    return {
        'texts': padded_texts,
        'masks': masks,
        'labels': labels
    }

texts = [[5, 9, 12], [2, 45, 23, 11], [12]]
labels = [1, 0, 1]
max_len = 5

# создаем объект датасета
dataset = RawDataset(texts, labels, max_len)

# пользуемся готовым даталоадером из PyTorch, но с кастомной функцией collate_fn
dataloader = DataLoader(dataset, batch_size=2, collate_fn=collate_fn)

for batch in dataloader:
    print(batch)

tensor([1, 0])
{'texts': tensor([[ 5,  9, 12,  0],
        [ 2, 45, 23, 11]]), 'masks': tensor([[1, 1, 1, 0],
        [1, 1, 1, 1]]), 'labels': tensor([1, 0])}
tensor([1])
{'texts': tensor([[12]]), 'masks': tensor([[1]]), 'labels': tensor([1])}


In [64]:
# имортируем нужные библиотеки
import torch
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence

# создаем датасет, наследуясь от класса Dataset из PyTorch
class RawDataset(Dataset):
    # в конструкторе просто сохраняем тексты и классы
    def __init__(self, texts, labels, max_len):
        self.texts = texts
        self.labels = labels
        self.max_len = max_len

    # возвращаем размер датасета (кол-во текстов)
    def __len__(self):
        return len(self.texts)
    
    def __getitem__(self, idx):
        # возвращаем текст и его класс
        # для текста ограничиваем длину
        # не делаем никаких доп. преобразований как padding и masking
        return {
            'text': torch.tensor(self.texts[idx][:self.max_len], dtype=torch.long),
            'label': torch.tensor(self.labels[idx], dtype=torch.long)
        }

def collate_fn(batch):
    # список текстов и классов из батча
    texts = [item['text'] for item in batch]
    labels = torch.stack([item['label'] for item in batch])

    # дополняем тексты в батче padding'ом
    padded_texts = pad_sequence(texts, batch_first=True, padding_value=0)

    # считаем маски
    masks = (padded_texts != 0).long()

    # возвращаем преобразованный батч
    return {
        'texts': padded_texts,
        'masks': masks,
        'labels': labels
    }

texts = [[5, 9, 12], [2, 45, 23, 11], [12]]
labels = [1, 0, 1]
max_len = 5

# создаем объект датасета
dataset = RawDataset(texts, labels, max_len)

# пользуемся готовым даталоадером из PyTorch, но с кастомной функцией collate_fn
dataloader = DataLoader(dataset, batch_size=2, collate_fn=collate_fn)

for batch in dataloader:
    print(batch)

{'texts': tensor([[ 5,  9, 12,  0],
        [ 2, 45, 23, 11]]), 'masks': tensor([[1, 1, 1, 0],
        [1, 1, 1, 1]]), 'labels': tensor([1, 0])}
{'texts': tensor([[12]]), 'masks': tensor([[1]]), 'labels': tensor([1])}


In [65]:
import torch
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence

texts = [
    [5, 9, 12, 34, 23, 76, 89],          # len = 7
    [2, 45, 23],                         # len = 3
    [12, 56, 78, 90, 43, 22, 11, 8],     # len = 8
    [65, 12, 99, 54],                    # len = 4
    [3, 7, 8, 5, 1, 4, 6, 10, 11],       # len = 9
]
labels = [0, 1, 0, 2, 1]

class TextDataset(Dataset):
    def __init__(self, texts, labels):
        self.texts = texts
        self.labels = labels

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        return {'text': torch.tensor(self.texts[idx], dtype=torch.long),
                'label': torch.tensor(self.labels[idx], dtype=torch.long)}

def collate_fn(batch):
    texts = [item['text'] for item in batch]
    labels = torch.stack([item['label'] for item in batch])
 # посчитайте длины текстов в батче
    l = [len(c) for c in texts]
    all = [(l[i], texts[i], labels[i]) for i in range(len(texts))]
                 
    # отсортируйте тексты и классы по убыванию длины текстов
    all = sorted(all, key = lambda x: x[0], reverse=True)
    lengths = [c[0] for c in all]
    texts = [c[1] for c in all]
    labels = [c[2] for c in all]

    # дополните тексты пэддингом
    padded_texts = pad_sequence(texts, batch_first=True, padding_value=0)
    
    
    # посчитайте маску для батча
    masks = (padded_texts != 0).long()

    return {
        'texts': padded_texts,
        'masks': masks,
        'labels': labels,
        'lengths': lengths
    }





dataset = TextDataset(texts, labels)


# создайте объект dataloader с batch_size=3 и реализованным collate_fn
dataloader = DataLoader(dataset, batch_size=3, collate_fn=collate_fn)

for batch in dataloader:
    print("Texts:\n", batch['texts'])
    print("Masks:\n", batch['masks'])
    print("Labels:", batch['labels'])
    print("Lengths:", batch['lengths'])
    print("=" * 40)

Texts:
 tensor([[12, 56, 78, 90, 43, 22, 11,  8],
        [ 5,  9, 12, 34, 23, 76, 89,  0],
        [ 2, 45, 23,  0,  0,  0,  0,  0]])
Masks:
 tensor([[1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 0],
        [1, 1, 1, 0, 0, 0, 0, 0]])
Labels: [tensor(0), tensor(0), tensor(1)]
Lengths: [8, 7, 3]
Texts:
 tensor([[ 3,  7,  8,  5,  1,  4,  6, 10, 11],
        [65, 12, 99, 54,  0,  0,  0,  0,  0]])
Masks:
 tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 0, 0, 0, 0, 0]])
Labels: [tensor(1), tensor(2)]
Lengths: [9, 4]


In [None]:
import torch

from torch.utils.data import Dataset, DataLoader

from torch.nn.utils.rnn import pad_sequence


texts = [
    [5, 9, 12, 34, 23, 76, 89],          # len = 7
    [2, 45, 23],                         # len = 3
    [12, 56, 78, 90, 43, 22, 11, 8],     # len = 8
    [65, 12, 99, 54],                    # len = 4
    [3, 7, 8, 5, 1, 4, 6, 10, 11],       # len = 9
]


labels = [0, 1, 0, 2, 1]


class TextDataset(Dataset):
    def __init__(self, texts, labels):
        self.texts = texts
        self.labels = labels


    def __len__(self):
        return len(self.texts)


    def __getitem__(self, idx):
        return {'text': torch.tensor(self.texts[idx], dtype=torch.long),
                'label': torch.tensor(self.labels[idx], dtype=torch.long)}


def collate_fn(batch):
    texts = [item['text'] for item in batch]
    labels = torch.stack([item['label'] for item in batch])
    # посчитайте длины текстов в батче
    lengths = torch.tensor([len(c) for c in texts])
    lengths, ind_sort = lengths.sort(descending=True)
    ind_sort = ind_sort.tolist()


    # отсортируйте тексты и классы по убыванию длины текстов
    texts = [texts[i] for i in ind_sort]
    labels = torch.stack([labels[i] for i in ind_sort])

    # дополните тексты пэддингом
    padded_texts = pad_sequence(texts, batch_first=True, padding_value=0)


    # посчитайте маску для батча
    masks = (padded_texts != 0).long()
    
    return {
        'texts': padded_texts,     # (batch_size, max_len)
        'masks': masks,            # (batch_size, max_len)
        'labels': labels,          # (batch_size,)
        'lengths': lengths
    }


dataset = TextDataset(texts, labels)


# создайте объект dataloader с batch_size=3 и реализованным collate_fn
dataloader = DataLoader(dataset, batch_size=3, collate_fn=collate_fn)

# вывод результатов
for batch in dataloader:
    print("Texts:\n", batch['texts'])
    print("Masks:\n", batch['masks'])
    print("Labels:", batch['labels'])
    print("Lengths:", batch['lengths'])
    print("=" * 40)