In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import pandas as pd
import numpy as np
from tqdm import tqdm
import os

In [2]:
# Функция для построения словаря символов из списка слов.
def build_vocab(words):
    chars = set()
    for word in words:
        for ch in word:
            chars.add(ch)
    # Сортировка символов для стабильного порядка.
    chars = sorted(list(chars))
    # Зарезервируем индекс 0 для паддинга.
    char2idx = {ch: idx + 1 for idx, ch in enumerate(chars)}
    char2idx['<PAD>'] = 0
    idx2char = {idx: ch for ch, idx in char2idx.items()}
    return char2idx, idx2char

# Преобразование слова в последовательность индексов.
def encode_word(word, char2idx):
    return [char2idx.get(ch, 0) for ch in word]  # если символ не найден, возвращаем 0 (PAD)

In [3]:
# Кастомный Dataset для наших данных.
class StressDataset(Dataset):
    def __init__(self, csv_file, char2idx=None, mode='train'):
        """
        mode: 'train' - есть метка stress, 'test' - её нет.
        """
        self.data = pd.read_csv(csv_file)
        self.mode = mode
        self.words = self.data['word'].astype(str).tolist()
        if mode == 'train':
            self.stresses = self.data['stress'].tolist()  # метки (1-indexed)
        else:
            self.stresses = None
        self.num_syllables = self.data['num_syllables'].tolist()
        self.ids = self.data['id'].tolist()

        # Если словарь не передан, строим его по тренировочным словам.
        if char2idx is None:
            self.char2idx, self.idx2char = build_vocab(self.words)
        else:
            self.char2idx = char2idx
        self.encoded_words = [encode_word(word, self.char2idx) for word in self.words]

    def __len__(self):
        return len(self.words)

    def __getitem__(self, idx):
        item = {
            'id': self.ids[idx],
            'word': self.words[idx],
            'encoded': torch.tensor(self.encoded_words[idx], dtype=torch.long),
            'num_syllables': self.num_syllables[idx]
        }
        if self.mode == 'train':
            item['stress'] = self.stresses[idx]
        return item

    def get_char2idx(self):
        return self.char2idx

In [4]:
# Функция для формирования батча (с паддингом последовательностей).
def collate_fn(batch):
    ids = [b['id'] for b in batch]
    encoded_seqs = [b['encoded'] for b in batch]
    lengths = [len(seq) for seq in encoded_seqs]
    padded = nn.utils.rnn.pad_sequence(encoded_seqs, batch_first=True, padding_value=0)
    num_syllables = torch.tensor([b['num_syllables'] for b in batch], dtype=torch.long)
    stresses = None
    if 'stress' in batch[0]:
        stresses = torch.tensor([b['stress'] for b in batch], dtype=torch.long)
    return {
        'id': ids,
        'encoded': padded,
        'lengths': lengths,
        'num_syllables': num_syllables,
        'stress': stresses
    }

In [11]:
# Определяем модель: эмбеддинги, двунаправленный LSTM и линейный слой.
class StressModel(nn.Module):
    def __init__(self, vocab_size, embed_dim=64, hidden_size=128, num_classes=6):
        super(StressModel, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0)
        self.lstm = nn.LSTM(embed_dim, hidden_size, batch_first=True, bidirectional=False)
        self.fc = nn.Linear(hidden_size, num_classes)
        self.dp = nn.Dropout(0.2)
    
    def forward(self, x, lengths):
        # x имеет форму: (batch_size, seq_len)
        embedded = self.embedding(x)  # (batch_size, seq_len, embed_dim)
        # Упаковываем последовательности для LSTM (учитывая переменную длину).
        packed = nn.utils.rnn.pack_padded_sequence(embedded, lengths, batch_first=True, enforce_sorted=False)
        packed_output, (h_n, c_n) = self.lstm(packed)
        # h_n имеет размер (num_directions, batch, hidden_size) (так как используется один слой)
        h = h_n[0]
        h = self.dp(h)
        logits = self.fc(h)  # (batch, num_classes)
        return logits

In [12]:
# Функция потерь: для каждого примера используем только первые num_syllables логитов.
def masked_cross_entropy_loss(logits, stresses, num_syllables):
    # logits: (batch, 6)
    # stresses: (batch,) – метки (1-indexed), приводим к 0-indexed
    batch_loss = 0.0
    batch_size = logits.size(0)
    for i in range(batch_size):
        valid_len = num_syllables[i].item()  # число слогов в слове
        logit_i = logits[i, :valid_len]  # учитываем только допустимые позиции
        target = stresses[i].item() - 1  # перевод в 0-indexed
        loss_i = nn.functional.cross_entropy(logit_i.unsqueeze(0), torch.tensor([target], device=logits.device))
        batch_loss += loss_i
    return batch_loss / batch_size

# Функция обучения модели.
def train_model(model, dataloader, optimizer, device):
    model.train()
    total_loss = 0.0
    for batch in tqdm(dataloader, desc="Training"):
        optimizer.zero_grad()
        inputs = batch['encoded'].to(device)
        lengths = batch['lengths']
        logits = model(inputs, lengths)
        stresses = batch['stress'].to(device)
        num_syllables = batch['num_syllables'].to(device)
        loss = masked_cross_entropy_loss(logits, stresses, num_syllables)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
    return total_loss / len(dataloader)

# Функция для оценки точности (на обучающем/валидационном наборе).
def evaluate_model(model, dataloader, device):
    model.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for batch in tqdm(dataloader, desc="Evaluating"):
            inputs = batch['encoded'].to(device)
            lengths = batch['lengths']
            logits = model(inputs, lengths)
            stresses = batch['stress'].to(device)
            num_syllables = batch['num_syllables'].to(device)
            for i in range(logits.size(0)):
                valid_len = num_syllables[i].item()
                logit_i = logits[i, :valid_len]
                pred = torch.argmax(logit_i).item()  # 0-indexed
                true = stresses[i].item() - 1
                if pred == true:
                    correct += 1
                total += 1
    return correct / total

# Функция предсказания на тестовых данных.
def predict(model, dataloader, device):
    model.eval()
    predictions = []
    ids_all = []
    with torch.no_grad():
        for batch in tqdm(dataloader, desc="Predicting"):
            inputs = batch['encoded'].to(device)
            lengths = batch['lengths']
            logits = model(inputs, lengths)
            num_syllables = batch['num_syllables']
            ids_batch = batch['id']
            for i in range(logits.size(0)):
                valid_len = num_syllables[i].item()
                logit_i = logits[i, :valid_len]
                # Выбираем индекс с максимальным значением и переводим в 1-indexed.
                pred = torch.argmax(logit_i).item() + 1
                predictions.append(pred)
            ids_all.extend(ids_batch)
    return ids_all, predictions

In [13]:
# Основная функция: режимы обучения и предсказания.
def main(args):
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    
    if args.mode == 'train':
        # Загружаем тренировочные данные.
        train_dataset = StressDataset('train.csv', mode='train')
        # Сохраним словарь символов для использования при предсказании.
        char2idx = train_dataset.char2idx
        train_loader = DataLoader(train_dataset, batch_size=args.batch_size, shuffle=True, collate_fn=collate_fn)
        # Здесь можно организовать валидацию; для простоты используем часть тренировочных данных.
        val_loader = DataLoader(train_dataset, batch_size=args.batch_size, shuffle=False, collate_fn=collate_fn)
        
        model = StressModel(vocab_size=len(char2idx), embed_dim=args.embed_dim, hidden_size=args.hidden_size)
        model.to(device)
        optimizer = optim.Adam(model.parameters(), lr=args.lr)
        num_epochs = args.epochs
        
        for epoch in range(num_epochs):
            train_loss = train_model(model, train_loader, optimizer, device)
            val_acc = evaluate_model(model, val_loader, device)
            print(f"Epoch {epoch+1}/{num_epochs}, Loss: {train_loss:.4f}, Accuracy: {val_acc:.4f}")
        
        # Сохраняем модель и словарь.
        torch.save({'model_state_dict': model.state_dict(), 'char2idx': char2idx}, args.model_path)
        print(f"Model saved to {args.model_path}")
    
    elif args.mode == 'predict':
        # Загружаем модель и словарь.
        checkpoint = torch.load(args.model_path, map_location=device)
        char2idx = checkpoint['char2idx']
        model = StressModel(vocab_size=len(char2idx), embed_dim=args.embed_dim, hidden_size=args.hidden_size)
        model.load_state_dict(checkpoint['model_state_dict'])
        model.to(device)
        # Загружаем тестовый датасет.
        test_dataset = StressDataset('test.csv', char2idx=char2idx, mode='test')
        test_loader = DataLoader(test_dataset, batch_size=args.batch_size, shuffle=False, collate_fn=collate_fn)
        ids_all, preds = predict(model, test_loader, device)
        # Сохраняем сабмит в формате: id,stress
        submission = pd.DataFrame({'id': ids_all, 'words': test_dataset.words, 'stress': preds})
        submission.to_csv(args.output, index=False)
        print(f"Submission saved to {args.output}")

In [14]:
class Args():
    def __init__(self, args):
        self.mode = args['mode']
        self.batch_size = args['batch_size']
        self.epochs = args['epochs']
        self.lr = args['lr']
        self.embed_dim = args['embed_dim']
        self.hidden_size = args['hidden_size']
        self.model_path = args['model_path']
        self.output = args['output']

In [15]:
if __name__ == '__main__':
    args = dict()
    args['mode'] = 'train'
    # args[mode] = 'predict'
    args['batch_size'] = 64
    args['epochs'] = 10
    args['lr'] = 0.001
    args['embed_dim'] = 64
    args['hidden_size'] = 128
    args['model_path'] = 'stress_model.pth'
    args['output'] = 'submission.csv'
    parser = Args(args)
    main(parser)

Training: 100%|██████████████████████████████████████████████████████████████████████| 992/992 [00:46<00:00, 21.25it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████| 992/992 [00:22<00:00, 44.70it/s]


Epoch 1/10, Loss: 0.8083, Accuracy: 0.7138


Training: 100%|██████████████████████████████████████████████████████████████████████| 992/992 [00:46<00:00, 21.26it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████| 992/992 [00:21<00:00, 46.07it/s]


Epoch 2/10, Loss: 0.6323, Accuracy: 0.7702


Training: 100%|██████████████████████████████████████████████████████████████████████| 992/992 [00:45<00:00, 21.92it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████| 992/992 [00:21<00:00, 47.21it/s]


Epoch 3/10, Loss: 0.5477, Accuracy: 0.8113


Training: 100%|██████████████████████████████████████████████████████████████████████| 992/992 [00:46<00:00, 21.39it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████| 992/992 [00:20<00:00, 47.59it/s]


Epoch 4/10, Loss: 0.4817, Accuracy: 0.8330


Training: 100%|██████████████████████████████████████████████████████████████████████| 992/992 [00:46<00:00, 21.35it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████| 992/992 [00:22<00:00, 44.75it/s]


Epoch 5/10, Loss: 0.4277, Accuracy: 0.8551


Training: 100%|██████████████████████████████████████████████████████████████████████| 992/992 [00:45<00:00, 21.65it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████| 992/992 [00:20<00:00, 47.29it/s]


Epoch 6/10, Loss: 0.3854, Accuracy: 0.8689


Training: 100%|██████████████████████████████████████████████████████████████████████| 992/992 [00:47<00:00, 20.98it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████| 992/992 [00:21<00:00, 47.13it/s]


Epoch 7/10, Loss: 0.3515, Accuracy: 0.8822


Training: 100%|██████████████████████████████████████████████████████████████████████| 992/992 [00:47<00:00, 20.95it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████| 992/992 [00:20<00:00, 47.45it/s]


Epoch 8/10, Loss: 0.3227, Accuracy: 0.8993


Training: 100%|██████████████████████████████████████████████████████████████████████| 992/992 [00:44<00:00, 22.39it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████| 992/992 [00:21<00:00, 45.94it/s]


Epoch 9/10, Loss: 0.2948, Accuracy: 0.9053


Training: 100%|██████████████████████████████████████████████████████████████████████| 992/992 [00:45<00:00, 21.59it/s]
Evaluating: 100%|████████████████████████████████████████████████████████████████████| 992/992 [00:20<00:00, 47.63it/s]

Epoch 10/10, Loss: 0.2730, Accuracy: 0.9194
Model saved to stress_model.pth





In [16]:
if __name__ == '__main__':
    args['mode'] = 'predict'
    parser = Args(args)
    main(parser)

Predicting: 100%|████████████████████████████████████████████████████████████████████| 469/469 [00:06<00:00, 67.19it/s]


Submission saved to submission.csv


+ Epoch 10/10, Loss: 0.1252, Accuracy: 0.9679 - бидирект, без дропаута
+ Epoch 10/10, Loss: 0.2325, Accuracy: 0.9301 - не бидирект, без дропаута
+ Epoch 10/10, Loss: 0.3079, Accuracy: 0.9057 - не бидирект, дропаут 0,42
+ Epoch 10/10, Loss: 0.2730, Accuracy: 0.9194 - не бидирект, дропаут 0,2