In [38]:
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
import pandas as pd
import re
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')
from nltk.stem import WordNetLemmatizer
from sklearn.model_selection import train_test_split
from collections import Counter

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\kerio\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\kerio\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [39]:
# Загрузка данных
df = pd.read_csv("data/IMDB Dataset.csv")

lemmatizer = WordNetLemmatizer()

def clean_and_lemmatize_text(text):
    # Очистка текста от тегов и символов
    text = re.sub(r'<br\s*/>', ' ', text)
    text = re.sub(r'[^a-zA-Z\s]', '', text, re.I|re.A)
    text = text.lower().strip()
    
    # Лемматизация каждого слова в тексте
    lemmatized_words = [lemmatizer.lemmatize(word) for word in text.split()]
    return ' '.join(lemmatized_words)

df['review'] = df['review'].apply(clean_and_lemmatize_text)

# Преобразование меток: 'positive' -> 1, 'negative' -> 0
df['sentiment'] = df['sentiment'].apply(lambda x: 1 if x == 'positive' else 0)

# Разделение данных на обучающую и тестовую выборки
train_df, test_df = train_test_split(df, test_size=0.2, random_state=1337)

In [40]:
# Построение словаря
all_words = ' '.join(train_df['review']).split()
word_counts = Counter(all_words)
# Оставляем только 10000 самых часто встречающихся слов
vocab = [word for word, count in word_counts.most_common(10000)]
word2idx = {word: i + 1 for i, word in enumerate(vocab)}
word2idx['<UNK>'] = 0  # <UNK> для неизвестных слов

def encode_review(text, word2idx, maxlen=256):
    encoded_review = [word2idx.get(word, word2idx['<UNK>']) for word in text.split()]
    
    # Выравнивание последовательности
    if len(encoded_review) > maxlen:
        encoded_review = encoded_review[:maxlen]
    elif len(encoded_review) < maxlen:
        encoded_review.extend([0] * (maxlen - len(encoded_review)))
    
    return encoded_review

# Применение кодирования к данным
train_encoded = [encode_review(review, word2idx) for review in train_df['review']]
test_encoded = [encode_review(review, word2idx) for review in test_df['review']]

train_labels = list(train_df['sentiment'])
test_labels = list(test_df['sentiment'])

In [41]:
class TextDataset(Dataset):
    def __init__(self, reviews, labels):
        self.reviews = torch.tensor(reviews, dtype=torch.long)
        self.labels = torch.tensor(labels, dtype=torch.float32)

    def __len__(self):
        return len(self.reviews)

    def __getitem__(self, idx):
        return self.reviews[idx], self.labels[idx]

# Создание DataLoader'ов
BATCH_SIZE = 64
train_dataset = TextDataset(train_encoded, train_labels)
test_dataset = TextDataset(test_encoded, test_labels)

train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE)

In [42]:
class SentimentLSTM(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim, n_layers, dropout):
        super().__init__()
        
        self.embedding = nn.Embedding(vocab_size, embedding_dim, padding_idx=0)
        self.lstm = nn.LSTM(embedding_dim,
                            hidden_dim,
                            num_layers=n_layers,
                            bidirectional=True,
                            dropout=dropout,
                            batch_first=True)
        self.dropout = nn.Dropout(dropout)
        self.fc = nn.Linear(hidden_dim * 2, output_dim)

    def forward(self, text):
        embedded = self.embedding(text)
        
        # Передаем embedding в LSTM
        lstm_out, (hidden, cell) = self.lstm(embedded)
        
        # hidden_dim * 2, потому что модель двунаправленная (bidirectional=True)
        hidden = self.dropout(torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim=1))
        
        return self.fc(hidden).squeeze(1)

# Инициализация модели
VOCAB_SIZE = len(word2idx)
EMBEDDING_DIM = 128
HIDDEN_DIM = 256
OUTPUT_DIM = 1
N_LAYERS = 2
DROPOUT = 0.5

model = SentimentLSTM(VOCAB_SIZE, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM, N_LAYERS, DROPOUT)

# Функция для подсчета количества параметров
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f'Количество обучаемых параметров: {count_parameters(model):,}')

# Определение оптимизатора и функции потерь
optimizer = torch.optim.Adam(model.parameters())
criterion = nn.BCEWithLogitsLoss()

# Перенос модели и данных на GPU, если доступно
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device)
criterion = criterion.to(device)

Количество обучаемых параметров: 3,648,129


In [43]:
def train_model(model, loader, optimizer, criterion):
    model.train()
    epoch_loss = 0
    epoch_acc = 0
    for text, labels in loader:
        text, labels = text.to(device), labels.to(device)
        
        optimizer.zero_grad()
        predictions = model(text)
        
        loss = criterion(predictions, labels)
        
        rounded_preds = torch.round(torch.sigmoid(predictions))
        acc = (rounded_preds == labels).float().mean()
        
        loss.backward()
        optimizer.step()
        
        epoch_loss += loss.item()
        epoch_acc += acc.item()
    return epoch_loss / len(loader), epoch_acc / len(loader)

def evaluate_model(model, loader, criterion):
    model.eval()
    epoch_loss = 0
    epoch_acc = 0
    with torch.no_grad():
        for text, labels in loader:
            text, labels = text.to(device), labels.to(device)
            predictions = model(text)
            
            loss = criterion(predictions, labels)
            rounded_preds = torch.round(torch.sigmoid(predictions))
            acc = (rounded_preds == labels).float().mean()
            
            epoch_loss += loss.item()
            epoch_acc += acc.item()
    return epoch_loss / len(loader), epoch_acc / len(loader)

# Запуск обучения
N_EPOCHS = 5
for epoch in range(N_EPOCHS):
    train_loss, train_acc = train_model(model, train_loader, optimizer, criterion)
    test_loss, test_acc = evaluate_model(model, test_loader, criterion)
    
    print(f'Эпоха: {epoch+1:02} | '
          f'Обучающие потери: {train_loss:.3f} | '
          f'Обучающая точность: {train_acc*100:.2f}% | '
          f'Тестовые потери: {test_loss:.3f} | '
          f'Тестовая точность: {test_acc*100:.2f}%')

Эпоха: 01 | Обучающие потери: 0.680 | Обучающая точность: 55.67% | Тестовые потери: 0.693 | Тестовая точность: 49.83%
Эпоха: 02 | Обучающие потери: 0.646 | Обучающая точность: 59.71% | Тестовые потери: 0.466 | Тестовая точность: 78.93%
Эпоха: 03 | Обучающие потери: 0.378 | Обучающая точность: 83.69% | Тестовые потери: 0.409 | Тестовая точность: 83.78%
Эпоха: 04 | Обучающие потери: 0.268 | Обучающая точность: 89.49% | Тестовые потери: 0.325 | Тестовая точность: 86.33%
Эпоха: 05 | Обучающие потери: 0.218 | Обучающая точность: 91.81% | Тестовые потери: 0.269 | Тестовая точность: 88.89%
