In [34]:
analyzer = SentimentAnalyzer()
    
# Примеры текстов для анализа
texts = [
        "Этот ментор просто ужасен, никому не советую!",
        "Неплохой ментор, но есть и лучше.",
        "Очень доволен покупкой, всё отлично объясняет!",
        "Если честно, то просто отвратительный ментор, плохо объясняет алгоритмы",
        "Слабенький ментор, но для новчиков подойдет я думаю"
]
    
# Анализ тональности
for text in texts:
    sentiment = analyzer.predict_sentiment(text)
    print(f"Текст: {text}")
    print(f"Тональность: {sentiment}\n")

Текст: Этот ментор просто ужасен, никому не советую!
Тональность: отрицательный

Текст: Неплохой ментор, но есть и лучше.
Тональность: нейтральный

Текст: Очень доволен покупкой, всё отлично объясняет!
Тональность: положительный

Текст: Если честно, то просто отвратительный ментор, плохо объясняет алгоритмы
Тональность: отрицательный

Текст: Слабенький ментор, но для новчиков подойдет я думаю
Тональность: нейтральный



In [29]:

try:
    nlp = spacy.load("ru_core_news_sm")
except OSError:
    print("Пожалуйста, запустите: python -m spacy download ru_core_news_sm")
    exit()


def tokenize_text(text):
    return [token.text.lower() for token in nlp(text) if not token.is_punct and not token.is_space]


def build_vocab(corpus):
    word_to_idx = {"<unk>": 0, "<pad>": 1}
    idx = 2
    for text in corpus:
        for word in tokenize_text(text):
            if word not in word_to_idx:
                word_to_idx[word] = idx
                idx += 1
    return word_to_idx


def text_to_sequence(text, word_to_idx, max_len=None):
    tokens = tokenize_text(text)
    sequence = [word_to_idx.get(word, word_to_idx["<unk>"]) for word in tokens]
    
    if max_len:
        if len(sequence) > max_len:
            sequence = sequence[:max_len]
        else:
            sequence = sequence + [word_to_idx["<pad>"]] * (max_len - len(sequence))
    return sequence

class SentimentClassifier(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim, n_layers=2, bidirectional=False, dropout=0.5):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        self.lstm = nn.LSTM(embedding_dim,
                            hidden_dim,
                            num_layers=n_layers,
                            bidirectional=bidirectional,
                            dropout=dropout,
                            batch_first=True) 
        
        self.fc = nn.Linear(hidden_dim * (2 if bidirectional else 1), output_dim)
        self.dropout = nn.Dropout(dropout)

    def forward(self, text):
        embedded = self.dropout(self.embedding(text)) 
        output, (hidden, cell) = self.lstm(embedded)

        if self.lstm.bidirectional:
            hidden_final = self.dropout(torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim=1))
        else:
            hidden_final = self.dropout(hidden.squeeze(0)) # [batch size, hidden_dim]
            
        return self.fc(hidden_final)


def train_model(model, train_data, word_to_idx, num_epochs=10, max_len=20):
    criterion = nn.CrossEntropyLoss()
    optimizer = optim.Adam(model.parameters())
    
    label_map = {"отрицательный": 0, "нейтральный": 1, "положительный": 2}

    print("Начало обучения модели...")
    for epoch in range(num_epochs):
        total_loss = 0
        for text, label_str in train_data:
            label = label_map[label_str]

            sequence = text_to_sequence(text, word_to_idx, max_len=max_len)

            input_tensor = torch.tensor(sequence).long().unsqueeze(0)
            target_tensor = torch.tensor([label]).long()

            optimizer.zero_grad()
            output = model(input_tensor)
            
            loss = criterion(output, target_tensor)
            loss.backward()
            optimizer.step()
            
            total_loss += loss.item()
        print(f"Эпоха {epoch+1}/{num_epochs}, Потери: {total_loss:.4f}")
    print("Обучение завершено.")

    torch.save(model.state_dict(), 'sentiment_model.pt')

    joblib.dump(word_to_idx, 'word_to_idx.pkl')
    print("Модель и словарь сохранены.")


def classify_review(review, model, word_to_idx, max_len=20):

    if model is None or word_to_idx is None:
        return "Модель не обучена или не загружена."

    label_map_inv = {0: "отрицательный", 1: "нейтральный", 2: "положительный"}

    sequence = text_to_sequence(review, word_to_idx, max_len=max_len)
    input_tensor = torch.tensor(sequence).long().unsqueeze(0)

    with torch.no_grad():
        output = model(input_tensor)
        _, predicted = torch.max(output, 1)
        sentiment_index = predicted.item()

    return label_map_inv[sentiment_index]

def main():
    # Загружаем данные для обучения из CSV файла
    try:
        df = pd.read_csv('train_data.csv', sep='---')
        train_data = list(zip(df['text'], df['sentiment']))
    except FileNotFoundError:
        print("Пожалуйста, убедитесь, что файл существует и находится в той же директории.")
        exit()

    embedding_dim = 100
    hidden_dim = 128 
    output_dim = 3 
    max_len = 40
    num_epochs = 100 
    n_layers = 2 
    bidirectional = True 
    dropout = 0.5 

    model_path = 'sentiment_model.pt'
    vocab_path = 'word_to_idx.pkl'
    
    model = None
    word_to_idx = None
    
    try:
        word_to_idx = joblib.load(vocab_path)
        vocab_size = len(word_to_idx)
        
        model = SentimentClassifier(vocab_size, embedding_dim, hidden_dim, output_dim, n_layers, bidirectional, dropout)
        model.load_state_dict(torch.load(model_path))
        model.eval()
        print("Обученная модель и словарь загружены.")
    except FileNotFoundError:
        print("Модель не найдена. Начинаю обучение...")
        corpus = [text for text, _ in train_data]
        word_to_idx = build_vocab(corpus)
        vocab_size = len(word_to_idx)

        model = SentimentClassifier(vocab_size, embedding_dim, hidden_dim, output_dim, n_layers, bidirectional, dropout)
        train_model(model, train_data, word_to_idx, num_epochs=num_epochs, max_len=max_len)
        model.eval() 

    review = input("Введите отзыв: ")
    sentiment = classify_review(review, model, word_to_idx, max_len=max_len)
    print(f"Тональность: {sentiment}")

if __name__ == "__main__":
    main()


  df = pd.read_csv('train_data.csv', sep='---')


Модель не найдена. Начинаю обучение...
Начало обучения модели...
Эпоха 1/100, Потери: 129.2820
Эпоха 2/100, Потери: 89.3988
Эпоха 3/100, Потери: 46.3339
Эпоха 4/100, Потери: 49.4351
Эпоха 5/100, Потери: 48.3419
Эпоха 6/100, Потери: 23.4589
Эпоха 7/100, Потери: 28.4457
Эпоха 8/100, Потери: 26.9993
Эпоха 9/100, Потери: 14.6180
Эпоха 10/100, Потери: 7.9652
Эпоха 11/100, Потери: 10.7482
Эпоха 12/100, Потери: 19.5937
Эпоха 13/100, Потери: 4.0111
Эпоха 14/100, Потери: 4.9320
Эпоха 15/100, Потери: 11.8351
Эпоха 16/100, Потери: 5.2120
Эпоха 17/100, Потери: 1.3774
Эпоха 18/100, Потери: 8.9101
Эпоха 19/100, Потери: 14.3357
Эпоха 20/100, Потери: 10.1689
Эпоха 21/100, Потери: 5.1312
Эпоха 22/100, Потери: 1.9481
Эпоха 23/100, Потери: 6.2204
Эпоха 24/100, Потери: 1.5067
Эпоха 25/100, Потери: 11.3549
Эпоха 26/100, Потери: 14.2219
Эпоха 27/100, Потери: 5.0997
Эпоха 28/100, Потери: 2.0651
Эпоха 29/100, Потери: 6.5086
Эпоха 30/100, Потери: 0.7221
Эпоха 31/100, Потери: 0.5241
Эпоха 32/100, Потери: 0.1919

Введите отзыв:  "Очень доволен покупкой, всё отлично объясняет!"


Тональность: положительный
