Задача: составление прозрачной статистики для администрации города, основанной на отзывах о площадках.

Суммаризация отзывов пользователей, оценка их эмоциональной тональности и вывод ключевых слов может значительно помочь администрации города: с принятием решений по реставрации площадок, необходимости постройки новых площадок, пониманием нужд жителей города 

In [9]:
import torch
!pip install transformers
from transformers import AutoModelForSequenceClassification
from transformers import BertTokenizerFast
from transformers import AutoTokenizer, T5ForConditionalGeneration
# Модель для оценивания тональности отзыва
tokenizer = BertTokenizerFast.from_pretrained('blanchefort/rubert-base-cased-sentiment-rusentiment')
model = AutoModelForSequenceClassification.from_pretrained('blanchefort/rubert-base-cased-sentiment-rusentiment', return_dict=True)

@torch.no_grad()
def predict(text):
    inputs = tokenizer(text, max_length=512, padding=True, truncation=True, return_tensors='pt')
    outputs = model(**inputs)
    predicted = torch.nn.functional.softmax(outputs.logits, dim=1)
    predicted = torch.argmax(predicted, dim=1).numpy()
    return predicted
# Модель для суммаризации отзывов
model_name = "IlyaGusev/rut5_base_sum_gazeta"
tokenizer_summr = AutoTokenizer.from_pretrained(model_name)
model_summr = T5ForConditionalGeneration.from_pretrained(model_name)

Defaulting to user installation because normal site-packages is not writeable


In [20]:
import pandas as pd
import numpy as np
df = pd.read_csv("sample_reviews.csv")

In [21]:
sample = df[df["ground_id"] == 4]

In [22]:
sample

Unnamed: 0,ground_id,review,review_value
12,4,Дорожки на трассе уже в ужасном состоянии. В н...,2
13,4,Очень разочарован состоянием беговой трассы. П...,2
14,4,"Трасса по факту — это отличное место для бега,...",1
15,4,Беговая трасса оставляет желать лучшего. Покры...,2


In [23]:
sample["review"].to_list()

['Дорожки на трассе уже в ужасном состоянии. В некоторых местах покрытие изношено до такой степени, что можно повредить суставы. Реновация однозначно нужна! С таким состоянием трассы бегать небезопасно.',
 'Очень разочарован состоянием беговой трассы. Покрытие старое, изношенное, а местами и вовсе в ямах. Бегать по таким дорожкам — это риск для здоровья. Надеюсь, в ближайшее время её отремонтируют.',
 'Трасса по факту — это отличное место для бега, но из-за изношенного покрытия бегать стало неудобно. Не раз можно споткнуться о неровности или камни, которые торчат из асфальта. Нужна срочная реновация, чтобы было безопасно и комфортно тренироваться.',
 'Беговая трасса оставляет желать лучшего. Покрытие местами совсем изношено, дорожки очень твердые и некомфортные. Надо бы уже привести трассу в порядок, а то бегать здесь не так приятно, как хотелось бы.']

In [35]:
from sklearn.feature_extraction.text import CountVectorizer
from collections import defaultdict
def get_sentiment_category(reviews):
    sentiment_value = 0
    for j in range(len(reviews)):
        sentiment = predict(reviews[j])[0]
        if(sentiment == 1):
            sentiment_value+=1
        elif(sentiment==2):
            sentiment_value-=1
    mean_sentiment_value = sentiment_value/len(reviews)
    sentiment_proportion = ((mean_sentiment_value + 1)/2)
    if(sentiment_proportion >= 0 and sentiment_proportion <=0.2):
        sentiment_catrgory = "Крайне негативные"
    elif(sentiment_proportion > 0.2 and sentiment_proportion <=0.4):
        sentiment_catrgory = "В основном негативные"
    elif(sentiment_proportion > 0.4 and sentiment_proportion <=0.6):
        sentiment_catrgory = "Смешанные"
    elif(sentiment_proportion > 0.6 and sentiment_proportion <=0.8):
        sentiment_catrgory = "В основном положительные"
    elif(sentiment_proportion > 0.8 and sentiment_proportion <=1):
        sentiment_catrgory = "Крайне положительные"
    return sentiment_catrgory

# Функция получения ключевых слов
def get_key_aspects(reviews):
    def get_sentiment_score(text):
        inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512, padding=True)
        with torch.no_grad():
            outputs = model(**inputs)
        scores = torch.nn.functional.softmax(outputs.logits, dim=1)
        positive_score = scores[0][2].item() 
        negative_score = scores[0][0].item() 
        return positive_score - negative_score  

    # Генерация множества слов и биграмм(последовательности из двух слов)
    vectorizer = CountVectorizer(ngram_range=(1, 2), token_pattern=r'\b\w+\b')
    vectorizer.fit(reviews)
    ngrams = vectorizer.get_feature_names_out()

    # Словарь для хранения тональности каждого элемента
    sentiment_scores = defaultdict(float)

    # Оценка тональности для каждого элемента множества
    for ngram in ngrams:
        sentiment_scores[ngram] = get_sentiment_score(ngram)
    # Сортировка по тональности
    sorted_aspects = sorted(sentiment_scores.items(), key=lambda x: x[1], reverse=True)
    # Выбор топ-5 положительных и топ-5 отрицательных
    top_positive = sorted_aspects[:3]
    top_negative = sorted_aspects[-3:]

    return {
        "top_positive": top_positive,
        "top_negative": top_negative
    }
# Функция суммаризации набора отзвывов
def get_summary(text):
    input_text = ("\n").join(text)
    input_ids = tokenizer_summr(
        [input_text],
        max_length=600,
        add_special_tokens=True,
        padding="max_length",
        truncation=True,
        return_tensors="pt"
    )["input_ids"]
    output_ids = model_summr.generate(
        input_ids=input_ids,
        no_repeat_ngram_size=4,
        max_length=100,
    )[0]

    summary = tokenizer_summr.decode(output_ids, skip_special_tokens=True)
    return summary


def analyze(df): 
    sport_grounds = df["ground_id"].unique()
    import numpy as np
    sentiment_col = [] 
    mean_review_value_col = []
    ground_id_col = []
    key_positive_aspects_col = []
    key_negative_aspects_col = []
    summaries =[]
    for i in sport_grounds:
        temp = df[df["ground_id"] == i]
        reviews = temp["review"].to_list()
        ground_id_col.append(i)
        mean_review_value = np.mean(temp["review_value"])
        mean_review_value_col.append(mean_review_value)
        sentiment_col.append(get_sentiment_category(reviews))
        key_aspects = get_key_aspects(reviews) 
        key_positive_aspects_col.append(key_aspects["top_positive"])
        key_negative_aspects_col.append(key_aspects["top_negative"])
        summaries.append(get_summary(reviews))

    result = pd.DataFrame({
        'ground_id': ground_id_col,
        'mean_review_value': mean_review_value_col,
        'sentiment': sentiment_col,
        'key_positive_aspects': key_positive_aspects_col,
        'key_negative_aspects': key_negative_aspects_col,
        'review_summary':summaries
    })
    return result

In [36]:
sample_analysis = analyze(sample)

In [37]:
sample_analysis["review_summary"][0]

'В ближайшее время нужна срочная реновация беговой трассы, чтобы было безопасно и комфортно тренироваться. Покрытие уже в ужасном состоянии, а в некоторых местах покрытие изношено до такой степени, что можно повредить суставы.'

In [38]:
sample_analysis["key_negative_aspects"][0]

[('асфальта', -0.9949048517737538),
 ('суставы', -0.9949382407357916),
 ('беговой трассы', -0.9950577021809295)]

In [40]:
sample_analysis.to_csv('sample_analysis.csv', index=False)