In [132]:
import pandas as pd

df = pd.read_csv('sample_dataset.tsv', sep='\t')

In [133]:
df

Unnamed: 0,Date,Link,Text,Title
0,2022-10-08 04:53:00,https://lenta.ru/news/2022/10/08/saud/,Глава МИД Саудовской Аравии Адель аль-Джубейр ...,В Саудовской Аравии ответили на претензии США ...
1,2022-10-08 00:37:51,https://lenta.ru/news/2022/10/08/mvf/,Исполнительный совет Международного валютного ...,"МВФ выделил 1,3 миллиарда долларов Украине"
2,2022-10-07 21:31:00,https://lenta.ru/news/2022/10/07/sakhalin/,Президент России Владимир Путин подписал указ ...,Путин подписал указ о создании нового оператор...
3,2022-10-07 19:11:00,https://lenta.ru/news/2022/10/07/semi_ch/,Администрация президента США объявила о новых ...,США нашли способ ударить по доступу Китая к кл...
4,2022-10-07 17:00:00,https://lenta.ru/news/2022/10/07/ecbbanki/,Европейский центробанк (ЕЦБ) ужесточает требов...,От европейских банков потребовали экономии
5,2022-10-07 15:55:00,https://lenta.ru/news/2022/10/07/natzval/,"Страны, которые входят в СНГ, переходят на рас...",Путин объяснил переход стран СНГ на расчеты в ...
6,2022-10-07 15:22:40,https://lenta.ru/news/2022/10/07/genius/,Президент Белоруссии Александр Лукашенко подпи...,Лукашенко запретил отменять скидки по акции
7,2022-10-07 13:48:00,https://lenta.ru/news/2022/10/07/dadut/,Россия и Белоруссия достигли окончательной дог...,В Белоруссии раскрыли сумму ожидаемых от Росси...
8,2022-10-07 13:28:50,https://lenta.ru/news/2022/10/07/borrell/,В ЕС нашли объяснение решению ОПЕК+ снизить до...,В ЕС нашли объяснение решению ОПЕК+ снизить до...
9,2022-10-07 12:37:00,https://lenta.ru/news/2022/10/07/garantii_putin/,Российский президент Владимир Путин подписал з...,Путин подписал закон о трудовых правах мобилиз...


In [134]:
df.drop(["Link", "Date"], axis=1, inplace=True)

## Лексические метрики

In [135]:
import spacy

# NLP = spacy.load('ru_core_news_lg')
NLP = spacy.load('ru_core_news_sm')
POS_TAGS = ['NOUN', 'ADJ', 'VERB', 'ADV', 'PROPN']
VOWELS = frozenset('аоиыуэ')

In [136]:
import numpy as np

def count_vowels(text):
    return sum(letter in VOWELS for letter in text)

def lemmatize(articles):

    # remove e-mails and url links
    articles = articles.replace(r'\S*@\S*\s?', '', regex=True)
    articles = articles.replace(r'http\S+', '', regex=True)
    articles = articles.replace(r'www.\S+', '', regex=True)

    # fix punctuation
    articles = articles.replace(r'\.([а-яА-Я])', r'. \g<1>', regex=True)

    # remove all non-alphabetic characters
    articles = articles.replace(r'[^а-яА-Я.]+', ' ', regex=True)

    # lowercase
    articles = articles.str.lower()

    docs = list(NLP.pipe(articles, batch_size=len(articles)))

    tokens = [[token.lemma_ for token in article if token.pos_ in POS_TAGS] for article in docs]
    sentence_count = [len(list(article.sents)) for article in docs]
    syllable_count = [count_vowels(article) for article in articles]  # in russian, no. of vowels ~= no. of syllables

    return tokens, sentence_count, syllable_count

In [137]:
def evaluate(articles):
    tokens, total_sentences, total_syllables = lemmatize(articles)

    lexical_diversity = np.fromiter((len(set(tokens)) / len(tokens) for tokens in tokens), float)

    # Flesch Reading Ease
    fre = np.fromiter((206.835 - 1.52 * (len(w) / sen) - 65.14 * (syl / len(w)) for w, sen, syl in zip(tokens, total_sentences, total_syllables)), float)
    fre = (fre - np.min(fre)) / (121.22 - np.min(fre))  # 121.22 is the highest possible score;
                                                        # there's no lower bound, so we use the lowest score we got as a reference
    return lexical_diversity, fre

In [138]:
df["Lexical_Diversity"], df["FRE"] = evaluate(df.Text)

## Анализ сентимента

In [139]:
import torch
from transformers import BertTokenizerFast, AutoModelForSequenceClassification

tokenizer = BertTokenizerFast.from_pretrained('blanchefort/rubert-base-cased-sentiment')
model = AutoModelForSequenceClassification.from_pretrained('blanchefort/rubert-base-cased-sentiment')

def predict_sentiment(text):
    inputs = tokenizer(text, max_length=512, padding=True, truncation=True, return_tensors='pt')
    outputs = model(**inputs)
    predicted = torch.nn.functional.softmax(outputs.logits, dim=1)

    return pd.Series(predicted.detach().numpy().flatten())

In [140]:
df[['Neutral', 'Positive', 'Negative']] = df.apply(lambda row: predict_sentiment(row['Text']), axis=1)

## Вычисление счета

In [141]:
df['Score'] = df.Lexical_Diversity + df.FRE + df.Neutral + df.Positive - df.Negative

In [144]:
df.sort_values(by=['Score'], ascending=False)

Unnamed: 0,Text,Title,Lexical_Diversity,FRE,Neutral,Positive,Negative,Score
4,Европейский центробанк (ЕЦБ) ужесточает требов...,От европейских банков потребовали экономии,0.80531,0.244684,0.817153,0.150579,0.032268,1.985458
5,"Страны, которые входят в СНГ, переходят на рас...",Путин объяснил переход стран СНГ на расчеты в ...,0.849315,0.165046,0.833623,0.129364,0.037013,1.940336
21,Европейская комиссия утвердила новый пакет сан...,Европа согласовала потолок цен для российской ...,0.761364,0.239691,0.823185,0.144318,0.032497,1.936061
24,Российская экономика доказывает свою способнос...,Мишустин оценил состояние российской экономики...,0.83871,0.157377,0.820418,0.147984,0.031598,1.93289
23,Премьер-министр Михаил Мишустин назвал ожидаем...,Мишустин назвал ожидаемые сроки уверенного рос...,0.836538,0.1389,0.829033,0.137668,0.033299,1.90884
20,Министерство финансов России планирует пополни...,В России нашли способ пополнить бюджет на 100 ...,0.740741,0.204789,0.799822,0.162363,0.037815,1.8699
1,Исполнительный совет Международного валютного ...,"МВФ выделил 1,3 миллиарда долларов Украине",0.776596,0.15139,0.824889,0.142081,0.03303,1.861926
15,Государственный долг Украины за август вырос н...,Госдолг Украины превысил 98 миллиардов долларов,0.74359,0.190905,0.785297,0.17799,0.036712,1.86107
7,Россия и Белоруссия достигли окончательной дог...,В Белоруссии раскрыли сумму ожидаемых от Росси...,0.857143,0.053754,0.824107,0.14303,0.032863,1.84517
27,Минпромторг собирается поддержать отечественно...,Власти собрались поддержать отечественное прои...,0.755365,0.100942,0.805713,0.160768,0.033519,1.789269
