In [2]:
import feedparser

In [3]:
rss_meduza = "https://meduza.io/rss/all"
rss_vedomosti = "https://www.vedomosti.ru/rss/news"
rss_lenta = "https://lenta.ru/rss"

In [34]:
feed_meduza = feedparser.parse(rss_meduza)
feed_vedomosti = feedparser.parse(rss_vedomosti)
feed_lenta = feedparser.parse(rss_lenta)

In [5]:
meduza_articles = []
vedomosti_articles = []
lenta_articles = []

In [36]:
for item in feed_meduza['items']:
    if is_news(item):
        meduza_articles.append(get_text(item))

In [10]:
for item in feed_vedomosti['items']:
    vedomosti_articles.append(get_text(item))

In [11]:
for item in feed_lenta['items']:
    lenta_articles.append(get_text(item))

In [7]:
def is_news(item):
    if "news" in item['link']:
        return True
    else:
        return False

In [8]:
from newspaper import Article
def get_text(item):
    url = item['link']
    article = Article(url)
    article.download()
    article.parse()
    return article.text

In [37]:
len(meduza_articles)

35

### Preprocess articles

In [49]:
import nltk
nltk.download("stopwords")
#--------#

from nltk.corpus import stopwords
from pymystem3 import Mystem
from string import punctuation

#Create lemmatizer and stopwords list
mystem = Mystem() 
russian_stopwords = stopwords.words("russian")

#Preprocess function
def preprocess_text(text):
    tokens = mystem.lemmatize(text.lower())
    tokens = [token for token in tokens if token not in russian_stopwords\
              and token != " " \
              and token.strip() not in punctuation]
    
    text = " ".join(tokens)
    
    return text

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/yulialysenko/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
Installing mystem to /Users/yulialysenko/.local/bin/mystem from http://download.cdn.yandex.net/mystem/mystem-3.1-macosx.tar.gz


In [50]:
preprocess_text("Ну что сказать, я вижу кто-то наступил на грабли, Ты разочаровал меня, ты был натравлен.")
#> 'сказать видеть кто-то наступать грабли разочаровывать натравлять'

preprocess_text("По асфальту мимо цемента, Избегая зевак под аплодисменты. Обитатели спальных аррондисманов")
#> 'асфальт мимо цемент избегать зевака аплодисменты обитатель спальный аррондисман'

'асфальт мимо цемент избегать зевака аплодисменты обитатель спальный аррондисман'

### Compare articles

In [16]:
from nltk.tokenize import word_tokenize, sent_tokenize

##data = "Mars is a cold desert world. It is half the size of Earth. "


In [98]:
print(sent_tokenize(data))
print(word_tokenize(data))

['Mars is a cold desert world.', 'It is half the size of Earth.']
['Mars', 'is', 'a', 'cold', 'desert', 'world', '.', 'It', 'is', 'half', 'the', 'size', 'of', 'Earth', '.']


In [17]:
file_docs = []

tokens = sent_tokenize(meduza_articles[0])
for line in tokens:
    file_docs.append(line)

print("Number of documents:",len(file_docs))

Number of documents: 12


In [112]:
gen_docs = [[w.lower() for w in word_tokenize(text)] 
            for text in file_docs]

In [43]:
print(meduza_articles[18])
print(vedomosti_articles[1])

Британские организации, работающие над созданием вакцины от COVID-19, подвергаются хакерским атакам со стороны других государств, в частности, Ирана, России и Китая. Об этом пишет The Guardian со ссылкой на данные Национального центра кибербезопасности.

Как отмечает издание, ни одна из атак пока не была успешной.

Во всем мире сейчас разрабатывается несколько десятков различных видов вакцин от COVID-19.

В Великобритании дальше всех в разработке вакцины продвинулись ученые из Института Дженнера в Оксфорде. Разрабатываемый там препарат уже запустили в производство параллельно с началом испытаний на людях — в случае, если они окажутся успешными, уже к сентябрю ученые рассчитывают получить до миллиона доз.
Британские университеты и научные организации, работающие над вакциной от коронавирусной инфекции, стали жертвами хакерских атак, пишет The Guardian со ссылкой на экспертов по кибербезопасности. «Считается, что за хакерскими атаками стоят государства, включая Иран и Россию, эксперты та

In [22]:
from sklearn.feature_extraction.text import TfidfVectorizer
vect = TfidfVectorizer(min_df=1)  

In [23]:
tfidf = vect.fit_transform(file_docs)

In [27]:
pairwise_similarity = tfidf * tfidf.T 
pairwise_similarity.toarray()

array([[1.        , 0.05879216, 0.        , 0.        , 0.05047745,
        0.        , 0.08639927, 0.0562797 , 0.        , 0.06356501,
        0.1270475 , 0.        ],
       [0.05879216, 1.        , 0.        , 0.        , 0.        ,
        0.06607413, 0.08264944, 0.        , 0.04307758, 0.03413778,
        0.06514273, 0.        ],
       [0.        , 0.        , 1.        , 0.        , 0.02974314,
        0.        , 0.        , 0.        , 0.07762103, 0.02399968,
        0.        , 0.        ],
       [0.        , 0.        , 0.        , 1.        , 0.04096692,
        0.06614297, 0.        , 0.        , 0.        , 0.04236234,
        0.        , 0.        ],
       [0.05047745, 0.        , 0.02974314, 0.04096692, 1.        ,
        0.07209613, 0.        , 0.        , 0.        , 0.03603132,
        0.        , 0.        ],
       [0.        , 0.06607413, 0.        , 0.06614297, 0.07209613,
        1.        , 0.        , 0.        , 0.        , 0.        ,
        0.        ,

In [52]:
import nltk, string
from sklearn.feature_extraction.text import TfidfVectorizer

##nltk.download('punkt') # if necessary...


stemmer = nltk.stem.porter.PorterStemmer()
remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)

def stem_tokens(tokens):
    return [stemmer.stem(item) for item in tokens]

def normalize(text):
    return stem_tokens(nltk.word_tokenize(text.lower().translate(remove_punctuation_map)))

vectorizer = TfidfVectorizer(tokenizer=normalize)

def cosine_sim(text1, text2):
    tfidf = vectorizer.fit_transform([text1, text2])
    return ((tfidf * tfidf.T).A)[0,1]


print (cosine_sim(preprocess_text(meduza_articles[0]), preprocess_text(meduza_articles[0])))
print (cosine_sim(preprocess_text(meduza_articles[18]), preprocess_text(vedomosti_articles[1])))

1.0000000000000004
0.21626697905977543


In [55]:
preprocess_text(meduza_articles[18])

'британский организация работать создание вакцина covid 19 подвергаться хакерский атака сторона государство частность иран россия китай это писать the guardian ссылка данные национальный центр кибербезопасность отмечать издание атака пока успешный мир разрабатываться несколько десяток различный вид вакцина covid 19 великобритания далеко разработка вакцина продвигаться ученый институт дженнер оксфорд разрабатывать препарат запускать производство параллельно начало испытание человек  —  случай оказываться успешный сентябрь ученый рассчитывать получать миллион доза'

In [54]:
preprocess_text(vedomosti_articles[1])

'британский университет научный организация работать вакцина коронавирусный инфекция становиться жертва хакерский атака писать the guardian ссылка эксперт кибербезопасность  « считаться хакерский атака стоять государство включая иран россия эксперт также называть китай качество вероятный виновный », –  писать британский газета кибератака британский учреждение заниматься исследование новый коронавирус отслеживать россия иран также сообщать таблоид the mail on sunday'

In [115]:
import gensim
dictionary = gensim.corpora.Dictionary(gen_docs)
print(dictionary.token2id)

{'.': 0, 'коронавирус': 1, 'михаила': 2, 'мишустина': 3, 'нашли': 4, 'премьер-министра': 5, 'россии': 6, 'у': 7, ',': 8, '«': 9, '»': 10, 'владимиру': 11, 'доложил': 12, 'интерфакс': 13, 'мишустин': 14, 'об': 15, 'путину': 16, 'сам': 17, 'сообщает': 18, 'этом': 19, 'заявил': 20, 'на': 21, 'самоизоляцию': 22, 'уходит': 23, 'что': 24, 'андрея': 25, 'белоусова': 26, 'исполняющим': 27, 'назначить': 28, 'обязанности': 29, 'он': 30, 'предложил': 31, 'премьера': 32, ';': 33, 'был': 34, 'кандидатуру': 35, 'минут': 36, 'несколько': 37, 'поддержал': 38, 'подписан': 39, 'путин': 40, 'соответствующий': 41, 'уже': 42, 'указ': 43, 'через': 44, 'эту': 45}


In [116]:
corpus = [dictionary.doc2bow(gen_doc) for gen_doc in gen_docs]

In [119]:
tf_idf = gensim.models.TfidfModel(corpus)

In [121]:
for doc in tf_idf[corpus]:
    print([[dictionary[id], np.around(freq, decimals=2)] for id, freq in doc])

NameError: name 'np' is not defined