# Парсинг новостей

Библиотека `newspaper3k` - это мощный инструмент, предназначенный для извлечения и анализа данных с новостных веб-сайтов. Эта библиотека была вдохновлена библиотекой `requests` и позволяет разработчикам и исследователям легко собирать информацию из новостных статей, включая заголовки, тексты, авторов, ключевые слова, изображения и даты публикации.

`newspaper3k` также имеет встроенные функции NLP, что позволяет быстро получить ключевые слова и саммари новостной статьи.

Для начала установим библиотеку.

In [None]:
!pip install newspaper3k

Взглянем на [документацию библиотеки](https://newspaper.readthedocs.io/en/latest/user_guide/quickstart.html). Модуль работает с ссылками на новости или ссылкой на новостной ресурс (и далее самостоятельно собирает оттуда ссылки).

## Извлечение новости и метаданных

Из библиотеки мы импортируем класс `Article`. Каждая новость, которую мы будем извлекать таким образом будет являться экземпляром класса `Article`. Буквально это означает, что внутри `Article` лежит некая инструкция о том, как обычно выглядит новостная статья – например, у нее обязательно есть заголовок, может быть автор, фотографии, дата публикации. 

Каждая новость, которую мы будем передавать внутрь класса `Article` по ссылке будет обрабатываться по зашитой внутрь нее схеме.

In [1]:
from newspaper import Article

Посмотрим на эту статью из РБК Трендов: «[Как модель искусственного интеллекта поможет в лечении депрессии](https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243?page=tag&nick=ai)». Положим ссылку на статью в переменную `url`.

In [2]:
url = 'https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243?page=tag&nick=ai'

Далее создаем экземпляр класса `Article`. Он будет называться `article` с маленькой буквы (обратите внимание – все классы в Python пишутся с большой буквы). 

Мы передаем ссылку и указываем язык новости (параметр `language`). Библиотека `newspaper3k` работает со следующими языками:

|input code|full name|
|---|---|
  nl	|		  Dutch
  zh	|		  Chinese
  vi	|		  Vietnamese
  no	|		  Norwegian
  ar	|		  Arabic
  tr	|		  Turkish
  sr	|		  Serbian
  fr	|		  French
  ru	|		  Russian
  en	|		  English
  hi	|		  Hindi
  ja	|		  Japanese
  sw	|		  Swahili
  pl	|		  Polish
  fa	|		  Persian
  el	|		  Greek
  sv	|		  Swedish
  sl	|		  Slovenian
  de	|		  German
  it	|		  Italian
  pt	|		  Portuguese
  he	|		  Hebrew
  hr	|		  Croatian
  et	|		  Estonian
  id	|		  Indonesian
  ro	|		  Romanian
  es	|		  Spanish
  ko	|		  Korean
  hu	|		  Hungarian
  da	|		  Danish
  fi	|		  Finnish
  bg	|		  Bulgarian
  be	|		  Belarusian
  mk	|		  Macedonian
  nb	|		  Norwegian (Bokmål)
  uk	|		  Ukrainian

In [3]:
article = Article(url, language='ru')

Отлично! Теперь у нас есть переменная `article`, которая обрабатывается библиотекой по инструкции как новостная статья. Если мы попробуем распечатать эту переменную, то увидим техническую информацию – как Python видит внутри себя эту переменную.

In [4]:
print(article)

<newspaper.article.Article object at 0x7f9c388cfbb0>


Чтобы получить данные, мы воспользуемся методом `.download()`, который загрузит html статьи по ссылке. Сам html мы можем получить, используя атрибут `.html`.

In [5]:
article.download()

In [6]:
article.html

'<!DOCTYPE html>\n\n\n<html lang="ru" >\n<head>\n    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">\n    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n    <meta http-equiv="Cache-Control" content="no-cache">\n    <meta name="viewport" content="width=device-width, initial-scale=1.0, user-scalable=no, minimum-scale=1.0, maximum-scale=1.0">\n    <meta name="HandheldFriendly" content="True">\n    <meta name="format-detection" content="telephone=no">\n    <meta name="format-detection" content="address=no">\n\n    \n                \n    \n    \n\n            <title>Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды</title>\n\n<meta name="title" content="Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды"/>\n<meta name="description" content="Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут знач

Окей! Получили html нашей новости. Пока это ничем не отличается от работы с библиотекой `requests`. Обычно мы бы загрузили эту html-страницу в `BeautifulSoup` и искали бы по тегам автора, заголовок и т.д. Но библиотека `newspaper3k` сильно облегчает эту задачу.

Нам нужно использовать метод `.parse()`, который проанализирует html-код и найдет главные атрибуты новостной статьи: 
* Заголовок (`.title`)
* Автора (`.authors`)
* Дата публикации (`.publish_date`)
* Текст статьи (`.text`)
* Изображения в новости (`.top_image` (первое изображение на странице), `.images` (множество ссылок на все изображения))
* Видео в новости (`.movies`)

In [7]:
article.parse()

In [8]:
print(article.title) # заголовок есть

Как модель искусственного интеллекта поможет в лечении депрессии


In [9]:
print(article.authors) # авторами библиотека посчитала еще и слово "Фото" (связано с версткой сайта и html-тегами)
                        # но автора определила верно

['Фото', 'Семен Башкиров']


In [10]:
print(article.publish_date) # а вот даты публикации на странице действительно нет

None


In [11]:
print(article.text) # весь текст статьи

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой

А в чем тренд? Чтобы выявить потенциальные сердечно-сосудистые заболевания, доктора измеряют давление. Чтобы определить преддиабетное состояние — анализируют уровень инсулина. Однако в случае депрессии специалисты вынуждены полагаться на самоотчеты людей о симптомах. Это затрудняет объективную оценку. В сентябре 2023 года группа американских исследователей с помощью ИИ зафиксировала у людей, которые прошли курс глубокой стимуляции мозга (DBS), особый сигнал мозга, свидетельствовавший о выходе из депрессии. В рамках метода DBS вживленные в мозг электроды подают импульсы, которые меняют нейронную активность. По словам нейробиолога из Дартмутского колледжа Пола Хольцхаймера, если результаты будут воспроизведены на более крупной выборке, это может стать переломным моментом в лечении д

In [12]:
print(article.top_image) # фотография из статьи

https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg


In [13]:
print(article.images) # все фотографии, найденные на странице

{'https://s0.rbk.ru/v6_top_pics/media/img/7/64/346908189677647.jpeg', 'https://trends.rbc.ru/info-service/api/v2/noscripts', 'https://s0.rbk.ru/v6_top_pics/media/img/8/46/756105436203468.svg', 'https://s0.rbk.ru/v6_top_pics/media/img/4/55/755924101431554.svg', 'https://mc.yandex.ru/watch/54873298', 'https://s.rbk.ru/v4_trends_static/trends-4.0.73/styles/blocks/footer/images/rzd.svg', 'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/1/82/756432359688821.jpg', 'https://s0.rbk.ru/v6_top_pics/resized/340x212_crop/media/img/9/80/756353487550809.jpg', 'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/1/30/756426775752301.jpg', 'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/6/60/756358590820606.jpg', 'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/4/35/756152821394354.png', 'https://top-fwz1.mail.ru/counter?id=3214695;js=na', 'https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg', 'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/

In [14]:
for img in article.images:
    print(img) # видим, что сюда попали изображения в том числе лого и анонсов других статей

https://s0.rbk.ru/v6_top_pics/media/img/7/64/346908189677647.jpeg
https://trends.rbc.ru/info-service/api/v2/noscripts
https://s0.rbk.ru/v6_top_pics/media/img/8/46/756105436203468.svg
https://s0.rbk.ru/v6_top_pics/media/img/4/55/755924101431554.svg
https://mc.yandex.ru/watch/54873298
https://s.rbk.ru/v4_trends_static/trends-4.0.73/styles/blocks/footer/images/rzd.svg
https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/1/82/756432359688821.jpg
https://s0.rbk.ru/v6_top_pics/resized/340x212_crop/media/img/9/80/756353487550809.jpg
https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/1/30/756426775752301.jpg
https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/6/60/756358590820606.jpg
https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/4/35/756152821394354.png
https://top-fwz1.mail.ru/counter?id=3214695;js=na
https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg
https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/5/79/756152823045795.png
https://s0.rbk.r

In [15]:
print(article.movies) # видео в этой статье нет

[]


Также мы можем вытащить метаданные.

**Метаданные** – это данные о данных. 

Тег \<head> в HTML-документе - это та часть, которая не отображается в браузере при загрузке страницы. Она содержит такую информацию, как <заголовок> страницы, ссылки на CSS (каскадные таблицы стилей – код, который используется для стилизации веб-страницы), ссылки на фавиконы и другие метаданные (данные о HTML, например, автор и важные ключевые слова, описывающие документ).

In [132]:
article.meta_data # это большой словарь

defaultdict(dict,
            {'viewport': 'width=device-width, initial-scale=1.0, user-scalable=no, minimum-scale=1.0, maximum-scale=1.0',
             'HandheldFriendly': 'True',
             'format-detection': 'address=no',
             'title': 'Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды',
             'description': 'Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой',
             'copyright': '«РосБизнесКонсалтинг»',
             'robots': 'max-image-preview:large',
             'og': {'title': 'Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды',
              'type': 'article',
              'url': 'https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243',
              'image': 'https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg',
       

In [16]:
print(article.meta_data['og']['description']) # например, описание статьи от авторов 
                                            # (используется для анонса ссылки в поисковых системах)

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой


## Обработка естественного языка в новостях

Библиотека `newspaper3k` предлагает метод `.nlp()`, который обрабатывает новость и выделяет ключевые слова (атрибут `.keywords`) и краткую выжимку текста (атрибут `.summary`).

Стоит отметить, что NLP в этой библиотеке достаточно плохо обрабатывает русский язык, но отлично справляется с английским.

In [20]:
article.nlp()

In [21]:
print(article.keywords) # ключевые слова действительно отражают нашу новость

['модель', 'интеллекта', 'ученые', 'искусственного', 'dbs', 'результаты', 'электроды', 'стимуляции', 'поможет', 'людей', 'мозга', 'помощью', 'депрессии', 'лечении', 'ии']


Сравним ключевые слова с теми, которые авторы статьи промаркировали эту новость:

In [22]:
article.meta_data['news_keywords']

'Депрессия, Стимуляция, Исследователь, Электрод, Самоотчёт, Состояние, Активность, Выздоровление, Устройство, Доброволец, Симптом, Специалист, Вынудить, Результат, Заболевание, Участник, Исследование, Глубокий, Нейронный, Анализировать'

Слова отличаются. В том числе это связано с тем, что в метаданных ключевые слова прописывают для поисковых систем и SEO-оптимизации страницы, а не для того, чтобы описать смысл статьи (как в NLP).

In [23]:
print(article.summary) # краткая выжимка тоже достаточно успешно отработала

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии.
В сентябре 2023 года группа американских исследователей с помощью ИИ зафиксировала у людей, которые прошли курс глубокой стимуляции мозга (DBS), особый сигнал мозга, свидетельствовавший о выходе из депрессии.
Сложности с самоотчетомПопытки лечения депрессии с помощью DBS до сих пор имели ограниченный успех: в двух исследованиях не удалось продемонстрировать преимущества по сравнению с плацебо.
По словам Хольцхаймера, эти результаты могут иметь значение не только для метода глубокой стимуляции мозга.
Однако анализ сигналов мозга с помощью ИИ поможет и тем, кто лечится с помощью других методов.


## Парсинг всех новостных статей на странице

Мы посмотрели, как обработать одну новость. Но чаще всего нам нужно обработать большой массив данных.

Для этого у библиотеки `newspaper3k` есть метод `.build()`, который самостоятельно найдет ссылки на новости.

In [24]:
import newspaper # до этого мы работали только с одним классом в библиотеке, теперь будем работать 
                 # с несколькими функциями оттуда, поэтому импортируем всю библиотеку

В этот раз поработаем с разделом РБК.Тренды «[Потратить](https://rbclife.ru/spend)» и проанализируем новости – куда чаще всего предлагают тратить деньги?

<img src="https://media0.giphy.com/media/xTiTnqUxyWbsAXq7Ju/giphy.gif?cid=ecf05e47fx45w99opc790koo7b7p1enbrpzvx29l216alkv5&ep=v1_gifs_search&rid=giphy.gif&ct=g">

In [25]:
money = newspaper.build('https://rbclife.ru/spend', 
                        memoize_articles = False) # загрузили все ссылки новостей по url
                                                  # параметр memorize_article регулирует, 
                                                  # хотите вы кэшировать новости или нет

In [26]:
money.size() # покажет, сколько статей удалось найти

140

In [27]:
money.articles # покажет объекты класса Article для каждой найденной статьи

[<newspaper.article.Article at 0x7f9c2869cbe0>,
 <newspaper.article.Article at 0x7f9c2869cd90>,
 <newspaper.article.Article at 0x7f9c597b49a0>,
 <newspaper.article.Article at 0x7f9c286a42e0>,
 <newspaper.article.Article at 0x7f9c286a47f0>,
 <newspaper.article.Article at 0x7f9c286a4b50>,
 <newspaper.article.Article at 0x7f9c286a4d00>,
 <newspaper.article.Article at 0x7f9c286a4eb0>,
 <newspaper.article.Article at 0x7f9c597760a0>,
 <newspaper.article.Article at 0x7f9c59776250>,
 <newspaper.article.Article at 0x7f9c597765b0>,
 <newspaper.article.Article at 0x7f9c597b4460>,
 <newspaper.article.Article at 0x7f9c586aef70>,
 <newspaper.article.Article at 0x7f9c28673d30>,
 <newspaper.article.Article at 0x7f9c597c7460>,
 <newspaper.article.Article at 0x7f9c597cf190>,
 <newspaper.article.Article at 0x7f9c597cf7f0>,
 <newspaper.article.Article at 0x7f9c597cfd00>,
 <newspaper.article.Article at 0x7f9c597da130>,
 <newspaper.article.Article at 0x7f9c597da640>,
 <newspaper.article.Article at 0x7f9c597

In [28]:
for article in money.articles: # а так можем получить все найденные ссылки
    print(article.url)

https://rbclife.ru/news/654b9a729a79477b15ed959e
https://rbclife.ru/news/654a24de9a7947a260032ba5
https://rbclife.ru/news/6542c36c9a79474e3325c6e2
https://rbclife.ru/news/653f6b369a79471b5bec6107
https://rbclife.ru/news/6528e4729a7947adde88fa03
https://rbclife.ru/news/6515cb649a7947ea23160bde
https://rbclife.ru/news/65156a959a7947b4b788f5f7
https://rbclife.ru/news/650c64f59a794709d4787aad
https://rbclife.ru/news/650962819a79477ace5bbac7
https://rbclife.ru/news/65084ef69a7947f208af5949
https://rbclife.ru/news/64f99f5f9a7947285008cc7a
https://rbclife.ru/news/654de7119a7947656424412c
https://rbclife.ru/news/654dcd429a79478202f5bc3f
https://rbclife.ru/news/654cdc539a794770378c7b54
https://rbclife.ru/news/654cd9609a79474389d93edc
https://rbclife.ru/news/654ca6979a79477ae05f1e2b
https://rbclife.ru/news/6544f4089a794771a9252f9c
https://rbclife.ru/news/654b3bba9a7947df066f1015
https://rbclife.ru/news/654a26f19a794767b995b872
https://rbclife.ru/news/6549ef869a79473537791ba9
https://rbclife.ru/n

In [29]:
for category in money.category_urls(): # так можем найти все категории ссылок, которые удалось найти
    print(category)

https://rbclife.ru/games
https://rbclife.ru/spend
https://rbclife.ru/walk
https://rbclife.ru/read
https://rbclife.ru/eat
https://rbclife.ru/scroll
https://rbclife.ru
https://rbclife.ru/myself
https://rbclife.ru/spend
https://rbclife.ru/watch


Импортируем две библиотеки, которые сильно помогают при парсинге данных. Библиотека `time` с функцией `sleep` позволяет делать паузы между запросами к сайту (выше шансы, что вас не заблокируют).

Библиотека `tqdm` с функцией `tqdm` создает прогресс-бар выполнения вашего кода.

In [30]:
from time import sleep
from tqdm import tqdm

Далее мы создадим пустой список data, куда будем сохранять в формате кортежа данные по каждой статье. Мы хотим сохранить ссылку на статью, заголовок статьи, автора, первое изображение, ключевые слова и выжимку.

In [31]:
data = [] 

for article in tqdm(money.articles):
    news = Article(article.url, language='ru')
    news.download()
    news.parse()
    news.nlp()
    data.append((article.url, news.title, news.authors, news.top_image, news.keywords, news.summary))
    sleep(3)

100%|█████████████████████████████████████████| 140/140 [08:11<00:00,  3.51s/it]


Проверяем, все новостные статьи действительно загрузились!

In [32]:
print(data[0])

('https://rbclife.ru/news/654b9a729a79477b15ed959e', '4 простые игры для дороги и перерыва в офисе. Они есть на РБК Life', ['Никита Волкович'], 'https://s0.rbk.ru/v6_top_pics/media/img/7/80/346994543937807.jpeg', ['простые', 'офисе', 'игр', 'ряд', 'шарики', 'life', 'популярных', 'одна', 'рбк', 'игры', 'перерыва', 'витрине', '4', 'самых', 'дороги', 'шариков', 'уровни'], '4 простые игры для дороги и перерыва в офисе.\nЗа почти три десятка лет формула геймплея развивалась и многократно изменялась, а теперь это одна из самых популярных игр на мобильных устройствах.\nНа витрине РБК Life вы можете пройти одну из классических версий.\nИграйте в «Шарики» прямо в браузере на витрине РБК Life на ПК и мобильных устройствах.\nИгру можно запустить прямо в браузере на витрине РБК Life.')


## Анализ ключевых слов новостей

Для начала сохраним все полученные данные как датафрейм pandas.

In [33]:
import pandas as pd

In [34]:
df = pd.DataFrame(data, columns=['link', 'title', 'authors', 'img_link', 'keywords', 'summary'])

In [35]:
df

Unnamed: 0,link,title,authors,img_link,keywords,summary
0,https://rbclife.ru/news/654b9a729a79477b15ed959e,4 простые игры для дороги и перерыва в офисе. ...,[Никита Волкович],https://s0.rbk.ru/v6_top_pics/media/img/7/80/3...,"[простые, офисе, игр, ряд, шарики, life, попул...",4 простые игры для дороги и перерыва в офисе.\...
1,https://rbclife.ru/news/654a24de9a7947a260032ba5,"Alan Wake 2: обзор видеоигры, которая разделил...",[Артем Дубровский],https://s0.rbk.ru/v6_top_pics/media/img/1/08/3...,"[историю, wake, 2, alan, геймеров, видеоигры, ...","Alan Wake 2: обзор видеоигры, которая разделил..."
2,https://rbclife.ru/news/6542c36c9a79474e3325c6e2,"Игры для детей дома. 10 идей, как занять ребенка",[Олеся Роженцова],https://s0.rbk.ru/v6_top_pics/media/img/6/05/3...,"[занять, развивает, понадобится, умение, летот...","10 идей, как занять ребенка .\nВ мешок помести..."
3,https://rbclife.ru/news/653f6b369a79471b5bec6107,Marvel's Spider-Man 2: обзор самой быстро прод...,[Артем Дубровский],https://s0.rbk.ru/v6_top_pics/media/img/5/50/3...,"[games, insomniac, сразу, 2, самым, ps5, пару,...",Marvel's Spider-Man 2: обзор самой быстро прод...
4,https://rbclife.ru/news/6528e4729a7947adde88fa03,"Ящеры, киборги и Саб-Зиро: 6 громких игровых н...",[Никита Волкович],https://s0.rbk.ru/v6_top_pics/media/img/1/56/3...,"[месяца, кадр, of, игры, sports, kombat, кибор...","Ящеры, киборги и Саб-Зиро: 6 громких игровых н..."
...,...,...,...,...,...,...
135,https://rbclife.ru/news/6544ab2a9a79475b86383828,Вышел трейлер фильма «Нина» с Пересильд и Цыга...,[],https://s0.rbk.ru/v6_top_pics/media/img/6/88/3...,"[написала, цыгановым, вышел, panatlantic, нина...",Вышел трейлер фильма «Нина» с Пересильд и Цыга...
136,https://rbclife.ru/news/654329f89a7947d8783df128,«Последнее лето»: обзор спектакля с Пересильд ...,[Елена Свиридова],https://s0.rbk.ru/v6_top_pics/media/img/8/70/3...,"[последнее, ники, лето, зритель, спектакля, сц...",«Последнее лето»: обзор спектакля с Пересильд ...
137,https://rbclife.ru/news/652d40c99a7947e8c8d92531,"«Черный клевер», пятый сезон. Все, что известн...",[Полина Веселова],https://s0.rbk.ru/v6_top_pics/media/img/1/88/3...,"[сезон, кадр, премьере, клевер, семьи, известн...","«Черный клевер», пятый сезон.\nАниме стоит пос..."
138,https://rbclife.ru/news/654390de9a7947351d6acace,Траволта стал пилотом самолета-призрака в филь...,[],https://s0.rbk.ru/v6_top_pics/media/img/7/56/3...,"[пилотом, самолетапризрака, shepherd, фильма, ...",Траволта стал пилотом самолета-призрака в филь...


Видим, что авторы и ключевые слова сохранились в ячейки в формате списков.

In [37]:
type(df['authors'][0])

list

Давайте переведем их в обычные строки. Для этого мы сначала переведем всю колонку в тип данных `str`

    df['authors'].astype(str)
    
А затем с помощью метода `.apply()` и анонимной функции `lambda` уберем лишние скобки и кавычки.

    df['authors'].astype(str).apply(lambda x: x.strip("''[]"))

In [38]:
df['authors'] = df['authors'].astype(str).apply(lambda x: x.strip("''[]"))

In [39]:
type(df['authors'][0])

str

Теперь мы хотим провести частотный анализ. Но наши слова не лемматизированы, то есть не приведены к исходной форме (так, как они записаны в словаре). Исправим это!

Импортируем библиотеку pymorphy2 – морфологический анализатор для русского языка, написанный на языке Python и использующий словари из [OpenCorpora](https://opencorpora.org/dict.php). 

Используем оттуда класс `MorphAnalyzer`. Для заданного слова он может найти все возможные формы.

In [40]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

Для начала попробуем на отдельных словах.

In [41]:
morph.parse('цены')

[Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='цена', score=0.476562, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 7),)),
 Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='цена', score=0.328125, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 1),)),
 Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='цена', score=0.195312, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 10),))]

Нам выдается все возможные значения слова. Возьмем первую.

In [42]:
morph.parse('цены')[0]

Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='цена', score=0.476562, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 7),))

Отлично! Теперь осталось только получить нормальную форму -- значение атрибута `.normal_form`

In [43]:
morph.parse('цены')[0].normal_form

'цена'

Проделаем это со всеми ячейками в колонке keywords. Основная сложность, что в каждой ячейке лежит не по одному слову, а сразу по несколько. Напишем функцию, которую затем применим ко всему столбцу.

In [44]:
def lemmatize(words):
    lemmas = []
    
    for word in words:  # разобьем все слова из строки в список и переберем каждое слово
        norm_word = morph.parse(word)[0].normal_form 
        lemmas.append(norm_word)
    return ', '.join(lemmas) # вернем строку со всеми лемматизированными значениями

In [45]:
df['keywords_lem'] = df['keywords'].apply(lemmatize) # создадим новый столбец, в котором сохранятся 
                                                    # лемматизированные ключевые слова

In [46]:
df

Unnamed: 0,link,title,authors,img_link,keywords,summary,keywords_lem
0,https://rbclife.ru/news/654b9a729a79477b15ed959e,4 простые игры для дороги и перерыва в офисе. ...,Никита Волкович,https://s0.rbk.ru/v6_top_pics/media/img/7/80/3...,"[простые, офисе, игр, ряд, шарики, life, попул...",4 простые игры для дороги и перерыва в офисе.\...,"простой, офис, игра, ряд, шарик, life, популяр..."
1,https://rbclife.ru/news/654a24de9a7947a260032ba5,"Alan Wake 2: обзор видеоигры, которая разделил...",Артем Дубровский,https://s0.rbk.ru/v6_top_pics/media/img/1/08/3...,"[историю, wake, 2, alan, геймеров, видеоигры, ...","Alan Wake 2: обзор видеоигры, которая разделил...","история, wake, 2, alan, геймер, видеоигра, тём..."
2,https://rbclife.ru/news/6542c36c9a79474e3325c6e2,"Игры для детей дома. 10 идей, как занять ребенка",Олеся Роженцова,https://s0.rbk.ru/v6_top_pics/media/img/6/05/3...,"[занять, развивает, понадобится, умение, летот...","10 идей, как занять ребенка .\nВ мешок помести...","занять, развивать, понадобиться, умение, летот..."
3,https://rbclife.ru/news/653f6b369a79471b5bec6107,Marvel's Spider-Man 2: обзор самой быстро прод...,Артем Дубровский,https://s0.rbk.ru/v6_top_pics/media/img/5/50/3...,"[games, insomniac, сразу, 2, самым, ps5, пару,...",Marvel's Spider-Man 2: обзор самой быстро прод...,"games, insomniac, сразу, 2, самый, ps5, пара, ..."
4,https://rbclife.ru/news/6528e4729a7947adde88fa03,"Ящеры, киборги и Саб-Зиро: 6 громких игровых н...",Никита Волкович,https://s0.rbk.ru/v6_top_pics/media/img/1/56/3...,"[месяца, кадр, of, игры, sports, kombat, кибор...","Ящеры, киборги и Саб-Зиро: 6 громких игровых н...","месяц, кадр, of, игра, sports, kombat, киборг,..."
...,...,...,...,...,...,...,...
135,https://rbclife.ru/news/6544ab2a9a79475b86383828,Вышел трейлер фильма «Нина» с Пересильд и Цыга...,,https://s0.rbk.ru/v6_top_pics/media/img/6/88/3...,"[написала, цыгановым, вышел, panatlantic, нина...",Вышел трейлер фильма «Нина» с Пересильд и Цыга...,"написать, цыганов, выйти, panatlantic, нина, ф..."
136,https://rbclife.ru/news/654329f89a7947d8783df128,«Последнее лето»: обзор спектакля с Пересильд ...,Елена Свиридова,https://s0.rbk.ru/v6_top_pics/media/img/8/70/3...,"[последнее, ники, лето, зритель, спектакля, сц...",«Последнее лето»: обзор спектакля с Пересильд ...,"последний, ника, лето, зритель, спектакль, сце..."
137,https://rbclife.ru/news/652d40c99a7947e8c8d92531,"«Черный клевер», пятый сезон. Все, что известн...",Полина Веселова,https://s0.rbk.ru/v6_top_pics/media/img/1/88/3...,"[сезон, кадр, премьере, клевер, семьи, известн...","«Черный клевер», пятый сезон.\nАниме стоит пос...","сезон, кадр, премьера, клевер, семья, известно..."
138,https://rbclife.ru/news/654390de9a7947351d6acace,Траволта стал пилотом самолета-призрака в филь...,,https://s0.rbk.ru/v6_top_pics/media/img/7/56/3...,"[пилотом, самолетапризрака, shepherd, фильма, ...",Траволта стал пилотом самолета-призрака в филь...,"пилот, самолетапризрак, shepherd, фильм, plus,..."


Чтобы сделать частотный анализ, мы будем использовать библиотеку `collections`, в которой есть очень удобный класс `Counter`, делающий частотный анализ.

In [47]:
from collections import Counter

Соберем все слова из колонки keywords_lem в один список.

In [50]:
all_keywords = ', '.join(df['keywords_lem']).split(', ')

Найдем 10 самых часто встречающихся ключевых слов.

In [51]:
Counter(all_keywords).most_common(10)

[('фильм', 39),
 ('кадр', 15),
 ('новый', 15),
 ('стоить', 13),
 ('игра', 12),
 ('руб', 12),
 ('кожа', 10),
 ('кино', 9),
 ('ребёнок', 9),
 ('10', 9)]

Чаще всего РБК предлагает потратить деньги на фильмы! Прочитаем выжимку для каждой такой статьи.

In [52]:
pd.set_option('display.max_colwidth', 1000) # чтобы был показан весь текст в каждой ячейке

In [53]:
df[df['keywords_lem'].str.contains('фильм')][['link', 'summary']]

Unnamed: 0,link,summary
21,https://rbclife.ru/news/65422bc59a79478a21cfccbd,"Посмотрите на куклу с лицом Райана Гослинга.\nMattel начала продажу куклы актера в образе Кена в разноцветном худи Mattel представила куклу Райана Гослинга в образе Кена из фильма «Барби» за $50 СлушатьMattelАмериканская компания Mattel, известная как производитель игрушек и куклы Барби в частности, представила новую куклу Кена.\nЭто молодой человек в разноцветной толстовке с надписью I Am Kenough («Меня достаточно») и с лицом Райана Гослинга («Ла-Ла Ленд»), сыгравшего в недавнем фильме роль друга Барби.\nЦена куклы составляет $50 (примерно 4,6 тыс.\nMattel«Игра Райана Гослинга сделала Кена звездой фильма, теперь наша кукла, похожая на актера, еще раз подчеркнет этот момент», — сообщил бренд."
31,https://rbclife.ru/news/653a20e39a7947921f4f1235,"Куда сходить в ноябре: танцы, стендап и другие события .\nВ проекте, созданном при поддержке банка ВТБ, более 100 произведений из собраний Государственного Эрмитажа, Пушкинского музея, Третьяковской галереи, Музея архитектуры им.\nКонцертКогда: 17 ноября, 20:00Где: «Крокус Сити Холл»Возрастное ограничение: 6+Подробности и билетыcrocus-hall.ruПрезентация девятого альбома фолк-группы «Мельница» с новой концертной программой.\nКонцертКогда: 3 ноября, 20:00Где: Red ArenaВозрастное ограничение: 18+Билетыredarena.ruРомантический танцевальный поп-рок, который музыканты играют еще с 1990-х годов, остается актуальным до сих пор.\nБой Штыркова с МинеевымКогда: 18 ноября, 20:00Где: Red ArenaВозрастное ограничение 18+ПодробностиПресс-службаВ поединке сойдутся звезда российского кикбоксинга Владимир Минеев из Ульяновска и уральский атлет Иван Штырков."
44,https://rbclife.ru/news/654ddf1d9a79470200ea3b51,"Одним из самых громких был проект — «Гражданин поэт» (2011–2012), где Михаил Ефремов читал стихи на «злобу дня».\nМихаил Ефремов снимался активно, за годы в профессии фильмография пополнилась почти двумя сотнями фильмов и сериалов.\nЖгут полон минусов — пьет, играет в карты и слабохарактерный, однако российскому зрителю герой Ефремова полюбился.\nКадр из фильма «Кошечка», 2009 годВ психоделической комедии режиссера Григория Константинопольского Ефремов сыграл главную роль в одной из пяти новелл.\nВ заключенииКомсомольская правда / Global Look Press Михаил Ефремов у Пресненского суда в Москве, 2020 годСейчас Михаил Ефремов отбывает наказание в Белгородской колонии."
47,https://rbclife.ru/news/652e89889a79473441529fb2,"РБК Life поговорил с постановщицей о ее новом фильме «Чувства Анны» Анна Меликян — о пути к свету и эскапизме: «Кино смотреть пока не могу»Екатерина Чеснокова / РИА Новости Режиссер Анна Меликян9 ноября в прокат вышел новый фильм Анны Меликян «Чувства Анны» с Анной Михалковой в главной роли.\nID Production / Ай Ди Продакшн Анна Михалкова и Анна Меликян.\nID Production / Ай Ди Продакшн Анна Михалкова играет главную роль в фильме «Чувства Анны»— Вы писали сценарий специально под Анну Михалкову.\nID Production / Ай Ди Продакшн— В название фильма вынесено слово «чувства».\nID Production / Ай Ди Продакшн— С «Русалкой» вы также участвовали в главном американском кинофестивале независимого кино «Сандэнс», где взяли награду как лучший режиссер."
55,https://rbclife.ru/news/653638089a79471f0b3eef39,"Юлия Пересильд — об «Императрицах», образе сильной женщины и мужском кино .\nЕсть ли у актрисы Юлии Пересильд, участвовавшей в съемках фильма на МКС впервые в истории кинематографа, миссия — сделать образ сильной женщины снова великим?\nДействительно, существует некий образ по-особенному сильной женщины, но мне хотелось бы создать образ ровно противоположный.\nПо этой причине и в «Битве за Севастополь», и в «Вызове», и в «Императрицах» мне очень хотелось создать образ сильной женщины с ее слабостями.\nНовые люди Юлия Пересильд в фильме Сергея Мокрицкого «Битва за Севастополь» (2015)— Разделилась ли жизнь после «Вызова»?"
57,https://rbclife.ru/news/653688879a7947f18bedc173,"Валдис Пельш — о 1990-х, YouTube и деньгах .\nУ того же ЧБД («Что было дальше?», юмористическое интернет-шоу.— РБК Life) большое количество поклонников.\nА во-вторых, это дает возможность аккумулировать средства для того, чтобы вечерний прайм заполнить каким-то новым, востребованным у аудитории шоу.\n— РБК Life).\n— РБК Life) за свои деньги, потому что у нас не было спонсоров."
84,https://rbclife.ru/news/654e2e669a794793154805cf,"Про Илона Маска снимут фильм.\nРежиссер байопика — Даррен Аронофски .\nВ основе сценария — книга Уолтера Айзексона Variety: Даррен Аронофски снимет байопик об Илоне Маске СлушатьSaul Martinez / Getty Images Илон МаскДаррен Аронофски снимет байопик об американском миллиардере Илоне Маске, сообщает Variety со ссылкой на свои источники.\nMauricio Santana / Getty Images for Paramount Pictures Даррен АронофскиРанее пользователи разглядели возможное предсказание относительно Илона Маска в «Симпсонах».\nИмя Илона Маска в эпизоде не называется, но, как заметили в Daily Mail, соцсеть X (бывший Twitter) сейчас принадлежит именно ему."
86,https://rbclife.ru/news/654de8849a794763785fa6d9,"Вот на какие фильмы есть зрительский спрос.\nПрезидент киносети Ольга Зинякова назвала драйвер проката Президент «Каро» Зинякова заявила о зрительском спросе на легкое, веселое кино СлушатьЛичный архив Президент киносети «Каро» Ольга ЗиняковаПрезидент киносети «Каро» Ольга Зинякова в интервью РБК Life рассказала, на какие проекты сейчас существует зрительский спрос.\nНо, как мы понимаем, речь идет о фильме «Валли», совершенном хите своего времени», — говорит Ольга Зинякова.\nГлава киносети «Каро» отметила, что аудитория продолжает смотреть иностранное кино.\n«А сейчас нередко можно заметить, что фильмы схожей тематики работают очень по-разному, в зависимости от того, какие маркетинговые каналы выбраны."
93,https://rbclife.ru/news/654ddfdb9a7947150093f626,"«Капитан Марвел 2».\nКак критики отреагировали на 33-й фильм MCU .\n«Чокнутые сражаются за «квантовые браслеты» и другие отзывы Вышли первые отзывы критиков на 33-й фильм MCU «Капитан Марвел 2»Marvel Studios Inc. Кадр из фильма «Капитан Марвел 2»В зарубежный прокат вышел 33-й фильм Marvel Studios — «Капитан Марвел 2» (или просто «Марвелы») сразу с тремя главными героинями.\n«В долгожданном продолжении «Капитана Марвел» судьбы и силы трех героинь переплетаются»Marvel Studios Inc. Кадр из фильма «Капитан Марвел 2»«Сюжет стартует с того места, где остановился «Капитан Марвел»: Денверс поклялась положить конец войне между расами Скруллов и Крии.\n«Неприятно сообщать, что «Капитан Марвел-2» ужасен»Marvel Studios Inc. Кадр из фильма «Капитан Марвел 2»«Каждая из актрис привнесла что-то особенное и убедительное в фильм."
95,https://rbclife.ru/news/654369109a79470e4b8d31bc,"Лучшие фильмы про ведьм.\nКак составлялся рейтинг Редакция подобрала фильмы про ведьм в разных жанрах: комедии, семейное кино, мелодрамы, хорроры, мюзикл и даже боевики.\n«Последнего охотника на ведьм» не оценили критики (всего лишь 18% на Rotten Tomatoes), однако фильм может порадовать любителей экшена [2].\n«Ведьма любви»Anna Biller Productions Кадр из фильма «Ведьма любви»2016Режиссер: Анна БиллерАктеры: Саманта Робинсон, Джан Кис, Лаура УоддэллIMDb: 6,2«Кинопоиск»: 6,4Прекрасная ведьма Элейн (Саманта Робинсон) одержима идеей найти любовь.\n«Ведьма»Parts and Labor Кадр из фильма «Ведьма»2015Режиссер: Роберт ЭггерсАктеры: Аня Тейлор-Джой, Ральф Айнесон, Кейт ДикиIMDb: 7«Кинопоиск»: 6,61630 год, Новая Англия."
