# Парсинг новостей

Библиотека `newspaper3k` - это мощный инструмент, предназначенный для извлечения и анализа данных с новостных веб-сайтов. Эта библиотека была вдохновлена библиотекой `requests` и позволяет разработчикам и исследователям легко собирать информацию из новостных статей, включая заголовки, тексты, авторов, ключевые слова, изображения и даты публикации.

`newspaper3k` также имеет встроенные функции NLP, что позволяет быстро получить ключевые слова и саммари новостной статьи.

Для начала установим библиотеку.

In [None]:
!pip install newspaper3k

Взглянем на [документацию библиотеки](https://newspaper.readthedocs.io/en/latest/user_guide/quickstart.html). Модуль работает с ссылками на новости или ссылкой на новостной ресурс (и далее самостоятельно собирает оттуда ссылки).

## Извлечение новости и метаданных

Из библиотеки мы импортируем класс `Article`. Каждая новость, которую мы будем извлекать таким образом будет являться экземпляром класса `Article`. Буквально это означает, что внутри `Article` лежит некая инструкция о том, как обычно выглядит новостная статья – например, у нее обязательно есть заголовок, может быть автор, фотографии, дата публикации. 

Каждая новость, которую мы будем передавать внутрь класса `Article` по ссылке будет обрабатываться по зашитой внутрь нее схеме.

In [1]:
from newspaper import Article

Посмотрим на эту статью из РБК Трендов: «[Как модель искусственного интеллекта поможет в лечении депрессии](https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243?page=tag&nick=ai)». Положим ссылку на статью в переменную `url`.

In [2]:
url = 'https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243?page=tag&nick=ai'

Далее создаем экземпляр класса `Article`. Он будет называться `article` с маленькой буквы (обратите внимание – все классы в Python пишутся с большой буквы). 

Мы передаем ссылку и указываем язык новости (параметр `language`). Библиотека `newspaper3k` работает со следующими языками:

|input code|full name|
|---|---|
  nl	|		  Dutch
  zh	|		  Chinese
  vi	|		  Vietnamese
  no	|		  Norwegian
  ar	|		  Arabic
  tr	|		  Turkish
  sr	|		  Serbian
  fr	|		  French
  ru	|		  Russian
  en	|		  English
  hi	|		  Hindi
  ja	|		  Japanese
  sw	|		  Swahili
  pl	|		  Polish
  fa	|		  Persian
  el	|		  Greek
  sv	|		  Swedish
  sl	|		  Slovenian
  de	|		  German
  it	|		  Italian
  pt	|		  Portuguese
  he	|		  Hebrew
  hr	|		  Croatian
  et	|		  Estonian
  id	|		  Indonesian
  ro	|		  Romanian
  es	|		  Spanish
  ko	|		  Korean
  hu	|		  Hungarian
  da	|		  Danish
  fi	|		  Finnish
  bg	|		  Bulgarian
  be	|		  Belarusian
  mk	|		  Macedonian
  nb	|		  Norwegian (Bokmål)
  uk	|		  Ukrainian

In [3]:
article = Article(url, language='ru')

Отлично! Теперь у нас есть переменная `article`, которая обрабатывается библиотекой по инструкции как новостная статья. Если мы попробуем распечатать эту переменную, то увидим техническую информацию – как Python видит внутри себя эту переменную.

In [4]:
print(article)

<newspaper.article.Article object at 0x000001C87FE06D10>


Чтобы получить данные, мы воспользуемся методом `.download()`, который загрузит html статьи по ссылке. Сам html мы можем получить, используя атрибут `.html`.

In [5]:
article.download()

In [6]:
article.html

'<!DOCTYPE html>\n\n\n<html lang="ru" >\n<head>\n    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">\n    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n    <meta http-equiv="Cache-Control" content="no-cache">\n    <meta name="viewport" content="width=device-width, initial-scale=1.0, user-scalable=no, minimum-scale=1.0, maximum-scale=1.0">\n    <meta name="HandheldFriendly" content="True">\n    <meta name="format-detection" content="telephone=no">\n    <meta name="format-detection" content="address=no">\n\n    \n                \n    \n    \n\n            <title>Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды</title>\n\n<meta name="title" content="Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды"/>\n<meta name="description" content="Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут знач

Окей! Получили html нашей новости. Пока это ничем не отличается от работы с библиотекой `requests`. Обычно мы бы загрузили эту html-страницу в `BeautifulSoup` и искали бы по тегам автора, заголовок и т.д. Но библиотека `newspaper3k` сильно облегчает эту задачу.

Нам нужно использовать метод `.parse()`, который проанализирует html-код и найдет главные атрибуты новостной статьи: 
* Заголовок (`.title`)
* Автора (`.authors`)
* Дата публикации (`.publish_date`)
* Текст статьи (`.text`)
* Изображения в новости (`.top_image` (первое изображение на странице), `.images` (множество ссылок на все изображения))
* Видео в новости (`.movies`)

In [7]:
article.parse()

In [8]:
print(article.title) # заголовок есть

Как модель искусственного интеллекта поможет в лечении депрессии


In [9]:
print(article.authors) # авторами библиотека посчитала еще и слово "Фото" (связано с версткой сайта и html-тегами)
                        # но автора определила верно

['Фото', 'Семен Башкиров']


In [10]:
print(article.publish_date) # а вот даты публикации на странице действительно нет

None


In [11]:
print(article.text) # весь текст статьи

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой

А в чем тренд? Чтобы выявить потенциальные сердечно-сосудистые заболевания, доктора измеряют давление. Чтобы определить преддиабетное состояние — анализируют уровень инсулина. Однако в случае депрессии специалисты вынуждены полагаться на самоотчеты людей о симптомах. Это затрудняет объективную оценку. В сентябре 2023 года группа американских исследователей с помощью ИИ зафиксировала у людей, которые прошли курс глубокой стимуляции мозга (DBS), особый сигнал мозга, свидетельствовавший о выходе из депрессии. В рамках метода DBS вживленные в мозг электроды подают импульсы, которые меняют нейронную активность. По словам нейробиолога из Дартмутского колледжа Пола Хольцхаймера, если результаты будут воспроизведены на более крупной выборке, это может стать переломным моментом в лечении д

In [12]:
print(article.top_image) # фотография из статьи

https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg


In [13]:
print(article.images) # все фотографии, найденные на странице

{'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/7/45/347072959508457.jpeg', 'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/4/35/756152821394354.png', 'https://trends.rbc.ru/info-service/api/v2/noscripts', 'https://top-fwz1.mail.ru/counter?id=3214695;js=na', 'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/3/41/756152823169413.png', 'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/3/86/347183695034863.jpeg', 'https://mc.yandex.ru/watch/54873298', 'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/4/44/347072979090444.jpeg', 'https://s0.rbk.ru/v6_top_pics/media/img/7/64/346908189677647.jpeg', 'https://s0.rbk.ru/v6_top_pics/media/img/4/55/755924101431554.svg', 'https://s0.rbk.ru/v6_top_pics/resized/340x212_crop/media/img/9/80/756353487550809.jpg', 'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/5/79/756152823045795.png', 'https://s0.rbk.ru/v6_top_pics/media/img/8/46/756105436203468.svg', 'https://s0.rbk.ru/v6_top_pics/media/img/3/81

In [14]:
for img in article.images:
    print(img) # видим, что сюда попали изображения в том числе лого и анонсов других статей

https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/7/45/347072959508457.jpeg
https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/4/35/756152821394354.png
https://trends.rbc.ru/info-service/api/v2/noscripts
https://top-fwz1.mail.ru/counter?id=3214695;js=na
https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/3/41/756152823169413.png
https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/3/86/347183695034863.jpeg
https://mc.yandex.ru/watch/54873298
https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/4/44/347072979090444.jpeg
https://s0.rbk.ru/v6_top_pics/media/img/7/64/346908189677647.jpeg
https://s0.rbk.ru/v6_top_pics/media/img/4/55/755924101431554.svg
https://s0.rbk.ru/v6_top_pics/resized/340x212_crop/media/img/9/80/756353487550809.jpg
https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/5/79/756152823045795.png
https://s0.rbk.ru/v6_top_pics/media/img/8/46/756105436203468.svg
https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg


In [15]:
print(article.movies) # видео в этой статье нет

[]


Также мы можем вытащить метаданные.

**Метаданные** – это данные о данных. 

Тег \<head> в HTML-документе - это та часть, которая не отображается в браузере при загрузке страницы. Она содержит такую информацию, как <заголовок> страницы, ссылки на CSS (каскадные таблицы стилей – код, который используется для стилизации веб-страницы), ссылки на фавиконы и другие метаданные (данные о HTML, например, автор и важные ключевые слова, описывающие документ).

In [16]:
article.meta_data # это большой словарь

defaultdict(dict,
            {'viewport': 'width=device-width, initial-scale=1.0, user-scalable=no, minimum-scale=1.0, maximum-scale=1.0',
             'HandheldFriendly': 'True',
             'format-detection': 'address=no',
             'title': 'Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды',
             'description': 'Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой',
             'copyright': '«РосБизнесКонсалтинг»',
             'robots': 'max-image-preview:large',
             'og': {'title': 'Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды',
              'type': 'article',
              'url': 'https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243',
              'image': 'https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg',
       

In [17]:
print(article.meta_data['og']['description']) # например, описание статьи от авторов 
                                            # (используется для анонса ссылки в поисковых системах)

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой


## Обработка естественного языка в новостях

Библиотека `newspaper3k` предлагает метод `.nlp()`, который обрабатывает новость и выделяет ключевые слова (атрибут `.keywords`) и краткую выжимку текста (атрибут `.summary`).

Стоит отметить, что NLP в этой библиотеке достаточно плохо обрабатывает русский язык, но отлично справляется с английским.

In [22]:
# import nltk
# nltk.download('punkt')

In [21]:
article.nlp()

In [23]:
print(article.keywords) # ключевые слова действительно отражают нашу новость

['депрессии', 'модель', 'лечении', 'электроды', 'dbs', 'людей', 'помощью', 'искусственного', 'мозга', 'интеллекта', 'стимуляции', 'ученые', 'поможет', 'ии', 'результаты']


Сравним ключевые слова с теми, которые авторы статьи промаркировали эту новость:

In [24]:
article.meta_data['news_keywords']

'Депрессия, Стимуляция, Исследователь, Электрод, Самоотчёт, Состояние, Активность, Выздоровление, Устройство, Доброволец, Симптом, Специалист, Вынудить, Результат, Заболевание, Участник, Исследование, Глубокий, Нейронный, Анализировать'

Слова отличаются. В том числе это связано с тем, что в метаданных ключевые слова прописывают для поисковых систем и SEO-оптимизации страницы, а не для того, чтобы описать смысл статьи (как в NLP).

In [25]:
print(article.summary) # краткая выжимка тоже достаточно успешно отработала

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии.
В сентябре 2023 года группа американских исследователей с помощью ИИ зафиксировала у людей, которые прошли курс глубокой стимуляции мозга (DBS), особый сигнал мозга, свидетельствовавший о выходе из депрессии.
Сложности с самоотчетомПопытки лечения депрессии с помощью DBS до сих пор имели ограниченный успех: в двух исследованиях не удалось продемонстрировать преимущества по сравнению с плацебо.
По словам Хольцхаймера, эти результаты могут иметь значение не только для метода глубокой стимуляции мозга.
Однако анализ сигналов мозга с помощью ИИ поможет и тем, кто лечится с помощью других методов.


## Парсинг всех новостных статей на странице

Мы посмотрели, как обработать одну новость. Но чаще всего нам нужно обработать большой массив данных.

Для этого у библиотеки `newspaper3k` есть метод `.build()`, который самостоятельно найдет ссылки на новости.

In [26]:
import newspaper # до этого мы работали только с одним классом в библиотеке, теперь будем работать 
                 # с несколькими функциями оттуда, поэтому импортируем всю библиотеку

В этот раз поработаем с разделом РБК.Тренды «[Потратить](https://rbclife.ru/spend)» и проанализируем новости – куда чаще всего предлагают тратить деньги?

<img src="https://media0.giphy.com/media/xTiTnqUxyWbsAXq7Ju/giphy.gif?cid=ecf05e47fx45w99opc790koo7b7p1enbrpzvx29l216alkv5&ep=v1_gifs_search&rid=giphy.gif&ct=g">

In [36]:
money = newspaper.build('https://www.rbc.ru/life/spend', 
                        memoize_articles = False) # загрузили все ссылки новостей по url
                                                  # параметр memorize_article регулирует, 
                                                  # хотите вы кэшировать новости или нет

In [37]:
money.size() # покажет, сколько статей удалось найти

268

In [38]:
money.articles # покажет объекты класса Article для каждой найденной статьи

[<newspaper.article.Article at 0x1c806b99ad0>,
 <newspaper.article.Article at 0x1c806b98dd0>,
 <newspaper.article.Article at 0x1c806b9be50>,
 <newspaper.article.Article at 0x1c806b1cf10>,
 <newspaper.article.Article at 0x1c806b1f9d0>,
 <newspaper.article.Article at 0x1c806b1c250>,
 <newspaper.article.Article at 0x1c806b1d6d0>,
 <newspaper.article.Article at 0x1c806b2fe50>,
 <newspaper.article.Article at 0x1c806b2fb50>,
 <newspaper.article.Article at 0x1c806abc7d0>,
 <newspaper.article.Article at 0x1c806b2ff90>,
 <newspaper.article.Article at 0x1c806b2cd90>,
 <newspaper.article.Article at 0x1c806b2d8d0>,
 <newspaper.article.Article at 0x1c806b2fb90>,
 <newspaper.article.Article at 0x1c806abde90>,
 <newspaper.article.Article at 0x1c806b03fd0>,
 <newspaper.article.Article at 0x1c806b03a50>,
 <newspaper.article.Article at 0x1c806b00ed0>,
 <newspaper.article.Article at 0x1c806b01f50>,
 <newspaper.article.Article at 0x1c806b00c50>,
 <newspaper.article.Article at 0x1c8064f7610>,
 <newspaper.a

In [39]:
for article in money.articles: # а так можем получить все найденные ссылки
    print(article.url)

https://visionaries.rbc.ru/magazine/9-filmov-serialov-dokumentalok-i-multfilmov-o-vizionerakh-i-ot-vizionerov/
https://visionaries.rbc.ru/magazine/a-nbsp-chto-tak-mozhno-bylo-rezhisser-stsenarist-i-nbsp-kolumnist-laquo-rbk-stil-raquo-anton-utkin-n/
https://visionaries.rbc.ru/magazine/6-knig-chtoby-vzglyanut-na-mir-shire/
https://realty.rbc.ru/news/667aa7c09a79475690438585
https://realty.rbc.ru/news/667ea84f9a7947ed343cf899
https://realty.rbc.ru/news/667d7e979a79475a23c62b61
https://realty.rbc.ru/news/667ea60c9a7947d89be318eb
https://realty.rbc.ru/news/667e8ca19a7947072ba7cd55
https://realty.rbc.ru/news/667d4f699a79474024b26c33
https://realty.rbc.ru/news/631a67539a794755d4c756c3
https://realty.rbc.ru/news/667d41a79a7947d073e0762b
https://realty.rbc.ru/news/667bf5f49a7947ee11998929
https://realty.rbc.ru/news/667a02f29a7947623eb8fc37
https://realty.rbc.ru/news/667bd11c9a7947da85aad734
https://realty.rbc.ru/news/61cb3bbd9a7947b4ccf72514
https://realty.rbc.ru/news/667aa2289a7947587543348e
h

In [40]:
for category in money.category_urls(): # так можем найти все категории ссылок, которые удалось найти
    print(category)

https://style.rbc.ru
https://realty.rbc.ru
https://lib.rbc.ru
http://esg-index.rbc.ru
https://www.rbc.ru/life/spend
https://visionaries.rbc.ru
https://www.rbc.ru/life
https://www.rbc.ru
https://marketing.rbc.ru
https://companies.rbc.ru
https://adv.rbc.ru
https://quote.rbc.ru
https://spbspecials.rbc.ru
https://trends.rbc.ru
https://pro.rbc.ru
https://tv.rbc.ru
https://spb-bc.rbc.ru


Импортируем две библиотеки, которые сильно помогают при парсинге данных. Библиотека `time` с функцией `sleep` позволяет делать паузы между запросами к сайту (выше шансы, что вас не заблокируют).

Библиотека `tqdm` с функцией `tqdm` создает прогресс-бар выполнения вашего кода.

In [32]:
from time import sleep
from tqdm import tqdm

Далее мы создадим пустой список data, куда будем сохранять в формате кортежа данные по каждой статье. Мы хотим сохранить ссылку на статью, заголовок статьи, автора, первое изображение, ключевые слова и выжимку.

In [None]:
data = [] 

for article in tqdm(money.articles):
    news = Article(article.url, language='ru')
    news.download()
    news.parse()
    news.nlp()
    data.append((article.url, news.title, news.authors, news.top_image, news.keywords, news.summary))
    sleep(3)

Проверяем, все новостные статьи действительно загрузились!

In [42]:
print(data[0])

('https://visionaries.rbc.ru/magazine/9-filmov-serialov-dokumentalok-i-multfilmov-o-vizionerakh-i-ot-vizionerov/', '9 фильмов, сериалов, документалок и мультфильмов о визионерах и от визионеров', ['Фото', 'Itv Studios', 'Gebeka Films', 'Searchlight Pictures', 'Universal Pictures'], 'https://visionaries.rbc.ru/assets/images/share/share-2.png', ['комедия', 'представления', 'визионеров', 'документалок', 'фильма', 'мультфильмов', 'сериалов', 'режиссер', 'которое', 'селфридж', 'фильм', '9', 'кино', 'сериал', 'визионерах', 'сто', 'фильмов'], 'Родившийся в 1858 году Гарри Селфридж изменил представления Лондона, а вслед за ним и всего мира о том, как должна вестись розничная торговля.\nКогда Лондон громили суфражистки, Селфридж выставлял на витрины манекены в зеленых платьях — женщины чувствовали в этом поддержку и не били окна любимого универмага.\nАмериканский режиссер и сценарист Майк Чеслик и его соавтор и актер Райланд Бриксон Коул Тьюз за крошечные деньги сняли в 2022 году исключительное

## Анализ ключевых слов новостей

Для начала сохраним все полученные данные как датафрейм pandas.

In [43]:
import pandas as pd

In [44]:
df = pd.DataFrame(data, columns=['link', 'title', 'authors', 'img_link', 'keywords', 'summary'])

In [45]:
df

Unnamed: 0,link,title,authors,img_link,keywords,summary
0,https://visionaries.rbc.ru/magazine/9-filmov-s...,"9 фильмов, сериалов, документалок и мультфильм...","[Фото, Itv Studios, Gebeka Films, Searchlight ...",https://visionaries.rbc.ru/assets/images/share...,"[комедия, представления, визионеров, документа...",Родившийся в 1858 году Гарри Селфридж изменил ...
1,https://visionaries.rbc.ru/magazine/a-nbsp-cht...,"А что, так можно было? Режиссер, сценарист и к...","[Фото, Личный Архив]",https://visionaries.rbc.ru/assets/images/share...,"[работе, сразу, ачто, идей, способность, голов...","Режиссер, сценарист и колумнист «РБК Стиль» Ан..."
2,https://visionaries.rbc.ru/magazine/6-knig-cht...,"6 книг, чтобы взглянуть на мир шире",[],https://visionaries.rbc.ru/assets/images/share...,"[перевод, мир, автор, буллит, книг, взглянуть,...",Его дебют «Школа для дураков» — это своего род...
3,https://realty.rbc.ru/news/667aa7c09a794756904...,Какой доход нужен для оформления ипотеки после...,"[Фото, Георгий Трушин, Сергей Велесевич]",https://s0.rbk.ru/v6_top_pics/resized/1200xH/m...,"[обслуживания, тыс, дохода, городам, платеж, и...",Каким должен быть доход для обслуживания ипоте...
4,https://realty.rbc.ru/news/667ea84f9a7947ed343...,Как льготная ипотека повлияла на рынок недвижи...,"[Фото, Orini, Shutterstock, Вера Лунькова, Сер...",https://s0.rbk.ru/v6_top_pics/resized/1200xH/m...,"[ипотека, ипотек, ипотеки, программе, 2023, жи...","Средний срок кредита — 272 месяца, а площадь п..."
5,https://realty.rbc.ru/news/667d7e979a79475a23c...,Что будет с рынком новостроек после 1 июля. Пр...,"[Фото, Evgeniy Vasilev, Shutterstock, Вера Лун...",https://s0.rbk.ru/v6_top_pics/resized/1200xH/m...,"[рынком, программы, гк, спрос, ипотеки, руково...",Читайте также: Ошибка или спасение: что чиновн...


Видим, что авторы и ключевые слова сохранились в ячейки в формате списков.

In [34]:
type(df['authors'][0])

list

Давайте переведем их в обычные строки. Для этого мы сначала переведем всю колонку в тип данных `str`

```python
df['authors'].astype(str)
```
    
А затем с помощью метода `.apply()` и анонимной функции `lambda` уберем лишние скобки и кавычки.

```python
df['authors'].astype(str).apply(lambda x: x.strip("''[]"))
```

In [35]:
df['authors'] = df['authors'].astype(str).apply(lambda x: x.strip("''[]"))

In [36]:
type(df['authors'][0])

str

С ключевыми словами мы проделывать это не будем, оставим их списком.

Теперь мы хотим провести частотный анализ. Но наши слова не лемматизированы, то есть не приведены к исходной форме (так, как они записаны в словаре). Исправим это!

Импортируем библиотеку pymorphy3 – морфологический анализатор для русского языка, написанный на языке Python и использующий словари из [OpenCorpora](https://opencorpora.org/dict.php). 

Используем оттуда класс `MorphAnalyzer`. Для заданного слова он может найти все возможные формы.

In [None]:
!pip install pymorphy3

In [37]:
import pymorphy3
morph = pymorphy3.MorphAnalyzer()

Для начала попробуем на отдельных словах.

In [38]:
morph.parse('цены')

[Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='цена', score=0.476562, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 7),)),
 Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='цена', score=0.328125, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 1),)),
 Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='цена', score=0.195312, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 10),))]

Нам выдается все возможные значения слова. Возьмем первую.

In [39]:
morph.parse('цены')[0]

Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='цена', score=0.476562, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 7),))

Отлично! Теперь осталось только получить нормальную форму -- значение атрибута `.normal_form`

In [40]:
morph.parse('цены')[0].normal_form

'цена'

Проделаем это со всеми ячейками в колонке keywords. Напишем функцию, которую затем применим ко всему столбцу.

In [44]:
def lemmatize(words):
    lemmas = []
    
    for word in words: 
        norm_word = morph.parse(word)[0].normal_form 
        lemmas.append(norm_word)
    return lemmas # вернем строку со всеми лемматизированными значениями

In [45]:
df['keywords_lem'] = df['keywords'].apply(lemmatize) # создадим новый столбец, в котором сохранятся 
                                                    # лемматизированные ключевые слова

In [46]:
df

Unnamed: 0,link,title,authors,img_link,keywords,summary,keywords_lem
0,https://rbclife.ru/news/65845a809a7947a973fc7d3a,"Что подарить коллегам, знакомым, друзьям и родным",Елена Колесова,https://s0.rbk.ru/v6_top_pics/media/img/6/57/3...,"[подарок, вафель, какао, коллегам, вкусов, неж...","Что подарить коллегам, знакомым, друзьям и род...","[подарок, вафля, какао, коллега, вкус, нежный,..."
1,https://rbclife.ru/news/657c8e8c9a7947631a5ca351,Выбираем Mini-LED или Laser TV. Четыре достойн...,Дмитрий Кузьмин,https://s0.rbk.ru/v6_top_pics/media/img/2/19/3...,"[2024, дюймов, картинка, экрана, достойных, la...",Выбираем Mini-LED или Laser TV.\nЕсли нужно бо...,"[2024, дюйм, картинка, экран, достойный, laser..."
2,https://rbclife.ru/news/658413d69a7947c51ad325d9,В Hisense рассказали о новой электронике и быт...,Елена Колесова,https://s0.rbk.ru/v6_top_pics/media/img/1/53/3...,"[hisenseв, новой, фото, проектор, gorenje, las...",В Hisense рассказали о новой электронике и быт...,"[hisenseть, новый, фото, проектор, gorenje, la..."
3,https://rbclife.ru/news/658296509a7947af32843bb8,Нейросеть «Мегамаркета» научилась искать одежд...,Елена Колесова,https://s0.rbk.ru/v6_top_pics/media/img/6/01/3...,"[человека, обувь, алгоритм, снимок, нейросеть,...",Нейросеть «Мегамаркета» научилась искать одежд...,"[человек, обувь, алгоритм, снимка, нейросеть, ..."
4,https://rbclife.ru/news/65819bd09a7947cd7c46b4d2,7 лучших санок и снегокатов для перевозки дете...,Елена Колесова,https://s0.rbk.ru/v6_top_pics/media/img/3/79/3...,"[детей, маневренность, снегокатов, отмечают, с...",7 лучших санок и снегокатов для перевозки дете...,"[ребёнок, манёвренность, снегокат, отмечать, с..."
...,...,...,...,...,...,...,...
122,https://rbclife.ru/news/658577829a7947010dbd95f2,Redmi выпустила эксклюзивные смартфоны в стиле...,,https://s0.rbk.ru/v6_top_pics/media/img/5/69/3...,"[смартфоны, redmi, экземпляров, фото, эксклюзи...",Redmi выпустила эксклюзивные смартфоны в стиле...,"[смартфон, redmi, экземпляр, фото, эксклюзивны..."
123,https://rbclife.ru/news/658574299a7947bfa0886215,Ученые нашли на картине Рафаэля «Мадонна с роз...,,https://s0.rbk.ru/v6_top_pics/media/img/6/66/3...,"[heritage, хассан, рафаэля, мадонна, искусстве...",Ученые нашли на картине Рафаэля «Мадонна с роз...,"[heritage, хассан, рафаэль, мадонна, искусстве..."
124,https://rbclife.ru/news/65856c239a79473119f55cf7,Королева Летиция вышла в свет в элегантном бар...,,https://s0.rbk.ru/v6_top_pics/media/img/6/45/3...,"[наряде, королева, национальной, испании, vi, ...",Королева Летиция вышла в свет в элегантном бар...,"[наряд, королева, национальный, испания, vi, л..."
125,https://rbclife.ru/news/65856b5c9a794767c77932a9,Российские ученые нашли в Гватемале астрономич...,,https://s0.rbk.ru/v6_top_pics/media/img/0/87/3...,"[карте, астрономическую, карту, гватемале, рос...",Российские ученые нашли в Гватемале астрономич...,"[карта, астрономический, карта, гватемала, рос..."


Чтобы сделать частотный анализ, мы будем использовать библиотеку `collections`, в которой есть очень удобный класс `Counter`, делающий частотный анализ.

In [47]:
from collections import Counter

Соберем все слова из колонки keywords_lem в один список.

In [48]:
all_keywords = df['keywords_lem'].sum()
all_keywords

['подарок',
 'вафля',
 'какао',
 'коллега',
 'вкус',
 'нежный',
 'начинка',
 'шоколад',
 'подарить',
 'loacker',
 'вафля',
 'порадовать',
 'родный',
 'друг',
 'знакомый',
 '2024',
 'дюйм',
 'картинка',
 'экран',
 'достойный',
 'laser',
 'технология',
 'выбирать',
 'tv',
 'размер',
 'вариант',
 'гц',
 'miniled',
 'hisense',
 'hisenseть',
 'новый',
 'фото',
 'проектор',
 'gorenje',
 'laser',
 'бытовой',
 'россия',
 'позволять',
 'рассказать',
 'cinema',
 'электроника',
 'техника',
 'hisense',
 'человек',
 'обувь',
 'алгоритм',
 'снимка',
 'нейросеть',
 'фото',
 'искать',
 'научиться',
 'мегамаркет',
 'пол',
 'снимок',
 'сервис',
 'среди',
 'одежда',
 'скажем',
 'ребёнок',
 'манёвренность',
 'снегокат',
 'отмечать',
 'санки',
 'перевозка',
 'модель',
 'кг',
 'плюс',
 'санки',
 'хороший',
 'горка',
 'катание',
 '7',
 'онлайнпримерка',
 'средство',
 'мегамаркет',
 'новый',
 'запустить',
 'площадка',
 'примерка',
 'примерить',
 'сервис',
 'косметика',
 'раз',
 'новый',
 'обзор',
 'фото',
 'г

Найдем 10 самых часто встречающихся ключевых слов.

In [49]:
Counter(all_keywords).most_common(10)

[('фото', 42),
 ('новый', 26),
 ('игра', 21),
 ('россия', 14),
 ('ребёнок', 13),
 ('яйцо', 12),
 ('2023', 11),
 ('фильм', 11),
 ('сериал', 11),
 ('салат', 11)]

На что чаще всего РБК предлагает потратить деньги? Прочитаем выжимку для каждой такой статьи.

In [64]:
with pd.option_context('display.max_colwidth', None): # чтобы был показан весь текст в каждой ячейке
    display(df[df['keywords_lem'].apply(lambda x: 'KEYWORD' in x)][['link', 'summary', 'keywords']])

Unnamed: 0,link,summary,keywords
2,https://rbclife.ru/news/658413d69a7947c51ad325d9,"В Hisense рассказали о новой электронике и бытовой технике для России .\nТелевизоры с новой технологией Mini-LEDФото: HisenseОдним из важнейших событий в сфере инноваций стала премьера телевизоров Hisense с новой технологией подсветки Mini-LED.\nЛазерный проектор Hisense Laser Cinema PX1HЛазерный проектор Laser Cinema PX1H Фото: HisenseВ сентябре Hisense привез в Россию новый ультракороткофокусный лазерный проектор Laser Cinema PX1H.\nHisense Laser Cinema PX1H способен обеспечивать изображение формата 4К диагональю от 90 до 130 дюймов, в зависимости от расположения относительно проекционной поверхности.\nИнновационные решения в бытовой технике Hisense и GorenjeРобот-пылесос RVCL144AB Фото: HisenseВ 2023 году впервые под брендом Hisense на российский рынок вышел робот-пылесос RVCL144AB для сухой и влажной уборки с автономностью непрерывной работы до 150 минут.","[hisenseв, новой, фото, проектор, gorenje, laser, бытовой, россии, позволяет, рассказали, cinema, электронике, технике, hisense]"
3,https://rbclife.ru/news/658296509a7947af32843bb8,"Нейросеть «Мегамаркета» научилась искать одежду и обувь по фото .\nПокупателю нужно просто загрузить снимок из модного журнала СлушатьФото: ShutterstockПонравившуюся одежду, обувь и различные аксессуары теперь можно находить на «Мегамаркете» при помощи фотографий.\nФото: megamarket.ruПоиск существенно упрощен благодаря модели MiVOLO, позволяющей нейросети распознавать не только одежду, но также пол и возраст человека на снимке.\nСкажем, алгоритм не будет предлагать платья для взрослых, если на фотографии изображен ребенок, а также предложит мужские предметы гардероба, если на снимке мужчина.\nФото: megamarket.ruПри этом MiVOLO способна определять пол и возраст человека, даже если на снимке он стоит спиной к камере — погрешность не превышает четырех лет.","[человека, обувь, алгоритм, снимок, нейросеть, фото, искать, научилась, мегамаркета, пол, снимке, сервис, среди, одежду, скажем]"
6,https://rbclife.ru/news/65773fac9a7947184d1a5071,"Обзор нового Mate X3 .\nЧем удивляет «раскладушка» с гибким экраном и продвинутой камеройHuawei Mate X3 Фото: Huawei«Лучший из складных смартфонов», «Самый тонкий и невероятный» и «Действительно стильный» — так восторженно охарактеризовали блогеры складной Huawei Mate X3.\nКажется, Mate x3 все-таки выигрывает у Samsung в передаче цвета Фото: Comparison Zero / YouTubeВот Mate X3 тестируют ночью.\nСтоит ли покупать Mate X3Huawei Mate X3 Фото: HuaweiЕсли есть готовность выделить на покупку смартфона 150 тыс.\nОбратите внимание, что Huawei Mate X3 из коробки поддерживает оплату покупок в приложениях и бесконтактную оплату.","[обзор, фото, ггц, нового, x3, например, разложенном, мм, сложенном, huawei, mate, состоянии, смартфонов, эволюция, складных]"
7,https://rbclife.ru/news/657083579a794783a9e3fe6e,"7 лучших смартфонов 2023 года.\nОт Apple и Samsung до Huawei и XiaomiiPhone 15 Pro Фото: ShutterstockГод подходит к концу, и практически все наиболее значимые премьеры смартфонов уже состоялись.\nЛучший флагман на iOS: iPhone 15 ProiPhone 15 Pro Фото: ShutterstockВозможно, внешне iPhone 15 Pro не сильно изменился по сравнению с предшественником, однако при внимательном изучении основных нововведений понимаешь, что в Apple сделали огромный шаг вперед.\nЛучший камерофон: Huawei P60 ProHuawei P60 Pro Фото: ShutterstockВозможности камеры — один из важнейших критериев при выборе смартфона для большинства пользователей.\nЛучший смартфон среднего уровня: Xiaomi Redmi Note 12 ProXiaomi Redmi Note 12 Pro Фото: mi.comRedmi Note 12 Pro от Xiaomi возглавляет многие рейтинги лучших смартфонов средней ценовой категории.","[15, 2023, камера, разных, фото, гб, бюджет, смартфон, камеры, любой, pro, 7, смартфонов, лучших, задач]"
8,https://rbclife.ru/news/657c0ae29a794722e033ac52,"Что надеть на Новый год: повторяем образы главных киногероев 2023 года .\nКадр из сериала «Райцентр» Фото: Продюсерская компания «Среда»Михаил Горшенев (Горшок)Разумеется, якорь в этом образе главного героя сериала (роль исполнил Константин Плотников) — прическа.\nКадр из фильма «Барби» Фото: Warner Bros.Добавим нотку вестерна — этот образ угадывается мгновенно, даже если другие гости вечеринки фильм не видели.\nКадр из фильма «Барби» Фото: Warner Bros.КенПросто Кен (его роль исполнил Райан Гослинг) — прекрасный джентельмен, в отличие от киноКена, к вам этот образ притянет максимум внимания.\nКадр из фильма «Барби» Фото: Warner Bros.Энцо ФеррариОбраз героя Адама Драйвера как будто придуман для самых элегантных мужчин, которые любят классику и хорошее кино.","[повторяем, пацана, киногероев, новый, фото, фильма, барби, самых, сериала, образы, надеть, главных, образ, шляпу, 2023, повторить]"
12,https://rbclife.ru/news/657b1c1d9a7947e41e52d9fc,"7 лучших гаджетов 2023.\nОт смартфонов и консолей до часов и наушников .\nСамые передовые компактные устройства для работы, съемки, спорта и игр 7 лучших гаджетов 2023 года: от смартфонов и консолей до часов и наушниковФото: Justin Sullivan / Getty ImagesПодводя итоги года, РБК Life выбрал самые передовые и интересные компактные устройства, которые дебютировали или появились в продаже в 2023 году.\nВ список попала самая разная портативная электроника — от лучших смартфонов и сопутствующих гаджетов вроде смарт-часов и наушников до невероятных девайсов, появившихся на рынке впервые.\nПредусмотрено множество режимов для занятий спортом и контроля состояния здоровья с хорошими функциями отслеживания сна, а для владельцев смартфонов Samsung доступны такие фишки, как электрокардиограмма или оповещения о нерегулярном сердечном ритме.","[7, консолей, watch6, наушников, apple, фото, гаджета, гаджетов, устройства, samsung, лучших, часов, смартфонов, 2023]"
15,https://rbclife.ru/news/65784c359a79477c8f2d71ae,"Представлены Samsung Galaxy A15 LTE и Galaxy A15 5G.\nЦена, цвета и характеристики Samsung выпустила дуэт смартфонов Galaxy A15 и Galaxy A25 5GSamsung Galaxy A15 и Galaxy A25 5G Фото: SamsungКомпания Samsung представила дуэт смартфонов серии Galaxy A. Это модели Galaxy A15 и Galaxy A25 5G, сообщается на новостном портале производителя, которым обещаны пять лет обновлений безопасности.\nТак, Galaxy A15 базируется на чипсете MediaTek Helio G99 и имеет поддержку 4G-сетей, модель Galaxy A15 5G поддерживает работу в 5G-сетях и оснащена процессором Dimensity 6100+, а Galaxy A25 5G располагает 8-ядерным процессором Exynos 1280.\nSamsung Galaxy A15 и Galaxy A25 5G Фото: SamsungСмартфоны представлены пока во Вьетнаме и цена на них следующая:Galaxy A15 LTE — от 4 990 000 донгов (₽18,4 тыс.\nSamsung Galaxy A15 и Galaxy A25 5G Фото: SamsungВ конце октября Samsung представил коллекционную версию смартфона Galaxy Z Flip5 Retro в стиле кнопочной «раскладушки» Samsung E700 2003 года.","[galaxy, интересны, lte, фото, представлены, 5g, samsung, донгов, a15, a25, смартфонов, 000]"
20,https://rbclife.ru/news/656f7b099a79474c00f3b6b5,"Где попробовать фламбе-меню: гастрономическое путешествие с BUONO .\nШефы-итальянцы возрождают известную ресторанную традицию в МосквеНа фото: шеф-повар Андреа Галли и бренд-шеф Джузеппе Дави Фото: Пресс-служба ресторана BUONO«Простота — моя философия», — отмечает бренд-шеф панорамного ресторана BUONO Джузеппе Дави, и с ним соглашается шеф-повар Андреа Галли.\nНа фото: Андреа Галли, шеф-повар ресторана BUONO, готовит зеленый салат с креветками, авокадо, ягодами годжи и острой цитрусовой заправкой из нового фламбе-меню Фото: Пресс-служба ресторана BUONOСам термин «фламбирование» произошел от французского слова flamber — «вспыхивать», «пламенеть» или «пылать».\n«Мишка BUONO» Фото: Пресс-служба ресторана BUONOКроме того, каждую пятницу Андреа Галли представляет специальное меню из трех блюд, делая ставку на сезонные и фермерские продукты.\nПресс-служба ресторана BUONOСовершите гастрономическое путешествие по регионам Италии в обновленном панорамном ресторане BUONO!","[андреа, buono, ресторана, путешествие, фламбеменю, ягодами, фото, галли, гастрономическое, салат, попробовать, шефповар]"
30,https://rbclife.ru/news/656590ec9a794703172245ec,"Как сделать салат «Мимоза».\nПростой и понятный рецепт .\nЕсли отварить ингредиенты заранее — приготовление займет всего 20 минут СлушатьСалат «Мимоза» Фото: ShutterstockСалат «Мимоза» для многих россиян ассоциируется с праздничным застольем.\nРБК Life нашел простой и понятный рецепт, воспользоваться которым сможет даже пользователь без особого кулинарного опыта.\nОна отметила, что «Мимоза» относительно недорогое с точки зрения составляющих продуктов блюдо, при этом довольно сытное.","[сделать, мимоза, выложить, фото, понятный, блюдо, простой, салат, салата, приготовления, рецепт, отварить]"
32,https://rbclife.ru/news/6582e20e9a7947acf7e14218,"Кого любила и кого убила царица Древнего Египта .\nТак что символическим соправителем царицы Древнего Египта стал ее ребенок — Птолемей XV Цезарион.\nДалее следует известный сюжет — Марк Антоний пал перед красотой и интеллектом царицы Древнего Египта и делал практически все, что она велела.\nКлеопатра Фото: Hulton Archive / Getty ImagesИмператор Октавиан Август представил автобиографию, в которой утверждалось его право на власть.\nНо личность царицы Египта свели всего к двум эпизодам — ее романам с Юлием Цезарем и Марком Антонием.","[египта, нэ, фото, цезаря, клеопатра, убила, царицы, клеопатры, птолемей, древнего, царица, антоний, величественная, любила]"
