# Парсинг новостей

Библиотека `newspaper3k` - это мощный инструмент, предназначенный для извлечения и анализа данных с новостных веб-сайтов. Эта библиотека была вдохновлена библиотекой `requests` и позволяет разработчикам и исследователям легко собирать информацию из новостных статей, включая заголовки, тексты, авторов, ключевые слова, изображения и даты публикации.

`newspaper3k` также имеет встроенные функции NLP, что позволяет быстро получить ключевые слова и саммари новостной статьи.

Для начала установим библиотеку.

In [1]:
!pip install newspaper3k

Collecting newspaper3k
  Downloading newspaper3k-0.2.8-py3-none-any.whl.metadata (11 kB)
Collecting feedparser>=5.2.1 (from newspaper3k)
  Downloading feedparser-6.0.11-py3-none-any.whl.metadata (2.4 kB)
Collecting feedfinder2>=0.0.4 (from newspaper3k)
  Downloading feedfinder2-0.0.4.tar.gz (3.3 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting jieba3k>=0.35.1 (from newspaper3k)
  Downloading jieba3k-0.35.1.zip (7.4 MB)
     ---------------------------------------- 0.0/7.4 MB ? eta -:--:--
     ---------------------------------------- 0.0/7.4 MB ? eta -:--:--
     ---------------------------------------- 0.0/7.4 MB 991.0 kB/s eta 0:00:08
     ---------------------------------------- 0.1/7.4 MB 1.3 MB/s eta 0:00:06
      --------------------------------------- 0.1/7.4 MB 939.4 kB/s eta 0:00:08
     - -------------------------------------- 0.2/7.4 MB 1.4 MB/s eta 0:00:06
     - -------------------------------------- 0.2/7

Взглянем на [документацию библиотеки](https://newspaper.readthedocs.io/en/latest/user_guide/quickstart.html). Модуль работает с ссылками на новости или ссылкой на новостной ресурс (и далее самостоятельно собирает оттуда ссылки).

## Извлечение новости и метаданных

Из библиотеки мы импортируем класс `Article`. Каждая новость, которую мы будем извлекать таким образом будет являться экземпляром класса `Article`. Буквально это означает, что внутри `Article` лежит некая инструкция о том, как обычно выглядит новостная статья – например, у нее обязательно есть заголовок, может быть автор, фотографии, дата публикации. 

Каждая новость, которую мы будем передавать внутрь класса `Article` по ссылке будет обрабатываться по зашитой внутрь нее схеме.

In [2]:
from newspaper import Article

Посмотрим на эту статью из РБК Трендов: «[Как модель искусственного интеллекта поможет в лечении депрессии](https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243?page=tag&nick=ai)». Положим ссылку на статью в переменную `url`.

In [3]:
url = 'https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243?page=tag&nick=ai'

Далее создаем экземпляр класса `Article`. Он будет называться `article` с маленькой буквы (обратите внимание – все классы в Python пишутся с большой буквы). 

Мы передаем ссылку и указываем язык новости (параметр `language`). Библиотека `newspaper3k` работает со следующими языками:

|input code|full name|
|---|---|
  nl	|		  Dutch
  zh	|		  Chinese
  vi	|		  Vietnamese
  no	|		  Norwegian
  ar	|		  Arabic
  tr	|		  Turkish
  sr	|		  Serbian
  fr	|		  French
  ru	|		  Russian
  en	|		  English
  hi	|		  Hindi
  ja	|		  Japanese
  sw	|		  Swahili
  pl	|		  Polish
  fa	|		  Persian
  el	|		  Greek
  sv	|		  Swedish
  sl	|		  Slovenian
  de	|		  German
  it	|		  Italian
  pt	|		  Portuguese
  he	|		  Hebrew
  hr	|		  Croatian
  et	|		  Estonian
  id	|		  Indonesian
  ro	|		  Romanian
  es	|		  Spanish
  ko	|		  Korean
  hu	|		  Hungarian
  da	|		  Danish
  fi	|		  Finnish
  bg	|		  Bulgarian
  be	|		  Belarusian
  mk	|		  Macedonian
  nb	|		  Norwegian (Bokmål)
  uk	|		  Ukrainian

In [4]:
article = Article(url, language='ru')

Отлично! Теперь у нас есть переменная `article`, которая обрабатывается библиотекой по инструкции как новостная статья. Если мы попробуем распечатать эту переменную, то увидим техническую информацию – как Python видит внутри себя эту переменную.

In [5]:
print(article)

<newspaper.article.Article object at 0x00000158CCD8ACD0>


Чтобы получить данные, мы воспользуемся методом `.download()`, который загрузит html статьи по ссылке. Сам html мы можем получить, используя атрибут `.html`.

In [6]:
article.download()

In [7]:
article.html

'<!DOCTYPE html>\n\n\n<html lang="ru" >\n<head>\n    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">\n    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n    <meta http-equiv="Cache-Control" content="no-cache">\n    <meta name="viewport" content="width=device-width, initial-scale=1.0, user-scalable=no, minimum-scale=1.0, maximum-scale=1.0">\n    <meta name="HandheldFriendly" content="True">\n    <meta name="format-detection" content="telephone=no">\n    <meta name="format-detection" content="address=no">\n\n    \n                \n    \n    \n\n            <title>Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды</title>\n\n<meta name="title" content="Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды"/>\n<meta name="description" content="Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут знач

Окей! Получили html нашей новости. Пока это ничем не отличается от работы с библиотекой `requests`. Обычно мы бы загрузили эту html-страницу в `BeautifulSoup` и искали бы по тегам автора, заголовок и т.д. Но библиотека `newspaper3k` сильно облегчает эту задачу.

Нам нужно использовать метод `.parse()`, который проанализирует html-код и найдет главные атрибуты новостной статьи: 
* Заголовок (`.title`)
* Автора (`.authors`)
* Дата публикации (`.publish_date`)
* Текст статьи (`.text`)
* Изображения в новости (`.top_image` (первое изображение на странице), `.images` (множество ссылок на все изображения))
* Видео в новости (`.movies`)

In [8]:
article.parse()

In [9]:
print(article.title) # заголовок есть

Как модель искусственного интеллекта поможет в лечении депрессии


In [10]:
print(article.authors) # авторами библиотека посчитала еще и слово "Фото" (связано с версткой сайта и html-тегами)
                        # но автора определила верно

['Фото', 'Семен Башкиров']


In [11]:
print(article.publish_date) # а вот даты публикации на странице действительно нет

None


In [12]:
print(article.text) # весь текст статьи

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой

А в чем тренд? Чтобы выявить потенциальные сердечно-сосудистые заболевания, доктора измеряют давление. Чтобы определить преддиабетное состояние — анализируют уровень инсулина. Однако в случае депрессии специалисты вынуждены полагаться на самоотчеты людей о симптомах. Это затрудняет объективную оценку. В сентябре 2023 года группа американских исследователей с помощью ИИ зафиксировала у людей, которые прошли курс глубокой стимуляции мозга (DBS), особый сигнал мозга, свидетельствовавший о выходе из депрессии. В рамках метода DBS вживленные в мозг электроды подают импульсы, которые меняют нейронную активность. По словам нейробиолога из Дартмутского колледжа Пола Хольцхаймера, если результаты будут воспроизведены на более крупной выборке, это может стать переломным моментом в лечении д

In [13]:
print(article.top_image) # фотография из статьи

https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg


In [15]:
print(article.images) # все фотографии, найденные на странице

{'https://s0.rbk.ru/v6_top_pics/media/img/4/55/755924101431554.svg', 'https://s0.rbk.ru/v6_top_pics/media/img/8/46/756105436203468.svg', 'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/5/79/756152823045795.png', 'https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg', 'https://trends.rbc.ru/info-service/api/v2/noscripts', 'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/3/41/756152823169413.png', 'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/4/35/756152821394354.png', 'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/4/44/347072979090444.jpeg', 'https://top-fwz1.mail.ru/counter?id=3214695;js=na', 'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/7/45/347072959508457.jpeg', 'https://mc.yandex.ru/watch/54873298', 'https://s0.rbk.ru/v6_top_pics/resized/340x212_crop/media/img/9/80/756353487550809.jpg', 'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/3/86/347183695034863.jpeg', 'https://s0.rbk.ru/v6_top_pics/media/img/7/64

In [16]:
for img in article.images:
    print(img) # видим, что сюда попали изображения в том числе лого и анонсов других статей

https://s0.rbk.ru/v6_top_pics/media/img/4/55/755924101431554.svg
https://s0.rbk.ru/v6_top_pics/media/img/8/46/756105436203468.svg
https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/5/79/756152823045795.png
https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg
https://trends.rbc.ru/info-service/api/v2/noscripts
https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/3/41/756152823169413.png
https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/4/35/756152821394354.png
https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/4/44/347072979090444.jpeg
https://top-fwz1.mail.ru/counter?id=3214695;js=na
https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/7/45/347072959508457.jpeg
https://mc.yandex.ru/watch/54873298
https://s0.rbk.ru/v6_top_pics/resized/340x212_crop/media/img/9/80/756353487550809.jpg
https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/3/86/347183695034863.jpeg
https://s0.rbk.ru/v6_top_pics/media/img/7/64/346908189677647.jpeg


In [17]:
print(article.movies) # видео в этой статье нет

[]


Также мы можем вытащить метаданные.

**Метаданные** – это данные о данных. 

Тег \<head> в HTML-документе - это та часть, которая не отображается в браузере при загрузке страницы. Она содержит такую информацию, как <заголовок> страницы, ссылки на CSS (каскадные таблицы стилей – код, который используется для стилизации веб-страницы), ссылки на фавиконы и другие метаданные (данные о HTML, например, автор и важные ключевые слова, описывающие документ).

In [18]:
article.meta_data # это большой словарь

defaultdict(dict,
            {'viewport': 'width=device-width, initial-scale=1.0, user-scalable=no, minimum-scale=1.0, maximum-scale=1.0',
             'HandheldFriendly': 'True',
             'format-detection': 'address=no',
             'title': 'Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды',
             'description': 'Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой',
             'copyright': '«РосБизнесКонсалтинг»',
             'robots': 'max-image-preview:large',
             'og': {'title': 'Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды',
              'type': 'article',
              'url': 'https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243',
              'image': 'https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg',
       

In [19]:
print(article.meta_data['og']['description']) # например, описание статьи от авторов 
                                            # (используется для анонса ссылки в поисковых системах)

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой


## Обработка естественного языка в новостях

Библиотека `newspaper3k` предлагает метод `.nlp()`, который обрабатывает новость и выделяет ключевые слова (атрибут `.keywords`) и краткую выжимку текста (атрибут `.summary`).

Стоит отметить, что NLP в этой библиотеке достаточно плохо обрабатывает русский язык, но отлично справляется с английским.

In [27]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\izeme\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [31]:
article.nlp()

In [32]:
print(article.keywords) # ключевые слова действительно отражают нашу новость

['ии', 'результаты', 'поможет', 'депрессии', 'людей', 'мозга', 'электроды', 'искусственного', 'лечении', 'интеллекта', 'стимуляции', 'ученые', 'модель', 'помощью', 'dbs']


Сравним ключевые слова с теми, которые авторы статьи промаркировали эту новость:

In [33]:
article.meta_data['news_keywords']

'Депрессия, Стимуляция, Исследователь, Электрод, Самоотчёт, Состояние, Активность, Выздоровление, Устройство, Доброволец, Симптом, Специалист, Вынудить, Результат, Заболевание, Участник, Исследование, Глубокий, Нейронный, Анализировать'

Слова отличаются. В том числе это связано с тем, что в метаданных ключевые слова прописывают для поисковых систем и SEO-оптимизации страницы, а не для того, чтобы описать смысл статьи (как в NLP).

In [34]:
print(article.summary) # краткая выжимка тоже достаточно успешно отработала

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии.
В сентябре 2023 года группа американских исследователей с помощью ИИ зафиксировала у людей, которые прошли курс глубокой стимуляции мозга (DBS), особый сигнал мозга, свидетельствовавший о выходе из депрессии.
Сложности с самоотчетомПопытки лечения депрессии с помощью DBS до сих пор имели ограниченный успех: в двух исследованиях не удалось продемонстрировать преимущества по сравнению с плацебо.
По словам Хольцхаймера, эти результаты могут иметь значение не только для метода глубокой стимуляции мозга.
Однако анализ сигналов мозга с помощью ИИ поможет и тем, кто лечится с помощью других методов.


## Парсинг всех новостных статей на странице

Мы посмотрели, как обработать одну новость. Но чаще всего нам нужно обработать большой массив данных.

Для этого у библиотеки `newspaper3k` есть метод `.build()`, который самостоятельно найдет ссылки на новости.

In [35]:
import newspaper # до этого мы работали только с одним классом в библиотеке, теперь будем работать 
                 # с несколькими функциями оттуда, поэтому импортируем всю библиотеку

В этот раз поработаем с разделом РБК.Тренды «[Потратить](https://rbclife.ru/spend)» и проанализируем новости – куда чаще всего предлагают тратить деньги?

<img src="https://media0.giphy.com/media/xTiTnqUxyWbsAXq7Ju/giphy.gif?cid=ecf05e47fx45w99opc790koo7b7p1enbrpzvx29l216alkv5&ep=v1_gifs_search&rid=giphy.gif&ct=g">

In [36]:
money = newspaper.build('https://www.rbc.ru/life/spend', 
                        memoize_articles = False) # загрузили все ссылки новостей по url
                                                  # параметр memorize_article регулирует, 
                                                  # хотите вы кэшировать новости или нет

In [37]:
money.size() # покажет, сколько статей удалось найти

277

In [38]:
money.articles # покажет объекты класса Article для каждой найденной статьи

[<newspaper.article.Article at 0x158d34ad2d0>,
 <newspaper.article.Article at 0x158d34ada50>,
 <newspaper.article.Article at 0x158d348b310>,
 <newspaper.article.Article at 0x158d34bbe50>,
 <newspaper.article.Article at 0x158d3496190>,
 <newspaper.article.Article at 0x158d34ae850>,
 <newspaper.article.Article at 0x158d5a51250>,
 <newspaper.article.Article at 0x158d34ac210>,
 <newspaper.article.Article at 0x158d34af690>,
 <newspaper.article.Article at 0x158d5a34a50>,
 <newspaper.article.Article at 0x158d34ad950>,
 <newspaper.article.Article at 0x158d3462dd0>,
 <newspaper.article.Article at 0x158d3460f90>,
 <newspaper.article.Article at 0x158d34635d0>,
 <newspaper.article.Article at 0x158d5a0c890>,
 <newspaper.article.Article at 0x158d34b7fd0>,
 <newspaper.article.Article at 0x158d347fc90>,
 <newspaper.article.Article at 0x158d347e110>,
 <newspaper.article.Article at 0x158d3475310>,
 <newspaper.article.Article at 0x158d347ddd0>,
 <newspaper.article.Article at 0x158d347d410>,
 <newspaper.a

In [39]:
for article in money.articles: # а так можем получить все найденные ссылки
    print(article.url)

https://www.rbc.ru/life/news/668251969a79477315d11c3d
https://www.rbc.ru/life/news/667969039a7947595ebf8f0a
https://www.rbc.ru/life/news/667db9fc9a79473bb08e4df0
https://www.rbc.ru/life/news/667d3fa79a7947c97b431947
https://www.rbc.ru/life/news/6674219e9a7947d80ebc1da7
https://www.rbc.ru/life/news/667958a99a79477ff3334f5e
https://www.rbc.ru/life/news/667018359a7947df41ec70f3
https://www.rbc.ru/life/news/667542ed9a7947ca28abcdf7
https://www.rbc.ru/life/news/6673ed759a79477d834cb93e
https://www.rbc.ru/life/news/6670707f9a7947ea11bc1bbd
https://www.rbc.ru/life/news/667173a79a79471121ccb16b
https://www.rbc.ru/life/news/666bed119a794763f48e935e
https://www.rbc.ru/life/news/66674ff59a7947534c050559
https://www.rbc.ru/life/news/666696ed9a794707d9d5de32
https://www.rbc.ru/life/news/6661c36d9a794716b808abf3
https://www.rbc.ru/life/news/6638fa579a79473b57c829af
https://spb.plus.rbc.ru/news/665998cc7a8aa98d1a4aafc4
https://spb.plus.rbc.ru/news/665987f57a8aa987940679f7
https://spb.plus.rbc.ru/news

In [40]:
for category in money.category_urls(): # так можем найти все категории ссылок, которые удалось найти
    print(category)

https://www.rbc.ru/life/spend
https://marketing.rbc.ru
https://spbspecials.rbc.ru
https://spb-bc.rbc.ru
https://visionaries.rbc.ru
https://lib.rbc.ru
https://trends.rbc.ru
https://adv.rbc.ru
https://www.rbc.ru
https://realty.rbc.ru
http://esg-index.rbc.ru
https://pro.rbc.ru
https://style.rbc.ru
https://companies.rbc.ru
https://tv.rbc.ru
https://www.rbc.ru/life
https://quote.rbc.ru


Импортируем две библиотеки, которые сильно помогают при парсинге данных. Библиотека `time` с функцией `sleep` позволяет делать паузы между запросами к сайту (выше шансы, что вас не заблокируют).

Библиотека `tqdm` с функцией `tqdm` создает прогресс-бар выполнения вашего кода.

In [41]:
from time import sleep
from tqdm import tqdm

Далее мы создадим пустой список data, куда будем сохранять в формате кортежа данные по каждой статье. Мы хотим сохранить ссылку на статью, заголовок статьи, автора, первое изображение, ключевые слова и выжимку.

In [42]:
data = [] 

for article in tqdm(money.articles):
    news = Article(article.url, language='ru')
    news.download()
    news.parse()
    news.nlp()
    data.append((article.url, news.title, news.authors, news.top_image, news.keywords, news.summary))
    sleep(2)

  9%|▉         | 25/277 [01:42<17:17,  4.12s/it]


KeyboardInterrupt: 

Проверяем, все новостные статьи действительно загрузились!

In [47]:
print(data[14])

('https://www.rbc.ru/life/news/6661c36d9a794716b808abf3', 'Леопард\xa0— новый черный: как носить «хищный» принт стильно и актуально', ['Елена Нечаева'], 'https://s0.rbk.ru/v6_top_pics/media/img/1/20/347177496537201.jpeg', ['новый', 'леопард', 'образ', 'выбрать', 'черный', 'стоит', 'хищный', 'руб', 'лук', 'актуально', 'вещь', 'принт', 'носить', 'стильно', 'принтом'], 'Леопард — новый черный: как носить «хищный» принт стильно и актуально .\nКак выбрать: рассматриваем пятнаЧтобы образ получился актуальным и гармоничным, важно выбрать вещь с правильным принтом.\nВ этом случае стоит выбрать одну вещь: джинсы, футболку или жакет.\nВ этом случае стоит выбрать классический силуэт (прямой или А-крой) и стилизовать его базовыми дополнениями.\nСколько стоит образ: зарубежные модницы охотятся за комбинацией от Zara, а российские ждут, когда Lime снова выпустит еще хотя бы сотню экземпляров своего платья.')


## Анализ ключевых слов новостей

Для начала сохраним все полученные данные как датафрейм pandas.

In [48]:
import pandas as pd

In [49]:
df = pd.DataFrame(data, columns=['link', 'title', 'authors', 'img_link', 'keywords', 'summary'])

In [50]:
df

Unnamed: 0,link,title,authors,img_link,keywords,summary
0,https://www.rbc.ru/life/news/668251969a7947731...,Россияне купили более 14 млн смартфонов в 2024...,[],https://s0.rbk.ru/v6_top_pics/media/img/4/74/3...,"[самые, 2024, россии, смартфонов, россияне, xi...",Россияне купили более 14 млн смартфонов в 2024...
1,https://www.rbc.ru/life/news/667969039a7947595...,С 1 июля вырастут тарифы на ЖКХ. Насколько уве...,[],https://s0.rbk.ru/v6_top_pics/media/img/2/44/3...,"[увеличится, размер, плата, россии, жилого, вы...",С 1 июля вырастут тарифы на ЖКХ.\nНазваны пред...
2,https://www.rbc.ru/life/news/667db9fc9a79473bb...,Что подарить бабушке на день рождения. 15 ориг...,[Анна Тернавская],https://s0.rbk.ru/v6_top_pics/media/img/3/95/3...,"[рождения, ручной, оригинальных, shutterstock,...",Что подарить бабушке на день рождения.\nЦифров...
3,https://www.rbc.ru/life/news/667d3fa79a7947c97...,5 лет свадьбы: как называется годовщина,[Елена Колесова],https://s0.rbk.ru/v6_top_pics/media/img/0/40/3...,"[5, shutterstock, годовщина, супруги, называет...",5 лет свадьбы: как называется годовщина .\nЕе ...
4,https://www.rbc.ru/life/news/6674219e9a7947d80...,«Сбер» предложил придумать дизайн для банковск...,[Елена Колесова],https://s0.rbk.ru/v6_top_pics/media/img/9/40/3...,"[ии, уникальным, карты, kandinsky, помощи, июн...",«Сбер» предложил придумать дизайн для банковск...
5,https://www.rbc.ru/life/news/667958a99a79477ff...,Россияне верны Lightning. Почему переход Apple...,[Валерий Романов],https://s0.rbk.ru/v6_top_pics/media/img/7/92/3...,"[lightning, смартфонов, россияне, apple, рбк, ...",Почему переход Apple на USB-C не востребован ....
6,https://www.rbc.ru/life/news/667018359a7947df4...,"Вестерн и бохо снова в моде: как носить, чтобы...",[Елена Нечаева],https://s0.rbk.ru/v6_top_pics/media/img/5/31/3...,"[ковбоем, бохо, вестерн, случае, стать, стоит,...","Вестерн и бохо снова в моде: как носить, чтобы..."
7,https://www.rbc.ru/life/news/667542ed9a7947ca2...,Что подарить мужчине на день рождения. 15 идей,[Яна Хватова],https://s0.rbk.ru/v6_top_pics/media/img/5/59/3...,"[сертификат, подарок, ортопедические, рождения...",Что подарить мужчине на день рождения.\nНабор ...
8,https://www.rbc.ru/life/news/6673ed759a79477d8...,"Как обуваться в дождь: 12 пар обуви, которые п...",[Елена Нечаева],https://s0.rbk.ru/v6_top_pics/media/img/0/95/3...,"[обуваться, пару, пар, случае, стоит, пара, са...","Как обуваться в дождь: 12 пар обуви, которые п..."
9,https://www.rbc.ru/life/news/6670707f9a7947ea1...,Как увеличить производительность ноутбука. Под...,[Дмитрий Кузьмин],https://s0.rbk.ru/v6_top_pics/media/img/3/92/3...,"[функция, увеличить, tecno, manager, например,...","Рассказываем, что нужно сделать на примере уст..."


Видим, что авторы и ключевые слова сохранились в ячейки в формате списков.

In [51]:
type(df['authors'][0])

list

Давайте переведем их в обычные строки. Для этого мы сначала переведем всю колонку в тип данных `str`

```python
df['authors'].astype(str)
```
    
А затем с помощью метода `.apply()` и анонимной функции `lambda` уберем лишние скобки и кавычки.

```python
df['authors'].astype(str).apply(lambda x: x.strip("''[]"))
```

In [52]:
df['authors'] = df['authors'].astype(str).apply(lambda x: x.strip("''[]"))

In [53]:
type(df['authors'][0])

str

С ключевыми словами мы проделывать это не будем, оставим их списком.

Теперь мы хотим провести частотный анализ. Но наши слова не лемматизированы, то есть не приведены к исходной форме (так, как они записаны в словаре). Исправим это!

Импортируем библиотеку pymorphy3 – морфологический анализатор для русского языка, написанный на языке Python и использующий словари из [OpenCorpora](https://opencorpora.org/dict.php). 

Используем оттуда класс `MorphAnalyzer`. Для заданного слова он может найти все возможные формы.

In [54]:
!pip install pymorphy3

Collecting pymorphy3
  Downloading pymorphy3-2.0.2-py3-none-any.whl.metadata (1.8 kB)
Collecting dawg-python>=0.7.1 (from pymorphy3)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl.metadata (7.0 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.2-py3-none-any.whl (53 kB)
   ---------------------------------------- 0.0/53.8 kB ? eta -:--:--
   ------- -------------------------------- 10.2/53.8 kB ? eta -:--:--
   ---------------------- ----------------- 30.7/53.8 kB 435.7 kB/s eta 0:00:01
   -------------------------------------- - 51.2/53.8 kB 525.1 kB/s eta 0:00:01
   ---------------------------------------- 53.8/53.8 kB 399.7 kB/s eta 0:00:00
Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
   ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
   -------------

In [55]:
import pymorphy3
morph = pymorphy3.MorphAnalyzer()

Для начала попробуем на отдельных словах.

In [38]:
morph.parse('цены')

[Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='цена', score=0.476562, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 7),)),
 Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='цена', score=0.328125, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 1),)),
 Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='цена', score=0.195312, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 10),))]

Нам выдается все возможные значения слова. Возьмем первую.

In [56]:
morph.parse('цены')[0]

Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='цена', score=0.476562, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 7),))

Отлично! Теперь осталось только получить нормальную форму -- значение атрибута `.normal_form`

In [57]:
morph.parse('цены')[0].normal_form

'цена'

Проделаем это со всеми ячейками в колонке keywords. Напишем функцию, которую затем применим ко всему столбцу.

In [58]:
def lemmatize(words):
    lemmas = []
    
    for word in words: 
        norm_word = morph.parse(word)[0].normal_form 
        lemmas.append(norm_word)
    return lemmas # вернем строку со всеми лемматизированными значениями

In [59]:
df['keywords_lem'] = df['keywords'].apply(lemmatize) # создадим новый столбец, в котором сохранятся 
                                                    # лемматизированные ключевые слова

In [60]:
df

Unnamed: 0,link,title,authors,img_link,keywords,summary,keywords_lem
0,https://www.rbc.ru/life/news/668251969a7947731...,Россияне купили более 14 млн смартфонов в 2024...,,https://s0.rbk.ru/v6_top_pics/media/img/4/74/3...,"[самые, 2024, россии, смартфонов, россияне, xi...",Россияне купили более 14 млн смартфонов в 2024...,"[самый, 2024, россия, смартфон, россиянин, xia..."
1,https://www.rbc.ru/life/news/667969039a7947595...,С 1 июля вырастут тарифы на ЖКХ. Насколько уве...,,https://s0.rbk.ru/v6_top_pics/media/img/2/44/3...,"[увеличится, размер, плата, россии, жилого, вы...",С 1 июля вырастут тарифы на ЖКХ.\nНазваны пред...,"[увеличиться, размер, плата, россия, жилой, вы..."
2,https://www.rbc.ru/life/news/667db9fc9a79473bb...,Что подарить бабушке на день рождения. 15 ориг...,Анна Тернавская,https://s0.rbk.ru/v6_top_pics/media/img/3/95/3...,"[рождения, ручной, оригинальных, shutterstock,...",Что подарить бабушке на день рождения.\nЦифров...,"[рождение, ручной, оригинальный, shutterstock,..."
3,https://www.rbc.ru/life/news/667d3fa79a7947c97...,5 лет свадьбы: как называется годовщина,Елена Колесова,https://s0.rbk.ru/v6_top_pics/media/img/0/40/3...,"[5, shutterstock, годовщина, супруги, называет...",5 лет свадьбы: как называется годовщина .\nЕе ...,"[5, shutterstock, годовщина, супруг, называтьс..."
4,https://www.rbc.ru/life/news/6674219e9a7947d80...,«Сбер» предложил придумать дизайн для банковск...,Елена Колесова,https://s0.rbk.ru/v6_top_pics/media/img/9/40/3...,"[ии, уникальным, карты, kandinsky, помощи, июн...",«Сбер» предложил придумать дизайн для банковск...,"[ия, уникальный, карта, kandinsky, помощь, июн..."
5,https://www.rbc.ru/life/news/667958a99a79477ff...,Россияне верны Lightning. Почему переход Apple...,Валерий Романов,https://s0.rbk.ru/v6_top_pics/media/img/7/92/3...,"[lightning, смартфонов, россияне, apple, рбк, ...",Почему переход Apple на USB-C не востребован ....,"[lightning, смартфон, россиянин, apple, рбк, к..."
6,https://www.rbc.ru/life/news/667018359a7947df4...,"Вестерн и бохо снова в моде: как носить, чтобы...",Елена Нечаева,https://s0.rbk.ru/v6_top_pics/media/img/5/31/3...,"[ковбоем, бохо, вестерн, случае, стать, стоит,...","Вестерн и бохо снова в моде: как носить, чтобы...","[ковбой, бохо, вестерн, случай, стать, стоить,..."
7,https://www.rbc.ru/life/news/667542ed9a7947ca2...,Что подарить мужчине на день рождения. 15 идей,Яна Хватова,https://s0.rbk.ru/v6_top_pics/media/img/5/59/3...,"[сертификат, подарок, ортопедические, рождения...",Что подарить мужчине на день рождения.\nНабор ...,"[сертификат, подарок, ортопедический, рождение..."
8,https://www.rbc.ru/life/news/6673ed759a79477d8...,"Как обуваться в дождь: 12 пар обуви, которые п...",Елена Нечаева,https://s0.rbk.ru/v6_top_pics/media/img/0/95/3...,"[обуваться, пару, пар, случае, стоит, пара, са...","Как обуваться в дождь: 12 пар обуви, которые п...","[обуваться, пара, пара, случай, стоить, пара, ..."
9,https://www.rbc.ru/life/news/6670707f9a7947ea1...,Как увеличить производительность ноутбука. Под...,Дмитрий Кузьмин,https://s0.rbk.ru/v6_top_pics/media/img/3/92/3...,"[функция, увеличить, tecno, manager, например,...","Рассказываем, что нужно сделать на примере уст...","[функция, увеличить, tecno, manager, например,..."


Чтобы сделать частотный анализ, мы будем использовать библиотеку `collections`, в которой есть очень удобный класс `Counter`, делающий частотный анализ.

In [61]:
from collections import Counter

Соберем все слова из колонки keywords_lem в один список.

In [62]:
all_keywords = df['keywords_lem'].sum()
all_keywords

['самый',
 '2024',
 'россия',
 'смартфон',
 'россиянин',
 'xiaomi',
 '256',
 'iphone',
 'купить',
 'redmi',
 'гб',
 'млн',
 'популярный',
 '14',
 '15',
 'продажа',
 'увеличиться',
 'размер',
 'плата',
 'россия',
 'жилой',
 'вырасти',
 'субсидия',
 'жкх',
 'тариф',
 'область',
 'руб',
 'жку',
 'июль',
 'услуга',
 '1',
 'насколько',
 'рождение',
 'ручной',
 'оригинальный',
 'shutterstock',
 'фрукт',
 'матрас',
 'подарить',
 'бабушка',
 'экран',
 'бабушка',
 'фоторамка',
 'идея',
 'шкатулкашарманка',
 '15',
 'мыло',
 '5',
 'shutterstock',
 'годовщина',
 'супруг',
 'называться',
 'годовщина',
 'пятилетие',
 'свадьба',
 'подарить',
 'деревянный',
 'дерево',
 'символ',
 'дерево',
 'ия',
 'уникальный',
 'карта',
 'kandinsky',
 'помощь',
 'июнь',
 'придумать',
 'дизайн',
 'банковский',
 'сбер',
 'смочь',
 'карта',
 'фургон',
 'предложить',
 'сбер',
 'lightning',
 'смартфон',
 'россиянин',
 'apple',
 'рбк',
 'кабель',
 'верный',
 'iphone',
 'спрос',
 'переход',
 'usbc',
 'востребовать',
 'прода

Найдем 10 самых часто встречающихся ключевых слов.

In [63]:
Counter(all_keywords).most_common(10)

[('фото', 9),
 ('область', 7),
 ('рбк', 7),
 ('санктпетербург', 7),
 ('беликоврбк', 5),
 ('валентин', 5),
 ('смартфон', 4),
 ('руб', 4),
 ('shutterstock', 4),
 ('подарить', 4)]

На что чаще всего РБК предлагает потратить деньги? Прочитаем выжимку для каждой такой статьи.

In [69]:
with pd.option_context('display.max_colwidth', None): # чтобы был показан весь текст в каждой ячейке
    display(df[df['keywords_lem'].apply(lambda x: 'фото' in x)][['link', 'summary', 'keywords']])

Unnamed: 0,link,summary,keywords
11,https://www.rbc.ru/life/news/666bed119a794763f48e935e,"Honor показала дебютный складной смартфон Magic V Flip.\nАппарат представлен в четырех оттенках и конфигурациях Honor показала дебютный складной смартфон Magic V Flip в четырех конфигурацияхФото: honor.com Смартфон Honor Magic V FlipКомпания Honor выпустила свой первый телефон-«раскладушку» в форм-факторе Flip, аппарат называется Magic V Flip.\nКак сообщает Honor, смартфон Magic V Flip оснащен фирменным шарниром Luban Hinge, отличающимся повышенной прочностью и надежностью, подтвержденными пятизвездочным сертификатом швейцарской компании SGS.\nФото: honor.com Смартфон Honor Magic V FlipНа сайте компании новинка представлена в четырех оттенках: «Черный ирис», «Белая камелия», «Розовое шампанское» и «Высокая мода» (на фото показан изумрудно-зеленый).\nНа данный момент Magic V Flip запускается только в Китае, но компания Honor часто впоследствии выводит фирменные устройства на международный рынок.","[дебютный, flip, magic, поддержкой, складной, фото, описание, смартфон, показала, v, гб, четырех, 12, honor]"
13,https://www.rbc.ru/life/news/666696ed9a794707d9d5de32,"Microsoft представила три новые Xbox Series: фото и видео .\nПредставлены белая Xbox Series X без дисковода, Xbox Series S c 1 Тб памяти и новая модель Series X «галактического черного» цвета — с 2 Тб памяти.\nXbox/ YouTube Microsoft представила три новые Xbox SeriesПрезидент Xbox Сара Бонд представила следующие модели:Xbox Series S в версии на 1 Тб и расцветке Robot White.\nЭта версия Xbox Series X обеспечивает ту же скорость, производительность и функции, что и Xbox Series X, но с удвоенным объемом памяти и уникальным дизайном, говорится в анонсе.\nMicrosoft Xbox Series S с 1Tб в цвете Robot WhiteРанее Microsoft создала необычный игровой контроллер, посвященный главным героям мультсериала «Черепашки-ниндзя».","[новые, представила, microsoft, series, x, s, видео, тыс, руб, памяти, тб, фото, xbox]"
17,https://spb.plus.rbc.ru/news/665987f57a8aa987940679f7,"Дмитрий Чернейко, Комитет по труду и занятости населения Санкт-Петербурга (Фото: Роман Киташов/РБК Петербург)Об изменении HR-функции говорит и директор по персоналу «Лента» Татьяна Юркевич.\nТатьяна Юркевич, «Лента» (Фото: Роман Киташов/РБК Петербург)Такая интеграция HR-подразделения в управление бизнесом пока характерна для меньшинства компаний.\nВиталий Новиков, MillCreek (Фото: Роман Киташов/РБК Петербург)Забота действительно должна быть далеко не про «поглаживание», говорит психотерапевт, председатель Этического комитета Российской Психотерапевтической Ассоциации Наталья Бехтерева.\nТатьяна Полетаева, АО «Силовые машины» (Фото: Роман Киташов/РБК Петербург)Согласна с такой позицией и старший вице-президент по кадровым ресурсам «ИЛИМ» Марианна Корнеева.\nОльга Никифорова, ВШМ СПбГУ (Фото: Роман Киташов/РБК Петербург)Среди новых трендов эксперты выделяют корпоративное волонтерство.","[российский, делать, бизнес, подчеркивает, новые, сотрудников, компаний, компании, проблемы, hr, фото, роман, киташоврбк, кадровые, изменят, директор]"
19,https://spb.plus.rbc.ru/news/665daa077a8aa9b9a72f2f47,"Андрей Петелин, УК «Сититель», Отель «Санкт-Петербург» (Фото: Валентин Беликов/РБК Петербург)Для этого есть несколько причин.\nВиктория Шамликашвили, Hotel Indigo St. Petersburg Tchaikovskogo (Фото: Валентин Беликов/РБК Петербург)При этом многие функции существуют отдельно друг от друга и отчасти друг другу противоречат.\nАлександр Батушанский, Probka Family (Фото: Валентин Беликов/РБК Петербург)Вторая причина — меньшая доступность ресторана при отеле для гостей из города.\nЮнис Теймурханлы, отель «Гельвеция» (Фото: Валентин Беликов/РБК Петербург)Условия успехаТем не менее, возможность превратить ресторан при отеле в успешный самостоятельный проект есть.\nДмитрий Абрамов, Jensen Group (Фото: Валентин Беликов/РБК Петербург)Взять максимум от новых гостейРастущий турпоток пока не дает значимых преимуществ петербургским ресторанам, в том числе — отельным, говорят эксперты.","[рестораны, отель, беликоврбк, рбк, ресторана, область, города, фото, ресторан, отеле, валентин, отеля, санктпетербург, тенденции]"
20,https://spb.plus.rbc.ru/news/665d83867a8aa9b8ab24e9ab,"Более того, по словам министра экономического развития Республики Олега Ермолаева, этим летом количество поездок в Карелию увеличится по сравнению с прошлым годом.\nТакже хочется привлечь внимание гостей к восточной стороне Карелии», — рассказывает генеральный директор АО «Корпорация развития Республики Карелия» Елена Климчук.\nЕлена Климчук, АО «Корпорация развития Республики Карелия» (Фото: Валентин Беликов/РБК Петербург)Новые методыПока идеи о развитии новых территорий находятся на стадии осмысления, в Корпорации ищут новые способы привлечения инвестиций.\nАнтон Донцов, park.ideas (Фото: Валентин Беликов/РБК Петербург)Местные жители — важный элемент индустрии гостеприимства в регионе.\nМария Колосницина, «Ладожская Усадьба» (Фото: Валентин Беликов/РБК Петербург)Сейчас в Сортавальском районе предпринимаются все возможные меры для того, чтобы турпоток в регионе в дальнейшем увеличивался.","[регион, развития, роста, крекордному, беликоврбк, тыс, республики, карелия, фото, эпоха, туристов, рбк, турпотоку, тенденции, готовится, карелии, область, словам, валентин, санктпетербург]"
21,https://spb.plus.rbc.ru/news/66349afe7a8aa9c4f1b7360b,"Ольга Кобякова, «Петербургская Недвижимость» (Фото: Валентин Беликов/РБК Петербург)Ключевыми событиями стали изменения условий выдачи льготной ипотеки в конце декабря 2023 года и последовавшее за этим решение нескольких крупных банков брать с застройщиков комиссию за льготную ипотеку.\nСветлана Денисова, ЗАО «БФА-Девелопмент» (Фото: Валентин Беликов/РБК Петербург)Следующий рубеж — 1 июля, когда истекает срок действия льготной ипотеки с господдержкой под 8% годовых.\nВячеслав Немиц, «Самолет Страна» (Фото: Валентин Беликов/РБК Петербург)С другой стороны, это не первый подобный рубеж за последние годы.\nЕкатерина Немченко, «РСТИ» (Фото: Валентин Беликов/РБК Петербург)Так, в ответ на снижение доступности ипотеки застройщики стали активнее использовать рассрочки.\nМихаил Гущин, Группа RBI (Фото: Валентин Беликов/РБК Петербург)«Наша компания как строитель массового жилья не планирует сокращать или ухудшать наполнение наших проектов.","[девелоперы, стороны, проектах, беликоврбк, опции, жизни, сценарии, фото, рыночный, расклад, рбк, жилой, михаил, директор, дарья, выглядеть, область, валентин, комплекс, санктпетербург]"
22,https://spb.plus.rbc.ru/news/6629222a7a8aa96981528e9a,"Александр Горыня, компания «Грингор», «Гильдия ювелиров России» (Фото: Валентин Беликов/РБК Петербург)Пиво: обеление с нюансамиВнедрение обязательной маркировки для пива началось год назад, и у экспертов есть данные, свидетельствующие о положительном эффекте.\nИрина Миронова, «Модный дом «Леди Шарм» (Фото: Валентин Беликов/РБК Петербург)При этом покупатель маркировкой, как правило, не пользуется, так как в карточке товара есть вся информация о товаре, добавила Ирина Миронова.\nНиколай Хохряков, Pompa (Фото: Валентин Беликов/РБК Петербург)Фискальные накопители: вопрос посредникаВзволновала предпринимателей также и история с фискальными накопителями на кассовом оборудовании, которое нужно регулярно менять задолго до окончания срока использования.\nВалерий Калугин, уполномоченный по защите прав предпринимателей Петербурга (Фото: Валентин Беликов/РБК Петербург)Механизмы совместной работы есть.\nИрина Иванова, Законодательное собрание Петербурга (Фото: Валентин Беликов/РБК Петербург)Анна Петрушина, отметила, что субсидирование маркировки для производственных предприятий по линии Минпромторга уже есть.","[бизнеса, баланс, защиты, инструменты, беликоврбк, маркировку, потребителя, маркировки, фото, маркировка, рбк, производства, производителя, россии, рынка, область, валентин, санктпетербург, изатрат]"
23,https://spb.plus.rbc.ru/news/662cc3797a8aa9a0c72919ad,"Александр Паршуков, индустриальный парк «Марьино» (Фото: Дмитрий Сайтимов / РБК Петербург)При этом расширение, по его словам, бывает разным.\nДиректор Фонда развития промышленности Санкт-Петербурга Сергей Иванов указал на сокращение количества рыночных источников финансирования по сравнению с 2000-ми годами: «Потеряли привлекательность банковские займы, поскольку ставка высокая.\nСергей Иванов, Фонд развития промышленности Санкт-Петербурга (Фото: Дмитрий Сайтимов / РБК Петербург)В то же время, объемы государственного финансирования растут.\nДмитрий Буряков, АО «Навигатор» (Фото: Дмитрий Сайтимов / РБК Петербург)У малых и средних предприятий при расширении возникают также сложности с финансированием текущих заказов.\nСофья Касвина, «Сколиолоджик.ру» (Фото: Дмитрий Сайтимов / РБК Петербург)В то же время, как отметил Александр Паршуков, некоторые промышленные предприятия покупают землю с запасом — под строительство будущих очередей.","[санктпетербург, проектов, дмитрий, рбк, соловейчик, золотое, область, предприятия, санктпетербурга, производства, сайтимов, ина, растут, фото, развития, промышленности, тенденции]"
24,https://spb.plus.rbc.ru/news/6620cfc17a8aa92a9fe275f5,"Фото: Валентин Беликов/РБК ПетербургОстрый дефицит кадров во всех без исключения регионах страны и отраслях экономики в ближайшие несколько лет, ввиду социально-демографических факторов, будет только нарастать.\nОльга Барыбина, «Fplus Кадровые решения» (Фото: Валентин Беликов/РБК Петербург)Однако главным источником человекоцентричного управления (или его отсутствия), как установили участники разговора, является топ-менеджмент.\nПолина Голубева, «Группа ЛСР» (Фото: Валентин Беликов/РБК Петербург)В сегодняшней ситуации кадровые эксперты — это стратегические партнеры руководства, а не исполнители решений среднего звена.\nТакое стратегическое позиционирование — критичный фактор успеха как в условиях происходящих перемен, так и устойчивого развития бизнеса в перспективе.\nРБК Петербург запускает проект-исследование лучших практик развития бизнеса с фокусом на человеческие ресурсы Human Centricity Management.","[модное, новый, беликоврбк, делать, людей, бизнес, бизнеса, человекоцентричность, компании, hr, тренд, развития, фото, валентин, слово]"
