# Парсинг новостей

Библиотека `newspaper3k` - это мощный инструмент, предназначенный для извлечения и анализа данных с новостных веб-сайтов. Эта библиотека была вдохновлена библиотекой `requests` и позволяет разработчикам и исследователям легко собирать информацию из новостных статей, включая заголовки, тексты, авторов, ключевые слова, изображения и даты публикации.

`newspaper3k` также имеет встроенные функции NLP, что позволяет быстро получить ключевые слова и саммари новостной статьи.

Для начала установим библиотеку.

In [None]:
!pip install newspaper3k

Взглянем на [документацию библиотеки](https://newspaper.readthedocs.io/en/latest/user_guide/quickstart.html). Модуль работает с ссылками на новости или ссылкой на новостной ресурс (и далее самостоятельно собирает оттуда ссылки).

## Извлечение новости и метаданных

Из библиотеки мы импортируем класс `Article`. Каждая новость, которую мы будем извлекать таким образом будет являться экземпляром класса `Article`. Буквально это означает, что внутри `Article` лежит некая инструкция о том, как обычно выглядит новостная статья – например, у нее обязательно есть заголовок, может быть автор, фотографии, дата публикации. 

Каждая новость, которую мы будем передавать внутрь класса `Article` по ссылке будет обрабатываться по зашитой внутрь нее схеме.

In [42]:
from newspaper import Article

Посмотрим на эту статью из РБК Трендов: «[Как модель искусственного интеллекта поможет в лечении депрессии](https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243?page=tag&nick=ai)». Положим ссылку на статью в переменную `url`.

In [3]:
url = 'https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243?page=tag&nick=ai'

Далее создаем экземпляр класса `Article`. Он будет называться `article` с маленькой буквы (обратите внимание – все классы в Python пишутся с большой буквы). 

Мы передаем ссылку и указываем язык новости (параметр `language`). Библиотека `newspaper3k` работает со следующими языками:

|input code|full name|
|---|---|
  nl	|		  Dutch
  zh	|		  Chinese
  vi	|		  Vietnamese
  no	|		  Norwegian
  ar	|		  Arabic
  tr	|		  Turkish
  sr	|		  Serbian
  fr	|		  French
  ru	|		  Russian
  en	|		  English
  hi	|		  Hindi
  ja	|		  Japanese
  sw	|		  Swahili
  pl	|		  Polish
  fa	|		  Persian
  el	|		  Greek
  sv	|		  Swedish
  sl	|		  Slovenian
  de	|		  German
  it	|		  Italian
  pt	|		  Portuguese
  he	|		  Hebrew
  hr	|		  Croatian
  et	|		  Estonian
  id	|		  Indonesian
  ro	|		  Romanian
  es	|		  Spanish
  ko	|		  Korean
  hu	|		  Hungarian
  da	|		  Danish
  fi	|		  Finnish
  bg	|		  Bulgarian
  be	|		  Belarusian
  mk	|		  Macedonian
  nb	|		  Norwegian (Bokmål)
  uk	|		  Ukrainian

In [100]:
article = Article(url, language='ru')

Отлично! Теперь у нас есть переменная `article`, которая обрабатывается библиотекой по инструкции как новостная статья. Если мы попробуем распечатать эту переменную, то увидим техническую информацию – как Python видит внутри себя эту переменную.

In [102]:
print(article)

<newspaper.article.Article object at 0x7fc4ec14bb50>


Чтобы получить данные, мы воспользуемся методом `.download()`, который загрузит html статьи по ссылке. Сам html мы можем получить, используя атрибут `.html`.

In [103]:
article.download()

In [105]:
article.html

'<!DOCTYPE html>\n\n\n<html lang="ru" >\n<head>\n    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">\n    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n    <meta http-equiv="Cache-Control" content="no-cache">\n    <meta name="viewport" content="width=device-width, initial-scale=1.0, user-scalable=no, minimum-scale=1.0, maximum-scale=1.0">\n    <meta name="HandheldFriendly" content="True">\n    <meta name="format-detection" content="telephone=no">\n    <meta name="format-detection" content="address=no">\n\n    \n                \n    \n    \n\n            <title>Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды</title>\n\n<meta name="title" content="Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды"/>\n<meta name="description" content="Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут знач

Окей! Получили html нашей новости. Пока это ничем не отличается от работы с библиотекой `requests`. Обычно мы бы загрузили эту html-страницу в `BeautifulSoup` и искали бы по тегам автора, заголовок и т.д. Но библиотека `newspaper3k` сильно облегчает эту задачу.

Нам нужно использовать метод `.parse()`, который проанализирует html-код и найдет главные атрибуты новостной статьи: 
* Заголовок (`.title`)
* Автора (`.authors`)
* Дата публикации (`.publish_date`)
* Текст статьи (`.text`)
* Изображения в новости (`.top_image` (первое изображение на странице), `.images` (множество ссылок на все изображения))
* Видео в новости (`.movies`)

In [106]:
article.parse()

In [113]:
print(article.title) # заголовок есть

Как модель искусственного интеллекта поможет в лечении депрессии


In [112]:
print(article.authors) # авторами библиотека посчитала еще и слово "Фото" (связано с версткой сайта и html-тегами)
                        # но автора определила верно

['Фото', 'Семен Башкиров']


In [111]:
print(article.publish_date) # а вот даты публикации на странице действительно нет

None


In [110]:
print(article.text) # весь текст статьи

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой

А в чем тренд? Чтобы выявить потенциальные сердечно-сосудистые заболевания, доктора измеряют давление. Чтобы определить преддиабетное состояние — анализируют уровень инсулина. Однако в случае депрессии специалисты вынуждены полагаться на самоотчеты людей о симптомах. Это затрудняет объективную оценку. В сентябре 2023 года группа американских исследователей с помощью ИИ зафиксировала у людей, которые прошли курс глубокой стимуляции мозга (DBS), особый сигнал мозга, свидетельствовавший о выходе из депрессии. В рамках метода DBS вживленные в мозг электроды подают импульсы, которые меняют нейронную активность. По словам нейробиолога из Дартмутского колледжа Пола Хольцхаймера, если результаты будут воспроизведены на более крупной выборке, это может стать переломным моментом в лечении д

In [114]:
print(article.top_image) # фотография из статьи

https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg


In [117]:
print(article.images) # все фотографии, найденные на странице

{'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/5/79/756152823045795.png', 'https://trends.rbc.ru/info-service/api/v2/noscripts', 'https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg', 'https://s0.rbk.ru/v6_top_pics/resized/340x212_crop/media/img/9/80/756353487550809.jpg', 'https://top-fwz1.mail.ru/counter?id=3214695;js=na', 'https://s0.rbk.ru/v6_top_pics/media/img/4/55/755924101431554.svg', 'https://s.rbk.ru/v4_trends_static/trends-4.0.71/styles/blocks/footer/images/rzd.svg', 'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/1/30/756426775752301.jpg', 'https://mc.yandex.ru/watch/54873298', 'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/3/41/756152823169413.png', 'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/6/60/756358590820606.jpg', 'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/4/35/756152821394354.png', 'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/1/82/756432359688821.jpg', 'https://s0.rbk.ru/v6_top_pic

In [118]:
for img in article.images:
    print(img) # видим, что сюда попали изображения в том числе лого и анонсов других статей

https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/5/79/756152823045795.png
https://trends.rbc.ru/info-service/api/v2/noscripts
https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg
https://s0.rbk.ru/v6_top_pics/resized/340x212_crop/media/img/9/80/756353487550809.jpg
https://top-fwz1.mail.ru/counter?id=3214695;js=na
https://s0.rbk.ru/v6_top_pics/media/img/4/55/755924101431554.svg
https://s.rbk.ru/v4_trends_static/trends-4.0.71/styles/blocks/footer/images/rzd.svg
https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/1/30/756426775752301.jpg
https://mc.yandex.ru/watch/54873298
https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/3/41/756152823169413.png
https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/6/60/756358590820606.jpg
https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/4/35/756152821394354.png
https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/1/82/756432359688821.jpg
https://s0.rbk.ru/v6_top_pics/media/img/8/46/756105436203468.svg
http

In [120]:
print(article.movies) # видео в этой статье нет

[]


Также мы можем вытащить метаданные.

**Метаданные** – это данные о данных. 

Тег \<head> в HTML-документе - это та часть, которая не отображается в браузере при загрузке страницы. Она содержит такую информацию, как <заголовок> страницы, ссылки на CSS (каскадные таблицы стилей – код, который используется для стилизации веб-страницы), ссылки на фавиконы и другие метаданные (данные о HTML, например, автор и важные ключевые слова, описывающие документ).

In [132]:
article.meta_data # это большой словарь

defaultdict(dict,
            {'viewport': 'width=device-width, initial-scale=1.0, user-scalable=no, minimum-scale=1.0, maximum-scale=1.0',
             'HandheldFriendly': 'True',
             'format-detection': 'address=no',
             'title': 'Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды',
             'description': 'Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой',
             'copyright': '«РосБизнесКонсалтинг»',
             'robots': 'max-image-preview:large',
             'og': {'title': 'Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды',
              'type': 'article',
              'url': 'https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243',
              'image': 'https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg',
       

In [135]:
print(article.meta_data['og']['description']) # например, описание статьи от авторов 
                                            # (используется для анонса ссылки в поисковых системах)

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой


## Обработка естественного языка в новостях

Библиотека `newspaper3k` предлагает метод `.nlp()`, который обрабатывает новость и выделяет ключевые слова (атрибут `.keywords`) и краткую выжимку текста (атрибут `.summary`).

Стоит отметить, что NLP в этой библиотеке достаточно плохо обрабатывает русский язык, но отлично справляется с английским.

In [123]:
article.nlp()

In [126]:
print(article.keywords) # ключевые слова действительно отражают нашу новость

['помощью', 'депрессии', 'искусственного', 'dbs', 'мозга', 'ии', 'результаты', 'лечении', 'людей', 'ученые', 'электроды', 'модель', 'стимуляции', 'поможет', 'интеллекта']


Сравним ключевые слова с теми, которые авторы статьи промаркировали эту новость:

In [136]:
article.meta_data['news_keywords']

'Депрессия, Стимуляция, Исследователь, Электрод, Самоотчёт, Состояние, Активность, Выздоровление, Устройство, Доброволец, Симптом, Специалист, Вынудить, Результат, Заболевание, Участник, Исследование, Глубокий, Нейронный, Анализировать'

Слова отличаются. В том числе это связано с тем, что в метаданных ключевые слова прописывают для поисковых систем и SEO-оптимизации страницы, а не для того, чтобы описать смысл статьи (как в NLP).

In [127]:
print(article.summary) # краткая выжимка тоже достаточно успешно отработала

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии.
В сентябре 2023 года группа американских исследователей с помощью ИИ зафиксировала у людей, которые прошли курс глубокой стимуляции мозга (DBS), особый сигнал мозга, свидетельствовавший о выходе из депрессии.
Сложности с самоотчетомПопытки лечения депрессии с помощью DBS до сих пор имели ограниченный успех: в двух исследованиях не удалось продемонстрировать преимущества по сравнению с плацебо.
По словам Хольцхаймера, эти результаты могут иметь значение не только для метода глубокой стимуляции мозга.
Однако анализ сигналов мозга с помощью ИИ поможет и тем, кто лечится с помощью других методов.


## Парсинг всех новостных статей на странице

Мы посмотрели, как обработать одну новость. Но чаще всего нам нужно обработать большой массив данных.

Для этого у библиотеки `newspaper3k` есть метод `.build()`, который самостоятельно найдет ссылки на новости.

In [137]:
import newspaper # до этого мы работали только с одним классом в библиотеке, теперь будем работать 
                 # с несколькими функциями оттуда, поэтому импортируем всю библиотеку

В этот раз поработаем с разделом РБК.Тренды «[Потратить](https://rbclife.ru/spend)» и проанализируем новости – куда чаще всего предлагают тратить деньги?

<img src="https://media0.giphy.com/media/xTiTnqUxyWbsAXq7Ju/giphy.gif?cid=ecf05e47fx45w99opc790koo7b7p1enbrpzvx29l216alkv5&ep=v1_gifs_search&rid=giphy.gif&ct=g">

In [146]:
money = newspaper.build('https://rbclife.ru/spend', 
                        memoize_articles = False) # загрузили все ссылки новостей по url
                                                  # параметр memorize_article регулирует, 
                                                  # хотите вы кэшировать новости или нет

In [148]:
money.size() # покажет, сколько статей удалось найти

136

In [150]:
money.articles # покажет объекты класса Article для каждой найденной статьи

[<newspaper.article.Article at 0x7fc4ec126940>,
 <newspaper.article.Article at 0x7fc4ec138bb0>,
 <newspaper.article.Article at 0x7fc4ec1385b0>,
 <newspaper.article.Article at 0x7fc4c8116bb0>,
 <newspaper.article.Article at 0x7fc4ec138a30>,
 <newspaper.article.Article at 0x7fc4ec1381f0>,
 <newspaper.article.Article at 0x7fc4f26a03d0>,
 <newspaper.article.Article at 0x7fc4f26a0310>,
 <newspaper.article.Article at 0x7fc4c8116d60>,
 <newspaper.article.Article at 0x7fc4c824a610>,
 <newspaper.article.Article at 0x7fc4c824ac10>,
 <newspaper.article.Article at 0x7fc4c824a1c0>,
 <newspaper.article.Article at 0x7fc4c824a400>,
 <newspaper.article.Article at 0x7fc4c824a640>,
 <newspaper.article.Article at 0x7fc4c824a940>,
 <newspaper.article.Article at 0x7fc4c824a550>,
 <newspaper.article.Article at 0x7fc4ec1388e0>,
 <newspaper.article.Article at 0x7fc4ec138940>,
 <newspaper.article.Article at 0x7fc4f26a02e0>,
 <newspaper.article.Article at 0x7fc4c824a5b0>,
 <newspaper.article.Article at 0x7fc4c82

In [147]:
for article in money.articles: # а так можем получить все найденные ссылки
    print(article.url)

https://rbclife.ru/news/653a73539a79476b91944861
https://rbclife.ru/news/6538cc019a79471788cc47db
https://rbclife.ru/news/653214da9a7947b80217e3f3
https://rbclife.ru/news/6536289e9a7947a93e4474d0
https://rbclife.ru/news/6535fcaa9a7947e404d3335a
https://rbclife.ru/news/65327e9c9a794765b01c408d
https://rbclife.ru/news/636b7aa19a7947229e6d5337
https://rbclife.ru/news/652e75169a7947a39ccad84a
https://rbclife.ru/news/652e25fc9a7947538d110109
https://rbclife.ru/news/652eacc59a7947cca2a50d18
https://rbclife.ru/news/652d646b9a794769f060aa29
https://rbclife.ru/news/652e3a8d9a7947097c06cd83
https://rbclife.ru/news/6528f0a39a79472dcb443ab9
https://rbclife.ru/news/652cf1ee9a794706d197f888
https://rbclife.ru/news/652cc02b9a79475b2a56f5c9
https://rbclife.ru/news/6529100c9a7947f31aa59646
https://rbclife.ru/news/653a67289a7947096d8d5a25
https://rbclife.ru/news/6537dcc69a794710322457c6
https://rbclife.ru/news/653645fc9a79478a6b227b1d
https://rbclife.ru/news/6391dc1d9a7947a8246fe487
https://rbclife.ru/n

In [153]:
for category in money.category_urls(): # так можем найти все категории ссылок, которые удалось найти
    print(category)

https://rbclife.ru/spend
https://rbclife.ru/spend
https://rbclife.ru/myself
https://rbclife.ru/walk
https://rbclife.ru
https://rbclife.ru/eat
https://rbclife.ru/scroll
https://rbclife.ru/watch
https://rbclife.ru/games
https://rbclife.ru/read


Импортируем две библиотеки, которые сильно помогают при парсинге данных. Библиотека `time` с функцией `sleep` позволяет делать паузы между запросами к сайту (выше шансы, что вас не заблокируют).

Библиотека `tqdm` с функцией `tqdm` создает прогресс-бар выполнения вашего кода.

In [152]:
from time import sleep
from tqdm import tqdm

Далее мы создадим пустой список data, куда будем сохранять в формате кортежа данные по каждой статье. Мы хотим сохранить ссылку на статью, заголовок статьи, автора, первое изображение, ключевые слова и выжимку.

In [154]:
data = [] 

for article in tqdm(money.articles):
    news = Article(article.url, language='ru')
    news.download()
    news.parse()
    news.nlp()
    data.append((article.url, news.title, news.authors, news.top_image, news.keywords, news.summary))
    sleep(3)

100%|█████████████████████████████████████████| 136/136 [08:02<00:00,  3.55s/it]


Проверяем, все новостные статьи действительно загрузились!

In [156]:
print(data[0])

('https://rbclife.ru/news/653a73539a79476b91944861', 'Xiaomi показала новые смартфоны Xiaomi 14 и 14 Pro. Характеристики и цены', [], 'https://s0.rbk.ru/v6_top_pics/media/img/6/77/346983322148776.jpeg', ['показала', 'гб', 'компания', 'цены', 'xiaomi', 'характеристики', 'pro', 'представила', 'юаней', 'новые', '50', 'частотой', 'смартфоны', '14', 'руб'], 'Xiaomi показала новые смартфоны Xiaomi 14 и 14 Pro.\nУ них самый мощный на сегодняшний день мобильный процессор Qualcomm Компания Xiaomi представила новые флагманские смартфоны Xiaomi 14 и 14 Pro СлушатьXiaomiОснователь китайской корпорации Xiaomi Лэй Цзюнь представил в четверг, 26 октября, новые смартфоны 14-го поколения.\nXiaomi 14 стандартной и улучшенной комплектации стал первым в мире смартфоном, работающим на базе однокристальной системы Qualcomm Snapdragon 8 Gen 3.\nОба гаджета выглядят одинаково и доступны в черном, белом и зеленом (у Xiaomi 14 еще и в розовом) цветах.\nСверхтонкие рамки вокруг дисплея толщиной 1,61 и 1,71 мм — 

## Анализ ключевых слов новостей

Для начала сохраним все полученные данные как датафрейм pandas.

In [225]:
import pandas as pd

In [226]:
df = pd.DataFrame(data, columns=['link', 'title', 'authors', 'img_link', 'keywords', 'summary'])

In [235]:
df

Unnamed: 0,link,title,authors,img_link,keywords,summary
0,https://rbclife.ru/news/653a73539a79476b91944861,Xiaomi показала новые смартфоны Xiaomi 14 и 14 Pro. Характеристики и цены,[],https://s0.rbk.ru/v6_top_pics/media/img/6/77/346983322148776.jpeg,"[показала, гб, компания, цены, xiaomi, характеристики, pro, представила, юаней, новые, 50, часто...",Xiaomi показала новые смартфоны Xiaomi 14 и 14 Pro.\nУ них самый мощный на сегодняшний день моби...
1,https://rbclife.ru/news/6538cc019a79471788cc47db,Эта модель рюкзака спасет спину ребенка. 5 удачных примеров,[],https://s0.rbk.ru/v6_top_pics/media/img/2/25/346982231586252.jpeg,"[рюкзака, школьного, примеров, должен, рюкзак, ребенка, удачных, 5, спасет, ранец, начальных, ля...",Эта модель рюкзака спасет спину ребенка.\nРБК Life напоминает значимые нюансы при покупке школьн...
2,https://rbclife.ru/news/653214da9a7947b80217e3f3,"5 устройств с AliExpress, которые помогут с закрутками на зиму",[],https://s0.rbk.ru/v6_top_pics/media/img/9/22/346977831494229.jpeg,"[помогут, очистки, ягоды, устройство, aliexpress, закрутками, 5, устройств, сердцевины, зиму, пр...","5 устройств с AliExpress, которые помогут с закрутками на зиму .\nAliexpress Устройство для удал..."
3,https://rbclife.ru/news/6536289e9a7947a93e4474d0,В моду вошли помятости и дырки: 6 самых нелепых трендов сезона,[Елена Нечаева],https://s0.rbk.ru/v6_top_pics/media/img/8/11/346980519659118.jpeg,"[трусы, носить, моду, стоит, тренд, нелепых, точно, обычной, жизни, например, трендов, самых, ды...",В моду вошли помятости и дырки: 6 самых нелепых трендов сезона .\nКак носить в обычной жизни: тр...
4,https://rbclife.ru/news/6535fcaa9a7947e404d3335a,«Умные» зеркала и тонометры вошли в топ популярных девайсов для здоровья,[],https://s0.rbk.ru/v6_top_pics/media/img/4/35/346980412045354.jpeg,"[приложение, популярных, watch, контроля, девайсов, здоровья, топ, образа, жизни, приложения, ум...",«Умные» зеркала и тонометры вошли в топ популярных девайсов для здоровья .\nСамый большой сезонн...
...,...,...,...,...,...,...
131,https://rbclife.ru/news/652cc8bb9a79476cc761b7d3,«Кино — зеркало общества». Филипп Янковский — о сериалах и буме сказок,[Тимур Алиев],https://s0.rbk.ru/v6_top_pics/media/img/4/41/346974383687414.jpeg,"[роль, филипп, янковский, сказок, зеркало, смотреть, могу, естественно, решу, чтото, буме, кино,...","Как зритель я уже не могу смотреть эти фильмы, я могу смотреть их только как актер, вспоминая те..."
132,https://rbclife.ru/news/6526a19e9a794775da6ba4ba,Гражданин Владивостока и востоковед. Илья Лагутенко отмечает 55-летие,[],https://s0.rbk.ru/v6_top_pics/media/img/2/78/346971252084782.jpeg,"[troll, отмечает, илья, mumiy, 55летие, тролль, фото, востоковед, музыканты, группа, мумий, груп...",Илья Лагутенко отмечает 55-летие .\n16 октября исполняется 40 лет с момента основания группы «Му...
133,https://rbclife.ru/news/652930809a794799dd471218,"Не только «пятница, 13-е». Почему люди так боятся некоторых чисел",[],https://s0.rbk.ru/v6_top_pics/media/img/8/22/346971993073228.jpeg,"[числа, 12, 13, 13е, некоторых, 666, считается, боятся, многих, чисел, номером, примеру, числом,...","Почему люди так боятся некоторых чисел .\nК примеру, в некоторых небоскребах Гонконга после 39-г..."
134,https://rbclife.ru/news/652796a09a794779cc769ff8,«Бывают безумства»: 5 историй о бизнесе по реставрации мебели,[Анна Векшина],https://s0.rbk.ru/v6_top_pics/media/img/4/30/346971840366304.jpeg,"[мебель, реставрация, реставрации, стоит, шкаф, вещь, цену, мебели, 5, бизнесе, стул, например, ...","Петр Сейбиль, Реставрация Сейбиляsoberemuvidim / Instagram (входит в корпорацию Meta, признана э..."


Видим, что авторы и ключевые слова сохранились в ячейки в формате списков.

In [236]:
type(df['authors'][0])

list

Давайте переведем их в обычные строки. Для этого мы сначала переведем всю колонку в тип данных `str`

    df['authors'].astype(str)
    
А затем с помощью метода `.apply()` и анонимной функции `lambda` уберем лишние скобки и кавычки.

    df['authors'].astype(str).apply(lambda x: x.strip("''[]"))

In [237]:
df['authors'] = df['authors'].astype(str).apply(lambda x: x.strip("''[]"))

In [238]:
type(df['authors'][0])

str

Отлично! Проделаем то же самое с ключевыми словами.

In [239]:
type(df['keywords'][0])

list

In [240]:
df['keywords'] = df['keywords'].astype(str).apply(lambda x: x.strip("''[]").replace("'", ''))

In [241]:
type(df['keywords'][0])

str

In [242]:
df['keywords'][0]

'показала, гб, компания, цены, xiaomi, характеристики, pro, представила, юаней, новые, 50, частотой, смартфоны, 14, руб'

Теперь мы хотим провести частотный анализ. Но наши слова не лемматизированы, то есть не приведены к исходной форме (так, как они записаны в словаре). Исправим это!

Импортируем библиотеку pymorphy2 – морфологический анализатор для русского языка, написанный на языке Python и использующий словари из [OpenCorpora](https://opencorpora.org/dict.php). 

Используем оттуда класс `MorphAnalyzer`. Для заданного слова он может найти все возможные формы.

In [243]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

Для начала попробуем на отдельных словах.

In [244]:
morph.parse('цены')

[Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='цена', score=0.476562, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 7),)),
 Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='цена', score=0.328125, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 1),)),
 Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='цена', score=0.195312, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 10),))]

Нам выдается все возможные значения слова. Возьмем первую.

In [245]:
morph.parse('цены')[0]

Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='цена', score=0.476562, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 7),))

Отлично! Теперь осталось только получить нормальную форму -- значение атрибута `.normal_form`

In [246]:
morph.parse('цены')[0].normal_form

'цена'

Проделаем это со всеми ячейками в колонке keywords. Основная сложность, что в каждой ячейке лежит не по одному слову, а сразу по несколько. Напишем функцию, которую затем применим ко всему столбцу.

In [247]:
def lemmatize(words):
    lemmas = []
    
    for word in words.split(', '):  # разобьем все слова из строки в список и переберем каждое слово
        norm_word = morph.parse(word)[0].normal_form 
        lemmas.append(norm_word)
    return ', '.join(lemmas) # вернем строку со всеми лемматизированными значениями

In [248]:
df['keywords_lem'] = df['keywords'].apply(lemmatize) # создадим новый столбец, в котором сохранятся 
                                                    # лемматизированные ключевые слова

In [249]:
df

Unnamed: 0,link,title,authors,img_link,keywords,summary,keywords_lem
0,https://rbclife.ru/news/653a73539a79476b91944861,Xiaomi показала новые смартфоны Xiaomi 14 и 14 Pro. Характеристики и цены,,https://s0.rbk.ru/v6_top_pics/media/img/6/77/346983322148776.jpeg,"показала, гб, компания, цены, xiaomi, характеристики, pro, представила, юаней, новые, 50, частот...",Xiaomi показала новые смартфоны Xiaomi 14 и 14 Pro.\nУ них самый мощный на сегодняшний день моби...,"показать, гб, компания, цена, xiaomi, характеристика, pro, представить, юань, новый, 50, частота..."
1,https://rbclife.ru/news/6538cc019a79471788cc47db,Эта модель рюкзака спасет спину ребенка. 5 удачных примеров,,https://s0.rbk.ru/v6_top_pics/media/img/2/25/346982231586252.jpeg,"рюкзака, школьного, примеров, должен, рюкзак, ребенка, удачных, 5, спасет, ранец, начальных, лям...",Эта модель рюкзака спасет спину ребенка.\nРБК Life напоминает значимые нюансы при покупке школьн...,"рюкзак, школьный, пример, должный, рюкзак, ребёнок, удачный, 5, спасти, ранец, начальный, лямка,..."
2,https://rbclife.ru/news/653214da9a7947b80217e3f3,"5 устройств с AliExpress, которые помогут с закрутками на зиму",,https://s0.rbk.ru/v6_top_pics/media/img/9/22/346977831494229.jpeg,"помогут, очистки, ягоды, устройство, aliexpress, закрутками, 5, устройств, сердцевины, зиму, при...","5 устройств с AliExpress, которые помогут с закрутками на зиму .\nAliexpress Устройство для удал...","помочь, очистка, ягода, устройство, aliexpress, закрутка, 5, устройство, сердцевина, зима, прибо..."
3,https://rbclife.ru/news/6536289e9a7947a93e4474d0,В моду вошли помятости и дырки: 6 самых нелепых трендов сезона,Елена Нечаева,https://s0.rbk.ru/v6_top_pics/media/img/8/11/346980519659118.jpeg,"трусы, носить, моду, стоит, тренд, нелепых, точно, обычной, жизни, например, трендов, самых, дыр...",В моду вошли помятости и дырки: 6 самых нелепых трендов сезона .\nКак носить в обычной жизни: тр...,"трус, носить, мода, стоить, тренд, нелепый, точно, обычный, жизнь, например, тренд, самый, дырка..."
4,https://rbclife.ru/news/6535fcaa9a7947e404d3335a,«Умные» зеркала и тонометры вошли в топ популярных девайсов для здоровья,,https://s0.rbk.ru/v6_top_pics/media/img/4/35/346980412045354.jpeg,"приложение, популярных, watch, контроля, девайсов, здоровья, топ, образа, жизни, приложения, умн...",«Умные» зеркала и тонометры вошли в топ популярных девайсов для здоровья .\nСамый большой сезонн...,"приложение, популярный, watch, контроль, девайс, здоровье, топ, образ, жизнь, приложение, умный,..."
...,...,...,...,...,...,...,...
131,https://rbclife.ru/news/652cc8bb9a79476cc761b7d3,«Кино — зеркало общества». Филипп Янковский — о сериалах и буме сказок,Тимур Алиев,https://s0.rbk.ru/v6_top_pics/media/img/4/41/346974383687414.jpeg,"роль, филипп, янковский, сказок, зеркало, смотреть, могу, естественно, решу, чтото, буме, кино, ...","Как зритель я уже не могу смотреть эти фильмы, я могу смотреть их только как актер, вспоминая те...","роль, филипп, янковский, сказка, зеркало, смотреть, мочь, естественно, решить, чтоть, бум, кино,..."
132,https://rbclife.ru/news/6526a19e9a794775da6ba4ba,Гражданин Владивостока и востоковед. Илья Лагутенко отмечает 55-летие,,https://s0.rbk.ru/v6_top_pics/media/img/2/78/346971252084782.jpeg,"troll, отмечает, илья, mumiy, 55летие, тролль, фото, востоковед, музыканты, группа, мумий, групп...",Илья Лагутенко отмечает 55-летие .\n16 октября исполняется 40 лет с момента основания группы «Му...,"troll, отмечать, илья, mumiy, 55летие, тролль, фото, востоковед, музыкант, группа, мумия, группа..."
133,https://rbclife.ru/news/652930809a794799dd471218,"Не только «пятница, 13-е». Почему люди так боятся некоторых чисел",,https://s0.rbk.ru/v6_top_pics/media/img/8/22/346971993073228.jpeg,"числа, 12, 13, 13е, некоторых, 666, считается, боятся, многих, чисел, номером, примеру, числом, ...","Почему люди так боятся некоторых чисел .\nК примеру, в некоторых небоскребах Гонконга после 39-г...","число, 12, 13, 13е, некоторый, 666, считаться, бояться, многий, число, номер, пример, число, пят..."
134,https://rbclife.ru/news/652796a09a794779cc769ff8,«Бывают безумства»: 5 историй о бизнесе по реставрации мебели,Анна Векшина,https://s0.rbk.ru/v6_top_pics/media/img/4/30/346971840366304.jpeg,"мебель, реставрация, реставрации, стоит, шкаф, вещь, цену, мебели, 5, бизнесе, стул, например, б...","Петр Сейбиль, Реставрация Сейбиляsoberemuvidim / Instagram (входит в корпорацию Meta, признана э...","мебель, реставрация, реставрация, стоить, шкаф, вещь, цена, мебель, 5, бизнес, стул, например, б..."


Чтобы сделать частотный анализ, мы будем использовать библиотеку `collections`, в которой есть очень удобный класс `Counter`, делающий частотный анализ.

In [250]:
from collections import Counter

Соберем все слова из колонки keywords_lem в один список.

In [251]:
all_keywords = ','.join(df['keywords_lem']).split(', ')

Найдем 10 самых часто встречающихся ключевых слов.

In [252]:
Counter(all_keywords).most_common(10)

[('фильм', 19),
 ('5', 15),
 ('сериал', 14),
 ('кадр', 12),
 ('россия', 11),
 ('игра', 11),
 ('ребёнок', 10),
 ('стоить', 10),
 ('трейлер', 10),
 ('тыс', 9)]

Чаще всего РБК предлагает потратить деньги на фильмы! Прочитаем выжимку для каждой такой статьи.

In [255]:
pd.set_option('display.max_colwidth', 1000) # чтобы был показан весь текст в каждой ячейке

In [256]:
df[df['keywords_lem'].str.contains('фильм')][['link', 'summary']]

Unnamed: 0,link,summary
10,https://rbclife.ru/news/652d646b9a794769f060aa29,"Какой костюм выбрать на Хэллоуин: 15 идей и советы экспертов .\nКостюм УэнсдэйShutterstock Костюм можно дополнить тяжелыми массивными ботинками и нашивками Nevermore — школы, где училась УэнсдэйВ прошлом году вышел сериал про Уэнсдэй — девочку из семейки Аддамс.\nЯна Николаюк отмечает, что образы страшных клоунов очень популярны за рубежом на Хэллоуин и их легко обыграть с помощью макияжа.\nКостюм вампираShutterstock Костюм дополнит тыква с вырезанными на ней глазами либо сосуд с красной жидкостьюОстрые клыки — главная деталь образа вампира.\nЭто могут быть как ведьмы, ангелы и феи, так и герои мультиков и фильмов, например Уэнсдэй, Барби, Чудо-женщина или Гермиона из «Гарри Поттера»."
43,https://rbclife.ru/news/6515355a9a79477db7ed05cc,"Куда сходить в октябре: лекции, киносказки, балет, фестивали и другое .\nВыставкаГде: Новая ТретьяковкаКогда: с 10 октябряВозрастное ограничение: 6+tretyakovgallery.ruБольшой проект по случаю 150-летия со дня рождения Николая Рериха, предлагающий оценить наследие художника и его влияние на мировую и российскую культуру.\nВыставкаГде: Музейно-выставочный центр «Росфото»Когда: до 29 октябряВозрастное ограничение: 12+Sергей Sвешников.\nСочиРоссийский ресторанный фестивальГде: рестораны «Баффет» и «Бумеранг»Когда: с 1 по 15 октябряВозрастное ограничение: 18+Ресторан «Бумеранг» Ресторан BoomerangВо время фестиваля в ресторанах можно попробовать специальные сеты.\nДля гостей «Казино Сочи» группа исполнит свои хиты «Знак Водолея», «Плохая девочка», «Рома-Роман», «Ева» и другие."
48,https://rbclife.ru/news/653688879a7947f18bedc173,"Валдис Пельш — о 1990-х, YouTube и деньгах .\nУ того же ЧБД («Что было дальше?», юмористическое интернет-шоу.— РБК Life) большое количество поклонников.\nА во-вторых, это дает возможность аккумулировать средства для того, чтобы вечерний прайм заполнить каким-то новым, востребованным у аудитории шоу.\n— РБК Life).\n— РБК Life) за свои деньги, потому что у нас не было спонсоров."
55,https://rbclife.ru/news/6527f3449a794715832b1ac6,"По случаю юбилея Disney РБК Life вспомнил культовые мультики легендарной студии, которые можно пересматривать бесконечно, — от «Белоснежки» до «Короля Льва».\n«Бэмби» (1942 год)Walt Disney Productions Кадр из мультфильма «Бэмби» (1942)На солнечной опушке посреди чащи рождается новый лесной принц — олененок по имени Бэмби.\n«Аладдин» (1992 год)Walt Disney Pictures Кадр из мультфильма «Аладдин» (1992)Вслед за «Красавицей и чудовищем» Disney в 1992 году выпустил мультфильм «Аладдин», созданный по мотивам одной из сказок «1001 ночи».\n«Король Лев» (1994 год)Walt Disney Pictures Кадр из мультфильма «Король Лев» (1994)Юный лев по имени Симба растет, чтобы стать преемником своего отца — могущественного короля-льва Муфасы.\n«Тарзан» (1999 год)Walt Disney Pictures Кадр из мультфильма «Тарзан»Маленький мальчик, едва не ставший жертвой кораблекрушения, вынужден расти в джунглях среди горилл."
56,https://rbclife.ru/news/652f85499a79470546d04997,"«Анатомия падения»: обзор фильма-победителя Каннского кинофестиваля-2023 .\nФранцузскую драму об убийстве показывают в российских кинотеатрахКинопрокатная компания Про:Взгляд Сандра Хюллер в фильме Жюстин Трие «Анатомия падения»В российском прокате событие: вышла «Анатомия падения» — фильм французской постановщицы Жюстин Трие, ставший лауреатом 76-го Каннского кинофестиваля.\nКинопрокатная компания Про:Взгляд Кадр из фильма «Анатомия падения»Жюстин Трие — третья женщина-режиссер, получившая «Золотую пальмовую ветвь» Каннского кинофестиваля.\nКинопрокатная компания Про:Взгляд Кадр из фильма «Анатомия падения»Комплекс неполноценности в кризисе среднего возраста — губительная смесь.\nКинопрокатная компания Про:Взгляд Кадр из фильма «Анатомия падения»Собственно дознавательный и судебный процессы, подробно зафиксированные ручной камерой, предстают шоу-программой, эдаким реалити-шоу, стирающим границы личного и общественного."
...,...,...
102,https://rbclife.ru/news/653901529a794723fa8b8df2,"Дон Кихот и пес подружились в трейлере «Большого маленького приключения» .\nВ российском прокате с 23 ноября Вышел дублированный трейлер нового мультфильма «Большое маленькое приключение»vlgfilmRU / YouTube Кадр из мультфильма «Большое маленькое приключение»Игрушечный рыцарь подружился с плюшевой собакой и отправился «навстречу приключениям, которые определят его жизнь».\nДон Кихот стал главным героем мультфильма «Большое маленькое приключение», локализованным трейлером которого поделилась кинопрокатная компания «Вольга».\nvlgfilmRU / YouTube Трейлер анимационного фильма «Большое маленькое приключение», режиссер Жереми Дегрюсон, 2023 г.Мировая премьера картины состоялась во Франции, на Международном фестивале анимационных фильмов в Анси.\nФильм выйдет на экраны в США днем ранее, чем «Большое маленькое приключение», — 22 ноября."
104,https://rbclife.ru/news/653779bc9a79472ad764466f,Финал «Миссия невыполнима» получил новое название и дату премьеры .\nЖдать последнюю часть шпионского боевика придется на год дольше Премьера восьмой части фильма «Миссия невыполнима» перенесена на май 2025 годаParamount Pictures Кадр из фильма «Миссия невыполнима: Смертельная расплата.\nЧасть первая»Дату премьеры восьмой части шпионского боевика «Миссия невыполнима» («Миссия невыполнима.\nParamount Pictures Кадр из фильма «Миссия невыполнима: Смертельная расплата.\nParamount Pictures Кадр из фильма «Миссия невыполнима: Смертельная расплата.
105,https://rbclife.ru/news/65377e729a7947bc908fad56,"Асмус сыграет в мистическом триллере Хотиненко.\nСобытия разворачиваются в 1990-х Кристина Асмус снимется в мистическом триллере Ильи Хотиненко «Кинопленка №8»Пресс-служба онлайн-кинотеатра Start Кристина Асмус на съемках фильма «Кинопленка №8»В Москве и Санкт-Петербурге начались съемки мистического триллера Ильи Хотиненко «Кинопленка №8», сообщили РБК Life в пресс-службе онлайн-кинотеатра Start.\nПресс-служба онлайн-кинотеатра Start Фото со съемок фильма «Кинопленка №8»«Фильм Ильи Хотиненко «Кинопленка №8» — не нишевое, а очень зрительское кино.\nНадеюсь, что эта интонация будет чувствоваться зрителем и проект станет заметным событием в индустрии», — говорит Кристина Асмус.\nПресс-служба онлайн-кинотеатра Start Кристина Асмус на съемках фильма «Кинопленка №8»«Кинематографисты не случайно обращаются к осмыслению 90-х годов прошлого века."
106,https://rbclife.ru/news/65365bdf9a794772196e3b38,"Вышел первый трейлер новогодней комедии «Холоп 2» .\nГлавные роли в фильме исполнили Милош Бикович и Аглая Тарасова Вышел первый трейлер комедии «Холоп 2» с Милошем Биковичем и Аглаей ТарасовойПресс-служба «Централ Партнершип» Съемки фильма «Холоп 2»Вышел трейлер продолжения комедии «Холоп», сообщили РБК Life в пресс-службе кинокомпании «Централ Партнершип».\nПресс-служба «Централ Партнершип» Съемки фильма «Холоп 2»В фильме «Холоп 2» перевоспитанный Гриша сам не может закрыть глаза на беспредел, творимый избалованной Катей.\nПресс-служба «Централ Партнершип» Съемки фильма «Холоп 2»Режиссер — постановщик первого «Холопа» Клим Шипенко.\n«Холоп», вышедший в 2019 году, долгое время удерживал звание самого коммерчески успешного российского фильма (по данным «Кинопоиска», он собрал $62,2 млн)."
