# Парсинг новостей

Библиотека `newspaper3k` - это мощный инструмент, предназначенный для извлечения и анализа данных с новостных веб-сайтов. Эта библиотека была вдохновлена библиотекой `requests` и позволяет разработчикам и исследователям легко собирать информацию из новостных статей, включая заголовки, тексты, авторов, ключевые слова, изображения и даты публикации.

`newspaper3k` также имеет встроенные функции NLP, что позволяет быстро получить ключевые слова и саммари новостной статьи.

Для начала установим библиотеку.

In [1]:
!pip install newspaper3k

Collecting newspaper3k
  Downloading newspaper3k-0.2.8-py3-none-any.whl (211 kB)
     ---------------------------------------- 0.0/211.1 kB ? eta -:--:--
     - -------------------------------------- 10.2/211.1 kB ? eta -:--:--
     ----- ------------------------------- 30.7/211.1 kB 325.1 kB/s eta 0:00:01
     ----- ------------------------------- 30.7/211.1 kB 325.1 kB/s eta 0:00:01
     ------------ ------------------------ 71.7/211.1 kB 357.2 kB/s eta 0:00:01
     -------------------- --------------- 122.9/211.1 kB 481.4 kB/s eta 0:00:01
     ---------------------------------- - 204.8/211.1 kB 731.4 kB/s eta 0:00:01
     ------------------------------------ 211.1/211.1 kB 676.4 kB/s eta 0:00:00
Collecting feedparser>=5.2.1 (from newspaper3k)
  Obtaining dependency information for feedparser>=5.2.1 from https://files.pythonhosted.org/packages/7c/d4/8c31aad9cc18f451c49f7f9cfb5799dadffc88177f7917bc90a66459b1d7/feedparser-6.0.11-py3-none-any.whl.metadata
  Downloading feedparser-6.0.11

Взглянем на [документацию библиотеки](https://newspaper.readthedocs.io/en/latest/user_guide/quickstart.html). Модуль работает с ссылками на новости или ссылкой на новостной ресурс (и далее самостоятельно собирает оттуда ссылки).

## Извлечение новости и метаданных

Из библиотеки мы импортируем класс `Article`. Каждая новость, которую мы будем извлекать таким образом будет являться экземпляром класса `Article`. Буквально это означает, что внутри `Article` лежит некая инструкция о том, как обычно выглядит новостная статья – например, у нее обязательно есть заголовок, может быть автор, фотографии, дата публикации. 

Каждая новость, которую мы будем передавать внутрь класса `Article` по ссылке будет обрабатываться по зашитой внутрь нее схеме.

In [3]:
from newspaper import Article

Посмотрим на эту статью из РБК Трендов: «[Как модель искусственного интеллекта поможет в лечении депрессии](https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243?page=tag&nick=ai)». Положим ссылку на статью в переменную `url`.

In [4]:
url = 'https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243?page=tag&nick=ai'

Далее создаем экземпляр класса `Article`. Он будет называться `article` с маленькой буквы (обратите внимание – все классы в Python пишутся с большой буквы). 

Мы передаем ссылку и указываем язык новости (параметр `language`). Библиотека `newspaper3k` работает со следующими языками:

|input code|full name|
|---|---|
  nl	|		  Dutch
  zh	|		  Chinese
  vi	|		  Vietnamese
  no	|		  Norwegian
  ar	|		  Arabic
  tr	|		  Turkish
  sr	|		  Serbian
  fr	|		  French
  ru	|		  Russian
  en	|		  English
  hi	|		  Hindi
  ja	|		  Japanese
  sw	|		  Swahili
  pl	|		  Polish
  fa	|		  Persian
  el	|		  Greek
  sv	|		  Swedish
  sl	|		  Slovenian
  de	|		  German
  it	|		  Italian
  pt	|		  Portuguese
  he	|		  Hebrew
  hr	|		  Croatian
  et	|		  Estonian
  id	|		  Indonesian
  ro	|		  Romanian
  es	|		  Spanish
  ko	|		  Korean
  hu	|		  Hungarian
  da	|		  Danish
  fi	|		  Finnish
  bg	|		  Bulgarian
  be	|		  Belarusian
  mk	|		  Macedonian
  nb	|		  Norwegian (Bokmål)
  uk	|		  Ukrainian

In [5]:
article = Article(url, language='ru')

Отлично! Теперь у нас есть переменная `article`, которая обрабатывается библиотекой по инструкции как новостная статья. Если мы попробуем распечатать эту переменную, то увидим техническую информацию – как Python видит внутри себя эту переменную.

In [6]:
print(article)

<newspaper.article.Article object at 0x0000021F74E4F010>


Чтобы получить данные, мы воспользуемся методом `.download()`, который загрузит html статьи по ссылке. Сам html мы можем получить, используя атрибут `.html`.

In [7]:
article.download()

In [8]:
article.html

'<!DOCTYPE html>\n\n\n<html lang="ru" >\n<head>\n    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">\n    <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n    <meta http-equiv="Cache-Control" content="no-cache">\n    <meta name="viewport" content="width=device-width, initial-scale=1.0, user-scalable=no, minimum-scale=1.0, maximum-scale=1.0">\n    <meta name="HandheldFriendly" content="True">\n    <meta name="format-detection" content="telephone=no">\n    <meta name="format-detection" content="address=no">\n\n    \n                \n    \n    \n\n            <title>Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды</title>\n\n<meta name="title" content="Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды"/>\n<meta name="description" content="Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут знач

Окей! Получили html нашей новости. Пока это ничем не отличается от работы с библиотекой `requests`. Обычно мы бы загрузили эту html-страницу в `BeautifulSoup` и искали бы по тегам автора, заголовок и т.д. Но библиотека `newspaper3k` сильно облегчает эту задачу.

Нам нужно использовать метод `.parse()`, который проанализирует html-код и найдет главные атрибуты новостной статьи: 
* Заголовок (`.title`)
* Автора (`.authors`)
* Дата публикации (`.publish_date`)
* Текст статьи (`.text`)
* Изображения в новости (`.top_image` (первое изображение на странице), `.images` (множество ссылок на все изображения))
* Видео в новости (`.movies`)

In [9]:
article.parse()

In [10]:
print(article.title) # заголовок есть

Как модель искусственного интеллекта поможет в лечении депрессии


In [11]:
print(article.authors) # авторами библиотека посчитала еще и слово "Фото" (связано с версткой сайта и html-тегами)
                        # но автора определила верно

['Фото', 'Семен Башкиров']


In [12]:
print(article.publish_date) # а вот даты публикации на странице действительно нет

None


In [13]:
print(article.text) # весь текст статьи

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой

А в чем тренд? Чтобы выявить потенциальные сердечно-сосудистые заболевания, доктора измеряют давление. Чтобы определить преддиабетное состояние — анализируют уровень инсулина. Однако в случае депрессии специалисты вынуждены полагаться на самоотчеты людей о симптомах. Это затрудняет объективную оценку. В сентябре 2023 года группа американских исследователей с помощью ИИ зафиксировала у людей, которые прошли курс глубокой стимуляции мозга (DBS), особый сигнал мозга, свидетельствовавший о выходе из депрессии. В рамках метода DBS вживленные в мозг электроды подают импульсы, которые меняют нейронную активность. По словам нейробиолога из Дартмутского колледжа Пола Хольцхаймера, если результаты будут воспроизведены на более крупной выборке, это может стать переломным моментом в лечении д

In [14]:
print(article.top_image) # фотография из статьи

https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg


In [15]:
print(article.images) # все фотографии, найденные на странице

{'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/5/79/756152823045795.png', 'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/6/60/756358590820606.jpg', 'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/4/35/756152821394354.png', 'https://trends.rbc.ru/info-service/api/v2/noscripts', 'https://mc.yandex.ru/watch/54873298', 'https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/3/41/756152823169413.png', 'https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/1/82/756432359688821.jpg', 'https://s0.rbk.ru/v6_top_pics/media/img/7/64/346908189677647.jpeg', 'https://s0.rbk.ru/v6_top_pics/media/img/8/46/756105436203468.svg', 'https://s0.rbk.ru/v6_top_pics/media/img/2/70/347050582225702.svg', 'https://s0.rbk.ru/v6_top_pics/media/img/4/55/755924101431554.svg', 'https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg', 'https://top-fwz1.mail.ru/counter?id=3214695;js=na', 'https://s0.rbk.ru/v6_top_pics/resized/340x212_crop/media/img/9/80/756353487550809.jpg', 

In [16]:
for img in article.images:
    print(img) # видим, что сюда попали изображения в том числе лого и анонсов других статей

https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/5/79/756152823045795.png
https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/6/60/756358590820606.jpg
https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/4/35/756152821394354.png
https://trends.rbc.ru/info-service/api/v2/noscripts
https://mc.yandex.ru/watch/54873298
https://s0.rbk.ru/v6_top_pics/resized/Wx80/media/img/3/41/756152823169413.png
https://s0.rbk.ru/v6_top_pics/resized/600x375_crop/media/img/1/82/756432359688821.jpg
https://s0.rbk.ru/v6_top_pics/media/img/7/64/346908189677647.jpeg
https://s0.rbk.ru/v6_top_pics/media/img/8/46/756105436203468.svg
https://s0.rbk.ru/v6_top_pics/media/img/2/70/347050582225702.svg
https://s0.rbk.ru/v6_top_pics/media/img/4/55/755924101431554.svg
https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg
https://top-fwz1.mail.ru/counter?id=3214695;js=na
https://s0.rbk.ru/v6_top_pics/resized/340x212_crop/media/img/9/80/756353487550809.jpg
https://s0.rbk.ru/v6_top_pics/resized/600x3

In [17]:
print(article.movies) # видео в этой статье нет

[]


Также мы можем вытащить метаданные.

**Метаданные** – это данные о данных. 

Тег \<head> в HTML-документе - это та часть, которая не отображается в браузере при загрузке страницы. Она содержит такую информацию, как <заголовок> страницы, ссылки на CSS (каскадные таблицы стилей – код, который используется для стилизации веб-страницы), ссылки на фавиконы и другие метаданные (данные о HTML, например, автор и важные ключевые слова, описывающие документ).

In [18]:
article.meta_data # это большой словарь

defaultdict(dict,
            {'viewport': 'width=device-width, initial-scale=1.0, user-scalable=no, minimum-scale=1.0, maximum-scale=1.0',
             'HandheldFriendly': 'True',
             'format-detection': 'address=no',
             'title': 'Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды',
             'description': 'Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой',
             'copyright': '«РосБизнесКонсалтинг»',
             'robots': 'max-image-preview:large',
             'og': {'title': 'Как модель искусственного интеллекта поможет в лечении депрессии | РБК Тренды',
              'type': 'article',
              'url': 'https://trends.rbc.ru/trends/industry/65327bc69a7947399939b243',
              'image': 'https://s0.rbk.ru/v6_top_pics/media/img/3/81/346978074330813.jpeg',
       

In [19]:
print(article.meta_data['og']['description']) # например, описание статьи от авторов 
                                            # (используется для анонса ссылки в поисковых системах)

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии. Результаты исследования могут значительно улучшить борьбу с ментальной проблемой


## Обработка естественного языка в новостях

Библиотека `newspaper3k` предлагает метод `.nlp()`, который обрабатывает новость и выделяет ключевые слова (атрибут `.keywords`) и краткую выжимку текста (атрибут `.summary`).

Стоит отметить, что NLP в этой библиотеке достаточно плохо обрабатывает русский язык, но отлично справляется с английским.

In [21]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\USER_LENA\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [22]:
article.nlp()

In [23]:
print(article.keywords) # ключевые слова действительно отражают нашу новость

['искусственного', 'мозга', 'депрессии', 'стимуляции', 'людей', 'помощью', 'ии', 'dbs', 'лечении', 'интеллекта', 'ученые', 'модель', 'результаты', 'поможет', 'электроды']


Сравним ключевые слова с теми, которые авторы статьи промаркировали эту новость:

In [24]:
article.meta_data['news_keywords']

'Депрессия, Стимуляция, Исследователь, Электрод, Самоотчёт, Состояние, Активность, Выздоровление, Устройство, Доброволец, Симптом, Специалист, Вынудить, Результат, Заболевание, Участник, Исследование, Глубокий, Нейронный, Анализировать'

Слова отличаются. В том числе это связано с тем, что в метаданных ключевые слова прописывают для поисковых систем и SEO-оптимизации страницы, а не для того, чтобы описать смысл статьи (как в NLP).

In [25]:
print(article.summary) # краткая выжимка тоже достаточно успешно отработала

Американские ученые провели успешные испытания модели ИИ, которая анализирует изменения в мозгу людей, лечащихся от депрессии.
В сентябре 2023 года группа американских исследователей с помощью ИИ зафиксировала у людей, которые прошли курс глубокой стимуляции мозга (DBS), особый сигнал мозга, свидетельствовавший о выходе из депрессии.
Сложности с самоотчетомПопытки лечения депрессии с помощью DBS до сих пор имели ограниченный успех: в двух исследованиях не удалось продемонстрировать преимущества по сравнению с плацебо.
По словам Хольцхаймера, эти результаты могут иметь значение не только для метода глубокой стимуляции мозга.
Однако анализ сигналов мозга с помощью ИИ поможет и тем, кто лечится с помощью других методов.


## Парсинг всех новостных статей на странице

Мы посмотрели, как обработать одну новость. Но чаще всего нам нужно обработать большой массив данных.

Для этого у библиотеки `newspaper3k` есть метод `.build()`, который самостоятельно найдет ссылки на новости.

In [26]:
import newspaper # до этого мы работали только с одним классом в библиотеке, теперь будем работать 
                 # с несколькими функциями оттуда, поэтому импортируем всю библиотеку

В этот раз поработаем с разделом РБК.Тренды «[Потратить](https://rbclife.ru/spend)» и проанализируем новости – куда чаще всего предлагают тратить деньги?

<img src="https://media0.giphy.com/media/xTiTnqUxyWbsAXq7Ju/giphy.gif?cid=ecf05e47fx45w99opc790koo7b7p1enbrpzvx29l216alkv5&ep=v1_gifs_search&rid=giphy.gif&ct=g">

In [27]:
money = newspaper.build('https://rbclife.ru/spend', 
                        memoize_articles = False) # загрузили все ссылки новостей по url
                                                  # параметр memorize_article регулирует, 
                                                  # хотите вы кэшировать новости или нет

In [28]:
money.size() # покажет, сколько статей удалось найти

131

In [29]:
money.articles # покажет объекты класса Article для каждой найденной статьи

[<newspaper.article.Article at 0x21f7c9e0050>,
 <newspaper.article.Article at 0x21f7c9e1710>,
 <newspaper.article.Article at 0x21f7c9e2ed0>,
 <newspaper.article.Article at 0x21f7b86b6d0>,
 <newspaper.article.Article at 0x21f7b8b8e50>,
 <newspaper.article.Article at 0x21f7b8b9c90>,
 <newspaper.article.Article at 0x21f7b8ba9d0>,
 <newspaper.article.Article at 0x21f7b8bbf50>,
 <newspaper.article.Article at 0x21f7b8201d0>,
 <newspaper.article.Article at 0x21f7c9e9950>,
 <newspaper.article.Article at 0x21f7c9e9810>,
 <newspaper.article.Article at 0x21f7c9ead90>,
 <newspaper.article.Article at 0x21f7b8a7950>,
 <newspaper.article.Article at 0x21f7b8a4750>,
 <newspaper.article.Article at 0x21f7b8a4090>,
 <newspaper.article.Article at 0x21f7b898f90>,
 <newspaper.article.Article at 0x21f7c9e8c10>,
 <newspaper.article.Article at 0x21f7b8aad50>,
 <newspaper.article.Article at 0x21f7b820210>,
 <newspaper.article.Article at 0x21f7b8225d0>,
 <newspaper.article.Article at 0x21f7b86a050>,
 <newspaper.a

In [30]:
for article in money.articles: # а так можем получить все найденные ссылки
    print(article.url)

https://rbclife.ru/news/659d72269a794762cb917751
https://rbclife.ru/news/65a126c99a7947e5fb74686d
https://rbclife.ru/news/65a12e5c9a79473b3bdd96f8
https://rbclife.ru/news/659f90a29a79470dad1850ed
https://rbclife.ru/news/659d6c479a7947b9d2e7530c
https://rbclife.ru/news/659e625a9a79477432157825
https://rbclife.ru/news/659d19749a79474271d6e0bb
https://rbclife.ru/news/659d08999a79476de21e1c83
https://rbclife.ru/news/6597c3d79a794778ffa12aa8
https://rbclife.ru/news/658a749f9a794765c5753776
https://rbclife.ru/news/659541129a7947dc81b40b83
https://rbclife.ru/news/658a8a4a9a794724be35d2fa
https://rbclife.ru/news/658985969a79477c10778a40
https://rbclife.ru/news/658ea95a9a7947899f4c26af
https://rbclife.ru/news/658e860e9a794712447fa29a
https://rbclife.ru/news/658d36fc9a79478ed22757c7
https://rbclife.ru/news/65a52beb9a79479d77fbf793
https://rbclife.ru/news/65a4e26f9a79474a261f828d
https://rbclife.ru/news/65a1004f9a79473e62984ac9
https://rbclife.ru/news/659fca519a79472b3280b9ab
https://rbclife.ru/n

In [33]:
for category in money.category_urls(): # так можем найти все категории ссылок, которые удалось найти
    print(category)

https://rbclife.ru/spend
https://rbclife.ru/read
https://rbclife.ru/watch
https://rbclife.ru/games
https://rbclife.ru/eat
https://rbclife.ru/walk
https://rbclife.ru/myself
https://rbclife.ru/scroll
https://rbclife.ru
https://rbclife.ru/spend


Импортируем две библиотеки, которые сильно помогают при парсинге данных. Библиотека `time` с функцией `sleep` позволяет делать паузы между запросами к сайту (выше шансы, что вас не заблокируют).

Библиотека `tqdm` с функцией `tqdm` создает прогресс-бар выполнения вашего кода.

In [34]:
from time import sleep
from tqdm import tqdm

Далее мы создадим пустой список data, куда будем сохранять в формате кортежа данные по каждой статье. Мы хотим сохранить ссылку на статью, заголовок статьи, автора, первое изображение, ключевые слова и выжимку.

In [35]:
data = [] 

for article in tqdm(money.articles):
    news = Article(article.url, language='ru')
    news.download()
    news.parse()
    news.nlp()
    data.append((article.url, news.title, news.authors, news.top_image, news.keywords, news.summary))
    sleep(3)

100%|████████████████████████████████████████████████████████████████████████████████| 131/131 [09:07<00:00,  4.18s/it]


Проверяем, все новостные статьи действительно загрузились!

In [36]:
print(data[0])

('https://rbclife.ru/news/659d72269a794762cb917751', 'Комфортные футболки и идеально сидящие боди: 10 локальных брендов с базой', ['Елена Нечаева'], 'https://s0.rbk.ru/v6_top_pics/media/img/8/51/347048799117518.jpeg', ['боди', 'бренд', 'футболки', 'комфортные', 'руб', 'брендов', 'базу', 'худи', 'идеально', 'стоят', 'стоит', 'обойдется', 'базой', 'купить', 'марки', 'локальных', '10', 'сидящие'], 'Комфортные футболки и идеально сидящие боди: 10 локальных брендов с базой .\nСколько стоит: хлопковые футболки свободного кроя стоят от 2490 руб., но сразу три можно купить за 3490 руб.\nСколько стоит: вязаная майка в рубчик обойдется в 2900 руб., цена на классические лонгсливы начинается от 2730 руб., а худи стоит 6900 руб.\nХуди обойдется в 2799 руб., рубашка из вискозы — в 1799 руб., а футболка стоит всего 999 руб.\n), футболки стоят от 999 руб., а облегающие лонгсливы — 1199 руб.')


## Анализ ключевых слов новостей

Для начала сохраним все полученные данные как датафрейм pandas.

In [37]:
import pandas as pd

In [38]:
df = pd.DataFrame(data, columns=['link', 'title', 'authors', 'img_link', 'keywords', 'summary'])

In [39]:
df

Unnamed: 0,link,title,authors,img_link,keywords,summary
0,https://rbclife.ru/news/659d72269a794762cb917751,Комфортные футболки и идеально сидящие боди: 1...,[Елена Нечаева],https://s0.rbk.ru/v6_top_pics/media/img/8/51/3...,"[боди, бренд, футболки, комфортные, руб, бренд...",Комфортные футболки и идеально сидящие боди: 1...
1,https://rbclife.ru/news/65a126c99a7947e5fb74686d,Honor представила складной смартфон Magic V2 в...,[],https://s0.rbk.ru/v6_top_pics/media/img/0/26/3...,"[стороны, смартфон, v2, design, 2250, magic, r...",Honor представила складной смартфон Magic V2 в...
2,https://rbclife.ru/news/65a12e5c9a79473b3bdd96f8,Большой релиз Samsung Galaxy Unpacked 2024: гд...,[],https://s0.rbk.ru/v6_top_pics/media/img/8/85/3...,"[покажут, сможет, samsung, смотреть, января, р...",Большой релиз Samsung Galaxy Unpacked 2024: гд...
3,https://rbclife.ru/news/659f90a29a79470dad1850ed,Китайский бренд Realme объявил о коллаборации ...,[],https://s0.rbk.ru/v6_top_pics/media/img/5/47/3...,"[12, бренд, китайский, pro, rolex, смартфона, ...",Китайский бренд Realme объявил о коллаборации ...
4,https://rbclife.ru/news/659d6c479a7947b9d2e7530c,Что купить на распродаже у российских брендов....,[Елена Нечаева],https://s0.rbk.ru/v6_top_pics/media/img/6/01/3...,"[руб, зипки, брендов, отыскать, джинсы, 2mood,...",Что купить на распродаже у российских брендов....
...,...,...,...,...,...,...
126,https://rbclife.ru/news/658bc87f9a79477b2f0b71c5,«Это весело». Финалистка конкурса красоты стал...,[Елена Колесова],https://s0.rbk.ru/v6_top_pics/media/img/5/77/3...,"[конкурса, стала, финалистка, красоты, девушка...",Финалистка конкурса красоты стала дальнобойщиц...
127,https://rbclife.ru/news/6583f9ea9a7947c5dd1a8f44,Валиева показала образ в вечернем платье с жер...,[Елена Колесова],https://s0.rbk.ru/v6_top_pics/media/img/3/34/3...,"[образ, чемпионки, показала, челябинске, жереб...",Валиева показала образ в вечернем платье с жер...
128,https://rbclife.ru/news/658545f39a79476cf9cdb96f,Николь Кидман блистала в шикарном платье на пр...,[],https://s0.rbk.ru/v6_top_pics/media/img/5/85/3...,"[brendon, экспаты, фото, сериал, кидман, сидне...",Николь Кидман блистала в шикарном платье на пр...
129,https://rbclife.ru/news/659e5c119a79474f9e088ecb,В США вручили почетные «Оскары». Гости — Дауни...,[],https://s0.rbk.ru/v6_top_pics/media/img/7/50/3...,"[сша, вручили, ди, пью, оскар, выдающиеся, поч...",В США вручили почетные «Оскары».\nГости — Даун...


Видим, что авторы и ключевые слова сохранились в ячейки в формате списков.

In [40]:
type(df['authors'][0])

list

Давайте переведем их в обычные строки. Для этого мы сначала переведем всю колонку в тип данных `str`

```python
df['authors'].astype(str)
```
    
А затем с помощью метода `.apply()` и анонимной функции `lambda` уберем лишние скобки и кавычки.

```python
df['authors'].astype(str).apply(lambda x: x.strip("''[]"))
```

In [41]:
df['authors'] = df['authors'].astype(str).apply(lambda x: x.strip("''[]"))

In [42]:
type(df['authors'][0])

str

In [44]:
df.head()

Unnamed: 0,link,title,authors,img_link,keywords,summary
0,https://rbclife.ru/news/659d72269a794762cb917751,Комфортные футболки и идеально сидящие боди: 1...,Елена Нечаева,https://s0.rbk.ru/v6_top_pics/media/img/8/51/3...,"[боди, бренд, футболки, комфортные, руб, бренд...",Комфортные футболки и идеально сидящие боди: 1...
1,https://rbclife.ru/news/65a126c99a7947e5fb74686d,Honor представила складной смартфон Magic V2 в...,,https://s0.rbk.ru/v6_top_pics/media/img/0/26/3...,"[стороны, смартфон, v2, design, 2250, magic, r...",Honor представила складной смартфон Magic V2 в...
2,https://rbclife.ru/news/65a12e5c9a79473b3bdd96f8,Большой релиз Samsung Galaxy Unpacked 2024: гд...,,https://s0.rbk.ru/v6_top_pics/media/img/8/85/3...,"[покажут, сможет, samsung, смотреть, января, р...",Большой релиз Samsung Galaxy Unpacked 2024: гд...
3,https://rbclife.ru/news/659f90a29a79470dad1850ed,Китайский бренд Realme объявил о коллаборации ...,,https://s0.rbk.ru/v6_top_pics/media/img/5/47/3...,"[12, бренд, китайский, pro, rolex, смартфона, ...",Китайский бренд Realme объявил о коллаборации ...
4,https://rbclife.ru/news/659d6c479a7947b9d2e7530c,Что купить на распродаже у российских брендов....,Елена Нечаева,https://s0.rbk.ru/v6_top_pics/media/img/6/01/3...,"[руб, зипки, брендов, отыскать, джинсы, 2mood,...",Что купить на распродаже у российских брендов....


С ключевыми словами мы проделывать это не будем, оставим их списком.

Теперь мы хотим провести частотный анализ. Но наши слова не лемматизированы, то есть не приведены к исходной форме (так, как они записаны в словаре). Исправим это!

Импортируем библиотеку pymorphy3 – морфологический анализатор для русского языка, написанный на языке Python и использующий словари из [OpenCorpora](https://opencorpora.org/dict.php). 

Используем оттуда класс `MorphAnalyzer`. Для заданного слова он может найти все возможные формы.

In [45]:
!pip install pymorphy3

Collecting pymorphy3
  Obtaining dependency information for pymorphy3 from https://files.pythonhosted.org/packages/ee/53/862f7b7f3e488e5420bebd5cf59362cb175463ad3cfddd61ade15a738dc7/pymorphy3-2.0.1-py3-none-any.whl.metadata
  Downloading pymorphy3-2.0.1-py3-none-any.whl.metadata (1.8 kB)
Collecting dawg-python>=0.7.1 (from pymorphy3)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
     ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
     ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
     ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
     ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
     ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
     ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
     ---------------------------------------- 0.

In [46]:
import pymorphy3
morph = pymorphy3.MorphAnalyzer()

Для начала попробуем на отдельных словах.

In [47]:
morph.parse('цены')

#score - вероятность того что введенное слово являяется этим типом. (на частоте встречаемости определяет)

[Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='цена', score=0.476562, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 7),)),
 Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='цена', score=0.328125, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 1),)),
 Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='цена', score=0.195312, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 10),))]

In [49]:
morph.parse('стали')


[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.975342, methods_stack=((DictionaryAnalyzer(), 'стали', 945, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.010958, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.005479, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.002739, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.002739, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.002739, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 9),))]

In [57]:
morph.parse('боди')

[Parse(word='боди', tag=OpencorporaTag('VERB,impf,tran sing,impr,excl'), normal_form='бодить', score=0.4366197183098591, methods_stack=((FakeDictionary(), 'боди', 427, 11), (KnownSuffixAnalyzer(min_word_length=4, score_multiplier=0.5), 'оди'))),
 Parse(word='боди', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='бодь', score=0.11267605633802813, methods_stack=((FakeDictionary(), 'боди', 13, 1), (KnownSuffixAnalyzer(min_word_length=4, score_multiplier=0.5), 'оди'))),
 Parse(word='боди', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='бодь', score=0.11267605633802813, methods_stack=((FakeDictionary(), 'боди', 13, 2), (KnownSuffixAnalyzer(min_word_length=4, score_multiplier=0.5), 'оди'))),
 Parse(word='боди', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='бодь', score=0.11267605633802813, methods_stack=((FakeDictionary(), 'боди', 13, 5), (KnownSuffixAnalyzer(min_word_length=4, score_multiplier=0.5), 'оди'))),
 Parse(word='боди', tag=OpencorporaTag('

Нам выдается все возможные значения слова. Возьмем первую.

In [51]:
morph.parse('цены')[0]

Parse(word='цены', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='цена', score=0.476562, methods_stack=((DictionaryAnalyzer(), 'цены', 55, 7),))

Отлично! Теперь осталось только получить нормальную форму -- значение атрибута `.normal_form`

In [53]:
morph.parse('цены')[0].normal_form

'цена'

Проделаем это со всеми ячейками в колонке keywords. Напишем функцию, которую затем применим ко всему столбцу.

In [54]:
def lemmatize(words):
    lemmas = []
    
    for word in words: 
        norm_word = morph.parse(word)[0].normal_form 
        lemmas.append(norm_word)
    return lemmas # вернем строку со всеми лемматизированными значениями

In [55]:
df['keywords_lem'] = df['keywords'].apply(lemmatize) # создадим новый столбец, в котором сохранятся 
                                                    # лемматизированные ключевые слова

In [56]:
df

Unnamed: 0,link,title,authors,img_link,keywords,summary,keywords_lem
0,https://rbclife.ru/news/659d72269a794762cb917751,Комфортные футболки и идеально сидящие боди: 1...,Елена Нечаева,https://s0.rbk.ru/v6_top_pics/media/img/8/51/3...,"[боди, бренд, футболки, комфортные, руб, бренд...",Комфортные футболки и идеально сидящие боди: 1...,"[бодить, бренд, футболка, комфортный, руб, бре..."
1,https://rbclife.ru/news/65a126c99a7947e5fb74686d,Honor представила складной смартфон Magic V2 в...,,https://s0.rbk.ru/v6_top_pics/media/img/0/26/3...,"[стороны, смартфон, v2, design, 2250, magic, r...",Honor представила складной смартфон Magic V2 в...,"[сторона, смартфон, v2, design, 2250, magic, r..."
2,https://rbclife.ru/news/65a12e5c9a79473b3bdd96f8,Большой релиз Samsung Galaxy Unpacked 2024: гд...,,https://s0.rbk.ru/v6_top_pics/media/img/8/85/3...,"[покажут, сможет, samsung, смотреть, января, р...",Большой релиз Samsung Galaxy Unpacked 2024: гд...,"[показать, смочь, samsung, смотреть, январь, р..."
3,https://rbclife.ru/news/659f90a29a79470dad1850ed,Китайский бренд Realme объявил о коллаборации ...,,https://s0.rbk.ru/v6_top_pics/media/img/5/47/3...,"[12, бренд, китайский, pro, rolex, смартфона, ...",Китайский бренд Realme объявил о коллаборации ...,"[12, бренд, китайский, pro, rolex, смартфон, в..."
4,https://rbclife.ru/news/659d6c479a7947b9d2e7530c,Что купить на распродаже у российских брендов....,Елена Нечаева,https://s0.rbk.ru/v6_top_pics/media/img/6/01/3...,"[руб, зипки, брендов, отыскать, джинсы, 2mood,...",Что купить на распродаже у российских брендов....,"[руб, зипка, бренд, отыскать, джинсы, 2mood, м..."
...,...,...,...,...,...,...,...
126,https://rbclife.ru/news/658bc87f9a79477b2f0b71c5,«Это весело». Финалистка конкурса красоты стал...,Елена Колесова,https://s0.rbk.ru/v6_top_pics/media/img/5/77/3...,"[конкурса, стала, финалистка, красоты, девушка...",Финалистка конкурса красоты стала дальнобойщиц...,"[конкурс, стать, финалистка, красота, девушка,..."
127,https://rbclife.ru/news/6583f9ea9a7947c5dd1a8f44,Валиева показала образ в вечернем платье с жер...,Елена Колесова,https://s0.rbk.ru/v6_top_pics/media/img/3/34/3...,"[образ, чемпионки, показала, челябинске, жереб...",Валиева показала образ в вечернем платье с жер...,"[образ, чемпионка, показать, челябинск, жеребь..."
128,https://rbclife.ru/news/658545f39a79476cf9cdb96f,Николь Кидман блистала в шикарном платье на пр...,,https://s0.rbk.ru/v6_top_pics/media/img/5/85/3...,"[brendon, экспаты, фото, сериал, кидман, сидне...",Николь Кидман блистала в шикарном платье на пр...,"[brendon, экспат, фото, сериал, кидман, сидней..."
129,https://rbclife.ru/news/659e5c119a79474f9e088ecb,В США вручили почетные «Оскары». Гости — Дауни...,,https://s0.rbk.ru/v6_top_pics/media/img/7/50/3...,"[сша, вручили, ди, пью, оскар, выдающиеся, поч...",В США вручили почетные «Оскары».\nГости — Даун...,"[сша, вручить, ди, пить, оскар, выдающийся, по..."


Чтобы сделать частотный анализ, мы будем использовать библиотеку `collections`, в которой есть очень удобный класс `Counter`, делающий частотный анализ.

In [58]:
from collections import Counter

Соберем все слова из колонки keywords_lem в один список.

In [59]:
all_keywords = df['keywords_lem'].sum()
all_keywords

['бодить',
 'бренд',
 'футболка',
 'комфортный',
 'руб',
 'бренд',
 'база',
 'худить',
 'идеально',
 'стоять',
 'стоить',
 'обойтись',
 'база',
 'купить',
 'марка',
 'локальный',
 '10',
 'сидеть',
 'сторона',
 'смартфон',
 'v2',
 'design',
 '2250',
 'magic',
 'rsr',
 'honor',
 'фото',
 'стиль',
 'porsche',
 'представить',
 'складный',
 'показать',
 'смочь',
 'samsung',
 'смотреть',
 'январь',
 'релиз',
 's24',
 'стать',
 'galaxy',
 'unpacked',
 'ожидаться',
 'большой',
 'смартфон',
 '2024',
 '12',
 'бренд',
 'китайский',
 'pro',
 'rolex',
 'смартфон',
 'версия',
 'выпустить',
 'коллаборация',
 'выполнить',
 'объявить',
 'компания',
 'лимитировать',
 'realme',
 'руб',
 'зипка',
 'бренд',
 'отыскать',
 'джинсы',
 '2mood',
 'миниюбка',
 'точно',
 'стоить',
 'купить',
 'российский',
 'модель',
 'распродажа',
 'скидка',
 's23',
 '12',
 '13',
 'производительный',
 'xiaomi',
 'androidсмартфон',
 'iqoo',
 'ultra',
 'самый',
 'рейтинг',
 'назвать',
 'galaxy',
 'начало',
 'место',
 '2024',
 'сам

Найдем 10 самых часто встречающихся ключевых слов.

In [60]:
Counter(all_keywords).most_common(10)

[('фото', 55),
 ('фильм', 22),
 ('сериал', 21),
 ('руб', 20),
 ('игра', 19),
 ('новый', 16),
 ('россия', 14),
 ('2024', 11),
 ('тыс', 11),
 ('стоить', 10)]

Чаще всего РБК предлагает потратить деньги на фото! Прочитаем выжимку для каждой такой статьи.

In [62]:
with pd.option_context('display.max_colwidth', None): # чтобы был показан весь текст в каждой ячейке
    display(df[df['keywords_lem'].apply(lambda x: 'фильм' in x)][['link', 'summary', 'keywords']])

Unnamed: 0,link,summary,keywords
21,https://rbclife.ru/news/654b3a2d9a7947df066f1004,"Кем был Юрий Соломин в кино и жизни .\nВпоследствии братья сыграли яркие роли, Юрий Соломин стал народным артистом СССР, а Виталий Соломин получил звание народного артиста РСФСР.\nНа фото: Юрий Соломин Фото: Василий Малышев / РИА НовостиМалый театр стал для Юрия Соломина вторым домом.\nЮрий Соломин сыграл отца выпускницы, который тоже растерялся в этой ситуации, поэтому решение за него принимает супруга.\nНа фото: Юрий Соломин в стенах Малого театра, 2021 год Фото: Владимир Гердо / ТАССЭто постоянство было и в семейной жизни артиста.","[соломина, адъютанта, фильма, артист, фото, юрий, соломин, министра, сыграл, жизни, фильме, кино, роли]"
22,https://rbclife.ru/news/659e6ac39a79475fc18e8fa6,"В 2017 году его признали самым популярным российским актером XXI века Константину Хабенскому исполнилось 52 года: самые яркие роли артистаКонстатин Хабенский Фото: Pavel Kashaev / Global Look Press11 января Константину Хабенскому исполняется 52 года.\nАртист руководит одним из крупнейших театров страны — МХТ имени А.П.\nРБК Life выяснил, как сам Хабенский относится к своим титулам, и вспомнил его самые яркие роли.\nМХТ имени А.П.\nМХТ имени А.П.","[имени, хабенского, фильма, хабенский, чехова, яркие, хабенскому, фото, александра, 52, константину, театр, исполнилось, ап, артиста, роли, самые, актер]"
26,https://rbclife.ru/news/6580500f9a79472f9ceab3a1,"Познакомьтесь с Сандрой Хюллер: она сыграла в «Анатомии падения» .\nОна играла Кортни Лав и Елизавету I в театреЕвропейский зритель, особенно из тех, кто часто посещает международные фестивали, хорошо знаком с работами Хюллер — актрисы с очень сдержанной, но почти гипнотической манерой игры.\nХюллер сыграла роль сотрудницы компании, поставляющей роботов одиноким людям.\nКадр из фильма «Анатомия падения» Фото: Кинопрокатная компания Про:ВзглядОднако, несмотря на все языковые трудности, Хюллер — главная удача фильма.\nГоворя о кастинге Хюллер на роль Штарай, режиссер фильма отметила, что ее подкупил большой театральный опыт актрисы.","[падения, фильма, познакомьтесь, хюллер, фото, драме, сандрой, анатомии, актрисы, роль, сыграла, роли, фильм]"
27,https://rbclife.ru/news/658d7c269a7947b8302e1e8d,"Противоречивый актер и любитель комиксов.\nВ декабре 2023 года актер заявил о планах завершить карьеру в кино Николасу Кейджу исполнилось 60 лет: самые яркие ролиНиколас Кейдж Фото: Tim P. Whitby / Getty ImagesВ прошлом году журнал Empire опубликовал неранжированный список из 50 величайших актеров всех времен.\nРаскрывая источник вдохновения для своего нового имени, он сослался на персонажа по имени Люк Кейдж из комиксов Marvel.\nНиколас Кейдж Фото: Leon Bennett / Getty ImagesНа самом деле на сомнительные проекты приходилось соглашаться из-за больших долгов.\nВ нем актер сыграл бывшего преступника, который стал наставником 15-летнего юноши.","[комиксов, любитель, кейджу, противоречивый, кадр, фильма, кейдж, продлился, 60, фото, сыграл, кейджа, николасу, кино, актер]"
34,https://rbclife.ru/news/65a13d349a794714a2498e69,"Стало известно, когда выйдет байопик о Майкле Джексоне «Майкл» .\nПевца в фильме играет его племянник Джаафар Джексон Variety: байопик о Майкле Джексоне «Майкл» выйдет в апреле 2025 года СлушатьМайкл Джексон Фото: Michael Jackson / Getty ImagesБайопик о легенде мировой поп-сцены Майкле Джексоне выйдет в прокат 18 апреля 2025 года, пишет Variety.\nОбраз певца воплотит его племянник Джаафар Джексон, для которого роль стала первой крупной в кино.\nВ числе продюсеров биографического фильма также значатся распорядители имущества Майкла Джексона Джон Бранка и Джон Макклейн.\nМайкл Джексон Фото: Alan Greth / ZUMA Press / Global Look PressМайкл Джексон умер в 2009 году в возрасте 50 лет.","[джексона, известно, фильма, джексон, variety, фото, майкл, майкле, байопик, фильме, выйдет, стало, джексоне]"
37,https://rbclife.ru/news/659ec1c29a794758696822cb,"8 фильмов по неожиданным литературным сюжетам.\nНо в основе фильма — «Одиссея» Гомера, которую Коэны основательно переосмыслили, хотя и остались верны ключевым сюжетным поворотам оригинала.\nНо интересно, как братья Коэн добавили древнегреческому мифу американской мифологии нового времени, придав сюжету дополнительный объем и множество новых трактовок.\nФрэнк Дарабонт, 1994 годКадр из фильма «Побег из Шоушенка» Фото: Castle Rock EntertainmentСтивен Кинг — один из самых экранизируемых современных авторов.\nПо сюжету фильма на операционном столе кардиохирурга Стивена Мёрфи умирает пациент.","[коэн, фильма, годкадр, 8, фото, литературным, аранофски, основе, фильмов, аронофски, шоушенка, история, сюжету, сюжетам, экранизации, неожиданным]"
40,https://rbclife.ru/news/659e866b9a7947df410a2367,"Вышел трейлер драмы о дружбе «Материнский инстинкт» с Хэтэуэй и Честейн .\nВ фильме показана «темная сторона материнской любви» Вышел трейлер драмы «Материнский инстинкт» с Энн Хэтэуэй и Джессикой Честейн СлушатьКадр из трейлера к фильму «Материнский инстинкт» Фото: StudiocanalUK / YouTubeДжессика Честейн и Энн Хэтэуэй сыграли подруг-соседок, чьи отношения подвергаются испытанию после личной трагедии.\nВ Сети появился трейлер предстоящего психологического триллера «Материнский инстинкт», он опубликован в YouTube-канале студии Canal UK.\nТрейлер драмы «Материнский инстинкт», режиссер Бенуа Деломм StudiocanalUK / YouTubeСюжет ленты разворачивается в 1960-х годах вокруг двух американских домохозяек Элис и Селин, живущих в пригороде, которые были хорошими подругами.\nКадр из трейлера к фильму «Материнский инстинкт» Фото: StudiocanalUK / YouTube«Материнский инстинкт» — это киноадаптация романа бельгийской писательницы Барбары Абель, впервые ее книга под названием Derriere la haine («Инстинкт матери») была опубликована во Франции в 2012 году.","[studiocanaluk, материнский, дружбе, инстинкт, фильму, фото, честейн, энн, драмы, трейлер, вышел, хэтэуэй]"
41,https://rbclife.ru/news/659e621e9a7947217d00a035,"Про малыша Йоду и Мандалорца снимут фильм .\nПроект запустят в производство уже в 2024 году Джон Фавро снимет полнометражный фильм «Мандалорец и Грогу» СлушатьКадр из сериала «Мандалорец» Фото: LucasfilmВ киновселенной «Звездных войн» будет еще один полный метр.\nПро малыша Йоду — Грогу — и присматривающего за ним Мандалорца снимут фильм, сообщается на сайте Star Wars.\nСобытия в спин-оффе «Звездных войн» разворачиваются через пять лет после финала, шестого эпизода киносаги, — «Возвращения Джедая».\nОн оказался в бегах после того, как взял под свою защиту Грогу, малыша, который принадлежит к той же инопланетной расе, что и могущественный джедай Йода.","[снимут, мандалорца, войн, мандалорец, грогу, сериал, малыша, фото, йоду, сериала, фильм, звездных]"
44,https://rbclife.ru/news/659d30909a79472ef24a6ad8,"«Общество снега»: обзор жуткого фильма-катастрофы по реальным событиям .\nИсторию о крушении лайнера в Андах в 1972 году отправили на «Оскар» Вышел обзор фильма «Общество снега» о крушении лайнера в Андах в 1972 годуКадр из фильма «Общество снега» Фото: NetflixНа Netflix 4 января вышел фильм-катастрофа «Общество снега» — история выживания пассажиров самолета, который разбился в Андах в 1972 году.\nВключившим «Общество снега» в праздничные дни лучше было бы вовремя остановиться — уже первые 15 минут полностью изгоняют атмосферу Нового года и Рождества.\nКадр из фильма «Общество снега» Фото: NetflixТехнически «Общество снега» выполнено филигранно.\nКадр из фильма «Общество снега» Фото: Netflix«Общество снега» не претендует на исследование внутренних переживаний своих персонажей, да и не успевает: слишком быстро они отправляются на тот свет.","[снега, байона, андах, фильмакатастрофы, режиссер, фильма, выживания, обзор, фото, условиях, той, событиям, общество, реальным, жуткого]"
46,https://rbclife.ru/news/659ced379a794715527437d4,"Netflix снял ремейк фильма «Один день» с Хэтэуэй и Стерджессом.\n14-серийный сериал выйдет 8 февраля Netflix выпустит ремейк фильма «Один день» с Хэтэуэй и Стерджессом 8 февраля СлушатьКадр из трейлера к сериалу «Один день» Фото: Rotten Tomatoes TV / YouTubeСтриминговый сервис Netflix представил трейлер ремейка популярной мелодрамы «Один день», который выйдет в формате сериала из 14 эпизодов уже 8 февраля.\nПремьера одноименного фильма с Энн Хэтэуэй и Джимом Стерджессом в главных ролях состоялась почти 13 лет назад, 8 августа 2011 года.\nКадр из трейлера к сериалу «Один день» Фото: Rotten Tomatoes TV / YouTubeРежиссером мелодрамы 2011 года выступила Лоне Шерфиг («Воспитание чувств»).\nПомимо Энн Хэтэуэй и Джима Стерджесса, в картине снялись Патриша Кларксон, Том Мисон, Джоди Уиттакер, Тим Ки, Рейф Сполл и другие.","[фильма, ремейк, февраля, 8, снял, стерджессом, фото, tv, трейлер, netflix, фильм, роль, хэтэуэй]"
