Программа повышения квалификации (научно-педагогических) работников НИУ ВШЭ

# Python для исследователей

*Автор: Алла Тамбовцева, НИУ ВШЭ*  

## Web-scraping: скрэйпинг новостного сайта

Мы уже немного познакомились со структурой html-файлов, теперь попробуем выгрузить информацию из реальной страницы, а точнее, с реального сайта [nplus1.ru](https://nplus1.ru/).

**Наша задача:** выгрузить недавние новости в датафрейм `pandas`, чтобы потом сохранить все в csv-файл.

Сначала сгрузим весь html-код страницы и сохраним его в отдельную переменную. Для этого нам понадобится библиотека `requests`. Импортируем её:

In [1]:
import requests

Сохраним ссылку на главную страницу сайта в переменную `url` для удобства и выгрузим страницу. (Разумеется, это будет работать при подключении к интернету. Если соединение будет отключено, Python выдаст `NewConnectionError`).

In [2]:
url = 'https://nplus1.ru/' # сохраняем
page = requests.get(url) # загружаем страницу по ссылке

Если мы просто посмотрим на объект, мы ничего особенного не увидим:

In [3]:
page  # response 200 - страница загружена

<Response [200]>

Импортируем функцию `BeautifulSoup` из библиотеки `bs4` (от *beautifulsoup4*) и заберём со страницы `page` код html в виде текста. 

In [4]:
from bs4 import BeautifulSoup  # не спрашивайте, почему BeautifulSoup

In [5]:
soup = BeautifulSoup(page.text, 'lxml')

Если выведем `soup` на экран, мы увидим то же самое, что в режиме разработчика или в режиме происмотра исходного кода (`view-source` через *Ctrl+U* в Google Chrome).

In [6]:
# soup

Для просмотра выглядит не очень удобно.  «Причешем» наш `soup` – воспользуемся методом `.prettify()` в сочетании с функцией `print()`.

In [7]:
# print(soup.prettify())

В такой выдаче ориентироваться гораздо удобнее (но при желании, то же можно увидеть в браузере, на большом экране).

Чтобы сгрузить все новости с главной страницы сайта, нужно собрать все ссылки на страницы с этими новостями. Ссылки в html-файле всегда заключены в тэг `<a></a>` и имеют атрибут `href`. Посмотрим на кусочки кода, соответствующие всем ссылкам на главной странице сайта:

In [8]:
for link in soup.find_all('a'):
    print(link.get('href'))

#
/
#
#
/rubric/astronomy
/rubric/physics
/rubric/biology
/rubric/robots-drones
/theme/explainatorium
/theme/bookshelf
/theme/Courses
/theme/coronavirus-history
/
#
/rubric/astronomy
/rubric/physics
/rubric/biology
/rubric/robots-drones
#
/theme/explainatorium
/theme/bookshelf
/theme/Courses
/theme/coronavirus-history
https://nplus1.ru/blog/2020/09/30/in-search-of-constantinople
https://nplus1.ru/blog/2020/09/30/in-search-of-constantinople
https://nplus1.ru/blog/2020/09/28/the-hungry-steppe
https://nplus1.ru/blog/2020/09/24/nobel-prediction
https://nplus1.ru/blog/2020/09/18/formations-of-the-secular
https://nplus1.ru/blog/2020/09/15/the-hidden-history-of-animal-life
https://nplus1.ru/blog/2020/09/11/who-we-are-and-how-we-got-here
https://nplus1.ru/blog/2020/09/10/the-science-of-storytelling
https://nplus1.ru/blog/2020/07/27/the-apocalypse-in-art
https://nplus1.ru/blog/2020/09/02/the-shape-of-a-life
https://nplus1.ru/blog/2020/10/01/october-2020-observations
/news/2020/10/03/biocoronase

Ссылок много. Но нам нужны только новости – ссылки, которые начинаются со слова `/news`. Добавим условие: будем выбирать только те ссылки, в которых есть `/news`. Создадим пустой список `urls` и будем добавлять в него только ссылки, которые удовлетворяют этому условию.

In [9]:
urls = []

for link in soup.find_all('a'):
    if '/news' in link.get('href'):
        urls.append(link.get('href'))
urls

['/news/2020/10/03/biocoronasensor',
 '/news/2020/10/03/capsule',
 '/news/2020/10/03/sand',
 '/news/2020/10/03/reaper',
 '/news/2020/10/03/cygnus-ng14',
 '/news/2020/10/02/venus-phosphine-pioneer-13',
 '/news/2020/10/02/dna-linked-nanoparticles',
 '/news/2020/10/02/social-cocroaches',
 '/news/2020/10/02/seizure-microglia',
 '/news/2020/10/02/delirium-as-simptom-of-COVID-19-in-older-people',
 '/news/2020/10/02/neuro-robot',
 '/news/2020/10/02/acropora-stronghold',
 '/news/2020/10/02/robot-ceiling',
 '/news/2020/10/02/tianwen-1-selfie',
 '/news/2020/10/02/mona-lisa-spolvero',
 '/news/2020/10/02/bolometer-for-cqe',
 '/news/2020/10/02/children-emotion-understanding',
 '/news/2020/10/01/solar-orbiter-mag-results',
 '/news/2020/10/01/homo-head-pain',
 '/news/2020/10/02/neuro-robot',
 '/news/2020/09/29/pet-recycle-chimeric',
 '/news/2020/10/02/bolometer-for-cqe',
 '/news/2020/10/01/inertial-spin-dynamics',
 '/news/2020/09/30/colloidaldiamond',
 '/news/2020/09/29/solid-glass',
 '/news/2020/09/

Ссылки, которые у нас есть в списке `urls`, относительные: они неполные, начало ссылки (название сайта) отсутствует. Давайте превратим их в абсолютные ‒ склеим с ссылкой https://nplus1.ru.

In [10]:
full_urls = []

for u in urls:
    res = 'https://nplus1.ru' + u
    full_urls.append(res) 

full_urls

['https://nplus1.ru/news/2020/10/03/biocoronasensor',
 'https://nplus1.ru/news/2020/10/03/capsule',
 'https://nplus1.ru/news/2020/10/03/sand',
 'https://nplus1.ru/news/2020/10/03/reaper',
 'https://nplus1.ru/news/2020/10/03/cygnus-ng14',
 'https://nplus1.ru/news/2020/10/02/venus-phosphine-pioneer-13',
 'https://nplus1.ru/news/2020/10/02/dna-linked-nanoparticles',
 'https://nplus1.ru/news/2020/10/02/social-cocroaches',
 'https://nplus1.ru/news/2020/10/02/seizure-microglia',
 'https://nplus1.ru/news/2020/10/02/delirium-as-simptom-of-COVID-19-in-older-people',
 'https://nplus1.ru/news/2020/10/02/neuro-robot',
 'https://nplus1.ru/news/2020/10/02/acropora-stronghold',
 'https://nplus1.ru/news/2020/10/02/robot-ceiling',
 'https://nplus1.ru/news/2020/10/02/tianwen-1-selfie',
 'https://nplus1.ru/news/2020/10/02/mona-lisa-spolvero',
 'https://nplus1.ru/news/2020/10/02/bolometer-for-cqe',
 'https://nplus1.ru/news/2020/10/02/children-emotion-understanding',
 'https://nplus1.ru/news/2020/10/01/sol

Теперь наша задача сводится к следующему: изучить одну страницу с новостью, научиться из нее вытаскивать текст и всю необходимую информацию, а потом применить весь набор действий к каждой ссылке из `full_urls` в цикле. Посмотрим на новость с индексом 1, у вас может быть другая, новости обновляются.

In [11]:
url0 = full_urls[1]

page0 = requests.get(url0)
soup0 = BeautifulSoup(page0.text, 'lxml')

В коде каждой страницы с новостью есть часть с мета-информацией: датой, именем автора и проч. Такая информация окружена тэгом `<meta></meta>`. Посмотрим:

In [12]:
soup0.find_all('meta')

[<meta charset="utf-8"/>,
 <meta content="ie=edge" http-equiv="x-ua-compatible"/>,
 <meta content="width=device-width, initial-scale=1" name="viewport"/>,
 <meta content="yes" name="apple-mobile-web-app-capable"/>,
 <meta content="black" name="apple-mobile-web-app-status-bar-style"/>,
 <meta content="2020-10-03" itemprop="datePublished"/>,
 <meta content="Василий Сычев" name="mediator_author"/>,
 <meta content="Масса аппарата составляет 250 граммов" name="description"/>,
 <meta content="Василий Сычев" name="author"/>,
 <meta content="" name="copyright"/>,
 <meta content="Израильтяне представили карманный беспилотник капсульного запуска" property="og:title"/>,
 <meta content="https://nplus1.ru/images/2020/10/03/cef51be39f54abf3beeba9f096816696.jpg" property="og:image"/>,
 <meta content="https://nplus1.ru/news/2020/10/03/capsule" property="og:url"/>,
 <meta content="Масса аппарата составляет 250 граммов" property="og:description"/>,
 <meta content="summary_large_image" name="twitter:card

Из этого списка нам нужны части с именем автора, датой, заголовком и кратким описанием. Воспользуемся поиском по атрибуту `name`. Передадим функции `find_all()` в качестве аргумента словарь с названием и значением атрибута: 

In [13]:
soup0.find_all('meta', {'name' : 'author'}) # например, автор

[<meta content="Василий Сычев" name="author"/>]

Теперь выберем единственный элемент полученного списка (с индексом 0):

In [14]:
soup0.find_all('meta', {'name' : 'author'})[0]

<meta content="Василий Сычев" name="author"/>

Нам нужно вытащить из этого объекта `content` – имя автора. Посмотрим на атрибуты:

In [15]:
soup0.find_all('meta', {'name' : 'author'})[0].attrs

{'name': 'author', 'content': 'Василий Сычев'}

Как получить отсюда `content`? Очень просто, ведь это словарь! А доставать из словаря значение по ключу мы умеем.

In [16]:
author = soup0.find_all('meta', {'name' : 'author'})[0].attrs['content']
author

'Василий Сычев'

Аналогичным образом извлечем дату, заголовок и описание.

In [17]:
date = soup0.find_all('meta', {'itemprop' : 'datePublished'})[0].attrs['content']
title = soup0.find_all('meta', {'property' : 'og:title'})[0].attrs['content']
description = soup0.find_all('meta', {'name' : 'description'})[0].attrs['content']

Осталось вытащить рубрики и сложность текста. Если мы посмотрим на исходный код страницы, мы увидим, что нужная нам информация находится в тэгах `<p></p>`:

In [18]:
soup0.find_all('p')

[<p class="table">
 <a data-rubric="weapon" href="/rubric/weapon">Оружие</a>
 </p>, <p class="table">
 <a href="/news/2020/10/03">
 <time content="2020-10-03" data-unix="1601726322" itemprop="datePublished">
 <span>14:58</span>
 <span>03 Окт. 2020</span>
 </time>
 </a>
 </p>, <p class="table">
 <a href="/difficult/3.1">
 <span>Сложность</span>
 <span class="difficult-value">3.1</span>
 </a>
 </p>, <p class="title">Запуск Ninox 40</p>, <p class="credits">SpearUAV</p>, <p>Израильская компания SpearUAV представила карманный разведывательный беспилотный летательный аппарат Ninox 40. Как <a href="https://www.janes.com/defence-news/news-detail/spearuav-unveils-hand-launched-ninox-40-encapsulated-uas" rel="nofollow" target="_blank">сообщает</a> Jane’s, новый аппарат располагается в цилиндрической капсуле, из которой и осуществляется его запуск. После разведки оператор может подобрать беспилотник и позднее использовать повторно или бросить его.</p>, <p>Сегодня несколько компаний в мире занимаю

Выберем из полученного списка первый элемент и найдем в нем все тэги `<a>`:

In [19]:
soup0.find_all('p')[0].find_all('a')

[<a data-rubric="weapon" href="/rubric/weapon">Оружие</a>]

Получился список из одного элемента. Применим списковые включения – вытащим из каждого элемента (их могло бы быть больше) текст и поместим его в новый список `rubrics`.

In [20]:
rubrics = [r.text for r in soup0.find_all('p')[0].find_all('a')]
rubrics

['Оружие']

Осталась только сложность. Возьмем соответствующий кусок кода:

In [21]:
soup0.find_all('span', {'class' : 'difficult-value'})

[<span class="difficult-value">3.1</span>]

И выберем оттуда текст.

In [22]:
diff = soup0.find_all('span', {'class' : 'difficult-value'})[0].text
diff

'3.1'

Теперь перейдем к тексту самой новости. Как можно заметить, текст сохранен в абзацах `<p></p>`, причем безо всяких атрибутов. Сообщим Python, что нас интересуют куски с пустым атрибутом `class`:

In [23]:
text_list = soup0.find_all('p', {'class' : None})

«Выцепим» все тексты (без тэгов) из полученного списка:

In [24]:
text = [t.text for t in text_list]

Склеим все элементы списка `text` через пробел:

In [25]:
final_text = ' '.join(text)
final_text

'Израильская компания SpearUAV представила карманный разведывательный беспилотный летательный аппарат Ninox\xa040. Как сообщает Jane’s, новый аппарат располагается в\xa0цилиндрической капсуле, из\xa0которой и\xa0осуществляется его запуск. После разведки оператор может подобрать беспилотник и\xa0позднее использовать повторно или бросить его. Сегодня несколько компаний в\xa0мире занимаются разработкой, производством и\xa0поставкой небольших беспилотников, некоторых из\xa0которых без труда можно переносить в\xa0кармане. В\xa0частности, выпуском таких аппаратов\xa0— PD-100 Black Hornet\xa0— занимается американская компания Prox Dynamics. Эти беспилотники созданы для того, чтобы бойцы могли быстро провести разведку местности. Аппарат Ninox 40\xa0разработан для решения нескольких задач, в\xa0числе которых наблюдение, разведка, рекогносцировка и\xa0поиск целей. Ninox 40\xa0представляет собой небольшой квадрокоптер с\xa0убираемыми в\xa0фюзеляж плечами и\xa0воздушными винтами. Беспилотник спосо

Все здорово, только мешают отступы-переходы на новую строку `\n`. Заменим их на пробелы с помощью метода `.replace`:

In [26]:
final_text = final_text.replace('\n', ' ')

Теперь осталось совсем чуть-чуть. Написать готовую функцию для всех проделанных нами действий и применить ее в цикле для всех ссылок в списке `full_urls`. Напишем! Аргументом функции будет ссылка на новость, а возвращать она будет текст новости и всю необходимую информацию (дата, автор, сложность и проч.). Скопируем все строки кода выше.

In [27]:
def GetNews(url0):
    """
    Returns a tuple with url0, date, author, description, title, final_text, rubrics, diff.
    Parameters:
    
    url0 is a link to the news (string)
    """
    page0 = requests.get(url0)
    soup0 = BeautifulSoup(page0.text, 'lxml')
    author = soup0.find_all('meta', {'name' : 'author'})[0].attrs['content']
    date = soup0.find_all('meta', {'itemprop' : 'datePublished'})[0].attrs['content']
    title = soup0.find_all('meta', {'property' : 'og:title'})[0].attrs['content']
    description = soup0.find_all('meta', {'name' : 'description'})[0].attrs['content']
    rubrics = [r.text for r in soup0.find_all('p')[0].find_all('a')]
    diff = soup0.find_all('span', {'class' : 'difficult-value'})[0].text
    text_list = soup0.find_all('p', {'class' : None})
    text = [t.text for t in text_list]
    final_text = ' '.join(text)
    final_text = final_text.replace('\n', ' ')
    
    return url0, date, author, description, title, final_text, rubrics, diff

Уфф. Осталось применить ее в цикле. Но давайте не будем спешить: импортируем функцию `sleep` для задержки, чтобы на каждой итерации цикла, прежде чем перейти к следующей новости, Python ждал несколько секунд. Во-первых, это нужно, чтобы сайт «не понял», чтобы мы его грабим, да еще автоматически. Во-вторых, с небольшой задержкой всегда есть гарантия, что страница прогрузится (сейчас это пока не очень важно, но особенно актуально будет, когда будем обсуждать встраивание в браузер с Selenium). Приступим.

In [28]:
from time import sleep

In [29]:
news = [] # это будет список из кортежей, в которых будут храниться данные по каждой новости

for link in full_urls:
    res = GetNews(link)
    news.append(res)
    sleep(3) # задержка в 3 секунды

Так теперь выглядит первый элемент списка:

In [30]:
news[0]

('https://nplus1.ru/news/2020/10/03/biocoronasensor',
 '2020-10-03',
 'Оксана Борзенкова',
 'без обращения в больницу и всего за несколько минут',
 'Графеновый сенсор позволил сделать экспресс-тест на COVID-19',
 'Ученые создали биосенсор на\xa0основе графена для экспресс-теста на\xa0COVID-19. Такой тест можно делать самостоятельно на\xa0дому и\xa0получить результат меньше чем за\xa0десять минут. Работа опубликована в\xa0журнале Matter. О\xa0наличии вируса и\xa0его влиянии на\xa0организм можно судить по\xa0разным биомаркерам. Например, результатом ответа иммунной системы на\xa0антиген вируса служат антитела, причем для каждого типа вируса организм вырабатывает специфичные антитела. В\xa0зависимости от\xa0стадии заболевания, это могут быть иммуноглобулин\xa0G (IgG) или иммуноглобулин\xa0M (IgM). Другие маркеры\xa0— нуклеокапсидный белок, который играет роль в\xa0сборке новых вирусных частиц и  С-реактивный белок, который показывает тяжесть заболевания. В\xa0настоящее время существует мн

Импортируем `pandas` и создадим датафрейм из списка кортежей: 

In [31]:
import pandas as pd

In [32]:
df = pd.DataFrame(news)

In [33]:
df.head(2)

Unnamed: 0,0,1,2,3,4,5,6,7
0,https://nplus1.ru/news/2020/10/03/biocoronasensor,2020-10-03,Оксана Борзенкова,без обращения в больницу и всего за несколько ...,Графеновый сенсор позволил сделать экспресс-те...,Ученые создали биосенсор на основе графена для...,"[Медицина, Биология, Коронавирусные хроники]",3.9
1,https://nplus1.ru/news/2020/10/03/capsule,2020-10-03,Василий Сычев,Масса аппарата составляет 250 граммов,Израильтяне представили карманный беспилотник ...,Израильская компания SpearUAV представила карм...,[Оружие],3.1


Переименуем столбцы в базе.

In [34]:
df.columns = ['link', 'date', 'author', 'desc', 'title', 'text', 'rubric', 'diffc']

In [35]:
df.head(2)

Unnamed: 0,link,date,author,desc,title,text,rubric,diffc
0,https://nplus1.ru/news/2020/10/03/biocoronasensor,2020-10-03,Оксана Борзенкова,без обращения в больницу и всего за несколько ...,Графеновый сенсор позволил сделать экспресс-те...,Ученые создали биосенсор на основе графена для...,"[Медицина, Биология, Коронавирусные хроники]",3.9
1,https://nplus1.ru/news/2020/10/03/capsule,2020-10-03,Василий Сычев,Масса аппарата составляет 250 граммов,Израильтяне представили карманный беспилотник ...,Израильская компания SpearUAV представила карм...,[Оружие],3.1


Теперь внесем изменения: сделаем столбец `diffc` числовым – типа *float*.

In [43]:
df.to_excel('nplus-news.xlsx')