### Web-scraping

Мы уже немного познакомились со структурой html-файлов, теперь попробуем выгрузить информацию из реальной страницы, а точнее, с реального сайта [nplus1.ru]().

Наша задача: выгрузить недавние новости в датафрейм pandas, чтобы потом сохранить все в csv-файл.

Сначала сгрузим весь html-код страницы и сохраним его в отдельную переменную. Для этого нам понадобится библиотека `requests`. Импортируем её:

In [1]:
import requests

Сохраним ссылку на главную страницу сайта в переменную `url` для удобства и выгрузим страницу. (Разумеется, это будет работать при подключении к интернету. Если соединение будет отключено, Python выдаст `NewConnectionError`).

In [2]:
url = 'https://nplus1.ru/' # сохраняем
page = requests.get(url) # загружаем страницу по ссылке

Если мы просто посмотрим на объект, ничего особенного мы не увидим:

In [4]:
page  # response 200 - страница загружена

<Response [200]>

Импортируем функцию `BeautifulSoup` из библиотеки `bs4` (от *beautifulsoup4*) и заберём со страницы page код html в виде текста.

In [5]:
from bs4 import BeautifulSoup  # не спрашивайте, почему BeautifulSoup

In [6]:
soup = BeautifulSoup(page.text)

Если выведем `soup` на экран, мы увидим то же самое, что в режиме разработчика или в режиме происмотра исходного кода (*view-source* через *Ctrl+U* в Google Chrome).

In [7]:
soup

<!DOCTYPE html>
<html class="no-js bg-fixed" lang="" style="background-image:url(https://nplus1.ru/images/2020/03/06/c46b2174e1faa49509920b7877555fc6.jpg)">
<head>
<meta charset="utf-8"/>
<meta content="ie=edge" http-equiv="x-ua-compatible"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="apple-touch-icon.png" rel="apple-touch-icon"/>
<meta content="yes" name="apple-mobile-web-app-capable"/>
<meta content="black" name="apple-mobile-web-app-status-bar-style"/>
<link href="https://nplus1.ru" rel="canonical"/>
<title>N+1: научные статьи, новости, открытия</title>
<!-- for Google -->
<meta content="N+1: научные статьи, новости, открытия" name="description"/>
<meta content="" name="author"/>
<meta content="" name="copyright"/>
<!-- for Facebook -->
<meta content="N+1: научные статьи, новости, открытия" property="og:title"/>
<meta content="https://nplus1.ru/i/logo.png" property="og:image"/>
<meta content="https://nplus1.ru" property="og:url"/>
<meta content

Для просмотра выглядит не очень удобно. «Причешем» наш `soup` – воспользуемся методом `.prettify()` в сочетании с функцией `print()`.

In [None]:
print(soup.prettify())

В такой выдаче ориентироваться гораздо удобнее (но при желании, то же можно увидеть в браузере, на большом экране).

Чтобы сгрузить все новости с главной страницы сайта, нужно собрать все ссылки на страницы с этими новостями. Ссылки в html-файле всегда заключены в тэг `<a></a>` и имеют атрибут `href`. Посмотрим на кусочки кода, соответствующие всем ссылкам на главной странице сайта:

In [8]:
for link in soup.find_all('a'):
    print(link.get('href'))

#
/
#
#
/rubric/astronomy
/rubric/physics
/rubric/biology
/rubric/robots-drones
/theme/explainatorium
/theme/bookshelf
/theme/Courses
/theme/coronavirus-history
/
#
/rubric/astronomy
/rubric/physics
/rubric/biology
/rubric/robots-drones
#
/theme/explainatorium
/theme/bookshelf
/theme/Courses
/theme/coronavirus-history
https://nplus1.ru/blog/2020/03/04/iventor-of-pareiasaurus
https://nplus1.ru/blog/2020/03/04/iventor-of-pareiasaurus
https://nplus1.ru/blog/2020/02/27/diamond-princess
https://nplus1.ru/blog/2020/02/26/discoveries-that-changed-medicine
https://nplus1.ru/blog/2020/02/20/epic-first-mission-to-pluto
https://nplus1.ru/blog/2020/02/17/3comma5-six/
https://nplus1.ru/blog/2020/02/17/hanky-panky-one
https://nplus1.ru/blog/2020/02/14/essential
https://nplus1.ru/blog/2020/02/13/age-of-conquests
https://nplus1.ru/blog/2020/02/11/the-life-and-times-of-black-holes
https://nplus1.ru/blog/2020/03/06/death-from-the-skies
/news/2020/03/10/hyenasfail
/news/2020/03/10/vulnerable-robots
/news

Ссылок много. Но нам нужны только новости – ссылки, которые начинаются со слова `/news`. Добавим условие: будем выбирать только те ссылки, в которых есть `/news`. Создадим пустой список `urls` и будем добавлять в него только ссылки, которые удовлетворяют этому условию.

In [9]:
urls = []

for link in soup.find_all('a'):
    if '/news' in link.get('href'):
        urls.append(link.get('href'))
urls

['/news/2020/03/10/hyenasfail',
 '/news/2020/03/10/vulnerable-robots',
 '/news/2020/03/10/gabapentin',
 '/news/2020/03/10/liquid-crystal-chaos',
 '/news/2020/03/10/soryu',
 '/news/2020/03/10/dispatcher',
 '/news/2020/03/09/names-for-Bennu',
 '/news/2020/03/09/solar',
 '/news/2020/03/09/IgEclass-switch',
 '/news/2020/03/08/longest-microwave-quantum-link',
 '/news/2020/03/07/waymo-the-fifth',
 '/news/2020/03/07/oldovan-acheulian',
 '/news/2020/03/07/lend-a-robohand',
 '/news/2020/03/07/lettucefine',
 '/news/2020/03/06/memoryreplay',
 '/news/2020/03/06/caffeinated-creativity',
 '/news/2020/03/06/benzene',
 '/news/2020/03/06/msc-vs-cov',
 '/news/2020/03/06/tomahawk',
 '/news/2020/02/28/joker',
 '/news/2020/03/10/liquid-crystal-chaos',
 '/news/2020/03/06/benzene',
 '/news/2020/03/03/praseodymium-superhydrides',
 '/news/2020/03/06/memoryreplay',
 '/news/2020/03/02/volcanoes',
 '/news/2020/03/09/IgEclass-switch',
 '/news/2020/03/08/longest-microwave-quantum-link',
 '/news/2020/03/05/honeywell

Ссылки, которые у нас есть в списке `urls`, относительные: они неполные, начало ссылки (название сайта) отсутствует. Давайте превратим их в абсолютные – склеим с ссылкой https://nplus1.ru.

In [10]:
full_urls = ['https://nplus1.ru' + u for u in urls]
full_urls

['https://nplus1.ru/news/2020/03/10/hyenasfail',
 'https://nplus1.ru/news/2020/03/10/vulnerable-robots',
 'https://nplus1.ru/news/2020/03/10/gabapentin',
 'https://nplus1.ru/news/2020/03/10/liquid-crystal-chaos',
 'https://nplus1.ru/news/2020/03/10/soryu',
 'https://nplus1.ru/news/2020/03/10/dispatcher',
 'https://nplus1.ru/news/2020/03/09/names-for-Bennu',
 'https://nplus1.ru/news/2020/03/09/solar',
 'https://nplus1.ru/news/2020/03/09/IgEclass-switch',
 'https://nplus1.ru/news/2020/03/08/longest-microwave-quantum-link',
 'https://nplus1.ru/news/2020/03/07/waymo-the-fifth',
 'https://nplus1.ru/news/2020/03/07/oldovan-acheulian',
 'https://nplus1.ru/news/2020/03/07/lend-a-robohand',
 'https://nplus1.ru/news/2020/03/07/lettucefine',
 'https://nplus1.ru/news/2020/03/06/memoryreplay',
 'https://nplus1.ru/news/2020/03/06/caffeinated-creativity',
 'https://nplus1.ru/news/2020/03/06/benzene',
 'https://nplus1.ru/news/2020/03/06/msc-vs-cov',
 'https://nplus1.ru/news/2020/03/06/tomahawk',
 'htt

Теперь наша задача сводится к следующему: изучить одну страницу с новостью, научиться из нее вытаскивать текст и всю необходимую информацию, а потом применить весь набор действий к каждой ссылке из `full_urls` в цикле. Посмотрим на новость с индексом 1, у вас может быть другая, новости обновляются.

In [11]:
url0 = full_urls[1]
page0 = requests.get(url0)
soup0 = BeautifulSoup(page0.text, 'lxml')

В коде каждой страницы с новостью есть часть с мета-информацией: датой, именем автора и проч. Такая информация окружена тэгом `<meta></meta>`. Посмотрим:

In [12]:
soup0.find_all('meta')

[<meta charset="utf-8"/>,
 <meta content="ie=edge" http-equiv="x-ua-compatible"/>,
 <meta content="width=device-width, initial-scale=1" name="viewport"/>,
 <meta content="yes" name="apple-mobile-web-app-capable"/>,
 <meta content="black" name="apple-mobile-web-app-status-bar-style"/>,
 <meta content="2020-03-10" itemprop="datePublished"/>,
 <meta content="Григорий Копиев" name="mediator_author"/>,
 <meta content="Люди в группах с таким роботом говорят чаще и ведут себя позитивнее" name="description"/>,
 <meta content="Григорий Копиев" name="author"/>,
 <meta content="" name="copyright"/>,
 <meta content="Выражающий эмоции робот помог людям наладить общение друг с другом" property="og:title"/>,
 <meta content="https://nplus1.ru/images/2020/03/10/f926a47d919c9f0a10b0619a5497d931.jpg" property="og:image"/>,
 <meta content="https://nplus1.ru/news/2020/03/10/vulnerable-robots" property="og:url"/>,
 <meta content="Люди в группах с таким роботом говорят чаще и ведут себя позитивнее" property=

Из этого списка нам нужны части с именем автора, датой, заголовком и кратким описанием. Воспользуемся поиском по атрибуту `name`. Передадим методу `findAll()` в качестве аргумента словарь с названием и значением атрибута:

In [13]:
soup0.findAll('meta', {'name' : 'author'}) # например, автор

[<meta content="Григорий Копиев" name="author"/>]

Теперь выберем единственный элемент полученного списка (с индексом 0):

In [14]:
soup0.findAll('meta', {'name' : 'author'})[0]

<meta content="Григорий Копиев" name="author"/>

Как получить отсюда `content`? Очень просто, ведь этот объект внутри похож на словарь! А доставать из словаря значение по ключу мы умеем.

In [15]:
author = soup0.findAll('meta', 
                        {'name' : 'author'})[0]['content']
author

'Григорий Копиев'

Аналогичным образом извлечем дату, заголовок и описание.

In [16]:
date = soup0.findAll('meta', 
                      {'itemprop' : 'datePublished'})[0]['content']
title = soup0.findAll('meta', 
                       {'property' : 'og:title'})[0]['content']
description = soup0.findAll('meta', 
                             {'name' : 'description'})[0]['content']

Осталось вытащить рубрики и сложность текста. Если мы посмотрим на исходный код страницы, мы увидим, что нужная нам информация находится в тэгах `<p></p>`:

In [17]:
soup0.findAll('p')

[<p class="table">
 <a data-rubric="robots-drones" href="/rubric/robots-drones">Роботы и дроны</a>
 <a data-rubric="psychology" href="/rubric/psychology">Психология</a>
 </p>, <p class="table">
 <a href="/news/2020/03/10">
 <time content="2020-03-10" data-unix="1583845982" itemprop="datePublished">
 <span>16:13</span>
 <span>10 Март 2020</span>
 </time>
 </a>
 </p>, <p class="table">
 <a href="/difficult/3.2">
 <span>Сложность</span>
 <span class="difficult-value">3.2</span>
 </a>
 </p>, <p class="title"></p>, <p class="credits">Margaret Traeger et al. / PNAS, 2020</p>, <p>Американские исследователи проверили, как поведение робота в группе с людьми влияет на их общее взаимодействие при выполнении задач. Выяснилось, что в группах с роботами, признающими свои ошибки и выражающих эмоции, взаимодействие налаживается на более высоком уровне, чем в случае с молчаливыми или нейтральными роботами. Статья <a href="https://www.pnas.org/content/early/2020/03/03/1910402117" rel="nofollow" target="

Выберем из полученного списка первый элемент и найдем в нем все тэги `<a>`:

In [18]:
soup0.findAll('p')[0].findAll('a')

[<a data-rubric="robots-drones" href="/rubric/robots-drones">Роботы и дроны</a>,
 <a data-rubric="psychology" href="/rubric/psychology">Психология</a>]

Получился список из одного элемента. Применим списковые включения – вытащим из каждого элемента (их могло бы быть больше) текст и поместим его в новый список `rubrics`.

In [19]:
rubrics = [r.text for r in soup0.findAll('p')[0].findAll('a')]
rubrics

['Роботы и дроны', 'Психология']

In [20]:
soup0.findAll('span', {'class' : 'difficult-value'})

[<span class="difficult-value">3.2</span>]

И выберем оттуда текст.

In [21]:
diff = soup0.findAll('span', 
                      {'class' : 'difficult-value'})[0].text
diff

'3.2'

Теперь перейдем к тексту самой новости. Как можно заметить, текст сохранен в абзацах `<p></p>`, причем безо всяких атрибутов. Сообщим Python, что нас интересуют куски с пустым атрибутом `class`:

In [22]:
text_list = soup0.findAll('p', {'class' : None})

«Выцепим» все тексты (без тэгов) из полученного списка:

In [23]:
text = [t.text for t in text_list] 

Склеим все элементы списка `text` через пробел:

In [24]:
final_text = ' '.join(text)
final_text

'Американские исследователи проверили, как поведение робота в\xa0группе с\xa0людьми влияет на\xa0их\xa0общее взаимодействие при выполнении задач. Выяснилось, что в\xa0группах с\xa0роботами, признающими свои ошибки и выражающих эмоции, взаимодействие налаживается на\xa0более высоком уровне, чем в\xa0случае с\xa0молчаливыми или нейтральными роботами. Статья опубликована в\xa0журнале Proceedings of\xa0the National Academy of\xa0Sciences. Важную часть исследований в\xa0области робототехники составляет не\xa0разработка новых технологий, а\xa0изучение особенностей взаимодействия людей с\xa0роботами. Эти исследования зачастую приводят к\xa0контринтуитивным результатам, таким как эффект «зловещей долины», или выясняется, к примеру, что люди предпочитают роботов, совершающих ошибки. Кроме того, исследования также показывают, что доверие к\xa0роботам и\xa0их\xa0привлекательность коррелируют с\xa0тем, как они объясняют свои действия и\xa0объясняют\xa0ли вообще. Группа ученых из\xa0Йельского униве

Все здорово, только мешают отступы-переходы на новую строку `\n`. Заменим их на пробелы с помощью метода `.replace`:

In [25]:
final_text = final_text.replace('\n', ' ')

Не прошло и двух пар, как мы разобрались со всем :) Теперь осталось совсем чуть-чуть. Написать готовую функцию для всех проделанных нами действий и применить её в цикле для всех ссылок в списке `full_urls`. Напишем! Аргументом функции будет ссылка на новость, а возвращать она будет текст новости и всю необходимую информацию (дата, автор, сложность и проч.). Скопируем все строки кода выше.

In [None]:
def GetNews(url0):
    """
    Returns a tuple with url0, date, 
    author, description, title, 
    final_text, rubrics, diff.
    
    Parameters:
    
    url0 is a link to the news (string)
    """
    page0 = requests.get(url0)
    soup0 = BeautifulSoup(page0.text, 'lxml')
    author = soup0.findAll('meta', 
                            {'name' : 'author'})[0]['content']
    date = soup0.findAll('meta', 
                          {'itemprop' : 'datePublished'})[0]['content']
    title = soup0.findAll('meta', 
                           {'property' : 'og:title'})[0]['content']
    description = soup0.findAll('meta', 
                                 {'name' : 'description'})[0]['content']
    rubrics = [r.text for r in soup0.findAll('p')[0].find_all('a')]
    diff = soup0.findAll('span', {'class' : 'difficult-value'})[0].text
    text_list = soup0.findAll('p', {'class' : None})
    text = [t.text for t in text_list]
    final_text = ' '.join(text)
    final_text = final_text.replace('\n', ' ')
    
    return url0, date, author, description, title, final_text, rubrics, diff