# Программирование на Python

*Алла Тамбовцева, НИУ ВШЭ*

## Практикум 5. Парсинг с библиотекой BeautifulSoup

Импортируем необходимые библиотеки и функции:

In [1]:
import requests
from bs4 import BeautifulSoup

Подключаемся к главной странице сайта [nplus1.ru](https://nplus1.ru/). 

In [2]:
page = requests.get("https://nplus1.ru/")
page

<Response [200]>

Посмотрим на вид запроса к странице – вызовем атрибут `.raw`:

In [3]:
page.raw

<urllib3.response.HTTPResponse at 0x112870850>

***

### Задание 1

Запросите атрибуты `url` и `text` и сохраните их в переменные `p_url` и `p_text`. 
***

In [4]:
p_url = page.url
p_text = page.text

Теперь подадим исходный код страницы (HTML) на вход функции `BeautifulSoup()`, чтобы превратить его в объект, по которому будет удобно искать информацию по тэгам:

In [5]:
soup = BeautifulSoup(page.text)
# soup

Для примера выполним поиск по какому-нибудь тэгу с помощью метода `.find_all()`. Например, найдём все заголовки третьего уровня:

In [6]:
soup.find_all("h3")

[<h3>Суходревесные термиты около 40 раз пересекли океаны за последние 50 миллионов лет</h3>,
 <h3>Физики напрямую измерили разность фаз слабого взаимодействия у дважды странных барионов</h3>,
 <h3>Археологи разобрались в хронологии испанского памятника с палеолитическим искусством</h3>,
 <h3>Исследователи заподозрили существование собственного словаря у нейросети DALL-E 2</h3>,
 <h3>Астрономы уличили звезды в областях звездообразования в краже планет друг у друга</h3>,
 <h3>Физики поймали в магнитооптическую ловушку многоатомные молекулы</h3>,
 <h3>Премию Кавли присудили за астросейсмологию и самосборку молекулярных монослоев</h3>,
 <h3>Бесконечное число самых прекрасных форм</h3>,
 <h3>Археологи обнаружили на турецком побережье четыре местонахождения с орудиями нижнего палеолита</h3>,
 <h3>Египетский археометаллург воссоздал древний метод полого бронзового литья</h3>,
 <h3>В якутском янтаре возрастом 95 миллионов лет нашли жука-шипоноску и назвали Якутией</h3>,
 <h3>«Индженьюити» сокр

Каждый элемент полученного списка – объект типа «элемент beautifulsoup», в который вложено некоторое содержимое, например, текст или новый код на HTML.

***
### Задание 2

Сохраните полученные выше результаты в список `h3`. Запросите тип первого элемента списка с помощью функции `type()`.

In [7]:
h3 = soup.find_all("h3")
type(h3[0])

bs4.element.Tag

### Задание 3

Найдите все ссылки на странице и сохраните их в список `raw_links`.
*** 

In [8]:
raw_links = soup.find_all("a")

Возьмём ссылку на рубрику *Астрономия* и посмотрим не неё, она пятая в полученном списке:

In [9]:
raw_links[4]

<a class="" href="/rubric/astronomy">Астрономия</a>

С самим тэгом работать не очень интересно, нас интересует его содержимое. Запросим текст внутри тэга:

In [10]:
raw_links[4].text

'Астрономия'

In [None]:
# представление элемента изнутри – как словарь
# a = {"class" : "", "href" : "/rubric/astronomy"}

А теперь извлечём саму ссылку – значение атрибута `href`:

In [11]:
raw_links[4]["href"]

'/rubric/astronomy'

Или так:

In [12]:
raw_links[4].get("href")

'/rubric/astronomy'

Если бы мы захотели вывести все ссылки на экран, нам понадобился бы цикл `for`:

In [13]:
for link in raw_links:
    print(link["href"])

#
/
#
#
/rubric/astronomy
/rubric/physics
/rubric/biology
/rubric/robots-drones
/theme/bookshelf
/theme/Courses
/theme/coronavirus-history
/theme/offline
/
#
/rubric/astronomy
/rubric/physics
/rubric/biology
/rubric/robots-drones
#
/theme/bookshelf
/theme/Courses
/theme/coronavirus-history
/theme/offline
https://nplus1.ru/blog/2022/05/27/prehistoric-planet-forests
https://nplus1.ru/blog/2022/05/27/prehistoric-planet-forests
https://nplus1.ru/blog/2022/05/27/tales-from-the-edge-of-the-self
https://nplus1.ru/blog/2022/05/26/prehistoric-planet-ice-worlds
https://nplus1.ru/blog/2022/05/25/rebel-cell
https://nplus1.ru/blog/2022/05/25/prehistoric-planet-freshwater
https://nplus1.ru/blog/2022/05/24/prehistoric-planet-deserts
https://nplus1.ru/blog/2022/05/23/prehistoric-planet
https://nplus1.ru/blog/2022/05/23/some-assembly-required
https://nplus1.ru/blog/2022/05/19/chemical-laboratory
https://nplus1.ru/blog/2022/05/31/jellyfish-age-backwards
/news/2022/06/01/voyages-of-termites
/news/2022/06

***

### Задание 4

Для дальнейшей работы нам нужны только ссылки на новости, то есть те ссылки, которые начинаются с `/news`. Напишите код, который извлекает из списка `raw_links` только те тэги, которые содержат ссылки на новости, и сохраняет в список `news` сами ссылки в виде текста, без тэгов.

In [14]:
news = []
for link in raw_links:
    if "/news/" in link["href"]:
        news.append(link["href"])

### Задание 5

Ссылки на новости в списке `news` – относительные, по ним нельзя сразу перейти на страницу новости, а значит, нельзя передать Python для дальнейшей работы. Сделайте ссылки абсолютными – доклейте к каждой ссылке в `news` ссылку на главную страницу сайта `https://nplus1.ru` и сохраните полученные результаты в список `links_full`.

***

In [17]:
links_full = ["https://nplus1.ru" + link for link in news]
print(links_full)

['https://nplus1.ru/news/2022/06/01/voyages-of-termites', 'https://nplus1.ru/news/2022/06/01/weak-phase-dif', 'https://nplus1.ru/news/2022/06/01/ardales', 'https://nplus1.ru/news/2022/06/01/it-has-begun', 'https://nplus1.ru/news/2022/06/01/grand-theft-exoplanet', 'https://nplus1.ru/news/2022/06/01/CaOH-in-MOT', 'https://nplus1.ru/news/2022/06/01/kavli2022', 'https://nplus1.ru/news/2022/06/01/lower-paleolithic', 'https://nplus1.ru/news/2022/06/01/egyptian-hollow-casting', 'https://nplus1.ru/news/2022/06/01/yakutia-sukachevae', 'https://nplus1.ru/news/2022/05/31/ingenuity-mars-winter', 'https://nplus1.ru/news/2022/05/31/sofia-r-aqua', 'https://nplus1.ru/news/2022/05/31/askap-strange-signal', 'https://nplus1.ru/news/2022/05/31/grb-binary-ns-to-magnetar', 'https://nplus1.ru/news/2022/05/31/megalodon-extinction', 'https://nplus1.ru/news/2022/05/31/smbh-in-dying-galaxies', 'https://nplus1.ru/news/2022/05/31/frontier', 'https://nplus1.ru/news/2022/05/31/3-days-liver-transplantation', 'https:/

Теперь выберем первую ссылку и напишем код, который будет сгружать информацию о новости по её ссылке. Так как все страницы с новостями на этом сайте строятся по единой схеме, если мы научимся выгружать данные по одной новости, мы сможем повторить это для всех новостей!

In [18]:
my_link = links_full[0]

Подключимся к странице этой новости, выгрузим её исходный код и превратим в объект `BeautifulSoup`:

In [19]:
my_page = requests.get(my_link)
my_soup = BeautifulSoup(my_page.text)

Если мы посмотрим на исходный код страницы, мы заметим, что общая информация по новости хранится в тэгах `<meta>`:

In [20]:
my_soup.find_all("meta")

[<meta charset="utf-8"/>,
 <meta content="ie=edge" http-equiv="x-ua-compatible"/>,
 <meta content="width=device-width, initial-scale=1" name="viewport"/>,
 <meta content="yes" name="apple-mobile-web-app-capable"/>,
 <meta content="black" name="apple-mobile-web-app-status-bar-style"/>,
 <meta content="7991d7eb02d759f05b9050e111a7e3eb" name="wmail-verification"/>,
 <meta content="2022-06-01" itemprop="datePublished"/>,
 <meta content="Семён Морозов" name="mediator_author"/>,
 <meta content="Термиты переплывали океаны в стволах или ветках" name="description"/>,
 <meta content="Семён Морозов" name="author"/>,
 <meta content="" name="copyright"/>,
 <meta content="Суходревесные термиты около 40 раз пересекли океаны за последние 50 миллионов лет" property="og:title"/>,
 <meta content="https://nplus1.ru/images/2022/06/01/62c68c010b4cc8a324e956b5939c4af5.jpg" property="og:image"/>,
 <meta content="https://nplus1.ru/news/2022/06/01/voyages-of-termites" property="og:url"/>,
 <meta content="Термит

Как выбрать только те части, которые нам могут быть интересны? Например, части HTML с автором статьи, датой её публикации, заголовком и кратким содержанием? Выполнить более точный поиск с учётом конкретных атрибутов и их значений. Например, мы видим, что имя автора находится в тэге `<meta>` с атрибутом `name`, равным `mediator_author`:

In [21]:
my_soup.find_all("meta", {"name" : "mediator_author"})

[<meta content="Семён Морозов" name="mediator_author"/>]

Отлично, мы вышли на автора статьи! Только хотелось бы получить его имя в виде «чистого» текста. Извлечём из полученного списка один единственный элемент и заберём из него значение атрибута `content` (вспомните про работу с `href` ранее):

In [22]:
my_soup.find_all("meta", {"name" : "mediator_author"})[0].get("content")

'Семён Морозов'

In [23]:
my_soup.find_all("meta", {"name" : "mediator_author"})[0]["content"] 

'Семён Морозов'

In [24]:
author = my_soup.find_all("meta", 
                 {"name" : "mediator_author"})[0].get("content")

***
### Задание 6

Аналогичным образом извлеките дату публикации новости, заголовок и краткое содержание (описание) новости и сохраните их в переменные `date`, `title`, `desc` соответственно. 

***

In [25]:
# find находит только первое совпадение (актуально, если оно 100% единственное)
# find_all находит все совпадения и всегда возвращает список элементов

date = my_soup.find("meta", 
                 {"itemprop" : "datePublished"})["content"]
title = my_soup.find("title").text
desc = my_soup.find("meta", 
                        {"name" : "description"})["content"] 

Какие ещё характеристики новости нам могут пригодиться (сам текст пока не трогаем)? Время публикации, рубрики и сложность новости. Если пролистаем исходный код до начала самой новости, мы обнаружим перед текстом три таблицы, три абзаца `<p>` с классом `table`. Все они находятся в разделе `<div>` с классом `tables`. 

***
### Задание 7

Извлеките время публикации новости, рубрики и сложность новости и сохраните их в переменные `time`, `rubs`,  `diffc` соответственно.
***

In [26]:
div = my_soup.find("div", {"class" : "tables"})
tabs = div.find_all("p")

rubs_raw = tabs[0].find_all("a")
rubs = [r.text for r in rubs_raw]
rubs_str = ", ".join(rubs)

time = tabs[1].find("span").text
diffc = tabs[2].find("span", {"class" : "difficult-value"}).text

ИТОГИ:

In [27]:
print(author, date, title, desc, sep = "\n")
print(rubs_str, time, diffc, sep = "\n")

Семён Морозов
2022-06-01
Суходревесные термиты около 40 раз пересекли океаны за последние 50 миллионов лет
Термиты переплывали океаны в стволах или ветках
Зоология
21:49
3.6
