## NFP -> Python

## Занятие 3. Парсинг сайтов. Beautifulsoup

### План занятия

 - Что такое Beautifulsoup, для чего нужен
 - Простая структура HTML-сайтов
 - Как грабить сайты (библиотеки и для чего они нужны)
 - Средства браузера для исследования страницы
 - Тренировка на кошках
 - Методы Beautifulsoup
 - Разбор структуры сайта nfp2b.ru
 - Парсим опубликованные новости
 - Домашнее задание

#### Что такое Beautifulsoup, для чего нужен

<b>BeautifulSoup</b> — это библиотека Python для извлечения данных из файлов HTML и XML. Она работает со множеством различных парсеров, чтобы дать  естественные способы навигации, поиска и изменения дерева разбора. Обычно экономит программистам часы и дни работы.

#### Простая структура HTML-сайтов

Разберем пример простой html-страницы

------------------------------------------------------------------

<html>
    <head>
        <title>
            Cтраница на HTML
        </title>
    </head>
    <div class = 'class1'>
        <h1>Hello</h1>
    <div>
    <body>
        <h1>
            Заголовок "h1"
        </h1>
        <h2>
            Заголовок "h2"
        </h2>
        <ul>
            <li>
                <a href="https://yandex.ru">
                    Первая ссылка
                </a>
            </li>
            <li>
                <a href="https://nfp2b.ru">
                    Вторая ссылка
                </a>
            </li>
        </ul>
    </body>
</html>

--------------------------------------------------------------------
Элементы HTML являются строительными блоками HTML страниц. С помощью HTML разные конструкции, изображения и другие объекты, такие как интерактивная веб-форма, могут быть встроены в отображаемую страницу. HTML предоставляет средства для создания заголовков, абзацев, списков, ссылок, цитат и других элементов. Элементы HTML выделяются тегами, записанными с использованием угловых скобок. Такие теги, как "img" и "input", напрямую вводят контент на страницу. Другие теги, такие как "p", окружают и оформляют текст внутри себя и могут включать другие теги в качестве подэлементов. Браузеры не отображают HTML-теги, но используют их для интерпретации содержимого страницы.

Содержимое гипертекстовой разметки образует объектную модель документа (DOM) - структурированную иерархию узлов разных уровней со связями "родитель"-"ребенок". Приведеный выше пример может быть представлен в виде следующей иерархии узлов:


---------------------------------------------------------------------
<IMG SRC=L3-04.png></IMG>

<b>И в терминах "родитель-ребенок":</b>

<IMG SRC=L3-02.png></IMG>

----------------------------------------------------------------

## Как грабить сайты

<b>Библиотека Requests</b> предоставляет возможность управления HTTP-запросами при помощи языка Python. Инструментарий библиотеки широкий и рассчитан на все случаи взаимодействия с web-приложениями. Код, написанный с применением Requests, не является громоздким, легко читается, а функции и методы наглядно настраиваются под специфические нужды.

<b>Библиотека lxml</b> это быстрая и гибкая библиотека для обработки разметки XML и HTML на Python. Кроме того, в ней присутствует возможность разложения элементов документа в дерево

<b>Библиотека BeautifulSoup</b> — это библиотека Python для извлечения данных из файлов HTML и XML. Она работает со множеством различных парсеров, чтобы дать  естественные способы навигации, поиска и изменения дерева разбора. Обычно экономит программистам часы и дни работы.

<IMG src="L3-05.png"></IMG>

In [10]:
import lxml
from bs4 import BeautifulSoup as bs

In [27]:
html = bs('<h1> Заголовок1 </h1> <ul><li>маркер1 <li>маркер2', 'lxml')

In [28]:
print(html)

<html><body><h1> Заголовок1 </h1> <ul><li>маркер1 </li><li>маркер2</li></ul></body></html>


In [42]:
print(html.findAll('li'))

[<li>маркер1 </li>, <li>маркер2</li>]


In [44]:
for i in html.findAll('li', {'class':'class1'}):
    print(i['class'])

маркер1 
маркер2


------------------------------------------------------------
## Средства браузера для исследования страницы

Любой современный веб-браузер сегодня имеет набор встроенных инструментов разработчика. Для их включения вы можете использовать <b>Ctrl+Shift+I</b>, <b>CMD+Option+I</b> (macOS), <b>кнопку F12</b> или просто найдите нужную опцию в меню браузера — это зависит от операционной системы и браузера, которые вы используете.

------------------------------------------------------------------------------------


### Попрактикуемся

Парсить HTML мы будем при помощи библиотек requests, BeautifulSoup и парсера lxml.

Установка библиотек при помощи pip:

* pip3 install beautifulsoup4
* pip3 install lxml
* pip3 install requests

In [3]:
import lxml
from bs4 import BeautifulSoup as bs

In [4]:
html = bs('<h1> Заголовок1 </h1> <ul><li>маркер1 <li>маркер2', 'lxml')

In [5]:
print(html)

<html><body><h1> Заголовок1 </h1> <ul><li>маркер1 </li><li>маркер2</li></ul></body></html>


------------------------------------------------------------------------------------
## Атрибуты и Методы Beautifulsoup (основные)

<b>Атрибуты:</b>
 - .children - все дочерние элементы (итератор)
 - .parent   - родительский элемент
 - .descendants - рекурсивный список всех элементов (итератор)
 - .text - совокупность текстовых элементов внутри иерархии элемента
 - .next_sibling - следующий элемент того же уровня
 - .previous_sibling - предыдущий элемент того же уровня

<b>Методы:</b>
 - .find() - ищет первый попавшийся элемент, соответствующий отбору
 - .findAll() - ищет все элементы, соответствующие отбору

<b>Примеры аргументов функций find*:</b>

 - ('li') - найти первый / все элементы <b>li</b>
 - ('div', {'class': 'dft1', 'alt': 'первый'}) - найти первый / все элементы <b>div</b>, у которых атрибут class = dft1 и аттрибут alt = первый
 - (attrs={'class': 'dft1'}) - найти первый / все элементы, у которых атрибут class = dft1

In [45]:
import requests
import lxml
from bs4 import BeautifulSoup as bs

In [46]:
html_text = requests.get('https://market.yandex.ru/')

In [None]:
print(html_text.text)

In [49]:
soup = bs(html_text.text, 'lxml')

In [50]:
links = soup.findAll('div', {'class':'_1FLh8'})

In [53]:
for i in links:
    print(i.a['href'])

/catalog/22493291/list?rs=eJwzUvdS5hLzCYv3y3EMjAqP0q3I8680tbBMMvF3FOI0NbUwNDc0MDNPYAQA4J0KOg%2C%2C&tcl=1
/catalog/22493285/list?rs=eJwzUvdS5hILck9MNXSNMHJzLfWsSjE2C3cqM811FOK0NDMyMDUwMDNPYAQA2jUKFw%2C%2C&tcl=1
/catalog/22493287/list?rs=eJwzUvdS5hIzyYkKyimvdE_JiK8w9kmziKjQNTQoF-I0M7cwtDAyMDZOYAQA7f8KvQ%2C%2C&tcl=1
/catalog/22493294/list?rs=eJwz0vBS4RLzdzZ3c4n0Ts_3cw_LzSs1KvAxcykKFOIyNDExNzEwNjE2T2AEAOr1Cp4%2C&tcl=1
/catalog/22493292/list?rs=eJwzUvdS5hILCysqzfLPSUos8DAvLPFO9Tcz8wpzFOK0sDQ1Njc0MDVMYAQA8mkK1Q%2C%2C&tcl=1
/catalog/22493289/list?rs=eJwz0vBS4RIr8zGrys-PKKzIMXAuL08vCqws9YpyFOIyNDE0sTC1MDEyTmAEAAwmC8k%2C&tcl=1


## Парсим сайт nfp2b.ru

In [54]:
import requests
import lxml
from bs4 import BeautifulSoup as bs

In [55]:
#получим сырой текст html
html_text = requests.get('https://nfp2b.ru/news/')

In [56]:
#сварим суп - получим упорядоченную структуру тегов
soup = bs(html_text.text, 'lxml') 

In [57]:
#найдем все новости
news = soup.findAll('div', {'class': 'news-card__content'})

In [68]:
#цикл по новостям
#выведем заголовок новости и дату публикации, ссылку на новость
for i in news:
    #print()
    print(i.ul.li.next_sibling.next_sibling.span.text, i.a.text, i.a['href'])

10.06.2022 Офис NFP вошел в ТОП-50 по версии RAEX https://nfp2b.ru/2022/06/10/ofis-nfp-voshel-v-top-50-po-versii-raex/
08.06.2022 Предстоящие вебинары и курсы офиса NFP в июне https://nfp2b.ru/2022/06/08/predstoyashhie-vebinary-i-kursy-ofisa-nfp-v-iyune/
02.06.2022 Стартует курс по Казначейству и управлению закупками в 1С:УХ 8 https://nfp2b.ru/2022/06/02/startuet-kurs-po-kaznachejstvu-i-upravleniyu-zakupkami-v-1s-uh-8/
26.05.2022 Базовые принципы настройки и работы с инструментами контролей документа «Заявка на оплату» в конфигурации «1С: Управление холдингом» https://nfp2b.ru/2022/05/26/bazovye-printsipy-nastrojki-i-raboty-s-instrumentami-kontrolej-dokumenta-zayavka-na-oplatu-v-konfiguratsii-1s-upravlenie-holdingom/
17.05.2022 Настройка списка бюджетных отчетов в 1С:ERP https://nfp2b.ru/2022/05/17/nastrojka-spiska-byudzhetnyh-otchetov-v-1s-erp/
13.05.2022 Предстоящие вебинары офиса NFP в мае https://nfp2b.ru/2022/05/13/predstoyashhie-vebinary-ofisa-nfp-v-mae/
05.05.2022 Применение ФСБ

In [72]:
#получим сырой текст html
html_text = requests.get('https://nfp2b.ru/news/')
#сварим суп - получим упорядоченную структуру тегов
soup = bs(html_text.text, 'lxml') 

pages = soup.findAll('a', {'class': 'page larger'})

for i in pages:
    print(i['title'])
    #получаем ссылку станицы
    page = i['href']
    #получим сырой текст html
    html_text = requests.get(page)
    #сварим суп - получим упорядоченную структуру тегов
    soup = bs(html_text.text, 'lxml')
    #найдем все новости
    news = soup.findAll('div', {'class': 'news-card__content'})
    
    #цикл по новостям
    #выведем заголовок новости и дату публикации, ссылку на новость
    for i in news:
        print(i.ul.li.next_sibling.next_sibling.span.text, i.a.text, i.a['href'])
    

Страница 2
18.01.2022 О регламентных операциях и закрытии периода в 1С: Управление холдингом и 1С:ERP Управление холдингом https://nfp2b.ru/2022/01/18/o-reglamentnyh-operatsiyah-i-zakrytii-perioda/
11.01.2022 Решение от офиса NFP оптимизировало затраты на логистику в компании Coca-Cola https://nfp2b.ru/2022/01/11/reshenie-ot-ofisa-nfp-optimizirovalo-zatraty-na-logistiku-v-kompanii-coca-cola/
24.12.2021 Регистрация первичных документов на платформе PIX с помощью программного робота https://nfp2b.ru/2021/12/24/registracia-pervichnih-documentov-pix/
24.12.2021 Формирование справки 2-НДФЛ с помощью робота на платформе PIX https://nfp2b.ru/2021/12/24/formirovanie-spravki-2-ndfl-s-pomoshhyu-robota-na-platforme-pix/
09.12.2021 Стажировка школьников в офисе NFP https://nfp2b.ru/2021/12/09/stazhirovka-shkolnikov-v-ofise-nfp/
11.11.2021 Стартует курс по Бюджетному контролю в прикладном решении 1C: ERP. Управление Холдингом 8 https://nfp2b.ru/2021/11/11/startuet-kurs-po-byudzhetnomu-kontrolyu-v-p

## Домашка!

Распарсить котировки с главной страницы Яндекс. Результат вывести в виде последовательности строк вида:

[Тикер] [Дата] [Курс] [Изменение] [Комментарий: заголовок диаграммы при переходе по ссылке]

<b>Пример:</b>

[USD ЦБ] [18 июня] [56,71] [-0,16] [Динамика курса доллара США к рублю (USD, ЦБ РФ)]

<b>Опционально:</b>
 - Решение сдать в виде pull-request в git

In [23]:
import requests
import lxml
import time
from bs4 import BeautifulSoup as bs

In [24]:
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.160 YaBrowser/22.5.2.615 Yowser/2.5 Safari/537.36'}

In [25]:
html_text = requests.get('https://yandex.ru/', headers=headers)

In [26]:
soup = bs(html_text.text, 'lxml')

In [27]:
quotes = soup.find('div', {'class':'widget__content stocks__content'})

In [28]:
for i in quotes.children:
    page_html = requests.get(i['href'], headers=headers)
    soup_page = bs(page_html.text, 'lxml')
    quote_block = soup_page.find('h1', {'class':'news-stocks__title'})
    quote_header = quote_block.text
    for j in i.children:
        for t in j.children:
            for k in t.children:
                print("[" + k.text + "]", end = ' ')
    print("[" + quote_header + "]")
    time.sleep(90)

[USD ЦБ] [25 июня] [53,32 ₽] [Динамика курса доллара США к рублю (USD, ЦБ РФ)]
[EUR ЦБ] [25 июня] [55,96 ₽] [Динамика курса евро к рублю (EUR, ЦБ РФ)]
[USD MOEX] [24 июня] [53,40 ₽] [−0,07] [Динамика курса доллара США к рублю (USDTOM_UTS, MOEX)]
[EUR MOEX] [24 июня] [56,07 ₽] [−0,13] [Динамика курса евро к рублю (EURTOM_UTS, MOEX)]
[Нефть] [24 июня] [113,89 $] [+1,63%] [Динамика цен на фьючерсный контракт на нефть Brent (MOEX, USD
    за баррель)]


## Путин и котики

In [79]:
html_text = requests.get('https://newssearch.yandex.ru/news/search?text=котики')

In [80]:
soup = bs(html_text.text, 'lxml')

In [81]:
news = soup.findAll('h2', {'class':'news-search-story__title'})

for i in news:
    print(i.a.text)

Полу Маккартни исполнилось 80 лет
20 фотографий турецких котов, которые живут счастливее, чем вы
Почему котики «чирикают»
В Ясногорске пожарные спасли застрявшего на балконе кота
Петербургские зоозащитники приняли на попечение 13 кошек из Мариуполя
На выставке электротранспорта в Беларуси показали десятки экологичных машин
Коррида тщеславия: Пенелопа Крус и Антонио Бандерас в комедии «Главная роль»
Международные летние университетские игры пройдут в Екатеринбурге в 2023 году
Телескоп от НАСА изучит состав темной материи в нашей галактике
Кот Мостик стал символом крымского стенда на ПМЭФ


## Что посмотреть дополнительно

https://disk.yandex.ru/d/IC1zeuQrlGvoVw