# Парсинг данных 

**Web парсинг** -  способ считывания различных данных, расположенных на веб-страницах, для их систематизации и дальнейшего анализа.

Открытые данные часто публикуют в форматах (таких как csv, json, xml), уобоных для загрузки в программы анализа, например: https://www.nalog.gov.ru/opendata/

Но существуют данные, даже открытые, которые доступны только в виде отдельных веб-страниц. Сбор данных с таких страниц становится отдельной задачей. Например:
https://www.gov.uk/find-out-if-a-company-is-in-financial-trouble

Процедуру Web парсинга можно разбить на два этапа:

1. отправка запроса на web-сайт и загрузка исходного кода страницы;
2. извлечение содержимого web-страницы. 


# Библиотека [Beautiful Soup](<https://www.crummy.com/software/BeautifulSoup/bs4/doc/>)


## Тестовый HTML
Намного проще чем реальные веб-страницы.

In [None]:
test = '''
    <html>
        <head><title>Some title</title></head>
        <body>
            <div class="content-box" id="main">
                <h2 align='center'> Some text </h2>
                <h2 align='left'> Another text </h2>
            </div>
            <h2> Last <b>text</b> </h2>
        </body>
    </html>
'''

### Создание объекта `BeautifulSoup`

In [None]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(test, 'html.parser')
soup

### Базовые команды в Beautiful Soup для разбора HTML документа

In [None]:
# тег как объект
print(soup.title)
print(type(soup.title))

In [None]:
# str тега - просто напрямую его текст
soup.div

In [None]:
# тег можно спросить - какой тег?
soup.title.name

In [None]:
# текстовое содержимое тега
soup.title.string

In [None]:
soup.h2

In [None]:
# родитель тега
soup.title.parent

In [None]:
# дети тега
print(type(soup.div.children))
list(soup.div.children)

In [None]:
type(list(soup.div.children)[0])

In [None]:
# аттрибуты тега доступны по имени как по ключу
print(soup.div.id)
soup.div['id']

Что если одинаковых тегов несколько?

In [None]:
soup.div.h2

In [None]:
soup.h2

In [None]:
soup.find_all('h2')

In [None]:
# find_all для удобства можно опостить - просто вызывая тег как функцию
soup('h2')

In [None]:
# какие объекты есть в BeautifulSoup?
type(soup), type(soup.title), type(soup.div.children), type(soup.title.string), type(soup('h2'))

#### 1. найти h2 теги с атрибутом align равным center

In [None]:
soup("h2", align='center')

#### 2. найти h2 теги у которых есть аттрибут align

In [None]:
soup('h2', align=True)

#### 3. извлечь текстовое содержимое тега с разметкой внутри

In [None]:
tag = soup('h2')[2]
tag

In [None]:
print(list(tag.children))

In [None]:
print([c.string for c in tag.children])
print(''.join([c.string for c in tag.children]))

In [None]:
print(tag.get_text())

In [None]:
soup.body

In [None]:
print([c.string for c in soup.body.children])

In [None]:
print(soup.body.string)

In [None]:
soup.body.get_text()

# Рассмотрим реальный HTML документ
В качестве примера возьмем статью из Википедии:  
<https://ru.wikipedia.org/wiki/Дубна>

## Протокол HTTP: библиотека [requests](https://2.python-requests.org/en/latest/)

### Отправляем GET запрос на web-сервер и загружаем HTML

In [None]:
import requests
r = requests.get('https://ru.wikipedia.org/wiki/Дубна')
r

In [None]:
r.status_code

In [None]:
print(type(r.content))

In [None]:
r.content[:1000]

In [None]:
r.text

### Парсим полученный HTML

In [None]:
dubna = BeautifulSoup(r.content, 'html.parser')

In [None]:
print(dubna.prettify()[:10000])

#### Рассмотрим верхний уровень структуры реальной страницы

In [None]:
dubna.children

In [None]:
[type(item) for item in list(dubna.children)]

In [None]:
list(dubna.children)[0]

In [None]:
list(dubna.children)[1]

объект `Doctype` содержит информацию о типе документа

объект `NavigableString` - текст, найденный в документе (между doctype и `<html>`

объект `Tag` - тег `<html>...</html>`

In [None]:
html = list(dubna.children)[2]
html is dubna.html # то же самое, ведь тег html в документе - один

In [None]:
len(list(dubna.html.children))

In [None]:
from bs4 import NavigableString
[
    (
        type(item),
        item if type(item) is NavigableString else item.name
    )
    for item in list(dubna.html.children)
]

In [None]:
body = list(html.children)[3]
body is html.body  # тот же тег, ведь body в документе один

In [None]:
[
    (type(item), item)
    if type(item) is NavigableString else 
    (type(item), item.name, item.get('id'), item.get('class'))
    for item in list(dubna.body.children)
]

#### Извлекаем осноовной текст из статьи

In [None]:
content = dubna.find("div", id='mw-content-text').find("div", class_='mw-parser-output')
print(content.get_text())

In [None]:
first_paragraphs = content('p', recursive=False)[:2]
first_paragraphs

In [None]:
from pprint import pprint
main_info_str = '\n'.join([p.get_text() for p in first_paragraphs])
pprint(main_info_str)

#### Список районов

In [None]:
content.find(text="Внутреннее деление")

In [None]:
content.find(text="Внутреннее деление").parent

In [None]:
cell = content.find(text="Внутреннее деление").parent.find_next_sibling('td')
cell

In [None]:
cell('span')

In [None]:
districts = [s.get_text().strip(',') for s in cell('span')]
districts

#### Таблица климата

In [None]:
climate_data = content.find(id='Климат').find_next('table')
climate_data

In [None]:
climate_data.tr

In [None]:
columns = [th.get_text().strip() for th in climate_data.tr('th')]
columns

In [None]:
import pandas as pd

values = []
for tr in climate_data('tr')[1:-1]:
    td = tr(['th', 'td'])
    row = [tr.text.strip() for tr in td]
    values.append(row)

climate = pd.DataFrame(values, columns=columns)
climate

In [None]:
climate_t = climate.set_index('Показатель').T
climate_t.index.name = 'Период'
climate_t

#### Изображения

In [None]:
thumbs = dubna('div', class_='thumb')
len(thumbs)

In [None]:
srcs = [div.img['src'] for div in thumbs]
srcs

In [None]:
links = ['https:' + src for src in srcs]
links

In [None]:
fnames = [link.split('/')[-1] for link in links]
fnames

In [None]:
cd /content

In [None]:
mkdir -p /content/dubna_images

In [None]:
cd dubna_images

In [None]:
ls

In [None]:
def dwnld_image(url, save_to):
    response = requests.get(url, 
                            allow_redirects=True,
                            headers = 
                            {'User-Agent': f'StudentCode/0.1 requests/{requests.__version__}'}
    )
    print(url, response)
    if response.status_code != 200:
        raise Exception(response.text)
        
    with open(save_to, 'wb') as f:        
        f.write(response.content)

In [None]:
from time import sleep
for l, fn in zip(links, fnames):
    dwnld_image(l, '/content/dubna_images/' + fn)
    sleep(3)

In [None]:
from IPython.display import Image
from pathlib import Path
for fname in Path('/content/dubna_images').glob('*'):
    print(fname)
    display(Image(filename=fname))


In [None]:
from skimage.io import imread_collection

col = imread_collection('/content/dubna_images/*')

In [None]:
import matplotlib.pyplot as plt

for img in col:
    plt.figure()
    plt.imshow(img)
    plt.show()

# Библитотека LXML - еще одна популярная библиотека парсинга HTML, но в первую очередь XML.

Документация подробна, но достаточно сложная для понимания. Например
есть два варианта парсинга html:
*   https://lxml.de/parsing.html#parsing-html
*   https://lxml.de/lxmlhtml.html#parsing-html

In [None]:
from lxml import etree
xml_tree = etree.HTML(test)
xml_tree

In [None]:
from lxml.html import fromstring, parse
html_tree = fromstring(test)
html_tree

In [None]:
type(xml_tree), type(html_tree)

lxml.html - методы специфические для html, лучше использовать его.

# Задание

Вместо Beautiful Soup использовать библиотеку [LXML](https://lxml.de/).

1. найти h2 теги с атрибутом align равным center
2. найти h2 теги у которых есть аттрибут align
3. извлечь текстовое содержимое тега с разметкой внутри
4. извлечь два первых параграфа с текстом из страницы на Википедии
5. извлечь список районов Дубны
6. извлечь таблицу климата
7. сохранить изображения