## Web-scraping

### Небольшая напоминалка

**HTML (HyperText Markup Language)** - это язык разметки, используемый для создания разных веб-страниц. Если помните, *Markdown* в JN - тоже язык разметки (и поддерживает HTML)s.

В целом, веб-страница "под капотом" состоит из трех частей:
* <span style="color: lightgreen;">*HTML-скрипт* - здесь расписана детальная структура страницы</span>;
* *CSS-script* - все, что имеет отношения к стилям (цвета, шрифты и так далее);
* *JavaScript-script* - добавление интерактивных функций.

Сегодня мы сконцентрируемся на первой части. Если вы хотите изучать HTML самостоятельно, добро пожаловать [сюда](https://www.w3schools.com/html/default.asp).

**Тэги, атрибуты и контент**

Структурной единицей в HTML является *объект*. Объект конструируется с использованием *тэга (tag)* - специального слова в необычных скобочках <>. Есть два вида тэгов:
* открывающий тэг: \<tag> - обозначаем начало объекта;
* закрывающий тэг: \</tag> - обозначаем конец объекта.

Разные тэги имеют разные характеристики и приложения. К примеру, тэг \<p> используется для создания нового абзаца (**p**aragraph):

```
<p>Some content</p>  # контент кладем между открывающим и закрывающим тэгами
```

Каждый объект может иметь *атрибуты (attributes)* (вспомним атрибуты в Python). Атрибуты прописываются внутри открывающего тэга. Например, тэг \<a> используется для создания ссылок. Текст (контент), как обычно, кладем между открывающими и закрывающими тэгами, а сам адрес записывается в атрибут *href*:

```
<a href="https://www.w3schools.com/html/default.asp">Text of the link</a>
```

Кстати, если мы напишем это в Markdown, то тут все сработает как надо:

<a href="https://www.w3schools.com/html/default.asp">Text of the link</a>

**Структура HTML-страницы**

Теперь давайте посмотрим на типичную структуру HTML-страницы. Вы можете использовать довольно удобный [HTML-конструктор](https://www.w3schools.com/Html/tryit.asp?filename=tryhtml_default). <img src="w3schoolsConstructor1.png">

Чтобы открыть код страницы, используйте сочетание клавиш *Ctrl (Command) + U*.

В целом все выглядит примерно так:

```
<!DOCTYPE html>  # declare that we are going to create HTML-script
<html>  # declare the start of the document
<head>  # specify heading
<title>Page Title</title>  # specify title
</head>
<body>  # construct body

<h1>This is a Heading</h1>  # header of level 1 (also you can use 2, 3 etc.)
<p>This is a paragraph.</p>  # paragraph

</body>
</html>
```

Можно немного персонализировать содержание:

```
<!DOCTYPE html>
<html>
<head>
<title>My first HTML-page</title>
</head>
<body>

<h1>About me</h1>
<p>I am studying Python (and HTML a little bit).</p>

</body>
</html>
```

И даже положить все это в виде таблицы (очень часто вы будете парсить именно таблицы):

```
<table border='1'>     # starting tag
<tr>     # start table row (1st)
<th>Surname</th>     # make 1st header
<th>Name</th>     # make 2nd header
<th>Age</th>     # make 3d header
</tr>     # end table row
<tr>     # start table row (2nd)
<td>Dovgopoly</td>     # make cell under the 1st header
<td>Ioann</td>     # make cell under the 2nd header
<td>22</td>     # make cell under the 3d header
</tr>     # end table row
</table>     # ending tag
```

<table border='1'>
    <tr>
        <th>Surname</th>
        <th>Name</th>
        <th>Age</th>
    </tr>
    <tr>
        <td>Dovgopoly</td>
        <td>Ioann</td>
        <td>24</td>
    </tr>
</table>

#### BeatifulSoup
`BeautifulSoup` - класс из библиотеки `bs4` (документация [здесь](https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html)).

**Внимание!** Может понадобиться установка модуля `lxml`.

### Задание

**Условие.** Есть [ресурс](https://historik.val.se/val/val2018/slutresultat/R/rike/index.html) с результатами Swedish Gerenal Elections 2018 года. Мы хотим загрузить и сохранить в `.xlsx`-формате таблицу **Röstfördelning per riksdagsvalkrets** (Распределение голосов по регионам). Конечно, мы не будем делать это вручную, т. к. это будет утомительно, долго, и мы скорее всего ошибемся. Нам поможет `Beautiful soup`:

In [2]:
import pandas as pd
import requests  # we need to access web-page
from bs4 import BeautifulSoup

url = 'https://historik.val.se/val/val2018/slutresultat/R/rike/index.html'  # link

In [7]:
response = requests.get('https://historik.val.se/val/val2018/slutresultat/R/rike/index.html')

soup = BeautifulSoup(response.text)

response.close()

In [12]:
soup.find_all('a')

[<a accesskey="s" href="#sida" title="Klicka här för att hoppa direkt till sidans innehåll">Till sidans innehåll</a>,
 <a accesskey="h" href="#oversiktstabell" title="Klicka här för att välja ett annat område">Välj annat område</a>,
 <a href="/">2018</a>,
 <a href="../../../slutresultat/R/rike/index.html" title="Riksdag">Riksdag</a>,
 <a href="../../../slutresultat/L/rike/index.html" title="Landsting">Landsting</a>,
 <a href="../../../slutresultat/K/rike/index.html" title="Kommun">Kommun</a>,
 <a href="../../../statistik/index.html" title="Statistik">Statistik</a>,
 <a href="../../../rostmottagning/vallokal/rike/index.html" title="Röstmottagning">Röstmottagning</a>,
 <a href="../../../slutresultat/R/rike/index.html" title="Röster">Röster</a>,
 <a href="../../../slutresultat/R/rike/valda.html" title="Valda">Valda</a>,
 <a href="../../../slutresultat/R/rike/personroster.html" title="Personröster">Personröster</a>,
 <a href="../../../valsedlar/R/rike/valsedlar.html" title="Partier och val

In [13]:
table = soup.find('table', {'class': 'sorteringsbar_tabell'})

In [14]:
table.thead

<thead>
<tr>
<th align="left" width="5%">Förk.</th>
<th align="left" width="35%">Parti</th>
<th align="right" width="10%">Antal<br/>2018</th>
<th align="right" width="10%">Andel<br/>2018</th>
<th align="right" class="forandring" width="10%">Antal<br/>+/-</th>
<th align="right" class="forandring" width="10%">Andel<br/>+/-</th>
<th align="right" class="tidigare" width="10%">Antal<br/>2014</th>
<th align="right" class="tidigare" width="10%">Andel<br/>2014</th>
</tr>
</thead>

In [16]:
table_header = table.thead.tr
table_body = table.tbody

In [18]:
table_header.find_all('th')

[<th align="left" width="5%">Förk.</th>,
 <th align="left" width="35%">Parti</th>,
 <th align="right" width="10%">Antal<br/>2018</th>,
 <th align="right" width="10%">Andel<br/>2018</th>,
 <th align="right" class="forandring" width="10%">Antal<br/>+/-</th>,
 <th align="right" class="forandring" width="10%">Andel<br/>+/-</th>,
 <th align="right" class="tidigare" width="10%">Antal<br/>2014</th>,
 <th align="right" class="tidigare" width="10%">Andel<br/>2014</th>]

In [19]:
table_header.find_all('th')[0].text

'Förk.'