# ПОСТАНОВКА ЗАДАЧИ
При работе с web-страницами было бы здорово получать содержимое их таблиц в виде датафрейма. Рассмотрим страницу Центрального банка РФ. Поскольку она может со временем измениться, то мы будем брать ее HTML-код из файла cbr.html. Тогда вы точно сможете повторить все действия данного блока.

Наша задача будет состоять в том, чтобы получить одну из таблиц виджетов в виде датафрейма. Например, таблицу цен на драгоценные металлы.
<img src="./module11_files/m8_step13.png" alt="альтернативный текст">

# ПРОСТОЙ ВАРИАНТ РЕШЕНИЯ
Метод read_html умеет автоматически находить на HTML-странице таблицы и возвращать их списком из датафреймов:

In [2]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

url = 'http://www.cbr.ru'

r = requests.get(url)

Таблица драгоценных металлов оказалась четвертой по счету:

In [4]:
pd.read_html(url)[3]

Unnamed: 0,0,1
0,рублей за грамм,07.12.2018
1,Золото Au,"↓2 653,01"
2,Серебро Ag,"↓31,07"
3,Платина Pt,"↓1 697,22"
4,Палладий Pd,"↓2 619,86"


Если этого не происходит или вы не уверены в том, что порядок таблице на странице неизменен, то можно вручную найти нужную таблицу на странице. Этому случаю посвящены следующие шаги.

# ПОЛУЧАЕМ КОД СТРАНИЦЫ
Импортируем необходимые для этой задачи библиотеки:

In [7]:
soup = BeautifulSoup(r.text, 'html.parser')

# ИЩЕМ ВИДЖЕТ НА СТРАНИЦЕ
Как и раньше нажимаем 'Исследовать элемент' в меню браузера на виджете с драгоценными металлами:
<img src="./module11_files/m8_step14.png" alt="альтернативный текст">
В сохраненной версии страницы виджету соответствует следующий код:
<img src="./module11_files/m8_step15.png" alt="альтернативный текст">


Нам необходимо добраться до кода таблицы, который начинается с тэга <table\>. Таблиц на странице много, поэтому детально указываем путь к таблице виджета драгоценных металлов:

In [8]:
data = (soup.find(class_='widget type_table name_metal opened')
            .find(class_='content')
            .find('table'))

# ПЕРЕВОДИМ ТАБЛИЦУ В ДАТАФРЕЙМ
Сейчас наша таблица записана в HTML-коде:

In [11]:
data

<table>
<tbody>
<tr>
<th class="title">рублей за грамм</th>
<th>07.12.2018</th>
</tr>
<tr>
<td class="title">
                      Золото <ins>Au</ins>
</td>
<td>
<div class="w_data_wrap"><i class="down" title="- 2,7900">↓</i><span class="nowrap">2 653,01</span></div>
</td>
</tr>
<tr>
<td class="title">
                      Серебро <ins>Ag</ins>
</td>
<td>
<div class="w_data_wrap"><i class="down" title="- 0,1800">↓</i><span class="nowrap">31,07</span></div>
</td>
</tr>
<tr>
<td class="title">
                      Платина <ins>Pt</ins>
</td>
<td>
<div class="w_data_wrap"><i class="down" title="- 15,0900">↓</i><span class="nowrap">1 697,22</span></div>
</td>
</tr>
<tr>
<td class="title">
                      Палладий <ins>Pd</ins>
</td>
<td>
<div class="w_data_wrap"><i class="down" title="- 63,5500">↓</i><span class="nowrap">2 619,86</span></div>
</td>
</tr>
</tbody>
</table>

Для перевода ее в датафрейм используем метод read_html. Метод возвращает список датафреймов. В нашем случае датафрейм будет только один, поэтому сразу берем первый элемент:

In [12]:
df = pd.read_html(str(data))[0]
df

Unnamed: 0,0,1
0,рублей за грамм,07.12.2018
1,Золото Au,"↓2 653,01"
2,Серебро Ag,"↓31,07"
3,Платина Pt,"↓1 697,22"
4,Палладий Pd,"↓2 619,86"
