## B9.4.1 Постановка задачи


#### B9.4.2 Базовое решение

Метод read_html из pandas умеет автоматически находить на HTML-странице таблицы и возвращать их списком из датафреймов:

In [1]:
import pandas as pd  
url = 'http://www.cbr.ru'  
# Таблица с драгметаллами оказалась четвёртой по счёту  
pd.read_html(url)[3]  

Unnamed: 0,рублей за грамм,28.12.2019
0,Золото Au,"3 012,68"
1,Серебро Ag,3507
2,Платина Pt,"1 894,64"
3,Палладий Pd,"3 785,29"


#### Задание 1 Курсы валют через read_html
Попробуйте запустить pandas для заданного выше url. Какая строчка вернёт таблицу с курсами валют?

In [2]:
pd.read_html(url)[2]  

Unnamed: 0.1,Unnamed: 0,27.12.2019,28.12.2019
0,Доллар США $,"руб. 61,7676","руб. ↑62,0315"
1,Евро €,"руб. 68,5003","руб. ↑69,0349"


## B9.4.3 Используем BeautifulSoup

Более надёжным решением является сначала получить только текст таблицы и передавать в pandas только её. Так же, как и в предыдущем разделе, используем requests и BeautifulSoup, чтобы получить данные со страницы.

А теперь — внимание! В случае работы с сайтом Центробанка нам нужно будет учесть ещё один нюанс. С недавнего времени администраторы стали блокировать обращения к сайту, поступающие не от «живых» пользователей, а от компьютерных программ (в том числе от той, которую мы собираемся написать прямо сейчас). Есть ли шанс в таких условиях всё-таки получить данные, не открывая страницу в браузере?

Безусловно, это возможно. Безвыходных положений вообще не бывает, особенно в программировании! Один из способов справиться с ситуацией — «притвориться» браузером :).

Каждый запрос, отправляемый с помощью команды get, имеет заголовок. Если заголовок не задан явно, то он создаётся автоматически, и туда добавляется информация в том числе о том, кто является субъектом (или источником) запроса — человек или программа. Чтобы «притвориться» браузером, нам просто нужно вручную дописать нужные сведения в этот заголовок. Подробнее о таком подходе можно почитать в этой статье.

In [3]:
from bs4 import BeautifulSoup  
import pandas as pd  
import requests  
  
url = 'http://www.cbr.ru'  
soup = BeautifulSoup(requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text, 'html.parser') 
data = soup.find(class_='widget type_table name_metal opened').find(class_='content').find('table')  

In [4]:
data # Сейчас наша таблица записана в HTML-коде:

<table>
<tbody>
<tr>
<th class="title">рублей за грамм</th>
<th>28.12.2019</th>
</tr>
<tr>
<td class="title">
                      Золото <ins>Au</ins>
</td>
<td>
<div class="w_data_wrap"><span class="nowrap">3 012,68</span></div>
</td>
</tr>
<tr>
<td class="title">
                      Серебро <ins>Ag</ins>
</td>
<td>
<div class="w_data_wrap"><span class="nowrap">35,07</span></div>
</td>
</tr>
<tr>
<td class="title">
                      Платина <ins>Pt</ins>
</td>
<td>
<div class="w_data_wrap"><span class="nowrap">1 894,64</span></div>
</td>
</tr>
<tr>
<td class="title">
                      Палладий <ins>Pd</ins>
</td>
<td>
<div class="w_data_wrap"><span class="nowrap">3 785,29</span></div>
</td>
</tr>
</tbody>
</table>

Для перевода ее в датафрейм используем метод read_html. 
Метод возвращает список датафреймов. 
В нашем случае датафрейм будет только один, поэтому сразу берем первый элемент:

In [5]:
df = pd.read_html(str(data))[0]  
df

Unnamed: 0,рублей за грамм,28.12.2019
0,Золото Au,"3 012,68"
1,Серебро Ag,3507
2,Платина Pt,"1 894,64"
3,Палладий Pd,"3 785,29"


In [22]:
from bs4 import BeautifulSoup  
import pandas as pd  
import requests  
  
url = 'http://www.cbr.ru'  
soup = BeautifulSoup(requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text, 'html.parser') 
data = soup.find(class_='widget type_table name_metal opened').find(class_='content').find('table')  
df = pd.read_html(str(data))[0]  
df

Unnamed: 0,рублей за грамм,28.12.2019
0,Золото Au,"3 012,68"
1,Серебро Ag,3507
2,Платина Pt,"1 894,64"
3,Палладий Pd,"3 785,29"


#### Задание 1 Рейтинг банков
Напишите программу, которая забирает данные из таблицы рейтинга банков с https://www.banki.ru/banks/ratings/, делает из него датафрейм и сохраняет его в переменую df.

In [21]:
url = 'https://www.banki.ru/banks/ratings/'  
soup = BeautifulSoup(requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}).text, 'html.parser')
data = soup.find(class_='standard-table standard-table--row-highlight margin-bottom-small margin-top-x-small')
df = pd.read_html(str(data))[0]
df

Unnamed: 0_level_0,место,"название банка лицензия №, Регион","показатель, тыс. рублей","показатель, тыс. рублей",изменение,изменение
Unnamed: 0_level_1,место,"название банка лицензия №, Регион","Декабрь, 2019 Ноябрь, 2019 Октябрь, 2019 Сентябрь, 2019 Август, 2019 Июль, 2019 Июнь, 2019 Май, 2019 Апрель, 2019 Март, 2019 Февраль, 2019 Январь, 2019 Декабрь, 2018 Ноябрь, 2018 Октябрь, 2018 Сентябрь, 2018 Август, 2018 Июль, 2018 Июнь, 2018 Май, 2018 Апрель, 2018 Март, 2018 Февраль, 2018 Январь, 2018 Декабрь, 2017 Ноябрь, 2017 Октябрь, 2017 Сентябрь, 2017 Август, 2017 Июль, 2017 Июнь, 2017 Май, 2017 Апрель, 2017 Март, 2017 Февраль, 2017 Январь, 2017 Декабрь, 2016 Ноябрь, 2016 Октябрь, 2016 Сентябрь, 2016 Август, 2016 Июль, 2016 Июнь, 2016 Май, 2016 Апрель, 2016 Март, 2016 Февраль, 2016 Январь, 2016 Декабрь, 2015 Ноябрь, 2015 Октябрь, 2015 Сентябрь, 2015 Август, 2015 Июль, 2015 Июнь, 2015 Май, 2015 Апрель, 2015 Март, 2015 Февраль, 2015 Январь, 2015 Декабрь, 2014 Ноябрь, 2014 Октябрь, 2014 Сентябрь, 2014 Август, 2014 Июль, 2014 Июнь, 2014 Май, 2014 Апрель, 2014 Март, 2014 Февраль, 2014 Январь, 2014 Декабрь, 2013 Ноябрь, 2013 Октябрь, 2013 Сентябрь, 2013 Август, 2013 Июль, 2013 Июнь, 2013 Май, 2013 Апрель, 2013 Март, 2013 Февраль, 2013 Январь, 2013 Декабрь, 2012 Ноябрь, 2012 Октябрь, 2012 Сентябрь, 2012 Август, 2012 Июль, 2012 Июнь, 2012 Май, 2012 Апрель, 2012 Март, 2012 Февраль, 2012 Январь, 2012 Декабрь, 2011 Ноябрь, 2011 Октябрь, 2011 Сентябрь, 2011 Август, 2011 Июль, 2011 Июнь, 2011 Май, 2011 Апрель, 2011 Март, 2011 Февраль, 2011 Январь, 2011 Декабрь, 2010 Ноябрь, 2010 Октябрь, 2010 Сентябрь, 2010 Август, 2010 Июль, 2010 Июнь, 2010 Май, 2010 Апрель, 2010 Март, 2010 Февраль, 2010 Январь, 2010 Декабрь, 2009 Ноябрь, 2009 Октябрь, 2009 Сентябрь, 2009 Август, 2009 Июль, 2009 Июнь, 2009 Май, 2009 Апрель, 2009 Март, 2009 Февраль, 2009 Январь, 2009 Декабрь, 2008 Ноябрь, 2008 Октябрь, 2008 Сентябрь, 2008 Август, 2008 Июль, 2008 Июнь, 2008 Май, 2008 Апрель, 2008 Март, 2008","Декабрь, 2019 Ноябрь, 2019 Октябрь, 2019 Сентябрь, 2019 Август, 2019 Июль, 2019 Июнь, 2019 Май, 2019 Апрель, 2019 Март, 2019 Февраль, 2019 Январь, 2019 Декабрь, 2018 Ноябрь, 2018 Октябрь, 2018 Сентябрь, 2018 Август, 2018 Июль, 2018 Июнь, 2018 Май, 2018 Апрель, 2018 Март, 2018 Февраль, 2018 Январь, 2018 Декабрь, 2017 Ноябрь, 2017 Октябрь, 2017 Сентябрь, 2017 Август, 2017 Июль, 2017 Июнь, 2017 Май, 2017 Апрель, 2017 Март, 2017 Февраль, 2017 Январь, 2017 Декабрь, 2016 Ноябрь, 2016 Октябрь, 2016 Сентябрь, 2016 Август, 2016 Июль, 2016 Июнь, 2016 Май, 2016 Апрель, 2016 Март, 2016 Февраль, 2016 Январь, 2016 Декабрь, 2015 Ноябрь, 2015 Октябрь, 2015 Сентябрь, 2015 Август, 2015 Июль, 2015 Июнь, 2015 Май, 2015 Апрель, 2015 Март, 2015 Февраль, 2015 Январь, 2015 Декабрь, 2014 Ноябрь, 2014 Октябрь, 2014 Сентябрь, 2014 Август, 2014 Июль, 2014 Июнь, 2014 Май, 2014 Апрель, 2014 Март, 2014 Февраль, 2014 Январь, 2014 Декабрь, 2013 Ноябрь, 2013 Октябрь, 2013 Сентябрь, 2013 Август, 2013 Июль, 2013 Июнь, 2013 Май, 2013 Апрель, 2013 Март, 2013 Февраль, 2013 Январь, 2013 Декабрь, 2012 Ноябрь, 2012 Октябрь, 2012 Сентябрь, 2012 Август, 2012 Июль, 2012 Июнь, 2012 Май, 2012 Апрель, 2012 Март, 2012 Февраль, 2012 Январь, 2012 Декабрь, 2011 Ноябрь, 2011 Октябрь, 2011 Сентябрь, 2011 Август, 2011 Июль, 2011 Июнь, 2011 Май, 2011 Апрель, 2011 Март, 2011 Февраль, 2011 Январь, 2011 Декабрь, 2010 Ноябрь, 2010 Октябрь, 2010 Сентябрь, 2010 Август, 2010 Июль, 2010 Июнь, 2010 Май, 2010 Апрель, 2010 Март, 2010 Февраль, 2010 Январь, 2010 Декабрь, 2009 Ноябрь, 2009 Октябрь, 2009 Сентябрь, 2009 Август, 2009 Июль, 2009 Июнь, 2009 Май, 2009 Апрель, 2009 Март, 2009 Февраль, 2009 Январь, 2009 Декабрь, 2008 Ноябрь, 2008 Октябрь, 2008 Сентябрь, 2008 Август, 2008 Июль, 2008 Июнь, 2008 Май, 2008 Апрель, 2008 Март, 2008.1",тыс. рублей,%
0,1,"Сбербанк России лицензия № 1481, Москва и обл.",28 973 297 245,29 148 887 965,−175 590 720,"−0,60%"
1,2,"ВТБ лицензия № 1000, Санкт-Петербург и обл.",14 483 875 051,14 547 709 036,−63 833 985,"−0,44%"
2,3,"Газпромбанк лицензия № 354, Москва и обл.",6 614 267 527,6 385 232 472,+229 035 055,"+3,59%"
3,4 +1,"Альфа-Банк лицензия № 1326, Москва и обл.",3 687 383 320,3 566 836 402,+120 546 918,"+3,38%"
4,5 −1,Национальный Клиринговый Центр лицензия № 3466...,3 669 008 617,3 624 819 693,+44 188 924,"+1,22%"
5,6,"Россельхозбанк лицензия № 3349, Москва и обл.",3 297 821 385,3 352 194 124,−54 372 739,"−1,62%"
6,7,"Банк «ФК Открытие» лицензия № 2209, Москва и обл.",2 486 671 061,2 488 164 320,−1 493 259,"−0,06%"
7,8,"Московский Кредитный Банк лицензия № 1978, Мос...",2 336 368 302,2 283 893 000,+52 475 302,"+2,30%"
8,9,"Национальный Банк «Траст» лицензия № 3279, Мос...",1 422 586 170,1 452 618 868,−30 032 698,"−2,07%"
9,10,"ЮниКредит Банк лицензия № 1, Москва и обл.",1 417 952 803,1 386 736 686,+31 216 117,"+2,25%"
