##Работа с api в формате json

Для работы с API кроме формата XML можно использовать формат JSON. Покажем на примере API википедии.
Параметры для requests как обычно будем задавать в виде словаря.

In [1]:
url = 'http://ru.wikipedia.org/w/api.php'
query = {'action': 'query', 
         'list':'categorymembers',
         'cmtitle': 'Категория:Персоналии по алфавиту',
         'format':'json',
          'cmlimit': 10,
          'cmstartsortkeyprefix':'А'
        }

import requests

В этом словаре перечислены разные параметры нашего запроса. 'action': 'query' значит, что мы отправляем запрос, чтобы получить содержимое википедии. Параметр 'list' отвечает на вопрос список чего мы бы хотели получить. В данном случае это список членов какой-то категории, 'cmtitle' - это название категории, лист членов которой мы хотим получить. 'format' - это формат ответа. 'cmlimit' - это сколько элементов, мы хотим получить за один запрос (максимум можно 500). 'cmstarsortkeyprefix' - начиная с какого элемента упорядоченного по алфавиту листа выдавать содержимое, у нас это русская буква 'А'.

In [2]:
r = requests.get(url, params = query)

Проверим, что загрузилось

In [3]:
r.ok

True

Смотрим, что нам выдали по запросу. Это JSON

In [4]:
r.text

'{"batchcomplete":"","continue":{"cmcontinue":"page|5c0a0a180a0307045cceb48ea4010e018f818f0700|4475632","continue":"-||"},"query":{"categorymembers":[{"pageid":4020413,"ns":0,"title":"\\u0410 \\u0418\\u043d"},{"pageid":4639233,"ns":0,"title":"\\u0410 \\u041b\\u0430\\u043c\\u0443\\u0441\\u044b"},{"pageid":6105776,"ns":0,"title":"\\u0410 \\u0422\\u043e\\u0439"},{"pageid":4208178,"ns":0,"title":"\\u0410\\u2019\\u0425\\u0435\\u0440\\u043d, \\u041d\\u0438\\u043a\\u043e\\u043b\\u0430\\u0441"},{"pageid":1110388,"ns":0,"title":"\\u0410\\u0430, \\u041f\\u0438\\u0442\\u0435\\u0440 \\u0432\\u0430\\u043d \\u0434\\u0435\\u0440"},{"pageid":4275673,"ns":0,"title":"\\u0410\\u0430\\u0431, \\u0412\\u0438\\u0442\\u0430\\u043b\\u0438\\u0439 \\u0412\\u043b\\u0430\\u0434\\u0438\\u043c\\u0438\\u0440\\u043e\\u0432\\u0438\\u0447"},{"pageid":3178470,"ns":0,"title":"\\u0410\\u0430\\u0431, \\u042f\\u0430\\u043a"},{"pageid":2311509,"ns":0,"title":"\\u0410\\u0430\\u0432, \\u0422\\u044b\\u043d\\u0443"},{"pageid":149

Мы видим, что JSON представляет собой словарь, значения которого - листы или словари, значения которых - листы или словари и т.д. В requests есть метод, чтобы выдать питоновский словарь по результату get, если он в формате json

In [5]:
q = r.json()

Видим, что q это словарь

In [6]:
q

{'batchcomplete': '',
 'continue': {'cmcontinue': 'page|5c0a0a180a0307045cceb48ea4010e018f818f0700|4475632',
  'continue': '-||'},
 'query': {'categorymembers': [{'ns': 0, 'pageid': 4020413, 'title': 'А Ин'},
   {'ns': 0, 'pageid': 4639233, 'title': 'А Ламусы'},
   {'ns': 0, 'pageid': 6105776, 'title': 'А Той'},
   {'ns': 0, 'pageid': 4208178, 'title': 'А’Херн, Николас'},
   {'ns': 0, 'pageid': 1110388, 'title': 'Аа, Питер ван дер'},
   {'ns': 0, 'pageid': 4275673, 'title': 'Ааб, Виталий Владимирович'},
   {'ns': 0, 'pageid': 3178470, 'title': 'Ааб, Яак'},
   {'ns': 0, 'pageid': 2311509, 'title': 'Аав, Тыну'},
   {'ns': 0, 'pageid': 14972, 'title': 'Аав, Эвальд'},
   {'ns': 0, 'pageid': 5111381, 'title': 'Аава, Мооника'}]}}

In [7]:
type(q)

dict

Содержательная информация хранится по ключу 'query'. А уже внутри есть ключ 'categorymembers', значением которого является лист всех названий категорий.

In [8]:
type(q['query']['categorymembers'])

list

Это список всех членов категории. Мы можем посмотреть на них с помощью цикла

In [9]:
for cm in q['query']['categorymembers']:
    print(cm['title'])

А Ин
А Ламусы
А Той
А’Херн, Николас
Аа, Питер ван дер
Ааб, Виталий Владимирович
Ааб, Яак
Аав, Тыну
Аав, Эвальд
Аава, Мооника


Преимущества json в том, что мы получаем готовый питоновский объект, но недостатки в том же самом, у нас нет методов а ля BeautifulSoup, чтобы обрабатывать его эффективно.

Теперь сделаем то же самое, но с помощью xml

In [10]:
url = 'http://ru.wikipedia.org/w/api.php'
query = {'action': 'query', 
         'list':'categorymembers',
         'cmtitle': 'Категория:Персоналии по алфавиту',
         'format':'xml',
          'cmlimit': 10,
          'cmstartsortkeyprefix':'А'
        }
r = requests.get(url, params = query)
from bs4 import BeautifulSoup
bs = BeautifulSoup(r.text)
for cm in bs('cm'):
    print(cm['title'])

А Ин
А Ламусы
А Той
А’Херн, Николас
Аа, Питер ван дер
Ааб, Виталий Владимирович
Ааб, Яак
Аав, Тыну
Аав, Эвальд
Аава, Мооника


Как видим c xml все оказалось немного проще, так как нам не пришлось указывать путь к элементу cm целиком.

## Эмуляция действий с браузером.

Иногда нам нужно не просто скачать какую-нибудь информацию с сайта, но и ввести что-нибудь в какую-нибудь форму. Продемонстрируем 2 инструмента для этого:robobrowser и selenium.

Рассмотрим эту задачу на примере работы с информатиксом. 

###Robobrowser

модуль robobrowser позволяет работать с неким виртуальным браузером, который позволяет ходить по страничкам и получать их содержимое.

In [11]:
from robobrowser import RoboBrowser

Если вдруг python ругается, что нет каких-то модулей, то сделайте pip install имя_модуля в консоли.

In [12]:
q = RoboBrowser()

Мы создали виртуальный браузер.

In [13]:
ref = 'http://informatics.mccme.ru'
q.open(ref)

И сказали ему открыть ссылку. Мы можем посмотреть на html содержимое страницы командой ниже

In [14]:
q.parsed.text

'\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nДистанционная подготовка\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n//<![CDATA[\n\nsetTimeout(\'fix_column_widths()\', 20);\n\nfunction openpopup(url,name,options,fullscreen) {\n  fullurl = "http://informatics.mccme.ru" + url;\n  windowobj = window.open(fullurl,name,options);\n  if (fullscreen) {\n     windowobj.moveTo(0,0);\n     windowobj.resizeTo(screen.availWidth,screen.availHeight);\n  }\n  windowobj.focus();\n  return false;\n}\n\nfunction uncheckall() {\n  void(d=document);\n  void(el=d.getElementsByTagName(\'INPUT\'));\n  for(i=0;i<el.length;i++) {\n    void(el[i].checked=0);\n  }\n}\n\nfunction checkall() {\n  void(d=document);\n  void(el=d.getElementsByTagName(\'INPUT\'));\n  for(i=0;i<el.length;i++) {\n    void(el[i].checked=1);\n  }\n}\n\nfunction inserttext(text) {\n  text = \' \' + text + \' \';\n  if ( opener.document.forms[\'theform\'].message.createTextRange && opener.document.forms[\'theform\'].message.caretPos) {\n    var caretPos = opener.docume

 Теперь извлечем из браузера ту форму, которая соответствует вводу пароля. В браузере с помощью просмотра кода элемента, мы можем посмотреть кусок html, соответствующий вводу пароля и узнать его уникальный id = 'login'. Теперь извлечем эту форму в робобраузере.

In [15]:
form = q.get_form(id = 'login')

Нам естественно понадобятся логин и пассворд от информатикса. Введите их ниже  или предварительно создайте текстовые файлы с ними login.txt и password.txt

In [None]:
login = input()
password = input()

In [16]:
with open('login.txt') as f:
    login = f.read().strip()
    
with open('password.txt') as f:
    password = f.read().strip()

form ведет себя как словарь и вы можете передать ему ваши логин и пароль вот так:

In [17]:
form['username'] = login
form['password'] = password

Теперь посылаем заполненную форму браузеру.

In [19]:
q.submit_form(form)

Проверяем, что мы залогинились и наша фамилия или имя есть на странице

In [20]:
name = input()
name in q.parsed.text

Будылин


True

###Selenium

К сожалению, robobrowser не умеет запускать javascript, а значит, нам не удастся, например, скачать какие-то результаты с информатикса, потому что они формируются с помощью javascript.
Зато с этим может справиться selenium. Он не запускает javascript сам, зато он умеет управлять браузерами, в том числе тем который уже установлен у вас.
Допустим, что нам надо скачать результаты наших посылок (на лекции скачивали результаты участников факультатива, но я неуверен, что они доступны для студентов). Здесь я буду скачивать результаты своих посылок, эти задачи аналогичны.

In [21]:
from selenium import webdriver

Откроем браузер с помощью selenium. Для этого нужно чтобы у вас был установлен данный браузер. В моем случае это Firefox

In [22]:
browser = webdriver.Firefox()

Видим, что открылось окошко браузера. Перейдем на информатикс

In [23]:
browser.get(ref)

Найдем форму входа на сайт

In [24]:
form = browser.find_element_by_id('login')

Найдем у этой формы элементы, отвечающие логину и паролю,  и отдадим им наш логин, пароль. Имейте в виду, что информатикс может узнать вас и поле username может быть уже заполненным. Тогда нужно вводить только пароль

In [25]:
un = form.find_element_by_name('username')
un.send_keys(login)

pw = form.find_element_by_name('password')
pw.send_keys(password)

А теперь пошлем данные браузеру командой ниже. Я посылаю только пароль, потому что мой логин информатикс уже знает.

In [26]:
pw.submit()

Опять проверим, что теперь страница персонифицирована и в ней есть наше имя. Здесь browser.page_source - это html код текущей страницы.

In [27]:
name  in browser.page_source

True

Заметим, что мы можем управлять браузером, не только питоном, но и вручную. Зайдите например, в "Мои посылки" вручную. Теперь из текущей страницы нужно извлечь информацию о посылках. Чтобы это сделать воспользуемся BeautifulSoup

In [28]:
from bs4 import BeautifulSoup
bs = BeautifulSoup(browser.page_source)

С помощью просмотра кода элемента в браузере мы можем узнать, что интересующая нас информация находится в table внутри div с id = 'Searchresult'. Извлечем ее из bs. При этом результат bs('div', id = 'Searchresult') это список (даже если результат только один). Поэтому нам надо взять первый элемент этого списка. Потом внутри div мы точно так же ищем table.

In [29]:
div = bs('div', id = 'Searchresult')[0]
table = div('table')[0]

Напечатаем все клетки внутри этой таблицы.

In [30]:
for row in table('tr'):
    for cell in row('td'):
        print(cell)

<td>ID</td>
<td>Участник</td>
<td>Задача</td>
<td>Дата</td>
<td>Язык</td>
<td>Статус</td>
<td>Пройдено тестов</td>
<td>Баллы</td>
<td>Подробнее</td>
<td>1776-33855</td>
<td><a href="/moodle/user/view.php?id=199551">Роман Будылин</a></td>
<td><a href="/moodle/mod/statements/view3.php?chapterid=3667&amp;run_id=1776r33855">3667. Исполнитель Водолей</a></td>
<td>2015-11-13 14:13:59</td>
<td>Python 3.3</td>
<td>OK
</td>
<td>99</td>
<td>100</td>
<td><a href="/moodle/ajax/ajax_file.php?objectName=source&amp;contest_id=1776&amp;run_id=33855" onclick="loadSourceWindow(1776, 33855, '');return false;">Подробнее</a></td>
<td>1776-33844</td>
<td><a href="/moodle/user/view.php?id=199551">Роман Будылин</a></td>
<td><a href="/moodle/mod/statements/view3.php?chapterid=3667&amp;run_id=1776r33844">3667. Исполнитель Водолей</a></td>
<td>2015-11-13 14:06:27</td>
<td>Python 3.3</td>
<td>OK
</td>
<td>99</td>
<td>100</td>
<td><a href="/moodle/ajax/ajax_file.php?objectName=source&amp;contest_id=1776&amp;run_id

А вот если нас интересует какая-то конкретная колонка, например время.

In [31]:
for row in table('tr'):
    cells = row('td')
    print(cells[3].string)

Дата
2015-11-13 14:13:59
2015-11-13 14:06:27
2015-11-13 14:02:59
2015-11-13 01:09:57
2015-11-13 01:08:25
2015-11-09 12:54:06
2015-11-09 12:28:50
2015-11-09 12:24:58
2015-11-09 11:19:34
2015-11-09 07:44:10


Если мы хотим выписать все элементы, то нам надо будет перейти на следующую страницу листинга. В браузере мы видим стрелочу >, ведущую к следующей странице результатов. Найдем элемент соответствующий этой стрелке.

In [32]:
a = browser.find_element_by_link_text('>')

чтобы кликнуть по этому элементу сделаем следующее

In [33]:
a.click()

Это можно повторять в цикле, и таким образом обработать все записи. Нужно только учитывать то, что питон не будет ждать загрузки страницы в браузере прежде чем выполнять следующие команды, поэтому делая browser.page_source, мы рискуем взять старую страницу. Для этой сделаем в питоне искусственную паузу.

In [34]:
import time
time.sleep(1)

Эта команда сделает паузу на любое время в сек (здесь на 1 сек)

Отметим, что в селениуме есть команды "назад"

In [37]:
browser.back()

И есть команда вперед

In [38]:
browser.forward()

и обновить

In [39]:
browser.refresh()