## Работа с json и API
### Обработка данных в формате json, работа с публичным интерфейсом API

Мы с вами попробовали способ добычи данных, когда нам их не хотят давать.
Но часто данные достать достаточно просто, и для этого есть удобный способ - api.

Это набор функций, который позволяет получить доступ к данным


* https://data.mos.ru/
* https://data.gov.ru/

Смотрим документацию:
https://apidata.mos.ru/Docs

In [2]:
# Запрос

# GET https://apidata.mos.ru/v1/datasets?$skip=1&$top=1&$inlinecount=allpages 

In [3]:
# Запрос c ключом
# Ваш ключ находится у вас в профиле

# GET https://apidata.mos.ru/v1/datasets?api_key=eb96511cac4e182c0d0b90461d12aecb&$skip=1&$top=1&$inlinecount=allpages 

Получаем некоторый словарь.

Словарь с ключом Items.
Ему соответсвует список, который сам состоит из словарей: 

* Id: 495,
* VersionNumber: 3

Смотрим, какой набор данных нас интересует и проверяем в документации, как его заполучить 

#### Содержимое набора данных
Запрос к ресурсу `/datasets/{id}/rows` возвращает список строк указанного набора данных.

Чтобы не получать ошибку, читаем документацию и используем параметры

In [4]:
# Получаем такую ссылку: 
    
# https://apidata.mos.ru/v1/datasets/1401/rows?api_key=eb96511cac4e182c0d0b90461d12aecb&$top=500&$skip=1000

json - это формат описания данных на языке javascript

Очень много библиотек, очень популярный формат 

In [10]:
# Давайте заберём данные
from urllib.request import urlopen 

response = urlopen('https://apidata.mos.ru/v1/datasets/1401/rows?api_key=eb96511cac4e182c0d0b90461d12aecb&$top=500&$skip=1000')
json = response.read().decode('utf8')
print(json)

[{"global_id":918426711,"Number":1,"Cells":{"global_id":918426711,"AdmArea":"Западный административный округ","District":"район Фили-Давыдково","Address":"город Москва, Давыдковская улица, дом 8, корпус 1","AddressClarification":null,"BuildingType":"прочее","OutageBySections":"нет","Periods":[{"Porches":"все подъезды","OutageBegin":"26.05.2021","OutageEnd":"05.06.2021","OutageBeginTime":"14.00.01","OutageEndTime":"13.59.01"}],"UserNumber":[{"UserNumber":"08-02-1008/007"}],"UNOM":"3201137"}},{"global_id":918426712,"Number":2,"Cells":{"global_id":918426712,"AdmArea":"Западный административный округ","District":"район Раменки","Address":"город Москва, Мичуринский проспект, дом 25, корпус 1","AddressClarification":null,"BuildingType":"жилой дом","OutageBySections":"нет","Periods":[{"Porches":"все подъезды","OutageBegin":"23.06.2021","OutageEnd":"03.07.2021","OutageBeginTime":"14.00.01","OutageEndTime":"13.59.01"}],"UserNumber":[{"UserNumber":"08-01-1016/038"}],"UNOM":"61072"}},{"global_id"

In [13]:
# Давайте заберём данные, только сделаем skip переменной
from urllib.request import urlopen
import json 

total = 1000 # 72357

i = 0 # skip
while i < total:
    response = urlopen('https://apidata.mos.ru/v1/datasets/1401/rows?api_key=eb96511cac4e182c0d0b90461d12aecb&$top=500&$skip=' + str(i))
    i += 500
    json = response.read().decode('utf8')
    print(json)

[{"global_id":864810968,"Number":1,"Cells":{"global_id":864810968,"AdmArea":"Юго-Восточный административный округ","District":"район Лефортово","Address":"город Москва, Волочаевская улица, дом 40, корпус 9","AddressClarification":null,"BuildingType":"жилой дом","OutageBySections":"нет","Periods":[{"Porches":"все подъезды","OutageBegin":"без отключения","OutageEnd":"без отключения","OutageBeginTime":"","OutageEndTime":""}],"UserNumber":[],"UNOM":"4734"}},{"global_id":864810969,"Number":2,"Cells":{"global_id":864810969,"AdmArea":"Юго-Восточный административный округ","District":"район Лефортово","Address":"город Москва, Волочаевская улица, дом 40А","AddressClarification":null,"BuildingType":"жилой дом","OutageBySections":"нет","Periods":[{"Porches":"все подъезды","OutageBegin":"без отключения","OutageEnd":"без отключения","OutageBeginTime":"","OutageEndTime":""}],"UserNumber":[],"UNOM":"4736"}},{"global_id":864810970,"Number":3,"Cells":{"global_id":864810970,"AdmArea":"Юго-Восточный адми

KeyboardInterrupt: 

In [14]:
# А теперь ещё и прочитаем всё, превратив json в список
from urllib.request import urlopen
import json 

total = 1000 # 72357

i = 0 # skip
while i < total:
    response = urlopen('https://apidata.mos.ru/v1/datasets/1401/rows?api_key=eb96511cac4e182c0d0b90461d12aecb&$top=500&$skip=' + str(i))
    i += 500
    respData = response.read().decode('utf8')
    lst = json.loads(respData)
    print(lst)

[{'global_id': 864810968, 'Number': 1, 'Cells': {'global_id': 864810968, 'AdmArea': 'Юго-Восточный административный округ', 'District': 'район Лефортово', 'Address': 'город Москва, Волочаевская улица, дом 40, корпус 9', 'AddressClarification': None, 'BuildingType': 'жилой дом', 'OutageBySections': 'нет', 'Periods': [{'Porches': 'все подъезды', 'OutageBegin': 'без отключения', 'OutageEnd': 'без отключения', 'OutageBeginTime': '', 'OutageEndTime': ''}], 'UserNumber': [], 'UNOM': '4734'}}, {'global_id': 864810969, 'Number': 2, 'Cells': {'global_id': 864810969, 'AdmArea': 'Юго-Восточный административный округ', 'District': 'район Лефортово', 'Address': 'город Москва, Волочаевская улица, дом 40А', 'AddressClarification': None, 'BuildingType': 'жилой дом', 'OutageBySections': 'нет', 'Periods': [{'Porches': 'все подъезды', 'OutageBegin': 'без отключения', 'OutageEnd': 'без отключения', 'OutageBeginTime': '', 'OutageEndTime': ''}], 'UserNumber': [], 'UNOM': '4736'}}, {'global_id': 864810970, '

[{'global_id': 918426194, 'Number': 1, 'Cells': {'global_id': 918426194, 'AdmArea': 'Западный административный округ', 'District': 'район Тропарёво-Никулино', 'Address': 'город Москва, улица 26-ти Бакинских Комиссаров, дом 10, корпус 1', 'AddressClarification': None, 'BuildingType': 'жилой дом', 'OutageBySections': 'нет', 'Periods': [{'Porches': 'все подъезды', 'OutageBegin': '28.06.2021', 'OutageEnd': '08.07.2021', 'OutageBeginTime': '14.00.01', 'OutageEndTime': '13.59.01'}], 'UserNumber': [{'UserNumber': '08-11-1013/007'}], 'UNOM': '6289'}}, {'global_id': 918426195, 'Number': 2, 'Cells': {'global_id': 918426195, 'AdmArea': 'Западный административный округ', 'District': 'район Проспект Вернадского', 'Address': 'город Москва, Ленинский проспект, дом 110, корпус 1', 'AddressClarification': None, 'BuildingType': 'жилой дом', 'OutageBySections': 'нет', 'Periods': [{'Porches': 'все подъезды', 'OutageBegin': '15.06.2021', 'OutageEnd': '25.06.2021', 'OutageBeginTime': '14.00.01', 'OutageEndT

In [16]:
# Дальше будем работать с этим как со списком

from urllib.request import urlopen
import json 

total = 1000 # 72357

i = 0 # skip
while i < total:
    response = urlopen('https://apidata.mos.ru/v1/datasets/1401/rows?api_key=eb96511cac4e182c0d0b90461d12aecb&$top=500&$skip=' + str(i))
    i += 500
    respData = response.read().decode('utf8')
    lst = json.loads(respData)
    print(lst[0])

{'global_id': 864810968, 'Number': 1, 'Cells': {'global_id': 864810968, 'AdmArea': 'Юго-Восточный административный округ', 'District': 'район Лефортово', 'Address': 'город Москва, Волочаевская улица, дом 40, корпус 9', 'AddressClarification': None, 'BuildingType': 'жилой дом', 'OutageBySections': 'нет', 'Periods': [{'Porches': 'все подъезды', 'OutageBegin': 'без отключения', 'OutageEnd': 'без отключения', 'OutageBeginTime': '', 'OutageEndTime': ''}], 'UserNumber': [], 'UNOM': '4734'}}
{'global_id': 918426194, 'Number': 1, 'Cells': {'global_id': 918426194, 'AdmArea': 'Западный административный округ', 'District': 'район Тропарёво-Никулино', 'Address': 'город Москва, улица 26-ти Бакинских Комиссаров, дом 10, корпус 1', 'AddressClarification': None, 'BuildingType': 'жилой дом', 'OutageBySections': 'нет', 'Periods': [{'Porches': 'все подъезды', 'OutageBegin': '28.06.2021', 'OutageEnd': '08.07.2021', 'OutageBeginTime': '14.00.01', 'OutageEndTime': '13.59.01'}], 'UserNumber': [{'UserNumber':

Каждый элемент списка - это словарь.
Ключ - Cells, значение - словарь в {}

In [18]:
# Вытащим из словаря адреса и другую инфу, которая нам нужна

from urllib.request import urlopen
import json 

total = 1000 # 72357

i = 0 # skip
while i < total:
    response = urlopen('https://apidata.mos.ru/v1/datasets/1401/rows?api_key=eb96511cac4e182c0d0b90461d12aecb&$top=500&$skip=' + str(i))
    i += 500
    respData = response.read().decode('utf8')
    lst = json.loads(respData)
    print(lst[0]['Cells']['Address'])

город Москва, Волочаевская улица, дом 40, корпус 9
город Москва, улица 26-ти Бакинских Комиссаров, дом 10, корпус 1


In [22]:
# Вытащим из словаря адреса и другую инфу, которая нам нужна

from urllib.request import urlopen
import json 

total = 1000 # 72357

i = 0 # skip
while i < total:
    response = urlopen('https://apidata.mos.ru/v1/datasets/1401/rows?api_key=eb96511cac4e182c0d0b90461d12aecb&$top=500&$skip=' + str(i))
    i += 500
    respData = response.read().decode('utf8')
    lst = json.loads(respData)
    for now in lst:
        cells = now['Cells']
        print(cells['Address'])
    #print(lst[0]['Cells']['Address'])

город Москва, Волочаевская улица, дом 40, корпус 9
город Москва, Волочаевская улица, дом 40А
город Москва, Волочаевская улица, дом 40, корпус 2
город Москва, Иловайская улица, дом 12, строение 1
город Москва, 1-я Карачаровская улица, дом 17
город Москва, 1-я Карачаровская улица, дом 23
город Москва, 3-я Радиальная улица, дом 17
город Москва, 3-я Радиальная улица, дом 14
город Москва, 3-я Радиальная улица, дом 15
город Москва, 3-я Радиальная улица, дом 16
город Москва, Балаклавский проспект, дом 15
город Москва, Мытная улица, дом 40, корпус 1
город Москва, Мытная улица, дом 40, корпус 5
город Москва, Анадырский проезд, дом 1
город Москва, улица Лётчика Бабушкина, дом 2
город Москва, улица Лётчика Бабушкина, дом 6
город Москва, Анадырский проезд, дом 3
город Москва, улица Лётчика Бабушкина, дом 4
город Москва, улица Лётчика Бабушкина, дом 8
город Москва, улица Коминтерна, дом 2, корпус 2
город Москва, Сельскохозяйственная улица, дом 35, строение 205
город Москва, Дубининская улица, дом 5

город Москва, улица 26-ти Бакинских Комиссаров, дом 10, корпус 1
город Москва, Ленинский проспект, дом 110, корпус 1
город Москва, улица Раменки, дом 14, корпус 2
город Москва, улица Раменки, дом 16
город Москва, Варшавское шоссе, дом 131, корпус 2
город Москва, Мосфильмовская улица, дом 43/40
город Москва, Мичуринский проспект, дом 15А
город Москва, Мичуринский проспект, дом 17, корпус 4
город Москва, Кременчугская улица, дом 40, корпус 1
город Москва, Студенческая улица, дом 17
город Москва, Мосфильмовская улица, дом 36
город Москва, Давыдковская улица, дом 10, корпус 5
город Москва, Краснопрудная улица, дом 22-24, строение 1
Российская Федерация, город Москва, внутригородская территория муниципальный округ Дорогомилово, Кутузовский проспект, дом 14
город Москва, проспект Вернадского, дом 28
город Москва, улица Лобачевского, дом 100, корпус 4
город Москва, Мичуринский проспект, дом 54, корпус 2
город Москва, Озёрная улица, дом 30, корпус 2
город Москва, Молодогвардейская улица, дом 2

In [23]:
# Вытащим из словаря адреса и другую инфу, которая нам нужна

from urllib.request import urlopen
import json 

total = 1000 # 72357

i = 0 # skip
while i < total:
    response = urlopen('https://apidata.mos.ru/v1/datasets/1401/rows?api_key=eb96511cac4e182c0d0b90461d12aecb&$top=500&$skip=' + str(i))
    i += 500
    respData = response.read().decode('utf8')
    lst = json.loads(respData)
    for now in lst:
        cells = now['Cells']
        print(cells['Address'], cells['Periods'])
        # выгружаем адреса и список, состоящий из словарей
    #print(lst[0]['Cells']['Address'])

город Москва, Волочаевская улица, дом 40, корпус 9 [{'Porches': 'все подъезды', 'OutageBegin': 'без отключения', 'OutageEnd': 'без отключения', 'OutageBeginTime': '', 'OutageEndTime': ''}]
город Москва, Волочаевская улица, дом 40А [{'Porches': 'все подъезды', 'OutageBegin': 'без отключения', 'OutageEnd': 'без отключения', 'OutageBeginTime': '', 'OutageEndTime': ''}]
город Москва, Волочаевская улица, дом 40, корпус 2 [{'Porches': 'все подъезды', 'OutageBegin': 'без отключения', 'OutageEnd': 'без отключения', 'OutageBeginTime': '', 'OutageEndTime': ''}]
город Москва, Иловайская улица, дом 12, строение 1 [{'Porches': 'все подъезды', 'OutageBegin': 'без отключения', 'OutageEnd': 'без отключения', 'OutageBeginTime': '', 'OutageEndTime': ''}]
город Москва, 1-я Карачаровская улица, дом 17 [{'Porches': 'все подъезды', 'OutageBegin': 'без отключения', 'OutageEnd': 'без отключения', 'OutageBeginTime': '', 'OutageEndTime': ''}]
город Москва, 1-я Карачаровская улица, дом 23 [{'Porches': 'все подъе

город Москва, улица 26-ти Бакинских Комиссаров, дом 10, корпус 1 [{'Porches': 'все подъезды', 'OutageBegin': '28.06.2021', 'OutageEnd': '08.07.2021', 'OutageBeginTime': '14.00.01', 'OutageEndTime': '13.59.01'}]
город Москва, Ленинский проспект, дом 110, корпус 1 [{'Porches': 'все подъезды', 'OutageBegin': '15.06.2021', 'OutageEnd': '25.06.2021', 'OutageBeginTime': '14.00.01', 'OutageEndTime': '13.59.01'}]
город Москва, улица Раменки, дом 14, корпус 2 [{'Porches': 'все подъезды', 'OutageBegin': '10.06.2021', 'OutageEnd': '20.06.2021', 'OutageBeginTime': '14.00.01', 'OutageEndTime': '13.59.01'}]
город Москва, улица Раменки, дом 16 [{'Porches': 'все подъезды', 'OutageBegin': '10.06.2021', 'OutageEnd': '20.06.2021', 'OutageBeginTime': '14.00.01', 'OutageEndTime': '13.59.01'}]
город Москва, Варшавское шоссе, дом 131, корпус 2 [{'Porches': 'все подъезды', 'OutageBegin': '04.08.2021', 'OutageEnd': '14.08.2021', 'OutageBeginTime': '14.00.01', 'OutageEndTime': '13.59.01'}]
город Москва, Мосфиль

In [27]:
# Вытащим из словаря адреса и другую инфу, которая нам нужна

from urllib.request import urlopen
import json 

total = 1000 # 72357

i = 0 # skip
while i < total:
    response = urlopen('https://apidata.mos.ru/v1/datasets/1401/rows?api_key=eb96511cac4e182c0d0b90461d12aecb&$top=500&$skip=' + str(i))
    i += 500
    respData = response.read().decode('utf8')
    lst = json.loads(respData)
    for now in lst:
        cells = now['Cells']
        periods = cells['Periods']
        period = periods[0]
        begin = period['OutageBegin']
        end = period['OutageEnd']
        print(cells['Address'], begin, end)
        # выгружаем адреса и список, состоящий из словарей
    #print(lst[0]['Cells']['Address'])

город Москва, Волочаевская улица, дом 40, корпус 9 без отключения без отключения
город Москва, Волочаевская улица, дом 40А без отключения без отключения
город Москва, Волочаевская улица, дом 40, корпус 2 без отключения без отключения
город Москва, Иловайская улица, дом 12, строение 1 без отключения без отключения
город Москва, 1-я Карачаровская улица, дом 17 без отключения без отключения
город Москва, 1-я Карачаровская улица, дом 23 без отключения без отключения
город Москва, 3-я Радиальная улица, дом 17 без отключения без отключения
город Москва, 3-я Радиальная улица, дом 14 без отключения без отключения
город Москва, 3-я Радиальная улица, дом 15 без отключения без отключения
город Москва, 3-я Радиальная улица, дом 16 без отключения без отключения
город Москва, Балаклавский проспект, дом 15 без отключения без отключения
город Москва, Мытная улица, дом 40, корпус 1 без отключения без отключения
город Москва, Мытная улица, дом 40, корпус 5 без отключения без отключения
город Москва, Ана

KeyboardInterrupt: 

In [28]:
# скачаем часть и сохраним себе в json

from urllib.request import urlopen
import json 

total = 1000 # 72357

i = 0 # skip
while i < total:
    i += 500
    print(i)

500
1000


In [30]:
# скачаем часть и сохраним себе в json

from urllib.request import urlopen
import json 

total = 1000 # 72357

i = 0 # skip
alllst = []
while i < total:
    
    response = urlopen('https://apidata.mos.ru/v1/datasets/1401/rows?api_key=eb96511cac4e182c0d0b90461d12aecb&$top=500&$skip=' + str(i))
    respData = response.read().decode('utf8')
    lst = json.loads(respData)
    alllst.extend(lst)
    
    i += 500
    print(i)
    
print(len(alllst))

500
1000
1000


In [33]:
# скачаем всё и сохраним себе в json

from urllib.request import urlopen
import json 

total = 72357

i = 0 # skip
alllst = []
while i < total:
    
    response = urlopen('https://apidata.mos.ru/v1/datasets/1401/rows?api_key=eb96511cac4e182c0d0b90461d12aecb&$top=500&$skip=' + str(i))
    respData = response.read().decode('utf8')
    lst = json.loads(respData)
    alllst.extend(lst)
    
    i += 500
    print(i)
    
fout = open('outage.json', 'w', encoding = 'utf8')
json.dump(alllst, fout, ensure_ascii=False) # что и куда сохранять
fout.close()

500
1000


In [36]:
import json

fin = open('outage.json', 'r', encoding = 'utf8')
text = fin.read()
lst = json.loads(text)
print(len(lst))

1000
