# Изучение открытых данных

__Источник данных__:
www.data.gov.ru

In [5]:
api_token = 'insert your own token'

In [6]:
import urllib.request
import json
import pandas as pd

In [7]:
url_start = 'http://data.gov.ru/api/'
url_end = '/?access_token=' + api_token

def get_data(query):
    url = url_start + query + url_end
    with urllib.request.urlopen(url) as response:  
        raw_data = str(response.read(), 'utf-8')
    return raw_data

## Перечень наборов данных

Запрос вида api/dataset/?access_token=7e9d0c209e93684a37a575ca4dl5h3d7

In [8]:
data = pd.read_json(get_data('dataset'))
print(len(data))
data.head()

9624


Unnamed: 0,identifier,organization,organization_name,title,topic
0,7710349494-mfclist,7710349000.0,Министерство экономического развития Российско...,Список МФЦ,Government
1,7707778246-organizations,7707778000.0,Министерство здравоохранения Российской Федерации,Реестр подведомственных организаций Министерст...,Government
2,7710474375-perechenpodved,7710474000.0,Министерство связи и массовых коммуникаций Рос...,Перечень подведомственных организаций,Government
3,7710474375-svedovak,7710474000.0,Министерство связи и массовых коммуникаций Рос...,Сведения о вакантных должностях государственно...,Government
4,7710474375-registergosaccred,7710474000.0,Министерство связи и массовых коммуникаций Рос...,"Реестр аккредитованных организаций, осуществля...",Government


### Топ-10 организаций

In [9]:
data.organization_name.value_counts().head(10)

Федеральная служба государственной статистики                                            2407
Правительство Тульской области                                                            880
Высший исполнительный орган государственной власти города Москвы-Правительство Москвы     801
Правительство Ульяновской области                                                         590
Администрация Томской области                                                             230
Министерство транспорта и связи Свердловской области                                      196
Правительство Волгоградской области                                                       155
Администрация Главы Чувашской Республики                                                  130
Федеральное дорожное агентство                                                            130
Префектура Зеленоградского Административного округа города Москвы                         114
Name: organization_name, dtype: int64

### Топ-5 тем наборов данных

In [10]:
data.title.value_counts().head()

Перечень подведомственных организаций                                                                   27
Населенные пункты, расположенные на территории поселения                                                15
План проведения плановых проверок юридических лиц и индивидуальных предпринимателей на очередной год    12
Реестр аккредитованных образовательных организаций                                                      12
Реестр лицензий на осуществление образовательной деятельности                                           11
Name: title, dtype: int64

### Пример: остановки общественного транспорта

In [11]:
public_transport = data.ix[data.title.str.contains('Остановки|остановки'), :]
public_transport

Unnamed: 0,identifier,organization,organization_name,title,topic
422,7710489036-ostanovki-nazemnogo-gorodskogo-pass...,7710489000.0,Высший исполнительный орган государственной вл...,Остановки наземного городского пассажирского т...,Transport
909,1380533740-01-DATA_MOS_RU_752,7735018000.0,Префектура Зеленоградского Административного о...,Остановки НГПТ,Transport
3556,6630001974-public_stops,6658356000.0,Министерство транспорта и связи Свердловской о...,Остановки общественного транспорта,Transport
4440,6613006789-ostanov,6658356000.0,Министерство транспорта и связи Свердловской о...,Остановки общественного транспорта,Transport
4482,6606003882-obshestven_transport,6658356000.0,Министерство транспорта и связи Свердловской о...,Остановки общественного транспорта,Transport
4513,6601013189-publictransport,6658356000.0,Министерство транспорта и связи Свердловской о...,Остановки общественного транспорта муниципальн...,Transport
4545,6607002585-public_transport,6658356000.0,Министерство транспорта и связи Свердловской о...,Остановки общественного транспорта,Transport
4565,6613002150-ostanovki,6658356000.0,Министерство транспорта и связи Свердловской о...,Остановки общественного транспорта Камышловско...,Transport
9356,7704786030-busstops,7710489000.0,Высший исполнительный орган государственной вл...,Остановки наземного городского пассажирского т...,Transport


In [12]:
identifier = public_transport.loc[909, 'identifier']
identifier

'1380533740-01-DATA_MOS_RU_752'

### Запрос набора данных

Запрос вида api/dataset/**1380533740-01-DATA_MOS_RU_752**/?access_token=**7e9d0c209e93684a37a575ca4dl5h3d7**

где первое выделение жирным это идентификатор датасета, второе токен

In [13]:
public_stops = get_data('dataset/' + identifier)

In [14]:
json.loads(public_stops)

{'created': '20130930T000000',
 'creator': 'Префектура Зеленоградского Административного округа города Москвы',
 'description': 'Остановки НГПТ',
 'format': None,
 'identifier': '1380533740-01-DATA_MOS_RU_752',
 'modified': '20130930T000000',
 'subject': 'Зеленоград,Остановки НГПТ',
 'title': 'Остановки НГПТ'}

### Вывод

Существующее API по большей части предоставляет метаинформацию о наборах данных. API для получения наборов данных не подходит и нужно использовать другие способы.