Skip to content
No description, website, or topics provided.
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
principles
000_enlisting_datasets.csv
01_Баланс_ОЕС.md
02_платники_податків.md
03_єдр.md
04_користувачі_надрами.md
05_автомагістралі.md
06_КОАТУУ.md
07_поштові_відділення.md
08_транспортні_засоби.md
09_навчальні_заклади.md
10_закупівлі.md
README.md

README.md

OpenUp Rating

Навіщо

  • Мотивація
  • Змагання
  • Стандартизація

ведуть до:

Якісних, машиночитаних, доступних наборів

Ідеї

  • Авторитетна експертиза - Хто авторитет?
  • Опитування - Суб'єктивність
  • Формати файлів - Заміна формою суті
  • Стандарти - Бінарна оцінка

Принципи

Критерії

  • Доступ та повнота
  • Машиночитаність
  • Відкритість

Доступ

Дані повинні бути доступні повністю та не більш ніж за платню, яка не перевищує затрати на одноразове копіювання, а через Інтернет повинні завантажуватись без стягування платні.

Так, необхідним критерієм є безоплатність. Тобто якщо набір доступний за допомогою платного API, то оцінюємо так, ніби API не існує.

Доступ можна оцінити як кількість команд, необхідних для завантаження.

Бонусні бали за якість доступу

  • дампи
  • API
  • можливість оновлення без необхідності завантаження усього дампу
  • формат: 0 - якщо неможливо прочитати за допомогою open source unix-програми, 1 - якщо можливо

Повнота

Оцінювати набір можна за часткою, що відкрита. Тобто, беремо 835, беремо положення про відповідний реєстр та рахуємо кількість відкритих полів та визначаємо долю відкритості.

Для того, щоб визначити долю інформації розпорядника, що опублікувана у форматі відкритих даних, потрібно скласти представлення про обсяг даних, що взагалі збирається розпорядником.

Інформація, що збирається може бути 2 категорій:

  • Що створюється про самого розпорядника (нормативно-правові акти, організаційна структура, телефонний довідник)
  • Що збирається про об'єкти регулювання (бази даних, реєстри, списки, ліцензування, вибірки з інших баз даних)

Для того, щоб зробити рейтинг більш цікавим, не будемо аналізувати обов'язкові набори (про самого розпорядника), а розглянемо лише зовнішні об'єкти, про які збирається інформація (об'єкти регулювання).

Адже відкритість інформації саме про об'єкти розглядаються у світових рейтингах відкритих даних:

Тим більше, що структура уряду невпинно змінюється і її неможливо буде порівнювати рок до року.

Тим більше, що розпорядники самі є об'єктами регулювання інших розпорядників.

Машиночитаність (легкість обробки)

Дані повиння бути надані у формі, що легко обробляється компьютером, де індивідуальні елементи даних доступні для читання та редагування.

Легкість обробки досить неформальне поняття. Формалізувати можна як величина, зворотня до кількості кроків (unix-програм), які треба застосувати щоб переглянути перший та останній елемент даних у наборі. Наприклад, якщо це простий csv-файл у utf-8, то буде 1/1 (head, tail), якщо zip, то 1/2 (unzip + less/head), якщо win1251 - 1/3 (unzip + iconv + less/head), якщо xlsx, то це відразу 1/10, якщо бінарний xls, doc чи jpg - 1/нескінченність (0),

Беремо медіанне значення кожного набору, отримуємо рейтинг машиночитаності.

Підсумкова оцінка

Перемножуємо бали за доступність, машиночитаність та формат, отримуємо рейтинг відкритості.

Вибір наборів для оцінки

На жаль, ми не маємо ресурсів для того, щоб детально розглянути усі набори усіх розпорядників, тому обмежимося Топ-10.

Але визначити Топ-10 не проаналізувавши усіх неможливо. Тому припустимо, то це Топ-10 псевдовипадково відібраних наборів даних. Насправді ж візьмемо рейтинг TAPAS та визначимо суб'єктивно відібраний "найкращий" набір даних кожного з 10 "лідерів".

TODO

  • Спробуємо створити рейтинг відкритості 10 найкращих наборів розпорядників, які є лідерами рейтингу за методологією TAPAS.

Натхнення

You can’t perform that action at this time.