Парсинг судебной статистики для нужд мира
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
CourtsParser.py
LICENSE
README.md
example_1_12_months_2015.xls
ПАРСЕР — копия.7z

README.md

Открытая судебная статистика

Нужен парсер, который превращает экселевские таблицы с судебной статистикой в структурированные данные

Принимаем Pull-реквесты. Вознаграждение за труд обсуждаемо:)

Задача: агрегировать данные по формам судебной статотчетности из российских районных судов и сделать их пригодными для последующего анализа.

  • Мы собрали всю доступную на данный момент статистику о работе районных судов с 2014 по первое полугодие 2016 года. Это около 3,3 Гб архивов.
  • Для любой формы (например, № 1 “Уголовные дела в первой инстанции”) необходимо получить данные по региону или по всем доступным статотчетом данной формы за различные периоды отчетности (Например, Форма № 1 по Ивановской области за 2015 г. это 22 файла XLS для анализа)
  • В отчетах есть разделы, их не обязательно связывать и можно рассматривать как отдельные датасеты
  • Хорошо, если их можно будет получить в виде JSON или CSV файлов или в виде базы данных

Что полезно знать о судстате:

  1. Судебная статистика районного суда - это первичная, неагрегированная информация о результатах работы суда с тысячами показателей. Самих судов 2198 штук в 85 регионах.
  2. Судебный департамент отвечает за судстат в России, но публикует только сводные данные по России и регионам. С криминальной статистикой МВД тоже все не очень хорошо.
  3. На сайтах судов публикуется пока десятая доля, но это уже 12 000 отчетов. И мы планируем получить еще больше отчетов в этом году.
  4. Совсем скоро опубликуем все собранные нами статданные - это около 3ГБ архив отчетов из 50 регионов.

Лирика

Извлеченные структурированные данные данные могут стать основой для исследовательских и журналистских проектов, а также для анализа судебной практики с любой целью.

Каждый отчет по одним только уголовным делам содержит показатели, отвечающие на тысячи вопросов, например:

  • Сколько граждан осудили в суде за грабёж (или другой статье) в 2015?
  • Сколько человек в год оправдывают и по каким статьям?
  • Какие меры наказания чаще применяются в суде?
  • Как часто деятельное раскаяние становится причиной прекращения уголовного дела?
  • Сколько преступлений совершили граждане в состоянии алкогольного, а сколько - в состоянии наркотического опьянения?
  • Часто ли суд отправляет подсудимого в СИЗО? Эти показатели можно сравнивать по отдельным судам, по регионам и во временном разрезе. Можно сделать карту (давным давно в далёкой галактике был проект Атлас правосудия - можно сделать не хуже).

В чем проблемы?

  1. Данные не машиночитаемы. Их надо парсить и структурировать. Все отчеты - экселевские таблицы, предназначенные для печати.
  2. Данных мало и они плохо публикуюся судами. В прошлом году мы проверяли и узнали , что опубликовано 10% судебной статистики (12 из 3. 120 тысяч отчетов!)

Что мы уже сделали?

  1. В ходе аудита мы не только проверили, но и добились публикации судами дополнительных 4 тысяч отчетов. В этом году будем добиваться публикации новых отчетов. Есть регионы, в которых отчетность публикуется почти полностью: Забайкальский край, Ивановская, Костромская область, Мордовия (рейтинг есть в отчёте)
  2. В рейтинге мы собрали ссылки на статотчеты, их можно выгружать в CSV и JSON.
  3. Микко Питкянен сделал парсер на основе макроса в Эксель (VBA). Он справляется с анализом отдельных файлов формы №1 (уголовные дела в первой инстанции), но у него пока плохо получается обрабатывать много отчётов одновременно.

Кто мы?

Проектный центр "Инфометр". Занимаемся информационной открытостью и консалтингом госсектора в сети. Развиваем открытые данные. Считаем, что статистика судов в формате ОД поможет разобраться в работе судебной системы гражданам, органам власти и бизнесу. Кроме того, ее публикация обязательна по закону.

Будем рады предложениям о партнерстве и совместным аналитическим проектам: info@infometer.org