Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Поиск опечаток и других аномалий в базе документов Конституционного Суда #10

Open
Sasha-BabyBird opened this issue Oct 25, 2018 · 18 comments
Assignees
Labels
priority/high High issue priority type/bug Something isn't working type/task Formalizing definition of something that should be realized
Projects

Comments

@Sasha-BabyBird
Copy link

Sasha-BabyBird commented Oct 25, 2018

Bug report

Описание ошибки

На сайте Конституционного Суда Российской Федерации решения (т.е. и постановления, и определения, и собственно решения) имеют в целом одну и ту же форму, благодаря чему их можно исследовать на атрибуты, разбив на некоторые значимые части.
Однако в ходе выполнения этой задачи обнаружилось, что некоторые решения выпадают из общего ряда по причине 1) изменённого формата ключевых слов, ссылок или номера, 2) банальных опечаток, допущенных сотрудниками суда, а также 3) проблем с отображением документа в .txt-формате (например, битый файл).
Необходимо найти и описать все примеры таких ошибок и необычностей в документах, чтобы в дальнейшем учитывать их в парсинге.

Дополнительный контекст или ссылки на связанные с данной задачей issues

исходная задача
комментарий из другой компоненты
Составленные регулярные выражения:

  1. для поиска ключевых слов
  2. для проверки того, должным образом ли завершается текст в документе
  3. для поиска дат
  4. для поиска судей

Описание аномалий - в комментариях к этой issue: для каждого случая отдельный комментарий.
Эта задача пока будет открытой.

@Sasha-BabyBird Sasha-BabyBird added type/bug Something isn't working type/task Formalizing definition of something that should be realized priority/high High issue priority labels Oct 25, 2018
@Sasha-BabyBird Sasha-BabyBird added this to To do in Research via automation Oct 25, 2018
@Sasha-BabyBird Sasha-BabyBird moved this from To do to In progress in Research Oct 25, 2018
@Sasha-BabyBird Sasha-BabyBird self-assigned this Oct 25, 2018
@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 25, 2018

1:
Документы: КСРФ_4-О_2000.txt,
КСРФ_8-Р_1992.txt, КСРФ_10-Р_1993.txt

В чём проблема: в определении 4-О_2000 содержится ссылка на определение 50-О_1999 в очень неявном виде - указаны только дата (4 марта 1999 года) и тема, но не номер документа. Действующие алгоритмы не распознают это как ссылку; к тому же, найти документ по такому описанию довольно трудно. Стоит отметить, что 4-О_2000 - это не совсем определение, несмотря на обозначение, а разъяснение другого определения - как раз 50_О-1999.
Также в этом определении отсутствует слово "определил", но это можно объяснить нестандартным характером документа.
Решения 8-Р_1992 и 10-Р_1993 ссылаются на постановление 2-П-3_1992 в таком же неявном виде и так же являются дополнениями к этому постановлению. При этом в решении 8-Р_1992 нет слова "решил".

ОПРЕДЕЛЕНИЕ КОНСТИТУЦИОННОГО СУДА РОССИЙСКОЙ ФЕДЕРАЦИИ о разъяснении определения Конституционного Суда Российской Федерации от 4 марта 1999 года по жалобе закрытого акционерного общества "Производственно-коммерческая компания "Пирамида" на нарушение конституционных прав и свобод пунктом 4 статьи 14 Закона Российской Федерации "О валютном регулировании и валютном контроле" в связи с ходатайством Центрального банка Российской Федерации город Москва 14 января 2000 года Конституционный Суд Российской Федерации в составе Председателя М.В.Баглая, судей Н.В.Витрука, Г.А.Гаджиева, Ю.М.Данилова, Л.М.Жарковой, Г.А.Жилина, В.Д.Зорькина, А.Л.Кононова, В.О.Лучина, Т.Г.Морщаковой, Ю.Д.Рудкина, Н.В.Селезнева, А.Я.Сливы, В.Г.Стрекозова, О.И.Тиунова, О.С.Хохряковой, Б.С.Эбзеева, В.Г.Ярославцева, заслушав в пленарном заседании заключение судьи Г.А.Гаджиева, проводившего предварительное изучение ходатайства Центрального банка Российской Федерации об официальном разъяснении определения Конституционного Суда Российской Федерации от 4 марта 1999 года по жалобе ЗАО "Производственно-коммерческая компания "Пирамида", установил:

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 25, 2018

2:
Документы:
КСРФ_355-О_2004.txt, КСРФ_675-О-П_2008.txt
В чём проблема: после слова "определил", за которым следует главная часть определения, отсутствует двоеточие. Поэтому такие документы не поддаются парсингу, основанному на поиске слов перед двоеточиями, а совсем без них обойтись нельзя, потому что слово "определил" без двоеточия может встретиться в документе более одного раза (перед двоеточием - только один раз).

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 25, 2018

3:
Документы:
КСРФ_332-О_2003.txt, КСРФ_2841-О_2017.txt, КСРФ_П-Р3-1_1992.txt
В чём проблема: в конце текстов этих документов их номера написаны с грубой (то есть делающей их парсинг невозможной) ошибкой. Определение 332-О_2018 указано как 322-О (три-два-два, sic!), 2841-О_2017 - как 1841-О, П-Р3-1_1992 - как П-РЗ-1, то есть вместо цифры 3 стоит буква "З". При этом документы 322-О_2018 и 1841-О_2017 реально существуют и помечены своим номером! Правда, ни одно из решений не ссылается ни на эти документы, ни на документы, номера которых ошибочно указаны, - во всяком случае, таких ссылок нет среди ссылок, которые нашёл алгоритм грубого анализа.

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 25, 2018

4:
Документы:
КСРФ_56-Р_1993.txt, КСРФ_920-О-Р_2009.txt, КСРФ_219-О-Р_2009.txt
В чём проблема: в конце текстов этих документов в их номерах допущена опечатка в буквенном обозначении типа решения. В определении 56-Р вместо кириллической "Р" (эр) стоит латинская "P" (пэ), в двух других документах вместо О-Р написано О-О, что неприятно, потому что определений об отказе типа "О-О" не должно быть в нашей выборке. Что интересно, документы под номером 920-О-О и 219-О-О встречаются за 2007, 2008 и 2010-12 гг., что наводит на мысль, что опечатка была допущена не в тексте документа, а в его названии, как и в этом случае.
Ни одно из решений в базе не ссылается ни на эти документы, ни на документы, номера которых ошибочно указаны, - во всяком случае, таких ссылок нет среди ссылок, которые нашёл алгоритм грубого анализа.

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 25, 2018

5:
Документы:
КСРФ_1274-О--Р_2013.txt
В чём проблема: очевидная опечатка в названии, в тексте номер решения указан верно. Ссылок на 1274-О-Р_2013 нет.

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 25, 2018

6:
Документы:
КСРФ_1832-О_2018.txt, КСРФ_2741-О_2015.txt, КСРФ_2310-О_2015.txt, КСРФ_3-П_2001.txt
В чём проблема: в конце текстов этих документов их номер написан без символа № или N. Некритично, т.к. легко учесть при парсинге.

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 25, 2018

7:
Документы:
КСРФ_340-О_2002.txt, КСРФ_341-О_2002.txt
В чём проблема: в конце текстов этих документов их номер написан просто как 340 и 341 соответственно, то есть без буквенного обозначения типа решения.

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 25, 2018

8:
Документы: очень многие из тех, которые были опубликованы в 2006 году, а также
КСРФ_1784-О_2013.txt

В чём проблема: особенность этих документов в том, что в конце их текстов номера вообще отсутствуют, а последнее слово в документе - инициалы и фамилия судьи - в большинстве случаев, судьи-секретаря КС РФ Ю.М.Данилова.

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 25, 2018

9:
Документы: 26 определений из упомянутых, список
В чём проблема: в этих документах есть пустая последняя страница, что в ходе конвертирования их в .txt-формат привело к тому, что последним символом в тексте стала цифра - номер страницы. Это портит их формат и мешает парсингу.

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 25, 2018

10:
Документы:
КСРФ_45-О_2006.txt, КСРФ_141-О_2006.txt - оба среди упомянутых
В чём проблема: между инициалами и фамилией судьи, которой завершаются документы, стоит пробел.

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 26, 2018

11:
Документы:
КСРФ_2-П_1993.txt, КСРФ_3-П_1993.txt, КСРФ_10-Р_1993.txt (этот ещё и здесь), КСРФ_4-П_1992.txt, КСРФ_6-П_1992.txt, КСРФ_8-П_1992.txt, КСРФ_5-П_1992.txt, КСРФ_7-П_1992.txt, КСРФ_1-П-У_1992.txt, КСРФ_2-П-З_1992.txt
В чём проблема: в этих решениях словом, стоящим перед резолютивной частью, является не "постановил" или "решил", а "постановляет", что необходимо учитывать при парсинге.

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 26, 2018

12:
Документы: более сотни
В чём проблема: иногда в решениях КС РФ ключевые слова ("определил", "установил", "постановил", "решил") пишут с увеличенным межбуквенным интервалом - как бы с пробелами между буквами. При конвертации в .txt-формат по неизвестной причине некоторые из таких слов так и передались - с пробелами, а некоторые передались нормально, как цельное слово.
Пример: документ 1-П_2017 - на сайте, в базе на компьютере

Конституционный Суд Российской Федерации постановил: 1. Признать невозможным исполнение (...)

10-П_2008 - на сайте, в базе на компьютере:

Конституционный Суд Российской Федерации п о с т а н о в и л: 1. Признать взаимосвязанные положения (...)

@Sasha-BabyBird
Copy link
Author

Регулярное выражение для поиска ключевых слов:
r'(?:(?:постанов|реш|определ)(?:ил ?|ляет ?)|(?:о п р е д е л |п о с т а н о в )и л *)(?=:)'
Документы, упомянутые в предыдущих комментах, которые невалидны в смысле этого регулярного выражения:

Decision files\КСРФ_1177-О_2018.txt: ()
Decision files\КСРФ_355-О_2004.txt: ()
Decision files\КСРФ_4-О_2000.txt: ()
Decision files\КСРФ_675-О-П_2008.txt: ()
Decision files\КСРФ_8-Р_1992.txt: ()

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 27, 2018

Регулярное выражение для проверки валидности завершения текста документа:
r'(?ui)(?:(?:№|N| ) *' + numbers_list[i] + r'\s*?|\w\.\w\. ?\w+\s+\d?\s*$)',
где numbers_list[i] вытаскивается из headers_list[i] с помощью регулярки:
r'(?<=КСРФ_).+(?=\-)'
Документы, упомянутые в предыдущих комментах, которые невалидны в смысле этого регулярного выражения:

Decision files\КСРФ_1177-О_2018.txt
Decision files\КСРФ_2841-О_2017.txt
Decision files\КСРФ_332-О_2003.txt
Decision files\КСРФ_П-Р3-1_1992.txt

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Oct 27, 2018

15:
Документы:
КСРФ_11-О_1995.txt,
КСРФ_22-Р_1992.txt
В чём проблема: первый файл - единственный, в котором фраза "Конституционный Суд" в именительном падеже стоит ДО даты. Таким образом, он стал единственным, из которого не удалось вытащить дату с помощью регулярок:
r'(?iu)(?:(?:от *)?["“”]?\d{1,2}["“”]? *?\w+ *?\d\d\d\d(?: *| *год[ а] *))(?=$)'
и
r'(?iu)(?:от *)?["“”]?\d{1,2}["“”]? *?\w+ *?\d\d\d\d(?: *| *год[ а] *)'

Второй файл в принципе имеет очень кривой формат начала - дата стоит слишком рано и т.д., но это можно обойти

@Sasha-BabyBird
Copy link
Author

16:
Документы:
КСРФ_1928-О_2015.txt
В чём проблема: опечатка - отсутствуют слова "об отказе". То есть в начале текста написано: "определение КС РФ в принятии на рассмотрение жалобы (...)", хотя по смыслу это определение именно об отказе в принятии на рассмотрение этой жалобы. Таким образом, опечатка не только вводит в заблуждение регулярное выражение для поиска темы решения, но и "переворачивает" смысл темы.

@Sasha-BabyBird
Copy link
Author

Sasha-BabyBird commented Nov 26, 2018

17:
Документы:
КСРФ_11-П_2001.txt
В чём проблема:
Опечатка в инициалах судьи. Вместо "Ю.Д.Рудкин" написано "Ю.Д.Ю.Д.Рудкин".
В некоторых документах встречаются и другие опечатки - неправильные буквы или лишние окончания.
Это не мешает выводу статистики по судьям, но может помешать исследованию особенностей решений, подписанных конкретным судьёй.
Также следует отметить, что у многих постановлений в конце отсутствует подпись с ФИО судей, они указаны только в начале.

@Sasha-BabyBird
Copy link
Author

18:
Документы:
КСРФ_316-О_2004.txt,
КСРФ_345-О_2003.txt,
КСРФ_365-О_2005.txt
В чём проблема:
Внезапно в подписи имена судей указаны без отчества, т. е. "В.Зорькин" вместо "В.Д.Зорькин". Это действительно случайность, т.к. таких документа всего три. Приходится дополнять регулярное выражение. В настоящий момент оно выглядит так:
r'[А-Я]\.[А-Я]\.[А-Яа-яЁё]+(?!\.)|[А-Я]\.[А-Яа-яЁё]+'

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
priority/high High issue priority type/bug Something isn't working type/task Formalizing definition of something that should be realized
Projects
Research
  
In progress
Development

No branches or pull requests

2 participants