-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Поиск опечаток и других аномалий в базе документов Конституционного Суда #10
Comments
1: В чём проблема: в определении 4-О_2000 содержится ссылка на определение 50-О_1999 в очень неявном виде - указаны только дата (4 марта 1999 года) и тема, но не номер документа. Действующие алгоритмы не распознают это как ссылку; к тому же, найти документ по такому описанию довольно трудно. Стоит отметить, что 4-О_2000 - это не совсем определение, несмотря на обозначение, а разъяснение другого определения - как раз 50_О-1999.
|
2: |
3: |
4: |
5: |
6: |
7: |
8: В чём проблема: особенность этих документов в том, что в конце их текстов номера вообще отсутствуют, а последнее слово в документе - инициалы и фамилия судьи - в большинстве случаев, судьи-секретаря КС РФ Ю.М.Данилова. |
9: |
10: |
11: |
12:
10-П_2008 - на сайте, в базе на компьютере:
|
Регулярное выражение для поиска ключевых слов:
|
Регулярное выражение для проверки валидности завершения текста документа:
|
15: Второй файл в принципе имеет очень кривой формат начала - дата стоит слишком рано и т.д., но это можно обойти |
16: |
17: |
18: |
Bug report
Описание ошибки
На сайте Конституционного Суда Российской Федерации решения (т.е. и постановления, и определения, и собственно решения) имеют в целом одну и ту же форму, благодаря чему их можно исследовать на атрибуты, разбив на некоторые значимые части.
Однако в ходе выполнения этой задачи обнаружилось, что некоторые решения выпадают из общего ряда по причине 1) изменённого формата ключевых слов, ссылок или номера, 2) банальных опечаток, допущенных сотрудниками суда, а также 3) проблем с отображением документа в .txt-формате (например, битый файл).
Необходимо найти и описать все примеры таких ошибок и необычностей в документах, чтобы в дальнейшем учитывать их в парсинге.
Дополнительный контекст или ссылки на связанные с данной задачей issues
исходная задача
комментарий из другой компоненты
Составленные регулярные выражения:
Описание аномалий - в комментариях к этой issue: для каждого случая отдельный комментарий.
Эта задача пока будет открытой.
The text was updated successfully, but these errors were encountered: