Documentation — law_codes.py

_get_cookie

Получение куки из ответа с сервера.

Объявление

def _get_cookie(response: (response from: urllib.request.urlopen(url,[data],[timeout])))

Параметры

response — ответ с сервера.

Возвращает

str — куки, полученные с сайта.

_get_page

Получение данных со страницы.

Объявление

def _get_page(url: str, reqHeaders: dict[str,str], prevResponse: (response from: urllib.request.urlopen(url,[data],[timeout])), referer: str, raw: bool)

Параметры

url — url страницы, которую надо получить;
reqHeaders — словарь с заголовками POST-запроса;
prevResponse — это второй элемент кортежа результата, возвращаемого самой _get_page, по умолчанию = None;
referer — строка с URL страницы, с которой якобы будет сделан переход, по умолчанию = None;
raw — обработанные ли данные, по умолчанию = false.

Возвращает

tuple(url lib.request.urlopen(urllib.request.Request(url, headers=reqHeaders)).read(), url lib.request.urlopen(req)) — данные со страницы.

_decode_json_from_str

Парсим JSON.

Объявление

_decode_json_from_str(content: str)

Параметры

content — строка в формате JSON.

Возвращает

list or dict сколь угодной вложенности распарсенных данных из JSON'а.

class _BaseCode

Класс, описывающий работу с данными некоторого кодекса.

get_document_redactions

Получение редакций документов.

Объявление

def get_document_redactions(cls, url: str, reqHeaders: dict[str,str], prevResponse: url lib.request.urlopen(req), referer: str)

Параметры

cls — представление класса;
url — url страницы, которую надо получить;
reqHeaders — словарь с заголовками POST-запроса;
prevResponse — это второй элемент кортежа результата, возвращаемого самой _get_page, по умолчанию = None;
referer — строка с URL страницы, с которой якобы будет сделан переход, по умолчанию = None;

Возвращает

jsonRedactions['editions']['list'], response — list и объект класса

create_header

Создание заголовка документа.

Объявление

def create_header(cls, CUR_RD_KEY: str, supertype: str, doc_type, absolute_path: str, interredaction_id: str, title: str, release_date: str, effective_date: str, attached: list[str], dstLabel: str, parLabelInSavedHtm: str, rdNote: str, consNote: str, text: str)

Параметры

cls — представление класса;
CUR_RD_KEY — ключ текущей редакции;
supertype — супертип;
doc_type — тип документа;
absolute_path — абсолютный путь к файлу заголовка;
interredaction_id — id данной редакции;
title — заголовок постановления;
release_date — дата выхода;
effective_date — дата вступления в силу;
attached — список приложений;
dstLabel — позиция положения кодекса внутри документа на КонсультантПлюс;
parLabelInSavedHtm — позиция положения кодекса внутри сохранненого html;
rdNote — примечание о редакции положения, по умолчанию None;
consNote — примечание КонсультантПлюс к положению, по умолчанию None;
text — текст постановления с заголовком header, по умолчанию None.

Возвращает

header — словарь с заголовком документа.

create_subheader

Создаем подзаголовок документа.

Объявление

def create_subheader(cls, hKey: str, SUBH_SIGN: str, absolute_path: str, interredaction_id: str, title: str, rdNote: str, consNote: str, text: str)

Параметры

cls — представление класса;
hKey — ключ надположения (части статьи — ключ статьи, для статьи — главы т.д.);
SUBH_SIGN — обозначение данного положения внутри строки doc_id. Для статьи - СТ: КОАПРФ/СТ-2.5;
absolute_path — абсолютный путь к файлу подзаголовка;
interredaction_id — id данной редакции;
title — заголовок постановления;
rdNote — примечание о редакции положения;
consNote — примечание КонсультантПлюс к положению;
text — текст постановления с подзаголовком header, по умолчанию None.

Возвращает

header — словарь с подзаголовком документа.

get_subhdrs_frm_tree_and_return_lines_for_articles

Получаем подзаголовки из дерева и возвращаем линии для статей.

Объявление

def get_subhdrs_frm_tree_and_return_lines_for_articles(cls, treeItem: dict[str,str], hKey: str, CUR_RD_KEY: str, rekeyedAttachedTitles: dict[str,dict[str,str]], splittedHtm: dict[str, dict[str,str]])

Параметры

cls — представление класса;
treeItem — дерево, которое содержит структуру кодекса до статей включительно, берется с сайта КонсультантПлюс;
hKey — ключ надположения (части статьи — ключ статьи, для статьи — главы т.д.);
CUR_RD_KEY — ключ текущей редакции;
rekeyedAttachedTitles — переименованные прикрепленные заголовки;
splittedHtm — разделенный html.

Возвращает

dict[str,int] — словарь с uid — ключами и номерами строк — значениями.

get_par_html

Получаем распарсенную html страницу.

Объявление

def get_par_html(cls, allHtml: str, par: int)

Параметры

cls — представление класса;
allHtml — html код, который парсим;
par — начальное id для парсинга.

Возвращает

lxml.html.document_fromstring(parHtml[0]) — распарсенная html.

get_paras_and_titles_from_saved_htm

Получение заголовков из сохраненного html.

Объявление

def get_paras_and_titles_from_saved_htm(cls, savedHtm: str)

Параметры

cls — представление класса;
savedHtm — сохраненный html код.

Возвращает

dict[str, str]

split_saved_htm

Разделение сохраненного html

Объявление

def split_saved_htm(cls, savedHtm: str)

Параметры

cls — представление класса;
savedHtm — сохраненный html код.

Возвращает

dict[str,str]

get_cons_note_from_str

Получение примечаний из строки.

Объявление

def get_cons_note_from_str(cls, string: str)

Параметры

cls — представление класса;
string — строка, в которой ищем примечания.

Возвращает

'\n'.join(xl), где xl — list.

clear_splitted_htm_and_get_plus_add_cons_notes

Очищаем разделенную html и получаем с добавленными примечаниями.

Объявление

def clear_splitted_htm_and_get_plus_add_cons_notes(cls, splittedHtm: dict[str, dict[str,str]])

Параметры

cls — представление класса;
splittedHtm — разделенный html код.

build_article_subheaders_treeItem

Создаем подзаголовки статей.

Объявление

def build_article_subheaders_treeItem(cls, articleLines: dict[str, list[str]], CUR_RD_KEY: str)

Параметры

cls — представление класса;
articleLines — словарь со статьями;
CUR_RD_KEY — ключ текущей редакции.

Возвращает

None.

get_code_content

Получение данных из содержимого JSON файла.

Объявление

def get_code_content(cls, pathToResultJsonLinesFile: str, pathToFileForKeysThathWereDownloadedYet: str)

Параметры

cls — представление класса;
pathToResultJsonLinesFile — путь к файлу с JSON строками из результата;
pathToFileForKeysThathWereDownloadedYet — путь к файлу для ключей, который мы только что скачали.

Возвращает

None

class _Ukrf(_BaseCode)

Класс, описывающий настройку параметров для работы с Уголовным Кодексом Российской Федерации.

class _Koaprf(_BaseCode)

Класс, описывающий настройку параметров для работы с Кодексом Российской Федерации об административных правонарушениях.

class _Nkrf(_BaseCode)

Класс, описывающий настройку параметров для работы с Налоговым Кодексом Российской Федерации.

class _Gkrf(_BaseCode)

Класс, описывающий настройку параметров для работы с Гражданским Кодексом Российской Федерации.

get_content

Получение контента из распарсенных данных.

Объявление

def get_content( codes: set, pathToResultJsonLinesFile: str, pathToFileForKeysThathWereDownloadedYet: str)

Параметры

codes — сет с префиксами наших кодексов, по умолчанию = _ALL_CODES=frozenset(_codesParsers.keys());
pathToResultJsonLinesFile — путь к файлу с JSON строками из результата, по умолчанию = codeHeaders.jsonlines;
pathToFileForKeysThathWereDownloadedYet — путь к файлу для ключей, который мы только что скачали, по умолчанию = processedYet.keys.

Возвращает

None, но вызывает _codesParsers[code].get_code_content(pathToResultJsonLinesFile, pathToFileForKeysThathWereDownloadedYet), передавая тем самым данные туда.

judyst-web-crawler wiki

Home
Documentation

Documentation — law_codes.py

_get_cookie

Объявление

Параметры

Возвращает

_get_page

Объявление

Параметры

Возвращает

_decode_json_from_str

Объявление

Параметры

Возвращает

class _BaseCode

get_document_redactions

Объявление

Параметры

Возвращает

create_header

Объявление

Параметры

Возвращает

create_subheader

Объявление

Параметры

Возвращает

get_subhdrs_frm_tree_and_return_lines_for_articles

Объявление

Параметры

Возвращает

get_par_html

Объявление

Параметры

Возвращает

get_paras_and_titles_from_saved_htm

Объявление

Параметры

Возвращает

split_saved_htm

Объявление

Параметры

Возвращает

get_cons_note_from_str

Объявление

Параметры

Возвращает

clear_splitted_htm_and_get_plus_add_cons_notes

Объявление

Параметры

build_article_subheaders_treeItem

Объявление

Параметры

Возвращает

get_code_content

Объявление

Параметры

Возвращает

class _Ukrf(_BaseCode)

class _Koaprf(_BaseCode)

class _Nkrf(_BaseCode)

class _Gkrf(_BaseCode)

get_content

Объявление

Параметры

Возвращает

judyst-web-crawler wiki

Clone this wiki locally