Documentation — law_codes.py

Jump to bottom

revoltMoon edited this page Nov 27, 2018 · 18 revisions

_get_cookie

Получение куки из ответа с сервера.

Объявление

def _get_cookie(response: <class http.client.HTTPResponse> urllib.request.urlopen(urllib.request.Request(url, headers=reqHeaders)))

Параметры

response — ответ с сервера.

Возвращает

str — куки, полученные с сайта.

_get_page

Получение данных со страницы.

Объявление

def _get_page(url: str, reqHeaders: dict[str,str], prevResponse: urllib.request.urlopen(req), referer: str, raw: bool)

Параметры

url — url страницы, которую надо получить;
reqHeaders — словарь с заголовками POST-запроса;
prevResponse — это второй элемент кортежа результата, возвращаемого самой _get_page, по умолчанию = None;
referer — строка с URL страницы, с которой якобы будет сделан переход, по умолчанию = None;
raw — обработанные ли данные, по умолчанию = false.

Возвращает

tuple(url lib.request.urlopen(urllib.request.Request(url, headers=reqHeaders)).read(), url lib.request.urlopen(req)) — данные со страницы.

_decode_json_from_str

Парсим JSON.

Объявление

_decode_json_from_str(content: str)

Параметры

content — строка в формате JSON.

Возвращает

list or dict сколь угодной вложенности распарсенных данных из JSON'а.

class _BaseCode

Класс, описывающий .

get_document_redactions

Получение редакций документов.

Объявление

def get_document_redactions(cls, url: str, reqHeaders: dict[str,str], prevResponse: url lib.request.urlopen(req), referer: str)

Параметры

cls — представление класса;
url — url страницы, которую надо получить;
reqHeaders — словарь с заголовками POST-запроса;
prevResponse — это второй элемент кортежа результата, возвращаемого самой _get_page, по умолчанию = None;
referer — строка с URL страницы, с которой якобы будет сделан переход, по умолчанию = None;

Возвращает

jsonRedactions['editions']['list'], response — list и объект класса

create_header

Создание заголовка документа.

Объявление

def create_header(cls, CUR_RD_KEY: str, supertype: str, doc_type, absolute_path: str, interredaction_id: str, title: str, release_date: str, effective_date: str, attached: list[str], dstLabel: str, parLabelInSavedHtm: str, rdNote: str, consNote: str, text: str)

Параметры

cls — представление класса;
CUR_RD_KEY — ;
supertype — супертип;
doc_type — тип документа;
absolute_path — ;
interredaction_id — ;
title — ;
release_date — ;
effective_date — ;
attached — ;
dstLabel — ;
parLabelInSavedHtm — ;
rdNote — , по умолчанию None;
consNote — , по умолчанию None;
text — , по умолчанию None.

Возвращает

header — словарь с заголовком документа.

create_subheader

Создаем подзаголовок документа.

Объявление

def create_subheader(cls, hKey: str, SUBH_SIGN: str, absolute_path: str, interredaction_id: str, title: str, rdNote: str, consNote: str, text: str)

Параметры

cls — представление класса;
hKey — ;
SUBH_SIGN — ;
absolute_path — ;
interredaction_id — ;
title — ;
rdNote — ;
consNote — ;
text — , по умолчанию = None.

Возвращает

header — словарь с подзаголовком документа.

get_subhdrs_frm_tree_and_return_lines_for_articles

Получаем подзаголовки из дерева и возвращаем линии для статей.

Объявление

def get_subhdrs_frm_tree_and_return_lines_for_articles(cls, treeItem: dict[str,str], hKey: str, CUR_RD_KEY: str, rekeyedAttachedTitles: dict[str,dict[str,str]], splittedHtm: dict[str, dict[str,str]])

Параметры

cls — представление класса;
treeItem — ;
hKey — ;
CUR_RD_KEY — ;
rekeyedAttachedTitles — ;
splittedHtm — .

Возвращает

dict[str,int] — словарь с uid — ключами и номерами строк — значениями.

get_par_html

Объявление

def get_par_html(cls, allHtml: str, par: int)

Параметры

cls — представление класса;
allHtml — ;
par — .

Возвращает

lxml.html.document_fromstring(parHtml[0])

get_paras_and_titles_from_saved_htm

Объявление

def get_paras_and_titles_from_saved_htm(cls, savedHtm: str)

Параметры

cls — представление класса;
savedHtm — .

Возвращает

split_saved_htm

Объявление

def split_saved_htm(cls, savedHtm: str)

Параметры

cls — представление класса;
savedHtm — .

Возвращает

get_cons_note_from_str

Объявление

def get_cons_note_from_str(cls, string: str)

Параметры

cls — представление класса;
string — .

Возвращает

'\n'.join(xl), где xl — list.

clear_splitted_htm_and_get_plus_add_cons_notes

Объявление

def clear_splitted_htm_and_get_plus_add_cons_notes(cls, splittedHtm: dict[str, dict[str,str]])

Параметры

cls — представление класса;
splittedHtm — .

build_article_subheaders_treeItem

Объявление

def build_article_subheaders_treeItem(cls, articleLines: dict[str, list[str]], CUR_RD_KEY: str)

Параметры

cls — представление класса;
articleLines — словарь со статьями;
CUR_RD_KEY — .

Возвращает

None.

get_code_content

Получение данных из содержимого JSON файла.

Объявление

def get_code_content(cls, pathToResultJsonLinesFile: str, pathToFileForKeysThathWereDownloadedYet: str)

Параметры

cls — представление класса;
pathToResultJsonLinesFile — путь к файлу с JSON строками из результата;
pathToFileForKeysThathWereDownloadedYet — путь к файлу для ключей, который мы только что скачали.

Возвращает

None

class _Ukrf(_BaseCode)

Класс, описывающий .

class _Koaprf(_BaseCode)

Класс, описывающий .

class _Nkrf(_BaseCode)

Класс, описывающий .

class _Gkrf(_BaseCode)

Класс, описывающий .

get_content

Получение контента из распарсенных данных.

Объявление

def get_content( codes: set, pathToResultJsonLinesFile: str, pathToFileForKeysThathWereDownloadedYet: str)

Параметры

codes — сет с префиксами наших кодексов, по умолчанию = _ALL_CODES=frozenset(_codesParsers.keys());
pathToResultJsonLinesFile — путь к файлу с JSON строками из результата, по умолчанию = codeHeaders.jsonlines;
pathToFileForKeysThathWereDownloadedYet — путь к файлу для ключей, который мы только что скачали, по умолчанию = processedYet.keys.

Возвращает

None, но вызывает _codesParsers[code].get_code_content(pathToResultJsonLinesFile, pathToFileForKeysThathWereDownloadedYet), передавая тем самым данные туда.

Toggle table of contents Pages 4

judyst-web-crawler wiki

Home
Documentation

Clone this wiki locally