Skip to content

TI-Russia/egrul_inn_parser

Repository files navigation

egrul_inn_parser

Работа парсера состоит из двух этапов и нескольких шагов, включающих обновление базы при помощи команд в Django.

Этап 1

Добавление новых юридических лиц в declarations_legalentity

Запустить команду legal_entities_search для обновления таблицы declarations_legalentity. --office - id офиса по которому искать (необязательно) --bot_only - использовать секции созданные только ботом (True/False) (необязательно)

Этап 2

Парсим егрюл

  1. Выгружаем из базы табицу с юридическими лицами, которые необходимо спарсить с ЕГРЮЛ. Обязательные поля: id, name.

  2. Запускаем скрипт egrul_parser.py, в качестве аргумента передаём таблицу с юрлицами. В результате получаем папку с pdf-выписками, названия формата %id%.pdf

  3. Парсим скачанные выписки скриптом parse_pdf.py. Получаем две таблицы: persons_egrul.csv, содержащую данные о "лицах, имеющих право без доверенности действовать от имени юридического лица", и legal_entities.csv с подробной информацией о самих юридических лицах.

  4. С помощью скрипта clean_person_info.py ищем соответствие между персонами, которые уже есть в базе и которые найдены в выписках. Результат — таблица persons_egul_done.csv. Для работы необходимо наличие в папке со скриптом файлов params.json (параметры для запросов в базу).

  5. Обновляем информацию о персонах, юридических лицах и в модели PersonLegalPosition командой load_egrul с аргументами persons_egul_done.csv и legal_entities.csv.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages