## О скрипте ##

Скрипт выгружает краткую информацию по ИНН / ОГРН с сайта налоговой https://egrul.nalog.ru/index.html

Для ООО и прочих:
- официальное название
- адрес регистрации
- ОГРН
- дату присвоения ОГРН
- ИНН
- имя руководителя и пост
- дату прекращения деятельности

Для ИП:
- ФИО
- ОГРНИП
- ИНН
- дата присвоения ОГРНИП и дату

Если данных много, проще воспользоваться Дадатой (10 тыс. запросов в день бесплатно). https://dadata.ru/api/

Последние правки скрипта: 2021-12-10

## Библиотеки и нужные настройки ##

In [None]:
#Загружаю нужные библиотеки

import pandas as pd
import math

# для юзер-агента
from fake_useragent import UserAgent

# прогресс-бар
from tqdm.notebook import trange, tqdm

# для пауз при парсинге
from time import sleep

# селениум
from selenium import webdriver

from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

In [None]:
# настройки юзер-агента

ua = UserAgent()

# юзер-агент для Хрома
user_agent = ua.chrome

In [None]:
test_url = 'https://intoli.com/blog/not-possible-to-block-chrome-headless/chrome-headless-test.html'

In [None]:
# загружаю список прокси
# список простой текстовый файл, который содержит прокси в формате: адрес:порт логин:пароль

proxy_list = []

with open('C:/work/proxy_list.txt', 'r') as f:
    for line in f:
        proxy_list += [line.split()]

In [None]:
print('Рабочих прокси — ' + str(len(proxy_list)))

In [None]:
# мне номер прокси проще прописать вручную, но можно и через input

print('Номер прокси, от 0 до ' + str(len(proxy_list) - 1))
proxy_number = int(input())

#proxy_number = 5

In [None]:
# настройки веб-драйвера, чтобы скрыть автоматическое управление

opt = webdriver.ChromeOptions()
opt.add_argument(f'user-agent={user_agent}')
opt.add_argument('--disable-blink-features')
opt.add_argument('--disable-blink-features=AutomationControlled')
opt.add_argument(
    f'--proxy-server={proxy_list[proxy_number][0]}'
    f'--proxy-auth={proxy_list[proxy_number][1]}') # "девственный" прокси(:
opt.add_experimental_option("excludeSwitches", ["enable-automation"]) # отключает строку про удаленное управление
opt.add_experimental_option('useAutomationExtension', False)

In [None]:
# запускаю драйвер, проверяю настройки

driver = webdriver.Chrome(options=opt)
driver.get(test_url)

In [None]:
# ссылка на сайт налоговой

url = 'https://egrul.nalog.ru/index.html'

In [None]:
# открываю сайт налоговой

driver.get(url)
sleep(3)

## Список ИНН ##

В моем случае датасет в Экселе со столбцом "ИНН", который я конвертирую в список.

Лицензия выдается на каждое помещение, поэтому часть ИНН дублируется.

**Важно** ИНН я храню в формате "ИНН: 0666..", чтобы не возиться с форматами и "пропадающими" нулями. Если хранить ИНН как последовательность цифр, при выгрузке "0" в начале неизбежно исчезнут, так как по умолчанию Питон решит, что числа (int или float).

In [None]:
# загружаю список ИНН

work_inn = pd.read_excel('C:/00_Data/inn_info_all.xlsx', sheet_name='need')

In [None]:
work_inn.shape

In [None]:
work_inn.sample(2)

In [None]:
# создаю список ИНН (беру только уникальные)

inn_list = list(work_inn['need'].unique())
inn_list.sort()

In [None]:
len(inn_list)

In [None]:
# создаю список ОГРН (по идее, их столько же, сколько и ИНН)

ogrn_list = list(set(work_inn['ogrn']))
ogrn_list.sort()

In [None]:
len(ogrn_list)

### Код парсера ###

Данные об ИНН беру с 6-го символа, т.е. собственно ИНН.

In [None]:
data = [] # список для данных

for inn in tqdm(inn_list):
    
    driver.find_element_by_id('uni_text_1').find_element_by_id('query').send_keys(inn[5:]) # "вбиваю" ИНН
    driver.find_element_by_id('btnSearch').click() # нажимаю кнопку "Найти"
    sleep(3) # даю прогрузиться
    
    try:
        of_name = driver.find_element_by_class_name('res-caption').text
        inn_info = driver.find_element_by_class_name('res-text').text # забираю текст
        
    except:
        of_name = 'none'
        inn_info = 'none'
        
    driver.find_element_by_id('uni_text_0').click() # нажимаю крестик в поисковой строке, чтобы очистить поле
    
    data.append([inn, of_name, inn_info]) # добавляю в список

In [None]:
# Записываю в датафрейм

head_list = ['inn', 'of_name', 'inn_info']

work_info = pd.DataFrame(data, columns=head_list)

In [None]:
work_info.shape

In [None]:
work_info.tail(3)

In [None]:
work_info.to_excel('C:/00_Data/inn_info_1.xlsx', encoding='utf8', index=False)

### Исправляю ошибочные ИНН ###

Часть ИНН по которым нет данных, просто уазаны с ошибкой. Проверяю их по ОГРН.

In [None]:
work_inn_1 = pd.read_excel('C:/00_Data/inn_info_all.xlsx')

In [None]:
work_inn_1 = work_inn_1[work_inn_1.of_name == 'none']

In [None]:
# создаю список ИНН (ИНН повторяются)

ogrn_list = list(set(work_inn_1['ogrn']))
ogrn_list.sort()

In [None]:
len(ogrn_list)

In [None]:
ogrn_list

In [None]:
data = [] # список для данных

for ogrn in tqdm(ogrn_list):
    
    driver.find_element_by_id('uni_text_1').find_element_by_id('query').send_keys(ogrn[5:]) # "вбиваю" ОГРН
    driver.find_element_by_id('btnSearch').click() # нажимаю кнопку "Найти"
    sleep(3)
    
    try:
        of_name = driver.find_element_by_class_name('res-caption').text
        inn_info = driver.find_element_by_class_name('res-text').text # забираю текст
        
    except:
        of_name = 'none'
        inn_info = 'none'
        
    driver.find_element_by_id('uni_text_0').click() # нажимаю крестик в поисковой строке, чтобы очистить
    
    data.append([ogrn, of_name, inn_info]) # добавляю в список

In [None]:
# Записываю в датафрейм

head_list = ['ogrn', 'of_name', 'inn_info']

work_info = pd.DataFrame(data, columns=head_list)

In [None]:
work_info

In [None]:
work_info.to_excel('C:/00_Data/inn_info_1.xlsx', encoding='utf8', index=False)

In [None]:
driver.quit()