In [1]:
from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait as wait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from bs4 import BeautifulSoup
import requests
import pandas as pd
from tqdm import tqdm 
from time import sleep

**собираем названия всех региональных центров с 2-ух источников**

In [2]:
# собираем названия регионалльных центров с 1-ого источника: https://marketing-course.ru/administrativnye-centry-regionov/
regional_centers_1 = set() # множество, т.к. у некоторых различных регионов одинаковые центры 
my_response = requests.get('https://marketing-course.ru/administrativnye-centry-regionov/').text
soup = BeautifulSoup(my_response, 'lxml')
table = soup.find_all('table')[0]
list_regions_info = table.find_all('tr')[1:]
for region in list_regions_info:
    title_regional_center = region.find_all('td')[3].text
    regional_centers_1.add(title_regional_center)
print(regional_centers_1, end="\n\n")
print(len(regional_centers_1))

{'Красноярск', 'Ярославль', 'Ханты-мансийск', 'Магадан', 'Салехард', 'Кызыл', 'Нижний Новгород', 'Киров', 'Казань', 'Иркутск', 'Хабаровск', 'Магас', 'Тамбов', 'Сыктывкар', 'Брянск', 'Ижевск', 'Петрозаводск', 'Челябиннск', 'Вологда', 'Благовещенск', 'Иваново', 'Элиста', 'Калуга', 'Йошкар-Ола', 'Абакан', 'Якутск', 'Ростов', 'Ставрополь', 'Владивосток', 'Кострома', 'Ульяновск', 'Саратов', 'Анадырь', 'Санкт-Петербург', 'Южно-Сахалинск', 'Саранск', 'Тула', 'Барнаул', 'Воронеж', 'Псков', 'Майкоп', 'Уфа', 'Екатеринбург', 'Биробиджан', 'Самара', 'Волгоград', 'Пермь', 'Владимир', 'Черкесск', 'Томск', 'Курган', 'Рязань', 'Нальчик', 'Владивкавказ', 'Калининград', 'Грозный', 'Кемерово', 'Тюмень', 'Улан-Удэ', 'Великий Новгород', 'Оренбург', 'Новосибирск', 'Липецк', 'Чита', 'Омск', 'Москва', 'Орел', 'Мурманск', 'Тверь', 'Пенза', 'Махачкала', 'Смоленск', 'Белгород', 'Краснодар', 'Горно-Алтайск', 'Чебоксары', 'Архангельск', 'Петропавловск-Камчатский', 'Курск', 'Астрахань'}

80


In [3]:
# собираем названия регионалльных центров со 2-ого источника: https://se33.ru/2-uncategorised/378-regions.html
regional_centers_2 = set() 
my_response = requests.get('https://se33.ru/2-uncategorised/378-regions.html').text
soup = BeautifulSoup(my_response, 'lxml')
table = soup.find('table')
list_regions_info = table.find_all('tr')[1:]
for region in list_regions_info:
    title_regional_center = region.find_all('td')[3].text
    regional_centers_2.add(title_regional_center)
print(regional_centers_2, end="\n\n")
print(len(regional_centers_2))

{'Красноярск', 'Дудинка', 'Ярославль', 'Магадан', 'Кызыл', 'Салехард', 'Нижний Новгород', 'Киров', 'Казань', 'Иркутск', 'Хабаровск', 'Сыктывкар', 'Тамбов', 'Брянск', 'Ижевск', 'Нарьян-Мар', 'Петрозаводск', 'Вологда', 'Иваново', 'Благовещенск', 'Элиста', 'Калуга', 'Йошкар-Ола', 'Абакан', 'Якутск', 'Ставрополь', 'Владивосток', 'Кострома', 'Ульяновск', 'Саратов', 'пгт Палана', 'Анадырь', 'Санкт-Петербург', 'Южно-Сахалинск', 'Саранск', 'Тула', 'Барнаул', 'Воронеж', 'Псков', 'Владикавказ', 'Майкоп', 'Уфа', 'Екатеринбург', 'Биробиджан', 'Самара', 'Пермь', 'Волгоград', 'Владимир', 'Черкесск', 'Томск', 'Курган', 'Рязань', 'Нальчик', 'Калининград', 'Грозный', 'Кемерово', 'Тюмень', 'Улан-Удэ', 'Оренбург', 'Новосибирск', 'Липецк', 'Чита', 'Ханты-Мансийск', 'Омск', 'Москва', 'Орел', 'пгт Агинское', 'пгт Усть-Ордынский', 'пгт Тура', 'Челябинск', 'Мурманск', 'Пенза', 'Тверь', 'Назрань', 'Махачкала', 'Новгород', 'Смоленск', 'Белгород', 'Ростов-на-Дону', 'Краснодар', 'Горно-Алтайск', 'Кудымкар', 'Чебо

**объединяем оба множества (union)**

In [4]:
all_regional_centers = regional_centers_1.union(regional_centers_2)
print(all_regional_centers, end='\n\n')
print(len(all_regional_centers))

{'Красноярск', 'Дудинка', 'Ярославль', 'Ханты-мансийск', 'Магадан', 'Салехард', 'Кызыл', 'Нижний Новгород', 'Киров', 'Казань', 'Иркутск', 'Хабаровск', 'Магас', 'Тамбов', 'Сыктывкар', 'Брянск', 'Ижевск', 'Нарьян-Мар', 'Петрозаводск', 'Челябиннск', 'Вологда', 'Благовещенск', 'Иваново', 'Элиста', 'Калуга', 'Йошкар-Ола', 'Абакан', 'Якутск', 'Ростов', 'Ставрополь', 'Владивосток', 'Кострома', 'Ульяновск', 'Саратов', 'пгт Палана', 'Анадырь', 'Санкт-Петербург', 'Южно-Сахалинск', 'Саранск', 'Тула', 'Барнаул', 'Воронеж', 'Псков', 'Владикавказ', 'Майкоп', 'Уфа', 'Екатеринбург', 'Биробиджан', 'Самара', 'Пермь', 'Волгоград', 'Владимир', 'Черкесск', 'Томск', 'Курган', 'Рязань', 'Нальчик', 'Владивкавказ', 'Калининград', 'Грозный', 'Кемерово', 'Тюмень', 'Улан-Удэ', 'Великий Новгород', 'Оренбург', 'Новосибирск', 'Липецк', 'Чита', 'Ханты-Мансийск', 'Омск', 'Москва', 'Орел', 'пгт Агинское', 'пгт Усть-Ордынский', 'пгт Тура', 'Челябинск', 'Мурманск', 'Тверь', 'Пенза', 'Назрань', 'Махачкала', 'Новгород', 'С

In [5]:
titles = []
adresses = []
websites = []
phone_numbers = []
emails = []

In [6]:
def input_info(): # поиск информации
    input_tab = browser.find_element(By.XPATH, "/html/body/div[2]/div[2]/div[2]/div[2]/div[2]/div[2]/div/div/input")
    input_tab.send_keys(regional_center)
    
def click_search_button(): # нажатие на кнопку поиска
    search_button = browser.find_element(By.XPATH, "/html/body/div[2]/div[2]/div[2]/div[2]/div[2]/div[2]/div/div/button[2]")
    search_button.click()

def click_clear_info_button(): # нажатие на кнопку удаления текста в области поиска
    clear_info_button = browser.find_element(By.XPATH, '/html/body/div[2]/div[2]/div[2]/div[2]/div[2]/div[2]/div/div/button[1]')
    clear_info_button.click()
    
    
def collect_data(): # сбор всех данных(адрес, сайт, телефон, почта) с найденного представителя поддержки бизнеса 
    try:
        title = browser.find_element(By.XPATH, '//*[@id="map"]/div[1]/div[6]/div/div/div/div/div/div/div').text
        adress = browser.find_element(By.XPATH, '//*[@id="map"]/div[1]/div[6]/div/div/div/div/div/div/table/tbody/tr[1]/td[2]').text
        website = browser.find_element(By.XPATH, '//*[@id="map"]/div[1]/div[6]/div/div/div/div/div/div/table/tbody/tr[2]/td[2]/a').get_attribute('href')
        phone = browser.find_element(By.XPATH, '//*[@id="map"]/div[1]/div[6]/div/div/div/div/div/div/table/tbody/tr[3]/td[2]').text
        email = browser.find_element(By.XPATH, '//*[@id="map"]/div[1]/div[6]/div/div/div/div/div/div/table/tbody/tr[4]/td[2]/a').text
    except NoSuchElementException:
        title = None
        adress = None
        website = None
        phone = None
        email = None 
    titles.append(title)
    adresses.append(adress)
    websites.append(website)
    phone_numbers.append(phone)
    emails.append(email)

In [7]:
browser = Chrome()
url = 'https://xn--l1agf.xn--p1ai/services/reg-support-map/'
browser.maximize_window() 
browser.get(url)
sleep(1) # пауза, чтобы страницы успела прогрузиться 
for regional_center in all_regional_centers:
    input_info()
    click_search_button()
    sleep(0.8)
    collect_data()
    click_clear_info_button()

In [8]:
data = {'название': titles, 'адрес': adresses, 'сайт': websites, 'телефон': phone_numbers, 'почта': emails}
df = pd.DataFrame(data=data)

In [9]:
df

Unnamed: 0,название,адрес,сайт,телефон,почта
0,"АНО ""ККЦРБ МКК""","Красноярский край, Красноярск, Александра Матр...",http://xn---24-9cdulgg0aog6b.xn--p1ai/,+7 391 205-44-32 доб. 046,mb-info@mb24.ru
1,,,,,
2,"ГБУ ЯО ""Корпорация развития МСП""","Ярославская обл, г Ярославль, ул Свердлова, 25...",http://corpmsp76.ru/,+7 (4852) 370-401,Info@corpmsp76.ru
3,Фонд «Мой Бизнес»,"Ханты-Мансийский автономный округ - Югра, Хант...",http://xn--90aefhe5axg6g1a.xn--p1ai/,+7 346 738-84-00,info@mb-ugra.ru
4,Фонд развития предпринимательства,"Магаданская, Магадан, Карла Маркса, 60А, 685000",https://xn--80aaakdd6cghb9d.xn--p1ai/,+74132609828,fondmagadan@yandex.ru
...,...,...,...,...,...
88,АНО МКК «АПМБ»,"Чувашская Республика, город Чебоксары, проспек...",http://xn--80ac6al.xn--p1ai/,+7 835 248-96-66,mail@mb21.ru
89,"АНО АО ""АГЕНТСТВО РЕГИОНАЛЬНОГО РАЗВИТИЯ""","Архангельская, Архангельск, Северной Двины, 71...",https://msp29.ru/ru/,+7 800 100 7000,office@msp29.ru
90,,,,,
91,"АНО ""ЦМБ КО""","Курская область, курск, Горького, 34, 305000",https://xn--46-9kc7b.xn--p1ai/,+7(4712) 54-07-06,info@cpp46.ru
