In [1]:
from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait as wait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from bs4 import BeautifulSoup
import requests
import pandas as pd
from tqdm import tqdm 
from time import sleep

**собираем названия всех региональных центров с 2-ух источников**

In [2]:
# собираем названия регионалльных центров с 1-ого источника: https://marketing-course.ru/administrativnye-centry-regionov/
regional_centers_1 = set() # множество, т.к. у некоторых различных регионов одинаковые центры 
my_response = requests.get('https://marketing-course.ru/administrativnye-centry-regionov/').text
soup = BeautifulSoup(my_response, 'lxml')
table = soup.find_all('table')[0]
list_regions_info = table.find_all('tr')[1:]
for region in list_regions_info:
    title_regional_center = region.find_all('td')[3].text
    regional_centers_1.add(title_regional_center)
print(regional_centers_1, end="\n\n")
print(len(regional_centers_1))

{'Майкоп', 'Красноярск', 'Брянск', 'Екатеринбург', 'Нижний Новгород', 'Якутск', 'Владимир', 'Уфа', 'Новосибирск', 'Улан-Удэ', 'Кызыл', 'Анадырь', 'Сыктывкар', 'Краснодар', 'Саранск', 'Волгоград', 'Магадан', 'Ульяновск', 'Архангельск', 'Ижевск', 'Барнаул', 'Йошкар-Ола', 'Хабаровск', 'Биробиджан', 'Черкесск', 'Пермь', 'Абакан', 'Грозный', 'Иркутск', 'Ярославль', 'Омск', 'Челябиннск', 'Южно-Сахалинск', 'Самара', 'Калининград', 'Вологда', 'Тверь', 'Киров', 'Псков', 'Санкт-Петербург', 'Москва', 'Белгород', 'Ханты-мансийск', 'Владивосток', 'Мурманск', 'Рязань', 'Тула', 'Чита', 'Калуга', 'Тамбов', 'Махачкала', 'Орел', 'Курск', 'Астрахань', 'Петропавловск-Камчатский', 'Ростов', 'Липецк', 'Воронеж', 'Оренбург', 'Кемерово', 'Нальчик', 'Смоленск', 'Элиста', 'Чебоксары', 'Магас', 'Владивкавказ', 'Иваново', 'Ставрополь', 'Горно-Алтайск', 'Салехард', 'Петрозаводск', 'Саратов', 'Курган', 'Пенза', 'Казань', 'Благовещенск', 'Томск', 'Великий Новгород', 'Тюмень', 'Кострома'}

80


In [3]:
# собираем названия регионалльных центров со 2-ого источника: https://se33.ru/2-uncategorised/378-regions.html
regional_centers_2 = set() 
my_response = requests.get('https://se33.ru/2-uncategorised/378-regions.html').text
soup = BeautifulSoup(my_response, 'lxml')
table = soup.find('table')
list_regions_info = table.find_all('tr')[1:]
for region in list_regions_info:
    title_regional_center = region.find_all('td')[3].text
    regional_centers_2.add(title_regional_center)
print(regional_centers_2, end="\n\n")
print(len(regional_centers_2))

{'Майкоп', 'Красноярск', 'Якутск', 'Брянск', 'Нижний Новгород', 'Екатеринбург', 'Владимир', 'Уфа', 'Новосибирск', 'Улан-Удэ', 'Кызыл', 'Анадырь', 'Сыктывкар', 'Краснодар', 'Саранск', 'Волгоград', 'Магадан', 'Ульяновск', 'Архангельск', 'Ижевск', 'пгт Усть-Ордынский', 'Барнаул', 'Новгород', 'Йошкар-Ола', 'Хабаровск', 'Биробиджан', 'Черкесск', 'Пермь', 'Абакан', 'Дудинка', 'Грозный', 'Иркутск', 'Ярославль', 'Омск', 'Южно-Сахалинск', 'Самара', 'Ханты-Мансийск', 'Калининград', 'Вологда', 'Тверь', 'Киров', 'Псков', 'Санкт-Петербург', 'Назрань', 'Москва', 'Белгород', 'Владивосток', 'Мурманск', 'Рязань', 'Нарьян-Мар', 'Тула', 'Чита', 'Калуга', 'пгт Агинское', 'Махачкала', 'Тамбов', 'Орел', 'Курск', 'Астрахань', 'Петропавловск-Камчатский', 'пгт Тура', 'Липецк', 'Воронеж', 'Оренбург', 'Кемерово', 'Нальчик', 'Элиста', 'Смоленск', 'Чебоксары', 'Челябинск', 'Ставрополь', 'Иваново', 'Горно-Алтайск', 'Кудымкар', 'Ростов-на-Дону', 'пгт Палана', 'Салехард', 'Петрозаводск', 'Саратов', 'Курган', 'Пенза',

**объединяем оба множества (union)**

In [4]:
all_regional_centers = regional_centers_1.union(regional_centers_2)
print(all_regional_centers, end='\n\n')
print(len(all_regional_centers))

{'Майкоп', 'Красноярск', 'Брянск', 'Екатеринбург', 'Нижний Новгород', 'Якутск', 'Владимир', 'Уфа', 'Новосибирск', 'Улан-Удэ', 'Кызыл', 'Анадырь', 'Сыктывкар', 'Краснодар', 'Саранск', 'Волгоград', 'Магадан', 'Ульяновск', 'Архангельск', 'Ижевск', 'пгт Усть-Ордынский', 'Барнаул', 'Йошкар-Ола', 'Хабаровск', 'Новгород', 'Биробиджан', 'Черкесск', 'Пермь', 'Абакан', 'Дудинка', 'Грозный', 'Иркутск', 'Ярославль', 'Омск', 'Челябиннск', 'Южно-Сахалинск', 'Самара', 'Ханты-Мансийск', 'Калининград', 'Вологда', 'Тверь', 'Псков', 'Киров', 'Санкт-Петербург', 'Назрань', 'Москва', 'Белгород', 'Ханты-мансийск', 'Владивосток', 'Мурманск', 'Рязань', 'Нарьян-Мар', 'Тула', 'Чита', 'Калуга', 'пгт Агинское', 'Тамбов', 'Махачкала', 'Орел', 'Курск', 'Астрахань', 'Петропавловск-Камчатский', 'Ростов', 'пгт Тура', 'Липецк', 'Воронеж', 'Оренбург', 'Кемерово', 'Нальчик', 'Смоленск', 'Элиста', 'Чебоксары', 'Магас', 'Челябинск', 'Владивкавказ', 'Иваново', 'Ставрополь', 'Горно-Алтайск', 'Кудымкар', 'Ростов-на-Дону', 'пгт

In [5]:
titles = []
adresses = []
websites = []
phone_numbers = []
emails = []

In [6]:
def input_info(): # поиск информации
    input_tab = browser.find_element(By.XPATH, "/html/body/div[2]/div[2]/div[2]/div[2]/div[2]/div[2]/div/div/input")
    input_tab.send_keys(regional_center)
    
def click_search_button(): # нажатие на кнопку поиска
    search_button = browser.find_element(By.XPATH, "/html/body/div[2]/div[2]/div[2]/div[2]/div[2]/div[2]/div/div/button[2]")
    search_button.click()

def click_clear_info_button(): # нажатие на кнопку удаления текста в области поиска
    clear_info_button = browser.find_element(By.XPATH, '/html/body/div[2]/div[2]/div[2]/div[2]/div[2]/div[2]/div/div/button[1]')
    clear_info_button.click()
    
    
def collect_data(): # сбор всех данных(адрес, сайт, телефон, почта) с найденного представителя поддержки бизнеса 
    try:
        title = browser.find_element(By.XPATH, '//*[@id="map"]/div[1]/div[6]/div/div/div/div/div/div/div').text
        adress = browser.find_element(By.XPATH, '//*[@id="map"]/div[1]/div[6]/div/div/div/div/div/div/table/tbody/tr[1]/td[2]').text
        website = browser.find_element(By.XPATH, '//*[@id="map"]/div[1]/div[6]/div/div/div/div/div/div/table/tbody/tr[2]/td[2]/a').get_attribute('href')
        phone = browser.find_element(By.XPATH, '//*[@id="map"]/div[1]/div[6]/div/div/div/div/div/div/table/tbody/tr[3]/td[2]').text
        email = browser.find_element(By.XPATH, '//*[@id="map"]/div[1]/div[6]/div/div/div/div/div/div/table/tbody/tr[4]/td[2]/a').text
    except NoSuchElementException:
        title = None
        adress = None
        website = None
        phone = None
        email = None 
    titles.append(title)
    adresses.append(adress)
    websites.append(website)
    phone_numbers.append(phone)
    emails.append(email)

In [8]:
browser = Chrome()
url = 'https://xn--l1agf.xn--p1ai/services/reg-support-map/'
browser.maximize_window() 
browser.get(url)
sleep(1) # пауза, чтобы страницы успела прогрузиться 
for regional_center in all_regional_centers:
    input_info()
    click_search_button()
    sleep(0.8)
    collect_data()
    click_clear_info_button()

In [9]:
data = {'название': titles, 'адрес': adresses, 'сайт': websites, 'телефон': phone_numbers, 'почта': emails}
df = pd.DataFrame(data=data)

In [10]:
df

Unnamed: 0,название,адрес,сайт,телефон,почта
0,,,http://xn--01-9kcqjffxnf3b.xn--p1ai/,,
1,"АНО ""ЦПП РА""","Республика Адыгея, Майкоп, Пионерская, 324, 38...",http://xn--01-9kcqjffxnf3b.xn--p1ai/,88002010175,cpp_01@mail.ru
2,"АНО ""ККЦРБ МКК""","Красноярский край, Красноярск, Александра Матр...",http://xn---24-9cdulgg0aog6b.xn--p1ai/,+7 391 205-44-32 доб. 046,mb-info@mb24.ru
3,ГАУ БО ЦОУ «Мой бизнес»,"Брянская, Брянск, Бежицкая, 54, 241023",https://xn--32-9kcqjffxnf3b.xn--p1ai/,+7 (4832) 58-92-77,info@mybiz32.ru
4,Фонд СОФПП (МКК),"Свердловская область, Екатеринбург, Восточная,...",http://sofp.ru/,+7 343 288-77-85,sof@sofp.ru
...,...,...,...,...,...
89,Фонд содействия кредитованию СМСП Амурской обл...,"Амурская обл, г Благовещенск, ул Амурская, 38,...",http://www.business.amurobl.ru./,+7 416 277-26-46,amurfond@mail.ru
90,"НО ""ФРБ""","Томская, Томск, Московский, 12, 634050",http://mb.tomsk.ru/,+7 3822 901 000,tomsk.cpp@mb.tomsk.ru
91,"ГОАУ ""АРНО""","Новгородская обл, г Великий Новгород, ул Фёдор...",http://mb53.ru/,8 800 550 11 88,info@mb53.ru
92,Инвестиционное агентство,"Тюменская область, Тюмень, Хохрякова, 53, 625000",http://iato.ru/,8 (3452) 50-76-33,recept@iato.ru


In [11]:
df.to_excel("list_business_support_representatives.xlsx")