## Mainfin.ru

Для скачивания данных с сайта нам потребуется список всех городов, воспользуемся википедией

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://ru.wikipedia.org/wiki/Список_городов_России"

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

table = soup.find('table', {'class': 'standard sortable'})

headers = [header.text.strip() for header in table.find_all('th')]

rows = []
for row in table.find_all('tr')[1:]: 
    cells = row.find_all('td')
    rows.append([cell.text.strip() for cell in cells])

df = pd.DataFrame(rows, columns=headers)

df

Unnamed: 0,№,Герб,Город,Регион,Федеральный округ,Население,Основание илипервое упоминание,Статус города[4],Прежние названия
0,1,,Абаза,Хакасия,Сибирский,12 272,1867,1966,"Абаканский Завод, Абаканско-Заводское"
1,2,,Абакан,Хакасия,Сибирский,184 769,1734,1931,Усть-Абаканское (до 1931)
2,3,,Абдулино,Оренбургская область,Приволжский,17 274,1795,1923,
3,4,,Абинск,Краснодарский край,Южный,39 511,1863,1963,Абинское (до 1863);Абинская (до 1962)
4,5,,Агидель,Башкортостан,Приволжский,14 219,1980,1991,
...,...,...,...,...,...,...,...,...,...
1120,1121,,Ярославль,Ярославская область,Центральный,577 279,1010,1071,
1121,1122,,Ярцево,Смоленская область,Центральный,41 452,1610,1926,
1122,1123,,Ясногорск,Тульская область,Центральный,15 269,1578,1958,Лаптево (до 1965)
1123,1124,,Ясный,Оренбургская область,Приволжский,15 471,1961,1979,


In [2]:
df['Население'] = df['Население'].str.replace(r'\D', '', regex=True).astype(int)

Нужно перевести названия в английскую транслитерацию

In [3]:
from transliterate import translit
import pandas as pd


def transliterate_city(city_name):
    try:
        return translit(city_name, 'ru', reversed=True).replace("'", "")
    except Exception as e:
        print(f"Ошибка транслитерации для {city_name}: {e}")

df['City (Transliteration)'] = df['Город'].apply(transliterate_city)

print(df[['Город', 'City (Transliteration)']])

          Город City (Transliteration)
0         Абаза                  Abaza
1        Абакан                 Abakan
2      Абдулино               Abdulino
3        Абинск                 Abinsk
4       Агидель                 Agidel
...         ...                    ...
1120  Ярославль              Jaroslavl
1121     Ярцево               Jartsevo
1122  Ясногорск             Jasnogorsk
1123      Ясный                 Jasnyj
1124     Яхрома                Jahroma

[1125 rows x 2 columns]


Формируем ссылки для запросов

In [4]:
def generate_link(city_translit):
    return f'https://mainfin.ru/banki/poisk/bankomaty/{city_translit.lower()}'

df['Link'] = df['City (Transliteration)'].apply(generate_link)

print(df[['Город', 'City (Transliteration)', 'Link']])

          Город City (Transliteration)  \
0         Абаза                  Abaza   
1        Абакан                 Abakan   
2      Абдулино               Abdulino   
3        Абинск                 Abinsk   
4       Агидель                 Agidel   
...         ...                    ...   
1120  Ярославль              Jaroslavl   
1121     Ярцево               Jartsevo   
1122  Ясногорск             Jasnogorsk   
1123      Ясный                 Jasnyj   
1124     Яхрома                Jahroma   

                                                   Link  
0        https://mainfin.ru/banki/poisk/bankomaty/abaza  
1       https://mainfin.ru/banki/poisk/bankomaty/abakan  
2     https://mainfin.ru/banki/poisk/bankomaty/abdulino  
3       https://mainfin.ru/banki/poisk/bankomaty/abinsk  
4       https://mainfin.ru/banki/poisk/bankomaty/agidel  
...                                                 ...  
1120  https://mainfin.ru/banki/poisk/bankomaty/jaros...  
1121  https://mainfin.ru/banki/

In [6]:
top_100_cities = df.nlargest(100, 'Население')

In [7]:
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm
import re
from time import sleep
import random
import pandas as pd
import logging

logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(levelname)s - %(message)s")

adr = []
bank_name = []
schedule = []
city_list = []
population_list = []

MAX_RETRIES = 3

for _, row in tqdm(top_100_cities.iterrows(), desc="Обрабатываем города", unit="город", total=len(top_100_cities)):
    city = row['Город']
    population = row['Население']
    url = row['Link']
    retries = 0

    if url not in ["https://mainfin.ru/banki/poisk/bankomaty/abakan"]:
        logging.info(f"Пропускаем город: {url}")
        continue

    while retries < MAX_RETRIES:
        try:
            response = requests.get(url)
            if response.status_code != 200:
                raise Exception(f"Ошибка загрузки страницы: {response.status_code}")

            soupB = BeautifulSoup(response.text, 'html.parser')

            try:
                s_count = soupB.findAll('label', {'class': "mapobject-count"})[0].get_text()
                s_count = int(''.join(re.findall(r'\d', s_count)))
            except IndexError:
                logging.warning(f"Не удалось найти количество банкоматов для {url}")
                retries += 1
                continue

            n_pages = s_count // 20 + 1  # +1 на случай если остаток есть

            for p in tqdm(range(1, n_pages + 1), desc=f"Обрабатываем страницы для {city}", unit="страница"):
                page_url = f"{url}?page={p}"
                page = requests.get(page_url)
                if page.status_code != 200:
                    raise Exception(f"Ошибка загрузки страницы: {page.status_code}")

                soup = BeautifulSoup(page.text, 'html.parser')

                banks = [_.get_text() for _ in soup.find_all('a', {'class': 'bank small'})]
                addresses = [_.get_text().replace('\xa0', '') for _ in soup.find_all('a', {'class': 'address pm'})]
                schedules = [_.get_text().strip() for _ in soup.find_all('td', {'class': 'col-sm-3'})]

                bank_name.extend(banks)
                adr.extend(addresses)
                schedule.extend(schedules)
                city_list.extend([city] * len(banks))
                population_list.extend([population] * len(banks))
                sleep(random.uniform(1, 3))

            sleep(random.uniform(1, 3))
            break

        except Exception as e:
            retries += 1
            logging.error(f"Ошибка при обработке города {url}: {e}. Попытка {retries} из {MAX_RETRIES}")
            if retries >= MAX_RETRIES:
                logging.error(f"Не удалось обработать город {url} после {MAX_RETRIES} попыток. Пропускаем город.")
                break 

Обрабатываем города:   0%|                           | 0/100 [00:00<?, ?город/s]2025-02-19 00:33:29,525 - INFO - Пропускаем город: https://mainfin.ru/banki/poisk/bankomaty/moskva
2025-02-19 00:33:29,525 - INFO - Пропускаем город: https://mainfin.ru/banki/poisk/bankomaty/sankt-peterburg
2025-02-19 00:33:29,526 - INFO - Пропускаем город: https://mainfin.ru/banki/poisk/bankomaty/sevastopolne prizn.
2025-02-19 00:33:29,526 - INFO - Пропускаем город: https://mainfin.ru/banki/poisk/bankomaty/novosibirsk
2025-02-19 00:33:29,527 - INFO - Пропускаем город: https://mainfin.ru/banki/poisk/bankomaty/ekaterinburg
2025-02-19 00:33:29,528 - INFO - Пропускаем город: https://mainfin.ru/banki/poisk/bankomaty/kazan
2025-02-19 00:33:29,528 - INFO - Пропускаем город: https://mainfin.ru/banki/poisk/bankomaty/krasnojarsk
2025-02-19 00:33:29,529 - INFO - Пропускаем город: https://mainfin.ru/banki/poisk/bankomaty/nizhnij novgorod
2025-02-19 00:33:29,530 - INFO - Пропускаем город: https://mainfin.ru/banki/poisk

In [8]:
# Чек
print("Длины списков до синхронизации:")
print(f"City: {len(city_list)}")
print(f"Population: {len(population_list)}")
print(f"Bank Name: {len(bank_name)}")
print(f"Address: {len(adr)}")
print(f"Schedule: {len(schedule)}")

max_length = max(len(city_list), len(population_list), len(bank_name), len(adr), len(schedule))

city_list.extend([None] * (max_length - len(city_list)))
population_list.extend([None] * (max_length - len(population_list)))
bank_name.extend([None] * (max_length - len(bank_name)))
adr.extend([None] * (max_length - len(adr)))
schedule.extend([None] * (max_length - len(schedule)))

df_results = pd.DataFrame({
    'City': city_list,
    'Population': population_list,
    'Bank Name': bank_name,
    'Address': adr,
    'Schedule': schedule
})

df_results = df_results[df_results[['City', 'Population', 'Bank Name', 'Address']].notna().any(axis=1)]

df_results.reset_index(drop=True, inplace=True)

Длины списков до синхронизации:
City: 290
Population: 290
Bank Name: 290
Address: 290
Schedule: 580


In [9]:
df_results

Unnamed: 0,City,Population,Bank Name,Address,Schedule
0,Абакан,184769.0,Азиатско-Тихоокеанский Банк,"г. Абакан, просп. Дружбы Народов, д.59",БанкоматАзиатско-Тихоокеанский Банк
1,Абакан,184769.0,Азиатско-Тихоокеанский Банк,"г. Абакан, ул.Карла Маркса, д.63",Круглосуточно
2,Абакан,184769.0,Азиатско-Тихоокеанский Банк,"г. Абакан, ул.Вокзальная, д.17",БанкоматАзиатско-Тихоокеанский Банк
3,Абакан,184769.0,Альфа-Банк,"г. Абакан, пр-кт Дружбы Народов, 50",Круглосуточно
4,Абакан,184769.0,Альфа-Банк,"г. Абакан, ул. Пушкина, 100",БанкоматАзиатско-Тихоокеанский Банк
...,...,...,...,...,...
285,Абакан,184769.0,Хакасский муниципальный банк,"г. Абакан, просп. Дружбы Народов, д.50",Круглосуточно
286,Абакан,184769.0,Хакасский муниципальный банк,"г. Абакан, ул.Некрасова, д.31",БанкоматыХакасский муниципальный банк
287,Абакан,184769.0,Хакасский муниципальный банк,"г. Абакан, Нижняя Согра, ул.Буденного, д.78",Круглосуточно
288,Абакан,184769.0,Хакасский муниципальный банк,"г. Абакан, ул.Хакасская, д.73",БанкоматыХакасский муниципальный банк


Можем спарсить любой город, планирую обучить модели на городах из датасета, а в сервисе подключить все города

Для работы дальше необходимо преобразовать адреса в координаты

## Геокод Протона

In [None]:
import pandas as pd
import requests

def get_coordinates_photon(address):
    try:
        url = "https://photon.komoot.io/api/"
        params = {
            "q": address,
            "limit": 1
        }
        
        response = requests.get(url, params=params)
        
        if response.status_code == 200:
            data = response.json()
            if data['features']:
                lat = data['features'][0]['geometry']['coordinates'][1]
                lon = data['features'][0]['geometry']['coordinates'][0]
                return lat, lon
            else:
                return None
        else:
            print(f"Ошибка {response.status_code}: {response.text}")
            return None
    except Exception as e:
        print(f"Ошибка при обработке адреса '{address}': {e}")
        return None

random_sample = df_results

random_sample['coordinates'] = random_sample['Address'].apply(get_coordinates_photon)
random_sample[['latitude', 'longitude']] = pd.DataFrame(random_sample['coordinates'].tolist(), index=random_sample.index)

random_sample.drop(columns=['coordinates'], inplace=True)

random_sample

## Геокод Янедкса

Можно пользоваться Яндексом, но дорого

In [None]:
import pandas as pd
import requests

YANDEX_API_KEY = "e2dcd6db-799a-4fbf-941d-6d95dee958b0"

def get_coordinates_yandex(address, api_key=YANDEX_API_KEY):
    url = "https://geocode-maps.yandex.ru/1.x/"
    params = {
        "geocode": address,
        "format": "json",
        "apikey": api_key
    }
    response = requests.get(url, params=params)
    if response.status_code == 200:
        data = response.json()
        try:
            pos = data["response"]["GeoObjectCollection"]["featureMember"][0]["GeoObject"]["Point"]["pos"]
            lon, lat = map(float, pos.split())
            return lat, lon
        except (IndexError, KeyError):
            return None
    else:
        print(f"Ошибка {response.status_code}: {response.text}")
        return None

df_results['coordinates'] = df_results['Address'].apply(get_coordinates_yandex)
df_results[['latitude', 'longitude']] = pd.DataFrame(df_results['coordinates'].tolist(), index=df_results.index)

df_results.drop(columns=['coordinates'], inplace=True)
print(df_results)

## Геокод Гугла

Аналогично

In [None]:
import pandas as pd
import googlemaps

GOOGLE_API_KEY = "AIzaSyA_I8tor5ykxGOKxFHYc-jyW2DDpwyAjxg"

gmaps = googlemaps.Client(key=GOOGLE_API_KEY)

def get_coordinates_google(address):
    try:
        geocode_result = gmaps.geocode(address)
        if geocode_result:
            location = geocode_result[0]["geometry"]["location"]
            return location["lat"], location["lng"]
        else:
            return None
    except Exception as e:
        print(f"Ошибка при обработке адреса '{address}': {e}")
        return None


random_sample = df_results.sample(n=10, random_state=42) if len(df_results) > 10 else df_results

random_sample['coordinates'] = random_sample['Address'].apply(get_coordinates_google)
random_sample[['latitude', 'longitude']] = pd.DataFrame(random_sample['coordinates'].tolist(), index=random_sample.index)

random_sample.drop(columns=['coordinates'], inplace=True)

print(random_sample[['Bank Name', 'Address', 'latitude', 'longitude']])

## Геокод DaData

Не бесплатно

In [11]:
import pandas as pd
from dadata import Dadata

DADATA_API_KEY = "9b4bb56467c8ba414a3cd54edc5ca752cec961f9"
DADATA_SECRET_KEY = "67cbcd2f3744ac47b43f79dabbbc2f1f266af131"

dadata = Dadata(DADATA_API_KEY, DADATA_SECRET_KEY)

def get_coordinates_dadata(address):
    try:
        result = dadata.clean("Address", address)
        if result and "geo_lat" in result and "geo_lon" in result:
            lat = float(result["geo_lat"])
            lon = float(result["geo_lon"])
            return lat, lon
        else:
            return None
    except Exception as e:
        print(f"Ошибка при обработке адреса '{address}': {e}")
        return None

df_results['coordinates'] = df_results['Address'].apply(get_coordinates_dadata)
df_results['coordinates'] = df_results['coordinates'].apply(
    lambda x: (None, None) if x is None else x
)

df_results[['latitude', 'longitude']] = pd.DataFrame(
    df_results['coordinates'].tolist(), index=random_sample.index
)
df_results.drop(columns=['coordinates'], inplace=True)

df_results

Ошибка при обработке адреса 'г. Абакан, просп. Дружбы Народов, д.59': 403 Client Error: Forbidden for url: https://cleaner.dadata.ru/api/v1/clean/Address
For more information check: https://httpstatuses.com/403
Ошибка при обработке адреса 'г. Абакан, ул.Карла Маркса, д.63': 403 Client Error: Forbidden for url: https://cleaner.dadata.ru/api/v1/clean/Address
For more information check: https://httpstatuses.com/403
Ошибка при обработке адреса 'г. Абакан, ул.Вокзальная, д.17': 403 Client Error: Forbidden for url: https://cleaner.dadata.ru/api/v1/clean/Address
For more information check: https://httpstatuses.com/403
Ошибка при обработке адреса 'г. Абакан, пр-кт Дружбы Народов, 50': 403 Client Error: Forbidden for url: https://cleaner.dadata.ru/api/v1/clean/Address
For more information check: https://httpstatuses.com/403
Ошибка при обработке адреса 'г. Абакан, ул. Пушкина, 100': 403 Client Error: Forbidden for url: https://cleaner.dadata.ru/api/v1/clean/Address
For more information check: ht

NameError: name 'random_sample' is not defined