<a href="https://colab.research.google.com/github/DmitriySechkin/new-python-repo/blob/main/Untitled.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [7]:
import requests
import json
from concurrent.futures import ThreadPoolExecutor
from tqdm import tqdm
import time
from dataclasses import dataclass

In [8]:


@dataclass
class ClusterId:
    region: str = "area"
    metro: str = "metro"
    professional_role: str = "professional_role"
    salary: str = "salary"
    experience: str = "experience"

class HhParser:

    def __init__(self, cluster_id: ClusterId):
        self._base_url = 'https://api.hh.ru/vacancies?clusters=true'
        self.urls = []
        self._cluster_id = cluster_id

    def get_vacancy_cluster_urls(self):
        json = self.get_json(self._base_url)
        items = self.get_region_clusters(json)

        self.urls.extend((i.get('url'), int(i.get('count'))) for i in self.filter_less_than_2000(items))

        more_than_2000 = [i for i in self.filter_more_than_2000(items) if str(i.get('name')) != 'Россия']

        extend_region_items = self.get_extend_region_clusters(more_than_2000)

        self.urls.extend((i.get('url'), int(i.get('count'))) for i in self.filter_less_than_2000(extend_region_items))
        more_than_2000 = [i for i in self.filter_more_than_2000(extend_region_items)]
        more_than_2000.extend(i for i in extend_region_items if int(i.get('count')) == 0)

        role_items = self.get_items_by_prof_role(more_than_2000)
        self.urls.extend((i.get('url'), int(i.get('count'))) for i in self.filter_less_than_2000(role_items))
        more_than_2000 = [i for i in self.filter_more_than_2000(role_items)]

        experience_items = self.get_items_by_prof_role(more_than_2000)
        self.urls.extend((i.get('url'), int(i.get('count'))) for i in self.filter_less_than_2000(experience_items))
        more_than_2000 = [i for i in self.filter_more_than_2000(experience_items)]

        self.urls = list(set(self.urls))

        print(f'The total number of {len(self.urls)} URLs collected')


    def get_extend_region_clusters(self, region_items):
        items = []

        for item in tqdm(region_items, 'Get extend region clusters'):
            url = item.get('url')

            if url is None:
                continue

            time.sleep(2)
            json = self.get_json(url)

            metro_items = self.get_metro_clusters(json)
            metro_items = self.filter_metro_station_items(metro_items)

            if len(metro_items) > 0:
                items.extend(metro_items)
            else:
                extend_region_items = self.get_region_clusters(json)

                if len(extend_region_items) > 1:
                    items.extend(extend_region_items[:-1])
                else:
                    items.extend(extend_region_items)
        return items

    def get_items_by_prof_role(self, extend_items):
        items = []

        for item in tqdm(extend_items, 'Get items by prof role'):
            url = item.get('url')

            if url is None:
                continue

            time.sleep(1)

            json = self.get_json(url)
            prof_role_items = self.get_role_clusters(json)

            items.extend(prof_role_items)

        return items

    def get_items_by_experience(self, role_items):
        items = []

        for item in tqdm(role_items, 'Get items by experience'):
            url = item.get('url')

            if url is None:
                continue

            time.sleep(0.5)

            json = self.get_json(url)
            experience_items = self.get_experience_clusters(json)

            items.extend(experience_items)

        return items

    def filter_less_than_2000(self, items):
        return [i for i in items if int(i.get('count')) <= 2000 and int(i.get('count')) != 0]

    def filter_more_than_2000(self, items):
        return [i for i in items if int(i.get('count')) > 2000]

    def get_cluster_items(self, json, cluster_id):
        clusters = json.get('clusters')

        if not clusters:
            print('key error: clusters')
            return []

        cluster = self.get_cluster_by_id(clusters, cluster_id)

        if not cluster:
            return []

        items = cluster.get('items')

        if not items:
            print('key error: items')
            return []

        return items

    def get_cluster_by_id(self, clusters, cluster_id):
        for cluster in clusters:
            _id = str(cluster.get('id'))

            if _id == cluster_id:
                return cluster

        return []

    def get_region_clusters(self, json_data):
        if json_data:
            items = self.get_cluster_items(json_data, self._cluster_id.region)
            return  items
        else:
            print('get_region_clusters: Not found json in get response!')
            return []

    def get_metro_clusters(self, json_data):
        if json_data:
            items = self.get_cluster_items(json_data, self._cluster_id.metro)
            return items
        else:
            print('get_metro_clusters: Not found json in get response!')
            return []

    def get_role_clusters(self, json_data):
        if json_data:
            items = self.get_cluster_items(json_data, self._cluster_id.professional_role)
            return items
        else:
            print('get_role_clusters: Not found json in get response!')
            return []

    def get_experience_clusters(self, json_data):
        if json_data:
            items = self.get_cluster_items(json_data, self._cluster_id.experience)
            return items
        else:
            print('get_role_clusters: Not found json in get response!')
            return []

    def filter_metro_station_items(self, metro_items):
        return [i for i in metro_items if str(i.get('type')) == 'metro_station']

    def get_json(self, url):
        response = requests.get(url, verify=False)

        if response.status_code == 200:
            json = response.json()

            if not json:
                return None;

            return json
        else:
            print(f"Failed to get json data by url {url}, status {response.status_code}, text - {response.text}")
            return None


In [None]:
%%time
cluster_id = ClusterId()

parser = HhParser(cluster_id)

parser.get_vacancy_cluster_urls()

In [None]:
from urllib.parse import urlparse, parse_qs

sorted_list = sorted(parser.urls, key=lambda x: x[1])

len(sorted_list)

28569

In [None]:
from urllib.parse import urlparse, parse_qs, urlencode

def parse_and_modify_urls(url_tuples):
    url_params_map = {}

    # Шаг 1: Группируем URL по набору имен параметров
    for url, count in url_tuples:
        parsed_url = urlparse(url)
        query_params = parse_qs(parsed_url.query)
        query_params.pop('clusters', None)  # Убираем параметр 'clusters'
        query_param_names = sorted(query_params.keys())  # Получаем наименования параметров и сортируем их
        query_param_key = ','.join(query_param_names)

        if query_param_key not in url_params_map:
            url_params_map[query_param_key] = []

        url_params_map[query_param_key].append((url, count))

    modified_urls = []

    # Шаг 2: Формируем новые URL с суммой количества, не превышающей 2000
    for query_param_key, url_count_pairs in url_params_map.items():
        total_count = 0
        combined_params = []

        # Набираем параметры для нового URL
        for url, count in url_count_pairs:

            if total_count + count <= 2000:
                total_count += count
                parsed_url = urlparse(url)
                query_params = parse_qs(parsed_url.query)
                for param_name, param_values in query_params.items():
                    combined_params.append((param_name, param_values[0]))  # Добавляем все значения параметров
            else:

                # Убираем параметр 'clusters' из объединенных параметров, если он есть
                combined_params = [(param_name, param_value) for param_name, param_value in combined_params if param_name != 'clusters']

                # Преобразуем объединенные параметры в строку
                new_query = urlencode(combined_params, doseq=True)
                new_url = f"{parsed_url.scheme}://{parsed_url.netloc}{parsed_url.path}?{new_query}"
                modified_urls.append((new_url, total_count))  # Добавляем новый URL с суммарным количеством

                combined_params = []
                total_count = count

                parsed_url = urlparse(url)
                query_params = parse_qs(parsed_url.query)

                for param_name, param_values in query_params.items():
                    combined_params.append((param_name, param_values[0]))  # Добавляем все значения параметров

        # Убираем параметр 'clusters' из объединенных параметров, если он есть
        combined_params = [(param_name, param_value) for param_name, param_value in combined_params if param_name != 'clusters']

        # Преобразуем объединенные параметры в строку
        new_query = urlencode(combined_params, doseq=True)
        new_url = f"{parsed_url.scheme}://{parsed_url.netloc}{parsed_url.path}?{new_query}"
        modified_urls.append((new_url, total_count))  # Добавляем новый URL с суммарным количеством


    return modified_urls

# Пример использования:
url_tuples = [('https://api.hh.ru/vacancies?area=67&clusters=true&professional_role=97', 810),
              ('https://api.hh.ru/vacancies?area=73&clusters=true&professional_role=40', 281),
              ('https://api.hh.ru/vacancies?clusters=true&area=1818', 281),
              ('https://api.hh.ru/vacancies?area=1&clusters=true&metro=96.553', 282),
              ('https://api.hh.ru/vacancies?clusters=true&area=2001', 282),
              ('https://api.hh.ru/vacancies?area=104&clusters=true&professional_role=49', 282),
              ('https://api.hh.ru/vacancies?clusters=true&area=1162', 1282),
              ('https://api.hh.ru/vacancies?area=104&clusters=true&professional_role=109', 282),
              ('https://api.hh.ru/vacancies?area=1&clusters=true&metro=98.677', 282),
              ('https://api.hh.ru/vacancies?clusters=true&area=2048', 283)]

modified_urls = parse_and_modify_urls(sorted_list)
len(modified_urls)


925

In [9]:
import csv

class UrlManager:
    def __init__(self, filename):
        self.filename = filename

    def save_to_csv(self, url_tuples):
        with open(self.filename, 'w', newline='') as csvfile:
            writer = csv.writer(csvfile)
            writer.writerow(['URL', 'Count'])  # Записываем заголовки столбцов
            for url, count in url_tuples:
                writer.writerow([url, count])

    def read_from_csv(self):
        url_tuples = []
        with open(self.filename, 'r', newline='') as csvfile:
            reader = csv.reader(csvfile)
            next(reader)  # Пропускаем заголовки
            for row in reader:
                url_tuples.append((row[0], int(row[1])))  # Преобразуем второй элемент кортежа в число
        return url_tuples



url_manager = UrlManager('urls.csv')
# url_manager.save_to_csv(modified_urls)

# read_urls = url_manager.read_from_csv()
# print(read_urls)

In [10]:
modified_urls = url_manager.read_from_csv()

In [11]:
modified_urls[0]

('https://api.hh.ru/vacancies?area=47&professional_role=135&area=23&professional_role=164&area=2065&professional_role=172&area=43&professional_role=101&area=2020&professional_role=124&area=89&professional_role=166&area=25&professional_role=37&area=1454&professional_role=53&area=25&professional_role=139&area=212&professional_role=20&area=58&professional_role=75&area=25&professional_role=15&area=2034&professional_role=28&area=1399&professional_role=3&area=1512&professional_role=72&area=1240&professional_role=50&area=80&professional_role=53&area=80&professional_role=60&area=103&professional_role=116&area=2041&professional_role=36&area=73&professional_role=163&area=75&professional_role=114&area=15&professional_role=154&area=69&professional_role=126&area=73&professional_role=170&area=1440&professional_role=114&area=247&professional_role=123&area=81&professional_role=152&area=131&professional_role=138&area=75&professional_role=60&area=12&professional_role=152&area=63&professional_role=114&ar

In [12]:

@dataclass
class Vacancy:
    id: int
    name: str
    description: str
    branded_description: str
    key_skills: str
    professional_roles: str

In [20]:
from abc import ABCMeta, abstractmethod, abstractproperty
import os
import sqlite3
import pandas as pd

class DataSourcePdAdapter():
    __metaclass__ = ABCMeta

    def __init__(self, directory_path, file_name):
        self._directory_path = directory_path
        self._file_name = file_name
        self._extension = ''

        self._check_directory_path()
        self._check_filename()

    def _get_full_path(self):
        path = os.path.join(self._directory_path, f'{self._file_name}.{self._extension}')

        return path

    def _check_directory_path(self):
        if self._directory_path == '':
            raise Exception(f'directory_path не может быть пустой строкой!')

        if not os.path.exists(self._directory_path):
            os.mkdir(self._directory_path)

        if not os.path.exists(self._directory_path):
            raise Exception(f'Ошибка при создании каталога {self._directory_path}')

    def _check_filename(self):
        if self._file_name == '':
            raise Exception(f'file_name не может быть пустой строкой!')

    @abstractmethod
    def write(self, df):
        pass

    @abstractmethod
    def _read(self):
        pass

class SqlLitePdAdapter(DataSourcePdAdapter):
    def __init__(self, directory_path, file_name, table_name):
        super().__init__(directory_path, file_name)
        self._table = table_name
        self._operation_type = 'append'
        self._extension = 'db'

        self._create_table()

    def _create_table(self):
        with sqlite3.connect(self._get_full_path()) as con:
            con.execute(f"""
                CREATE TABLE if not exists {self._table} (
                    id INTEGER PRIMARY KEY,
                    name VARCHAR(100),
                    description TEXT,
                    branded_description TEXT,
                    key_skills VARCHAR(200),
                    professional_roles VARCHAR(200)

                );
            """)
            print()

    def write(self, df):
        with sqlite3.connect(self._get_full_path()) as con:
            df.to_sql(self._table, con, index=False, if_exists="replace")

    def write_row(self, vacancy):

        with sqlite3.connect(self._get_full_path()) as connection:
            cursor = connection.cursor()

            try:
                  cursor.execute(
                      f"""
                      INSERT INTO {self._table}
                      (
                        id, name, description, branded_description, key_skills, professional_roles
                      )
                      VALUES (?, ?, ?, ?, ?, ?)
                      """, (vacancy.id, vacancy.name, vacancy.description, vacancy.branded_description,
                            vacancy.key_skills, vacancy.professional_roles)
                )
            except Exception as ex:
                print(f'vacancy - {str(vacancy)}')
                print(f'ошибка при записи в БД - {ex}')
                raise ex

    def read_all(self):
        query = f'select * from {self._table}'
        with sqlite3.connect(self._get_full_path()) as con:
            return pd.read_sql(query, con)

    def read(self, query_params_str='', target_columns=None):

        if target_columns:
          target_columns_srt = ', '.join(target_columns)
        else:
          target_columns_srt = '*'

        query = f'select {target_columns_srt} from {self._table} {query_params_str}'
        with sqlite3.connect(self._get_full_path()) as con:
            return pd.read_sql(query, con)

# class Repository:

#     def read(self, pd_adapter):
#         return pd_adapter.read()

#     def write(self, pd_adapters_list, df):
#         if len(pd_adapters_list) == 0 or type(pd_adapters_list) != list:
#             raise Exception('Некорректный параметр pd_adapters_list, дожен быть не пустой список!')

#     for pd_adapter in pd_adapters_list:
#         pd_adapter.write(df)

#     print('данные сохранены')

In [21]:
sqlite3_adapter = SqlLitePdAdapter('drive/MyDrive', 'vacancies', 'vacancies')




In [23]:

def fetch_vacancies(url):
    per_page = 100
    extracted_vacancies = 0
    continues_vac = 0

    ids = []

    result_db = sqlite3_adapter.read(target_columns=['id'])
    print(f'размер массива {result_db.shape}')

    total_pages = 2000 // per_page + (1 if 2000 % per_page != 0 else 0)
    ids = []
    print(f'total_pages - {total_pages}')
    captcha_vacancies = []

    for page in range(0, total_pages):
        params = {'per_page': per_page, 'page': page}
        response = requests.get(url, params=params)

        if response.status_code == 200:
            time.sleep(0.2)
            vacancies = response.json()

            for item in tqdm(vacancies['items']):
                is_exists = result_db["id"].isin([int(item['id'])]).any()

                if is_exists or item['id'] in ids:
                    continues_vac += 1
                    continue

                # time.sleep(0.1)

                result = get_vacancy(item['id'])

                if 'captcha_required' in str(result):
                    time.sleep(2)
                    print('captcha_required')
                    captcha_vacancies.append(item['id'])
                    continue

                if 'errors' in str(result):
                    time.sleep(2)
                    print('errors')
                    captcha_vacancies.append(item['id'])
                    continue

                _id = int(result.get('id'))
                name = result.get('name')
                description = result.get('description')
                branded_description = result.get('branded_description')
                key_skills = ' '.join(i.get('name') for i in result.get('key_skills'))
                professional_roles = ' '.join(i.get('name') for i in result.get('professional_roles'))

                vacancy = Vacancy(_id, name, description, branded_description, key_skills, professional_roles)

                try:
                  sqlite3_adapter.write_row(vacancy)
                except Exception as e:
                  print(e)
                  continue

                ids.append(_id)
                extracted_vacancies += 1

        elif response.status_code == 400 :
            print("Reached the limit of 2000 items. Stopping further fetching.")

        else:
            print(response.text)
            print(f"Error fetching vacancies. Status code: {response.status_code}")
            # raise Exception(f"Error fetching vacancies. Status code: {response.status_code}")

    print(f'вакансий получено - {extracted_vacancies}')
    print(f'вакансий пропущено - {continues_vac}')
    print(f'вакансий с ошибкой - {len(captcha_vacancies)}')
    return captcha_vacancies


In [24]:
def get_vacancy(id_vacancy):
    target_url = f'https://api.hh.ru/vacancies/{id_vacancy}'
    vacancy = requests.get(target_url).json()
    return vacancy

In [None]:
for ind in range(len(modified_urls) - 65, 0, -1):
  url = modified_urls[ind]
  print(url)
  print(f'number url - {ind}')
  fetch_vacancies(url[0])

('https://api.hh.ru/vacancies?area=1&metro=2.512', 1402)
number url - 860
размер массива (61392, 1)
total_pages - 20


100%|██████████| 100/100 [00:00<00:00, 1346.30it/s]
100%|██████████| 100/100 [00:00<00:00, 1216.13it/s]
100%|██████████| 100/100 [00:00<00:00, 872.34it/s]
100%|██████████| 100/100 [00:00<00:00, 796.79it/s]
100%|██████████| 100/100 [00:00<00:00, 1331.72it/s]
100%|██████████| 100/100 [00:00<00:00, 1347.62it/s]
100%|██████████| 100/100 [00:00<00:00, 179.31it/s]
100%|██████████| 100/100 [00:00<00:00, 1296.48it/s]
100%|██████████| 100/100 [00:00<00:00, 1249.06it/s]
100%|██████████| 100/100 [00:00<00:00, 1255.46it/s]
100%|██████████| 100/100 [00:00<00:00, 1153.79it/s]
100%|██████████| 100/100 [00:00<00:00, 1302.98it/s]
100%|██████████| 100/100 [00:00<00:00, 1356.36it/s]
100%|██████████| 93/93 [00:00<00:00, 848.59it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]


вакансий получено - 1
вакансий пропущено - 1392
вакансий с ошибкой - 0
('https://api.hh.ru/vacancies?area=2&metro=14.198', 1397)
number url - 859
размер массива (61393, 1)
total_pages - 20


100%|██████████| 100/100 [00:00<00:00, 1036.80it/s]
100%|██████████| 100/100 [00:00<00:00, 874.09it/s]
100%|██████████| 100/100 [00:00<00:00, 897.84it/s]
100%|██████████| 100/100 [00:00<00:00, 615.20it/s]
100%|██████████| 100/100 [00:00<00:00, 557.06it/s]
100%|██████████| 100/100 [00:00<00:00, 792.53it/s]
100%|██████████| 100/100 [00:00<00:00, 1008.36it/s]
100%|██████████| 100/100 [00:00<00:00, 868.41it/s]
100%|██████████| 100/100 [00:00<00:00, 167.48it/s]
100%|██████████| 100/100 [00:00<00:00, 1312.44it/s]
100%|██████████| 100/100 [00:00<00:00, 1306.69it/s]
100%|██████████| 100/100 [00:00<00:00, 1152.99it/s]
100%|██████████| 100/100 [00:00<00:00, 1124.86it/s]
100%|██████████| 77/77 [00:00<00:00, 130.40it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]


вакансий получено - 2
вакансий пропущено - 1375
вакансий с ошибкой - 0
('https://api.hh.ru/vacancies?area=1&metro=2.133', 1397)
number url - 858
размер массива (61395, 1)
total_pages - 20


100%|██████████| 100/100 [00:00<00:00, 1355.79it/s]
100%|██████████| 100/100 [00:00<00:00, 1307.68it/s]
100%|██████████| 100/100 [00:00<00:00, 816.80it/s]
100%|██████████| 100/100 [00:00<00:00, 1198.66it/s]
100%|██████████| 100/100 [00:00<00:00, 452.78it/s]
100%|██████████| 100/100 [00:00<00:00, 120.77it/s]
100%|██████████| 100/100 [00:31<00:00,  3.21it/s]
100%|██████████| 100/100 [00:40<00:00,  2.45it/s]
100%|██████████| 100/100 [00:34<00:00,  2.91it/s]
  1%|          | 1/100 [00:00<00:33,  2.94it/s]

vacancy - Vacancy(id=96262408, name='Специалист информационной безопасности', description='<strong>Обязанности:</strong> <ul> <li>Администрировании NGFW и IPS решений из правого верхнего квадранта Gartner</li> <li>Управление, контроль, сегментация сетей, а также анализ, согласование и контроль политик Firewall</li> <li>Анализ текущих и построение новых Kill Chain в рамках корпоративной сети</li> <li>Администрирование enterprise-решений экосистемы Лаборатории Касперского с объёмом инфраструктуры от 2500 хостов</li> <li>Администрирование PAM-решений отечественного производства</li> <li>Администрирование MDM-систем On-Premise</li> <li>Работа по разбору инцидентов информ. безопасности</li> <li>Постановка на мониторинг новых источников в корпоративный SIEM, поддержание работоспособности сбора данных</li> <li>Внедрение новых инструментов и решений для повышения защищённости</li> <li>Применение и адаптация готовых профилей защиты для корпоративной инфраструктуры</li> <li>Взаимодействие с серв

100%|██████████| 100/100 [00:30<00:00,  3.29it/s]
100%|██████████| 100/100 [00:29<00:00,  3.36it/s]
 63%|██████▎   | 63/100 [00:20<00:35,  1.05it/s]

errors


100%|██████████| 100/100 [00:30<00:00,  3.32it/s]
100%|██████████| 100/100 [00:29<00:00,  3.42it/s]
100%|██████████| 80/80 [00:28<00:00,  2.84it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]


вакансий получено - 483
вакансий пропущено - 895
вакансий с ошибкой - 1
('https://api.hh.ru/vacancies?area=1&metro=6.27', 1391)
number url - 857
размер массива (61878, 1)
total_pages - 20


100%|██████████| 100/100 [00:36<00:00,  2.75it/s]
 46%|████▌     | 46/100 [00:19<00:55,  1.02s/it]

captcha_required


 48%|████▊     | 48/100 [00:22<00:56,  1.08s/it]

captcha_required


 50%|█████     | 50/100 [00:24<00:55,  1.11s/it]

captcha_required


100%|██████████| 100/100 [00:44<00:00,  2.25it/s]
100%|██████████| 100/100 [00:34<00:00,  2.86it/s]
  1%|          | 1/100 [00:02<04:00,  2.43s/it]

captcha_required


  2%|▏         | 2/100 [00:04<03:51,  2.36s/it]

captcha_required


 48%|████▊     | 48/100 [00:22<00:51,  1.01it/s]

captcha_required


100%|██████████| 100/100 [00:39<00:00,  2.55it/s]
 66%|██████▌   | 66/100 [00:26<00:22,  1.48it/s]

captcha_required


100%|██████████| 100/100 [00:37<00:00,  2.69it/s]
 98%|█████████▊| 98/100 [00:33<00:01,  1.53it/s]

captcha_required


100%|██████████| 100/100 [00:34<00:00,  2.92it/s]
 39%|███▉      | 39/100 [00:14<00:37,  1.64it/s]

captcha_required


100%|██████████| 100/100 [00:33<00:00,  2.98it/s]
 74%|███████▍  | 74/100 [00:27<00:26,  1.01s/it]

captcha_required


100%|██████████| 100/100 [00:38<00:00,  2.60it/s]
100%|██████████| 100/100 [00:39<00:00,  2.55it/s]
  3%|▎         | 3/100 [00:00<00:25,  3.76it/s]

vacancy - Vacancy(id=92673251, name='Работник на выкладку товара (м. Ростокино)', description='<p><strong>Продавец в сеть торговых центров METRO Cash&amp;Carry</strong></p> <p>Мы предлагаем стабильную работу, уверенность в завтрашнем дне, дружный коллектив и возможность развиваться вместе!</p> <p><strong>Что мы предлагаем:</strong></p> <ul> <li>Официальное трудоустройство в соответствии с ТК РФ с 1-ого рабочего дня;</li> <li>&quot;Белая&quot; заработная плата;</li> <li>Оформление личной медицинской книжки за счет Компании;</li> <li>Бесплатное обучение и форменная одежда;</li> <li>Сменный график работы;</li> <li>Полис ДМС, возможность прикрепить родственников к корпоративному тарифу;</li> <li>Страхование от несчастного случая и болезней;</li> <li>Компенсация питания в корпоративной столовой;</li> <li>Скидки на покупки в Торговых Центрах Компании;</li> <li>Скидки на изучение английского языка;</li> <li>Корпоративные программы и мероприятия.</li> <li>Бонус за трудоустроенных друзей в комп

 90%|█████████ | 90/100 [00:30<00:08,  1.12it/s]

captcha_required


100%|██████████| 100/100 [00:33<00:00,  2.99it/s]
100%|██████████| 100/100 [00:33<00:00,  3.00it/s]
 69%|██████▉   | 69/100 [00:27<00:21,  1.41it/s]

captcha_required


100%|██████████| 100/100 [00:38<00:00,  2.61it/s]
100%|██████████| 100/100 [00:33<00:00,  2.99it/s]
 63%|██████▎   | 51/81 [00:17<00:27,  1.09it/s]

captcha_required


100%|██████████| 81/81 [00:30<00:00,  2.65it/s]

captcha_required



0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]


вакансий получено - 996
вакансий пропущено - 370
вакансий с ошибкой - 14
('https://api.hh.ru/vacancies?area=2&metro=16.232', 1372)
number url - 856
размер массива (62874, 1)
total_pages - 20


100%|██████████| 100/100 [00:38<00:00,  2.62it/s]
 49%|████▉     | 49/100 [00:19<00:35,  1.43it/s]

captcha_required


 50%|█████     | 50/100 [00:21<00:53,  1.07s/it]

captcha_required


100%|██████████| 100/100 [00:38<00:00,  2.58it/s]
100%|██████████| 100/100 [00:38<00:00,  2.62it/s]
  7%|▋         | 7/100 [00:04<01:36,  1.04s/it]

captcha_required


 84%|████████▍ | 84/100 [00:36<00:12,  1.26it/s]

captcha_required


100%|██████████| 100/100 [00:41<00:00,  2.38it/s]
 62%|██████▏   | 62/100 [00:24<00:37,  1.01it/s]

captcha_required


100%|██████████| 100/100 [00:39<00:00,  2.55it/s]
 57%|█████▋    | 57/100 [00:23<00:41,  1.04it/s]

captcha_required


100%|██████████| 100/100 [00:39<00:00,  2.52it/s]
100%|██████████| 100/100 [00:38<00:00,  2.61it/s]
 58%|█████▊    | 58/100 [00:23<00:31,  1.35it/s]

captcha_required


100%|██████████| 100/100 [00:42<00:00,  2.36it/s]
100%|██████████| 100/100 [00:43<00:00,  2.31it/s]
100%|██████████| 100/100 [00:45<00:00,  2.21it/s]
100%|██████████| 100/100 [00:43<00:00,  2.31it/s]
100%|██████████| 100/100 [00:48<00:00,  2.06it/s]
100%|██████████| 100/100 [00:43<00:00,  2.31it/s]
100%|██████████| 54/54 [00:23<00:00,  2.28it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]


вакансий получено - 1095
вакансий пропущено - 252
вакансий с ошибкой - 7
('https://api.hh.ru/vacancies?area=2&metro=17.243', 1357)
number url - 855
размер массива (63969, 1)
total_pages - 20


100%|██████████| 100/100 [00:28<00:00,  3.46it/s]
100%|██████████| 100/100 [00:25<00:00,  3.85it/s]
 15%|█▌        | 15/100 [00:04<00:37,  2.29it/s]

captcha_required


100%|██████████| 100/100 [00:27<00:00,  3.58it/s]
100%|██████████| 100/100 [00:29<00:00,  3.38it/s]
100%|██████████| 100/100 [00:25<00:00,  3.85it/s]
100%|██████████| 100/100 [00:33<00:00,  2.96it/s]
  1%|          | 1/100 [00:00<00:50,  1.96it/s]

vacancy - Vacancy(id=95901243, name='Продавец магазина ZARINA (возможна подработка, ТЦ Июнь, м. Ладожская)', description='<p><strong><strong>Еще в детстве ты представлял себя продавцом, играя во дворе с листьями-деньгами? Закрой гештальт и оставляй отклик</strong></strong>❤</p> <p><strong><strong>От нас:</strong></strong></p> <ul> <li>все официально, белая зарплата каждые 2 недели</li> <li>work-life balance c гибким графиком 3/4 или 4/3 (вс, пн, вт, ср)</li> <li>аутфиты со скидкой 50% на ZARINA, Befree, LOVE REPUBLIC, Sela, IDOL</li> <li>за деньги - да! бонус за приведенных в бренд друзей</li> <li>новые скиллы в Онлайн Академии ZARINA (это база)</li> <li>surprise surprise - быстрый карьерный рост и поддержка руководителя</li> </ul> <p><strong><strong>Твой рабочий день (не </strong></strong><strong><strong>pov</strong></strong><strong><strong>, а рил):</strong></strong></p> <ul> <li>поддерживаешь командный вайб</li> <li>локации - торговый зал, примерочные, касса</li> </ul> <p><strong><s

  2%|▏         | 2/100 [00:00<00:40,  2.42it/s]

vacancy - Vacancy(id=92481763, name='Дизайнер-консультант в ТК «МЕБЕЛЬВУД»', description='<p><strong>Mr</strong><strong>.</strong><strong>Doors – это синоним качества. Стань частью команды Mr.</strong><strong>Doors!</strong></p> <p><strong>Мы гарантируем:</strong></p> <p>- Работу в салоне с высоким входящим трафиком. Мы находим клиентов – вы просто занимаетесь любимым делом;</p> <p>- Оплачиваемое обучение и повышенный оклад <strong>на первые 9 месяцев </strong>работы в компании;</p> <p>- Отсутствие &quot;потолка&quot; в доходе;</p> <p>- Графики работы 3/2, 4/2;</p> <p>- Оформление по ТК РФ (выплату заработной платы 2 раза в месяц).</p> <p><strong>Если говорить о Mr.Doors в цифрах:</strong></p> <p>Мы 26 лет на рынке, осчастливили более 975 000 клиентов и открыли свыше 150 салонов по РФ.</p> <p><strong>Клиенты нас любят, потому что:</strong></p> <p>- У нас потрясающие качество продукции;</p> <p>- Инновационный дизайн;</p> <p>- Высокий уровень сервиса.</p> <p><em>76% клиентов совершают по

100%|██████████| 100/100 [00:27<00:00,  3.64it/s]
100%|██████████| 100/100 [00:32<00:00,  3.12it/s]
100%|██████████| 100/100 [00:35<00:00,  2.81it/s]
100%|██████████| 100/100 [00:34<00:00,  2.86it/s]
100%|██████████| 100/100 [00:34<00:00,  2.92it/s]
100%|██████████| 100/100 [00:28<00:00,  3.56it/s]
100%|██████████| 100/100 [00:28<00:00,  3.49it/s]
100%|██████████| 41/41 [00:12<00:00,  3.17it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]


вакансий получено - 765
вакансий пропущено - 573
вакансий с ошибкой - 1
('https://api.hh.ru/vacancies?area=1&metro=2.80', 1356)
number url - 854
размер массива (64734, 1)
total_pages - 20


100%|██████████| 100/100 [00:21<00:00,  4.68it/s]
100%|██████████| 100/100 [00:25<00:00,  3.89it/s]
 36%|███▌      | 36/100 [00:12<00:39,  1.62it/s]

captcha_required


 78%|███████▊  | 78/100 [00:20<00:06,  3.16it/s]

captcha_required


100%|██████████| 100/100 [00:26<00:00,  3.81it/s]
100%|██████████| 100/100 [00:27<00:00,  3.64it/s]
100%|██████████| 100/100 [00:21<00:00,  4.55it/s]
 53%|█████▎    | 53/100 [00:11<00:23,  1.99it/s]

captcha_required


100%|██████████| 100/100 [00:21<00:00,  4.65it/s]
100%|██████████| 100/100 [00:24<00:00,  4.09it/s]
100%|██████████| 100/100 [00:33<00:00,  3.01it/s]
100%|██████████| 100/100 [00:30<00:00,  3.27it/s]
  3%|▎         | 3/100 [00:01<00:38,  2.50it/s]

vacancy - Vacancy(id=92482930, name='Младший научный сотрудник Научно-методического отдела', description='<p>ФАУ «Единый институт пространственного планирования РФ» в связи с увеличением количества проектов и расширением штата приглашает принять участие в отборе на вакансию <strong>Младший научный сотрудник Научно-методического отдела.</strong></p> <p> </p> <p>Мы активно развиваемся и ищем талантливых научных сотрудников, желающих реализовывать свой потенциал вместе с нами.</p> <p> </p> <p><strong>Чем предстоит заниматься:</strong></p> <p> </p> <ul> <li>Участие в разработке новаторских методов, алгоритмов и подходов, направленных на совершенствование процесса градостроительного проектирования</li> <li>Участие в разработке документов стратегического и пространственного планирования</li> <li>Анализ передовых отечественных и зарубежных методов планирования градостроительного развития территорий</li> <li>Участие в разработке нормативных документов в области градостроительства</li> <li>Обра

100%|██████████| 100/100 [00:33<00:00,  3.02it/s]
100%|██████████| 100/100 [00:27<00:00,  3.58it/s]
100%|██████████| 100/100 [00:29<00:00,  3.41it/s]
100%|██████████| 100/100 [00:36<00:00,  2.74it/s]
100%|██████████| 40/40 [00:12<00:00,  3.29it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]


вакансий получено - 738
вакансий пропущено - 598
вакансий с ошибкой - 3
('https://api.hh.ru/vacancies?area=1&metro=1.60', 1353)
number url - 853
размер массива (65472, 1)
total_pages - 20


100%|██████████| 100/100 [00:46<00:00,  2.15it/s]
 21%|██        | 21/100 [00:12<01:27,  1.10s/it]

captcha_required


 22%|██▏       | 22/100 [00:14<01:54,  1.47s/it]

captcha_required


100%|██████████| 100/100 [00:51<00:00,  1.95it/s]
  1%|          | 1/100 [00:00<00:56,  1.76it/s]

vacancy - Vacancy(id=96173183, name='PHP-разработчик', description='<p>PHP-разработчик (офис/гибрид)</p> <p><strong>О компании:</strong> ЭлЖур - это IT-компания, разрабатывающая <strong>информационную систему учета успеваемости - электронный журнал для школ и электронный дневник для учеников и родителей</strong>. Мы стремимся не просто автоматизировать выставление оценок и запись домашних заданий, но и решить повседневные задачи всех участников образовательного процесса, а также наладить связь родителей, учеников с сотрудниками школы. C нами работает более <strong>5000</strong> школ по всей России, каждый день с нашей помощью выставляется более 600 тысяч оценок. Среди наших клиентов ведущие школы, гимназии и лицеи РФ: Школа Летово, Школа Сотрудничества, Лицей Национального исследовательского университета &quot;Высшая школа экономики&quot; (НИУ &quot;ВШЭ&quot;), Лицей №1511 при Московском инженерно-физическом институте (МИФИ), ФизТех Лицей им. Капицы и многие другие.</p> <p><strong>Наши

 44%|████▍     | 44/100 [00:22<01:00,  1.08s/it]

captcha_required


 45%|████▌     | 45/100 [00:24<01:19,  1.44s/it]

captcha_required


100%|██████████| 100/100 [00:52<00:00,  1.89it/s]
100%|██████████| 100/100 [00:49<00:00,  2.02it/s]
100%|██████████| 100/100 [00:50<00:00,  1.99it/s]
  1%|          | 1/100 [00:00<00:33,  2.93it/s]

vacancy - Vacancy(id=95059872, name='Администратор', description='<p><strong>ВНИМАНИЕ! </strong><strong>Конкурс на вакансию открыт до 10 апреля 2024 г.</strong></p> <p>В связи:</p> <p>- масштабированием и открытием второго салона;</p> <p>- ростом количества новых клиентов</p> <p>Открыли набор <strong>самых заряженных сотрудников!!</strong></p> <p>Мы ищем <strong>талантливого администратора </strong>с возможностью карьерного роста, который умеет слушать клиентов и анализировать свои действия.</p> <p><strong>О компании:</strong></p> <p>На рынке более 20 лет. Своя уникальная запатентованная технология!<br />Революционное окрашивание и стрижка. Забота о людях!</p> <p><strong>МЫ РАДЫ ВИДЕТЬ:</strong></p> <ul> <li>жизнерадостных;</li> <li>активных;</li> <li>открытых;</li> <li>благодарных;</li> <li>доброжелательных;</li> <li>аккуратных и внимательных;</li> <li>обращаем внимание на внешний вид и грамотную речь;</li> <li>огромное желание движа в жизни, за который получают более чем адекватную з

 34%|███▍      | 34/100 [00:17<01:06,  1.01s/it]

captcha_required


100%|██████████| 100/100 [00:50<00:00,  1.99it/s]
100%|██████████| 100/100 [00:49<00:00,  2.04it/s]
100%|██████████| 100/100 [00:42<00:00,  2.36it/s]
 53%|█████▎    | 53/100 [00:25<00:46,  1.01it/s]

captcha_required


100%|██████████| 100/100 [00:48<00:00,  2.07it/s]
100%|██████████| 100/100 [00:49<00:00,  2.01it/s]
  1%|          | 1/100 [00:00<00:35,  2.80it/s]

vacancy - Vacancy(id=86055400, name='Программист Си (embedded)', description='<p><strong>Мы ООО &quot;ИТСофт&quot;</strong> - компания, которая входит в состав ГК &quot;Имформтехника&quot;.</p> <p>Мы - разработчики телекоммуникационного оборудования для построения комплексных систем связи. Разработка полного цикла, включающая аппаратные решения и программное обеспечения различных уровней взаимодействия с аппаратной платформой. Наши основные заказчики - это государственные и квазигосударственные предприятия и монополии, силовые ведомства.</p> <p><strong>Профессиональные навыки и умения:</strong></p> <p>- знание С/С++ (опыт работы от 3 лет)</p> <p>- опыт разработки модулей ядра linux</p> <p>- опыт работы с Ethernet</p> <p>- опыт разработки встроенного ПО</p> <p>- владение средствами сборки программного обеспечения make, cmake и др.</p> <p>- умение работать с системами контроля версий (Git/SVN)</p> <p>- знание сетевой модели OSI и опыт работы с сетевыми протоколами</p> <p>- опыт работы с 

 95%|█████████▌| 95/100 [00:43<00:04,  1.21it/s]

captcha_required


100%|██████████| 100/100 [00:46<00:00,  2.14it/s]
100%|██████████| 100/100 [00:49<00:00,  2.02it/s]
100%|██████████| 100/100 [00:50<00:00,  1.98it/s]
100%|██████████| 25/25 [00:10<00:00,  2.33it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]


вакансий получено - 1251
вакансий пропущено - 64
вакансий с ошибкой - 7
('https://api.hh.ru/vacancies?area=1&metro=9.9', 1352)
number url - 852
размер массива (66723, 1)
total_pages - 20


100%|██████████| 100/100 [00:49<00:00,  2.04it/s]
 21%|██        | 21/100 [00:11<01:25,  1.09s/it]

captcha_required


100%|██████████| 100/100 [00:50<00:00,  1.98it/s]
100%|██████████| 100/100 [00:51<00:00,  1.96it/s]
100%|██████████| 100/100 [00:50<00:00,  1.98it/s]
100%|██████████| 100/100 [00:52<00:00,  1.92it/s]
100%|██████████| 100/100 [00:56<00:00,  1.76it/s]
100%|██████████| 100/100 [00:58<00:00,  1.71it/s]
100%|██████████| 100/100 [00:57<00:00,  1.74it/s]
100%|██████████| 100/100 [00:58<00:00,  1.70it/s]
100%|██████████| 100/100 [00:56<00:00,  1.78it/s]
100%|██████████| 100/100 [00:55<00:00,  1.79it/s]
100%|██████████| 100/100 [00:54<00:00,  1.85it/s]
100%|██████████| 100/100 [00:58<00:00,  1.71it/s]
100%|██████████| 42/42 [00:26<00:00,  1.56it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]
0it [00:00, ?it/s]


вакансий получено - 1327
вакансий пропущено - 14
вакансий с ошибкой - 1
('https://api.hh.ru/vacancies?area=2&metro=16.604', 1345)
number url - 851
размер массива (68050, 1)
total_pages - 20


 12%|█▏        | 12/100 [00:05<00:40,  2.18it/s]

In [6]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
sqlite3_adapter.read()['id'].isin([93487881]).any()

True

In [None]:

target_url = 'https://api.hh.ru/vacancies'
json = requests.get(target_url, {'clusters': True}).json()

clusters = json['clusters']
areas = clusters[0].get('items')

vacancy_urls = []
params_path = ['area', 'metro', 'professional_role', '']

# получаем выборку по всем регионам
# убираем регион Россия
# сортируем записи, где кол-во меньше 2000
# по оставшимся получаем выборку по каждому региону
# проверяем есть ли в выборке метро
# если есть получаем выборку по каждой станции
# если нет получаем выборку по профессион роли
# сортируем записи метро, где кол-во меньше 2000
# по оставшимся получаем выборку по каждой станции и по проф роли

# for area in areas:
#     if area['name'] == 'Россия':
#         continue

#     if area['count'] <= 2000:
#         vacancy_urls.append(area['url'])
#     else:
#         json_area = requests.get(area['url']).json()

#         for i in json_area:
#             if i['count'] <= 2000:
#                 vacancy_urls.append(i['url'])




# for num in range(num_pages):
#     page_data = requests.get(target_url, {'page': num, 'clusters': True}).json()
#     if 'items' not in page_data:
#         break

#     ids.extend(i['id'] for i in page_data['items'])

In [None]:
vacancy_list = []
with ThreadPoolExecutor(max_workers=4) as executor:
    for vacancy in tqdm(executor.map(get_vacancy, ids), ncols=100, total=len(ids)):
        vacancy_list.append(vacancy)


In [None]:
json['items'][3]