In [1]:
import os
import pandas as pd
from pathlib import Path
from tqdm import tqdm
from dotenv import load_dotenv
from professions_list import ALL_PROFESSIONS, PROFESSIONS_LIST
from hh_resume_parser_db import HHResumeParser
from clickhouse_driver import Client

In [2]:
load_dotenv()

CLICKHOUSE_HOST: str = os.getenv("CLICKHOUSE_HOST")
CLICKHOUSE_USER: str = os.getenv("CLICKHOUSE_USER")
CLICKHOUSE_PASSWORD: str = os.getenv("CLICKHOUSE_PASSWORD")
CLICKHOUSE_DATABASE: str = os.getenv("CLICKHOUSE_DATABASE")

In [3]:
clickhouse = Client(host=CLICKHOUSE_HOST, port='9000', user=CLICKHOUSE_USER, password=CLICKHOUSE_PASSWORD, database=CLICKHOUSE_DATABASE, settings={'use_numpy': True})

In [4]:
def get_unloaded_position(clickhouse):
    loaded_position = clickhouse.query_dataframe("""
    select search_query
    from hh_resumes
    """)
    loaded_position = set(loaded_position['search_query'].tolist())
    unloaded_position = list(set(PROFESSIONS_LIST['it_tech']) - loaded_position)
    return sorted(unloaded_position)

In [5]:
unloaded_position = get_unloaded_position(clickhouse)

In [6]:
resume_parser = HHResumeParser(timeout=60, max_retries=5)

In [None]:
for prof in tqdm(unloaded_position):
    df_resumes = resume_parser.load_resumes(
        search_terms=[prof],
        areas=['Москва'],
        pages=250,
        items_on_page=20,
        delay=2
    )

    resume_parser.save_to_clickhouse(df_resumes, clickhouse)

  0%|                                                                                                                                                                                                                                                                          | 0/20 [00:00<?, ?it/s]
Сбор резюме:   0%|                                                                                                                                                                                                                                                            | 0/250 [00:00<?, ?it/s][A
Сбор резюме:   0%|▊                                                                                                                                                                                                | 1/250 [00:00<00:00, 2392.64it/s, Резюме=0, Запрос=Game Developer, Страница=1/250][A
Сбор резюме:   1%|█▌                                                                                         

=== ИТОГИ ===
Всего собрано резюме: 792
Распределение по поисковым запросам:
  Game Developer: 792
Успешно сохранено 792 записей в ClickHouse таблицу hh_resumes



Сбор резюме:   0%|                                                                                                                                                                                                                                                            | 0/250 [00:00<?, ?it/s][A
Сбор резюме:   0%|▊                                                                                                                                                                                               | 1/250 [00:00<00:00, 1608.25it/s, Резюме=0, Запрос=PHP-разработчик, Страница=1/250][A
Сбор резюме:   1%|█▌                                                                                                                                                                                              | 2/250 [00:29<1:01:50, 14.96s/it, Резюме=0, Запрос=PHP-разработчик, Страница=1/250][A
Сбор резюме:   1%|█▌                                                                                     

=== ИТОГИ ===
Всего собрано резюме: 580
Распределение по поисковым запросам:
  PHP-разработчик: 580
Успешно сохранено 580 записей в ClickHouse таблицу hh_resumes



Сбор резюме:   0%|                                                                                                                                                                                                                                                            | 0/250 [00:00<?, ?it/s][A
Сбор резюме:   0%|▋                                                                                                                                                                                          | 1/250 [00:00<00:00, 1285.41it/s, Резюме=0, Запрос=Администратор баз да, Страница=1/250][A
Сбор резюме:   1%|█▍                                                                                                                                                                                         | 2/250 [00:30<1:03:06, 15.27s/it, Резюме=0, Запрос=Администратор баз да, Страница=1/250][A
Сбор резюме:   1%|█▍                                                                                     

=== ИТОГИ ===
Всего собрано резюме: 1450
Распределение по поисковым запросам:
  Администратор баз данных: 1450
Успешно сохранено 1450 записей в ClickHouse таблицу hh_resumes



Сбор резюме:   0%|                                                                                                                                                                                                                                                            | 0/250 [00:00<?, ?it/s][A
Сбор резюме:   0%|▊                                                                                                                                                                                                   | 1/250 [00:00<00:00, 3597.17it/s, Резюме=0, Запрос=Аналитик ИБ, Страница=1/250][A
Сбор резюме:   1%|█▌                                                                                                                                                                                                    | 2/250 [00:24<51:11, 12.39s/it, Резюме=0, Запрос=Аналитик ИБ, Страница=1/250][A
Сбор резюме:   1%|█▌                                                                                     

=== ИТОГИ ===
Всего собрано резюме: 218
Распределение по поисковым запросам:
  Аналитик ИБ: 218
Успешно сохранено 218 записей в ClickHouse таблицу hh_resumes



Сбор резюме:   0%|                                                                                                                                                                                                                                                            | 0/250 [00:00<?, ?it/s][A
Сбор резюме:   0%|▊                                                                                                                                                                                                  | 1/250 [00:00<00:00, 3113.81it/s, Резюме=0, Запрос=Веб-аналитик, Страница=1/250][A
Сбор резюме:   1%|█▌                                                                                                                                                                                                 | 2/250 [00:31<1:04:56, 15.71s/it, Резюме=0, Запрос=Веб-аналитик, Страница=1/250][A
Сбор резюме:   1%|█▌                                                                                     

=== ИТОГИ ===
Всего собрано резюме: 1551
Распределение по поисковым запросам:
  Веб-аналитик: 1551
Успешно сохранено 1551 записей в ClickHouse таблицу hh_resumes



Сбор резюме:   0%|                                                                                                                                                                                                                                                            | 0/250 [00:00<?, ?it/s][A
Сбор резюме:   0%|▋                                                                                                                                                                                          | 1/250 [00:00<00:00, 4387.35it/s, Резюме=0, Запрос=Инженер машинного об, Страница=1/250][A
Сбор резюме:   1%|█▍                                                                                                                                                                                         | 2/250 [00:30<1:02:46, 15.19s/it, Резюме=0, Запрос=Инженер машинного об, Страница=1/250][A
Сбор резюме:   1%|█▍                                                                                     

### 