In [57]:
import requests
import pandas as pd
import nltk
from nltk.corpus import stopwords
import pickle
import re

# Загрузка списка стоп-слов
nltk.download('stopwords')
stop_words = set(stopwords.words('russian'))
# Функция для парсинга вакансий
def fetch_vacancies(keyword, num_vacancies=100):
    page = 1
    processed_vacancies = []
    salary = []
    while len(processed_vacancies) < num_vacancies and page<100:
        url = f'https://api.hh.ru/vacancies?text={keyword}&page={page}&per_page=100'
        response = requests.get(url)
        
        # Проверка на успешность запроса
        if response.status_code != 200:
            print(f"Ошибка при запросе данных: {response.status_code}")
            break
        
        data = response.json()
        for vacancy in data['items']:
            if  vacancy['snippet']!=None and vacancy['salary']!=None:
                processed_vacancies.append(vacancy['snippet'])
                salary.append(vacancy['salary'])
        
        if page >= data['pages'] - 1:
            break
        
        page += 1

    return processed_vacancies, salary

# Задание ключевого слова
keyword = 'Python'
# Получение вакансий
vacancies, salary = fetch_vacancies(keyword)

# Сохранение результатов в файл
if vacancies:
    with open('vacancies.pkl', 'wb') as f:
        pickle.dump(vacancies, f)
    print(f'Собрано {len(vacancies)} вакансий. Данные сохранены в vacancies2.pkl')
else:
    print('Не удалось собрать вакансии.')


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\1\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Собрано 144 вакансий. Данные сохранены в vacancies2.pkl


In [58]:
filtered_data = [entry for entry in salary if entry is not None]
y = pd.DataFrame(filtered_data)[['from', 'to']]
y['from'] = y['from'].fillna(y['to'])
y['to'] = y['to'].fillna(y['from'])
y

Unnamed: 0,from,to
0,150000.0,250000.0
1,60000.0,60000.0
2,1200.0,1200.0
3,85000.0,85000.0
4,150000.0,400000.0
...,...,...
139,150000.0,180000.0
140,135000.0,135000.0
141,120000.0,120000.0
142,60000.0,200000.0


In [59]:
filtered_data = [entry for entry in vacancies if entry is not None]
X = pd.DataFrame(filtered_data)[['requirement', 'responsibility']]
X['requirement'] = X['requirement'].fillna(X['responsibility'])
X['responsibility'] = X['responsibility'].fillna(X['requirement'])
X

Unnamed: 0,requirement,responsibility
0,Опыт разработки на <highlighttext>Python</high...,Нейро-контроль качества. Нейро-техподдержка. Н...
1,Увлечен миром программирования и <highlighttex...,Разрабатывать backend-часть веб-приложений на ...
2,...для управления состоянием. Опыт с инструмен...,Разработка новых пользовательских интерфейсов ...
3,Знание <highlighttext>Python</highlighttext>. ...,Знание <highlighttext>Python</highlighttext>. ...
4,"Чем будешь заниматься: Опыт в разработке игр, ...","Разрабатывать разнообразные игры (консоли, моб..."
...,...,...
139,Базовые навыки написания автотестов на Java и/...,Разнообразные проекты и заказчики. Делаем: — Ц...
140,Знания в области визуального представления дан...,Созданием дашбордов. Автоматизацией процессов ...
141,Знание основы визуального промпт-инженеринга. ...,Участие в разработке и внедрении AI решений в ...
142,Опыт работы с нейронными сетями. Умение управл...,1. Создание софта для подбора кандидатов на ос...


In [60]:
from pymorphy2 import MorphAnalyzer
from nltk.tokenize import word_tokenize

def preprocess_text(text):
    # Удаление специальных символов и приведение к нижнему регистру
    morph = MorphAnalyzer()
    text = re.sub(r'<.*?>', '', text)
    text = re.sub(r'\W+', ' ', text).lower()
    stop_words = stopwords.words('russian')
    documents =[
            word_norm for word in word_tokenize(text, language='russian')
            if (word_norm := morph.normal_forms(word)[0]) not in stop_words
        ]
    return [s for s in documents if len(s) > 2]


result_X = X.applymap(preprocess_text)
result_X

Unnamed: 0,requirement,responsibility
0,"[опыт, разработка, python, год, успешный, кейс...","[нейро, контроль, качество, нейро, техподдержк..."
1,"[увлечь, мир, программирование, python, твой, ...","[разрабатывать, backend, часть, веб, приложени..."
2,"[управление, состояние, опыт, инструмент, сбор...","[разработка, новый, пользовательский, интерфей..."
3,"[знание, python, знание, linux, приветствовать...","[знание, python, знание, linux, приветствовать..."
4,"[заниматься, опыт, разработка, игра, знание, я...","[разрабатывать, разнообразный, игра, консоль, ..."
...,...,...
139,"[базовый, навык, написание, автотест, java, py...","[разнообразный, проект, заказчик, делать, цифр..."
140,"[знание, область, визуальный, представление, д...","[создание, дашбордовый, автоматизация, процесс..."
141,"[знание, основа, визуальный, промпт, инженерин...","[участие, разработка, внедрение, решение, бизн..."
142,"[опыт, работа, нейронный, сеть, умение, управл...","[создание, софт, подбор, кандидат, основа, ана..."


In [61]:
element_iloc = result_X.iloc[1, 1] 
element_iloc 

['разрабатывать',
 'backend',
 'часть',
 'веб',
 'приложение',
 'python',
 'создавать',
 'логика',
 'приложение',
 'разрабатывать',
 'api',
 'интегрировать',
 'база',
 'данные']

In [62]:
df = X.join(y)
df

Unnamed: 0,requirement,responsibility,from,to
0,Опыт разработки на <highlighttext>Python</high...,Нейро-контроль качества. Нейро-техподдержка. Н...,150000.0,250000.0
1,Увлечен миром программирования и <highlighttex...,Разрабатывать backend-часть веб-приложений на ...,60000.0,60000.0
2,...для управления состоянием. Опыт с инструмен...,Разработка новых пользовательских интерфейсов ...,1200.0,1200.0
3,Знание <highlighttext>Python</highlighttext>. ...,Знание <highlighttext>Python</highlighttext>. ...,85000.0,85000.0
4,"Чем будешь заниматься: Опыт в разработке игр, ...","Разрабатывать разнообразные игры (консоли, моб...",150000.0,400000.0
...,...,...,...,...
139,Базовые навыки написания автотестов на Java и/...,Разнообразные проекты и заказчики. Делаем: — Ц...,150000.0,180000.0
140,Знания в области визуального представления дан...,Созданием дашбордов. Автоматизацией процессов ...,135000.0,135000.0
141,Знание основы визуального промпт-инженеринга. ...,Участие в разработке и внедрении AI решений в ...,120000.0,120000.0
142,Опыт работы с нейронными сетями. Умение управл...,1. Создание софта для подбора кандидатов на ос...,60000.0,200000.0


In [63]:
df.to_csv('Vacancy2.csv', index=False)