### 1. Развернуть у себя на компьютере/виртуальной машине/хостинге MongoDB и реализовать функцию, записывающую собранные вакансии в созданную БД.

In [1]:
import pandas as pd
from pymongo import MongoClient
from pprint import pprint

In [2]:
# Запускаем сессию 
client = MongoClient('127.0.0.1',27017)
db = client['vacancies']
vacs = db.vacancies

In [3]:
# загружаем, чистим от повторов и хешируем скаченный ранее датафрейм:
df = pd.read_csv('vacancies.csv', encoding='utf-8')
df = df.drop_duplicates()
df['_id'] = pd.util.hash_pandas_object(df, index=False).astype('str')

<b>ВАЖНО!</b> 
Обязательно нужно отследить, чтобы все числовые значения соответствовали <a href='https://docs.mongodb.com/manual/reference/method/ObjectId/#ObjectId'> правилам БД</a>. Так как хешированный столбец не соответствует - я его преобразовал в строковое значение.

Данное решение не самое изящное. К примеру, есть возможность решить данную задачу при помощи <a href='http://odo.pydata.org/en/latest/overview.html'>ODO</a>. Также были интересные варианты в обсуждении на <a href='https://stackoverflow.com/questions/20167194/insert-a-pandas-dataframe-into-mongodb-using-pymongo'> стаке</a>.
Однако я решил реализовать этот вариант, так как мне очень понравилась идея хешировать все данные из каждой вакансии, а ничего более "питонического" я не нашел. В промышленном варианте, конечно, проще всего реализовать проверку и включение вакансии в момент сбора информации (у меня это файлы HH_vac_block_parcer и sj_parcer)

In [4]:
# Загружаем данные в базу данных. 
vacs.insert_many(df.to_dict(orient='records'))

<pymongo.results.InsertManyResult at 0x7fed4b0f8900>

### 2. Написать функцию, которая производит поиск и выводит на экран вакансии с заработной платой больше введённой суммы. Запрос должен анализировать одновременно минимальную и максимальную зарплату.

In [5]:
# поиск вакансий с заданным минимум зарплаты
def vacs_with_salary_bigger_than(collection, salary_val):
    return collection.find({'$or': [{'min_salary': {'$gte': salary_val},'currency':'руб.'},
                              {'$and': [{'min_salary': {'$eq': None}},
                                        {'max_salary': {'$gte': salary_val}},
                                        {'currency':'руб.'}]}]})

In [6]:
salary = float(input('Enter min. salary, rub: '))
result = vacs_with_salary_bigger_than(vacs, salary)

Enter min. salary, rub: 300000


In [7]:
for r in result:
    pprint(r)

{'_id': '17592752849445628710',
 'currency': 'руб.',
 'employer': 'ООО Знаменка Капитал',
 'max_salary': 350000.0,
 'min_salary': 300000.0,
 'source': 'https://www.hh.ru',
 'url': 'https://spb.hh.ru/vacancy/39103361?query=sql',
 'vacancy': 'Team Lead (#C++, #Linux, #HPC)'}


<i><b>Примечание на будущее:</b> Можно усовершенствовать, сделав выбор валюты для запроса и/или пересчитывать из валюты по актуальному курсу в рубли</i>

### 3. Написать функцию, которая будет добавлять в вашу базу данных только новые вакансии с сайта.

In [8]:
def check_vac(_id):
    return vacs.find_one({'_id':_id}) is None

In [9]:
check_vac('1222032108778951480') is True

False

In [10]:
check_vac('1108778951480')is True

True

In [11]:
client.close()