# Введение в методы сбора и обработки данных
## Добашнее задание к третьему уроку "Парсинг HTML"

### Задача 1
Необходимо собрать информацию о вакансиях на должность программиста или разработчика с сайта job.ru или hh.ru. (Можно с обоих сразу) Приложение должно анализировать несколько страниц сайта. Получившийся список должен содержать в себе:

* Наименование вакансии, 
* Предлагаемую зарплату 
* Ссылку на саму вакансию

#### Решение

_job.ru полностью переехал на hh.ru, так что есть использовать только API hh.ru_

In [14]:
import requests
import pandas as pd
from pprint import pprint

Задаем параметры запроса и получам json

In [58]:
hh_api_link = 'https://api.hh.ru/vacancies'
params = {
    'only_with_salary': 'true',
    'currency': "RUR",
    'text': '"программист" OR "разработчик"',
    "search_field": "name"
}

vacancies_raw_json = requests.get(hh_api_link, params).json()

Парсим json и кладем данные в Dataframe

In [59]:
def get_df_from_json(raw_json):
    """Возвращает датафрейм из json"""
    
    # Интересующие нас поля: название вакансии, вилка зарплаты, ссылка на вакансию
    columns=('name', 'salary_from', 'salary_to', 'link')

    df = pd.DataFrame(columns=columns)

    for i in raw_json['items']:

        name = i['name']
        salary_from = i['salary']['from']
        salary_to = i['salary']['to']
        link = i['alternate_url']

        df.loc[int(i['id'])] = (name, salary_from, salary_to, link)
        
    return df
    

In [60]:
get_df_from_json(vacancies_raw_json)

Unnamed: 0,name,salary_from,salary_to,link
32021452,Программист,45000.0,90000.0,https://hh.ru/vacancy/32021452
32734182,Программист,45000.0,,https://hh.ru/vacancy/32734182
30636304,Программист,30000.0,,https://hh.ru/vacancy/30636304
32834651,Программист,30000.0,,https://hh.ru/vacancy/32834651
32249696,Программист,60000.0,,https://hh.ru/vacancy/32249696
23371942,Программист-разработчик С#,50000.0,120000.0,https://hh.ru/vacancy/23371942
32419907,Программист,100000.0,,https://hh.ru/vacancy/32419907
31896346,Программист-разработчик Vue.js/NativeScript,30000.0,120000.0,https://hh.ru/vacancy/31896346
32404386,Web-программист,,150000.0,https://hh.ru/vacancy/32404386
30805903,Программист C#,40000.0,80000.0,https://hh.ru/vacancy/30805903


### Задача 2
Доработать приложение таким образом, чтобы можно было искать разработчиков на разные языки программирования (Например Python, Java, C++)

In [63]:
lang = input('Какой язык разработки вас интересует?: ')

params_with_lang = {
    'only_with_salary': 'true',
    'currency': "RUR",
    'text': f'"программист" OR "разработчик" AND "{lang}"',
    "search_field": "name"
}

vacancies_raw_json = requests.get(hh_api_link, params_with_lang).json()
get_df_from_json(vacancies_raw_json)

Какой язык разработки вас интересует?: C++


Unnamed: 0,name,salary_from,salary_to,link
29850427,Программист С++,40000.0,80000.0,https://hh.ru/vacancy/29850427
32137630,C++ разработчик,50000.0,100000.0,https://hh.ru/vacancy/32137630
32370784,Программист С++ (Middle),80000.0,100000.0,https://hh.ru/vacancy/32370784
18293368,Программист С++(Linux),50000.0,120000.0,https://hh.ru/vacancy/18293368
32632447,Программист С++,120000.0,,https://hh.ru/vacancy/32632447
32834243,Программист С++,100000.0,170000.0,https://hh.ru/vacancy/32834243
32629898,Программист C++,80000.0,,https://hh.ru/vacancy/32629898
32358451,Программист С++ (обработка изображений),140000.0,,https://hh.ru/vacancy/32358451
32801793,Разработчик С++,,80000.0,https://hh.ru/vacancy/32801793
32799832,Программист С++,120000.0,,https://hh.ru/vacancy/32799832
