<center> <img src = https://raw.githubusercontent.com/AndreyRysistov/DatasetsForPandas/main/hh%20label.jpg alt="drawing" style="width:400px;">

# <center> Project: HeadHunter Job Openings Analysis
   

In [140]:
from bs4 import BeautifulSoup
import pandas as pd
import psycopg2
import requests
import settings

import warnings
warnings.simplefilter(action='ignore', category=UserWarning)


In [141]:
# The database connection settings are stored in the file settings.py. 
# This file has been excluded from commits via an entry in .gitignore.

In [142]:
connection = psycopg2.connect(
    dbname=settings.DBNAME,
    user=settings.USER,
    host=settings.HOST,
    password=settings.PASSWORD,
    port=settings.PORT
)

# Unit 3. Preliminary data analysis

1. Write a query to count the number of job openings in the database (job openings are located in the table 'vacancies').

In [143]:
query_3_1 = f'''
    SELECT COUNT(*)
    FROM public.vacancies
'''

In [144]:
df = pd.read_sql_query(query_3_1, connection)
display('Number of job openings:')
df

'Number of job openings:'

Unnamed: 0,count
0,49197


2. Write a query to count the number of employers (table 'employers').

In [145]:
query_3_2 = f'''
    SELECT COUNT(*)
    FROM public.employers
'''

In [146]:
df = pd.read_sql_query(query_3_2, connection)
display('Number of employers:')
df

'Number of employers:'

Unnamed: 0,count
0,23501


3. Write a query to count the number of areas (table 'area').

In [147]:
query_3_3 = f'''
    SELECT COUNT(*)
    FROM public.areas
'''

In [148]:
df = pd.read_sql_query(query_3_3, connection)
display('Number of areas:')
df

'Number of areas:'

Unnamed: 0,count
0,1362


4. Write a query to count the number of industries in the database (table 'industries').

In [149]:
query_3_4 = f'''
    SELECT COUNT(*)
    FROM public.industries
'''

In [150]:
df = pd.read_sql_query(query_3_4, connection)
display('Number of industries:')
df

'Number of industries:'

Unnamed: 0,count
0,294


***

## Results of preliminary data analysis
* The number of job openings is around the double number of employers which results on average in around two job openings per employer.
* The number of areas is very high and should cover a broad geography. This could be a topic for more detailed analysis.
* The number of industries is also very high which should cover the job market to a large extent.

# Unit 4. Detalied job openings analisys

1. Write a query to calculate the number of job openings (column 'cnt') in each area (column 'area').
Order by the number of job openings descending.

In [151]:
query_4_1 = f'''
    SELECT 
        a.name AS area, 
        COUNT(*) AS cnt
    FROM
        public.vacancies AS v
        JOIN public.areas AS a ON v.area_id = a.id
    GROUP BY
        a.id
    ORDER BY
        cnt DESC
'''

In [152]:
df = pd.read_sql_query(query_4_1, connection)
display('Number of job openings per area:')
df

'Number of job openings per area:'

Unnamed: 0,area,cnt
0,Москва,5333
1,Санкт-Петербург,2851
2,Минск,2112
3,Новосибирск,2006
4,Алматы,1892
...,...,...
764,Кизляр,1
765,Джизак,1
766,Эртиль,1
767,Арсеньев,1


2. Write a query to determine the number of job openings having a value in at least one of the two salary fields.

In [153]:
query_4_2 = f'''
    SELECT 
        COUNT(*) AS cnt
    FROM
        public.vacancies
    WHERE
        salary_from IS NOT NULL
        OR salary_to IS NOT NULL
'''

In [154]:
df = pd.read_sql_query(query_4_2, connection)
display('Number of job openings which have salary information:')
df

'Number of job openings which have salary information:'

Unnamed: 0,cnt
0,24073


3. Find the mean values for the lower and upper salary boundaries. Round the values to a whole number.

In [155]:
query_4_3 = f'''
    SELECT
        ROUND(AVG(salary_from)) AS avg_salary_from,
        ROUND(AVG(salary_to)) AS avg_salary_to
    FROM
        public.vacancies
'''

In [156]:
df = pd.read_sql_query(query_4_3, connection)
display('Mean values of salary boundaries:')
df

'Mean values of salary boundaries:'

Unnamed: 0,avg_salary_from,avg_salary_to
0,71065.0,110537.0


4. Write a query to count the number of job openings (column 'cnt') for each combination of work schedule (column 'schedule') and employment type (column 'employment'). Order the results by the number of job openings descending.


In [157]:
query_4_4 = f'''
    SELECT
        schedule,
        employment,
        COUNT(*) AS cnt
    FROM
        public.vacancies
    GROUP BY
        schedule,
        employment
    ORDER BY
        cnt DESC
'''

In [158]:
df = pd.read_sql_query(query_4_4, connection)
display('Number of job openings by work schedule and employment type:')
df

'Number of job openings by work schedule and employment type:'

Unnamed: 0,schedule,employment,cnt
0,Полный день,Полная занятость,35367
1,Удаленная работа,Полная занятость,7802
2,Гибкий график,Полная занятость,1593
3,Удаленная работа,Частичная занятость,1312
4,Сменный график,Полная занятость,940
5,Полный день,Стажировка,569
6,Вахтовый метод,Полная занятость,367
7,Полный день,Частичная занятость,347
8,Гибкий график,Частичная занятость,312
9,Полный день,Проектная работа,141


5. Write a query to get the number of job openings (column 'cnt') having a specific required experience (column 'experience'). Order by number of job openings.

In [159]:
query_4_5 = f'''
    SELECT
        experience,
        COUNT(*) AS cnt
    FROM
        public.vacancies
    GROUP BY
        experience
    ORDER BY
        cnt
'''

In [160]:
df = pd.read_sql_query(query_4_5, connection)
display('Number of job openings by work experience:')
df

'Number of job openings by work experience:'

Unnamed: 0,experience,cnt
0,Более 6 лет,1337
1,Нет опыта,7197
2,От 3 до 6 лет,14511
3,От 1 года до 3 лет,26152


***

## Results of detalied job openings analisys
* Top 5 areas of job openings total to around 30 % of all job openings.
* Job openings are not only from Russia, but at least such countries as Belarus and Kazakhstan are represented.
* Salary information is available for around 50 % of the job openings. Based on the theory which we learned about data cleaning, these two columns ('salary_from' and 'salary_to') should be analyzed more precisely and if they have more than 30-40 % of empty cells, they should not be considered for the further analysis.
* The mean salary boundaries are 71065 and 110537, which means it is a difference of around 50 %. This seems plausible.
* The work schedule and employment type distribution show that the observed job market is mostly a classical one with full time jobs on-site (around 70 % of all job openings). 15 % of full time home office jobs are probably a consequence of the pandemics.
* Most of the job openings (> 50%) are for candidates with 1-3 years of experience. To me it is a sign of a labor shortage on the job market, the companies are ready to take less experienced candidates.

# Unit 5. Employer analysis

1. Write a query to find out which employers are on rank 1 and 5 by number of job openings.

In [161]:
query_5_1 = f'''
    SELECT
        e.name,
        COUNT(*) AS cnt
    FROM
        public.employers AS e
        JOIN public.vacancies AS v ON e.id = v.employer_id
    GROUP BY
        e.id
    ORDER BY
        cnt DESC
'''

In [162]:
df = pd.read_sql_query(query_5_1, connection)
display('Number of job openings by employer:')
df

'Number of job openings by employer:'

Unnamed: 0,name,cnt
0,Яндекс,1933
1,Ростелеком,491
2,Тинькофф,444
3,СБЕР,428
4,Газпром нефть,331
...,...,...
14901,Евсеев Сергей Владимирович,1
14902,Кадровые технологии,1
14903,ЛОМБАРД 24,1
14904,Авто-Компонент ТД,1


2. Write a query to determine the number of employers and job openings for each area. From the areas which don't have job openings find the one having the most employers.

In [163]:
query_5_2 = f'''
    SELECT
        a.name,
        COUNT(DISTINCT e.id) AS cnt_employers
    FROM
        areas AS a
        JOIN public.employers AS e ON a.id = e.area
        LEFT JOIN public.vacancies AS v ON a.id = v.area_id
    WHERE
        v.id IS NULL
    GROUP BY
        a.id
    ORDER BY
        cnt_employers DESC
'''

In [164]:
df = pd.read_sql_query(query_5_2, connection)
display('Number of employers in regions which don''t have job openings:')
df

'Number of employers in regions which dont have job openings:'

Unnamed: 0,name,cnt_employers
0,Россия,410
1,Казахстан,207
2,Московская область,75
3,Краснодарский край,19
4,Беларусь,18
...,...,...
181,Витебская область,1
182,Ивацевичи,1
183,Дубровно,1
184,Буда-Кошелево,1


3. For each employer count the number of areas in which this employer publishes the job openings. Order the results by the number of areas  descending.


In [165]:
query_5_3 = f'''
    SELECT
        e.name,
        COUNT(DISTINCT v.area_id) AS cnt
    FROM
        public.vacancies AS v
        JOIN public.employers AS e ON v.employer_id = e.id
    GROUP BY
        e.id
    ORDER BY
        cnt DESC
'''

In [166]:
df = pd.read_sql_query(query_5_3, connection)
display('Number of areas per employer:')
df

'Number of areas per employer:'

Unnamed: 0,name,cnt
0,Яндекс,181
1,Ростелеком,152
2,Спецремонт,116
3,Поляков Денис Иванович,88
4,ООО ЕФИН,71
...,...,...
14901,НПП Авиатрон,1
14902,Центр дистанционных торгов,1
14903,Городские Телекоммуникационные Системы,1
14904,"Введенский, Отель",1


4. Write a query to count the number of employers for which the industry is not specified.

In [167]:
query_5_4 = f'''
    SELECT
        COUNT(*) AS cnt
    FROM
        public.employers AS e
        LEFT JOIN public.employers_industries AS ei ON e.id = ei.employer_id
    WHERE
        ei.industry_id IS NULL
'''

In [168]:
df = pd.read_sql_query(query_5_4, connection)
display('Number of employers without industries:')
df

'Number of employers without industries:'

Unnamed: 0,cnt
0,8419


5. Write a query to get the employer company name ranked third in the list of the employers which are active in four industries, ordered by name.

In [169]:
query_5_5 = f'''
    SELECT
        e.name
    FROM
        public.employers AS e
        JOIN public.employers_industries AS ei ON e.id = ei.employer_id
    GROUP BY
        e.id
    HAVING
        COUNT(ei.industry_id) = 4
    ORDER BY
        e.name
'''

In [170]:
df = pd.read_sql_query(query_5_5, connection)
display('Employers active in four industries:')
df

'Employers active in four industries:'

Unnamed: 0,name
0,101 Интернет
1,21vek.by
2,2ГИС
3,2К
4,4 пикселя +
...,...
1133,ЮРИОН
1134,ЮТИП Технологии
1135,ЯКласс
1136,ЯрНео


6. Write a query to determine the number of employers which are active in the software development industry.

In [171]:
query_5_6 = f'''
    SELECT
        COUNT(DISTINCT e.id) AS cnt
    FROM
        public.employers AS e
        JOIN public.employers_industries AS ei ON e.id = ei.employer_id
        JOIN public.industries AS i ON ei.industry_id = i.id
    WHERE
        i.name = 'Разработка программного обеспечения'
'''

In [172]:
df = pd.read_sql_query(query_5_6, connection)
display('Number of employers which are active in software development:')
df

'Number of employers which are active in software development:'

Unnamed: 0,cnt
0,3553


7. For the company "Yandex" determine the list of million-areas, in which there are job openings of the company. Also get the number of job openings in each of these areas. Add a row with the total number of company's job openings. Order the results by number.

The list of the million-cities can be taken from [here](https://ru.wikipedia.org/wiki/%D0%93%D0%BE%D1%80%D0%BE%D0%B4%D0%B0-%D0%BC%D0%B8%D0%BB%D0%BB%D0%B8%D0%BE%D0%BD%D0%B5%D1%80%D1%8B_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8). 


Для компании «Яндекс» выведите список регионов-миллионников, в которых представлены вакансии компании, вместе с количеством вакансий в этих регионах. Также добавьте строку Total с общим количеством вакансий компании. Результат отсортируйте по возрастанию количества.

Список городов-милионников надо взять [отсюда](https://ru.wikipedia.org/wiki/%D0%93%D0%BE%D1%80%D0%BE%D0%B4%D0%B0-%D0%BC%D0%B8%D0%BB%D0%BB%D0%B8%D0%BE%D0%BD%D0%B5%D1%80%D1%8B_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8). 

Если возникнут трудности с этим задание посмотрите материалы модуля  PYTHON-17. Как получать данные из веб-источников и API. 

In [190]:
million_areas = []

url = 'https://ru.wikipedia.org/wiki/%D0%93%D0%BE%D1%80%D0%BE%D0%B4%D0%B0-%D0%BC%D0%B8%D0%BB%D0%BB%D0%B8%D0%BE%D0%BD%D0%B5%D1%80%D1%8B_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8'

response = requests.get(url)
page = BeautifulSoup(response.text, 'html.parser')
for tr in page.find_all('tbody')[1].find_all('tr')[1:]:
    million_areas.append(tr.find('a').text)

million_areas

['Москва',
 'Санкт-Петербург',
 'Новосибирск',
 'Екатеринбург',
 'Казань',
 'Нижний Новгород',
 'Красноярск',
 'Челябинск',
 'Самара',
 'Уфа',
 'Ростов-на-Дону',
 'Краснодар',
 'Омск',
 'Воронеж',
 'Пермь',
 'Волгоград']

In [None]:
# текст запроса

In [None]:
# результат запроса

***

In [None]:
* The assumption above that there are on average 2 job openings per employer turned out to be wrong.

In [None]:
# выводы по анализу работодателей

# Юнит 6. Предметный анализ

1. Сколько вакансий имеет отношение к данным?

Считаем, что вакансия имеет отношение к данным, если в её названии содержатся слова 'data' или 'данн'.

*Подсказка: Обратите внимание, что названия вакансий могут быть написаны в любом регистре.* 


In [None]:
# текст запроса

In [None]:
# результат запроса

2. Сколько есть подходящих вакансий для начинающего дата-сайентиста? 
Будем считать вакансиями для дата-сайентистов такие, в названии которых есть хотя бы одно из следующих сочетаний:
* 'data scientist'
* 'data science'
* 'исследователь данных'
* 'ML' (здесь не нужно брать вакансии по HTML)
* 'machine learning'
* 'машинн%обучен%'

** В следующих заданиях мы продолжим работать с вакансиями по этому условию.*

Считаем вакансиями для специалистов уровня Junior следующие:
* в названии есть слово 'junior' *или*
* требуемый опыт — Нет опыта *или*
* тип трудоустройства — Стажировка.
 

In [None]:
# текст запроса

In [None]:
# результат запроса

3. Сколько есть вакансий для DS, в которых в качестве ключевого навыка указан SQL или postgres?

** Критерии для отнесения вакансии к DS указаны в предыдущем задании.*

In [None]:
# текст запроса

In [None]:
# результат запроса

4. Проверьте, насколько популярен Python в требованиях работодателей к DS.Для этого вычислите количество вакансий, в которых в качестве ключевого навыка указан Python.

** Это можно сделать помощью запроса, аналогичного предыдущему.*

In [None]:
# текст запроса

In [None]:
# результат запроса

5. Сколько ключевых навыков в среднем указывают в вакансиях для DS?
Ответ округлите до двух знаков после точки-разделителя.

In [None]:
# текст запроса

In [None]:
# результат запроса

6. Напишите запрос, позволяющий вычислить, какую зарплату для DS в **среднем** указывают для каждого типа требуемого опыта (уникальное значение из поля *experience*). 

При решении задачи примите во внимание следующее:
1. Рассматриваем только вакансии, у которых заполнено хотя бы одно из двух полей с зарплатой.
2. Если заполнены оба поля с зарплатой, то считаем зарплату по каждой вакансии как сумму двух полей, делённую на 2. Если заполнено только одно из полей, то его и считаем зарплатой по вакансии.
3. Если в расчётах участвует null, в результате он тоже даст null (посмотрите, что возвращает запрос select 1 + null). Чтобы избежать этой ситуацию, мы воспользуемся функцией [coalesce](https://postgrespro.ru/docs/postgresql/9.5/functions-conditional#functions-coalesce-nvl-ifnull), которая заменит null на значение, которое мы передадим. Например, посмотрите, что возвращает запрос `select 1 + coalesce(null, 0)`

Выясните, на какую зарплату в среднем может рассчитывать дата-сайентист с опытом работы от 3 до 6 лет. Результат округлите до целого числа. 

In [None]:
# текст запроса

In [None]:
# результат запроса

***

In [None]:
# выводы по предметному анализу

# Общий вывод по проекту

In [None]:
# подведем итог исследования, обобщите выводы
# здесь можно (это будет плюсом) провести дополнительные исследования данных, сделать прогнозы, продумать варианты продолжения исследования

In [4]:
connection.close()