In [1]:
import psycopg2
import pandas as pd
# from sqlalchemy import create_engine
# from sqlalchemy.orm import Session

''' Для подавления сообщений об ошибках при обработке pandas ответов psycopg2'''
import warnings
warnings.filterwarnings('ignore')

In [2]:
''' Аттрибуты подключения содержатся в отдельном файле для безопасности.
    Импортируются в словарь, который далее используется при подключении
    и запросах к базе.
'''
import creds as c_

CONN_ATTR = {
    'user': c_.USER,
    'password': c_.PASSWORD,
    'host': c_.HOST,
    'port': c_.PORT,
    'dbname': c_.DBNAME
    }

def make_request(query_: str) -> object:
    ''' Делает запросы к БД с определёнными аттрибутами
    Arguments:
        query_ [str] -- Строка SQL-запроса (можно многострочник)
    Returns:
        [object] -- Ответ на запрос
    '''
    with psycopg2.connect(**CONN_ATTR) as conn:
        return pd.read_sql_query(query_, conn)

In [3]:
CONN_STR = f'postgresql+psycopg2:///{c_.USER}:{c_.PASSWORD}@{c_.HOST}:{c_.PORT}/{c_.DBNAME}'

def make_request_sa1(query_):
    with create_engine('postgresql+psycopg2://skillfactory:cCkxxLVrDE8EbvjueeMedPKt@84.201.134.129:5432/project_sql') as conn:
        return pd.read_sql_query(query_, conn)

def make_request_sa2(query_):
    ENGINE = create_engine(CONN_STR)
    with ENGINE.connect() as conn:
        output_ = pd.read_sql_query(query_, conn.execute(text(query_)))
        # conn.close()
        return output_
def make_request_sa3(query_):
    conn = create_engine('postgresql+psycopg2://skillfactory:cCkxxLVrDE8EbvjueeMedPKt@84.201.134.129:5432/project_sql')
    output_ = pd.read_sql_query(query_, conn)
    # conn.close_all()
    return output_


### Задание 3.1 ###

Сколько вакансий есть в базе?

***Ответ - 49197***

In [4]:
query_3_1 = f'''
SELECT COUNT(*)
FROM public.vacancies
'''
display(make_request(query_3_1))

Unnamed: 0,count
0,49197


### Задание 3.2 ###

Сколько работодателей?

***Ответ - 23501***

In [5]:
query_3_2 = f'''
SELECT COUNT(*)
FROM public.employers
'''
display(make_request(query_3_2))

Unnamed: 0,count
0,23501


### Задание 3.3 ###

Сколько регионов?

***Ответ - 1362***

In [6]:
query_3_2 = f'''
SELECT COUNT(*)
FROM public.areas
'''
display(make_request(query_3_2))

Unnamed: 0,count
0,1362


### Задание 3.3 ###

Сколько сфер деятельности?

***Ответ - 294***

In [7]:
query_3_4 = f'''
SELECT COUNT(*)
FROM public.industries
'''
display(make_request(query_3_4))

Unnamed: 0,count
0,294


### Задание 4.1 ###

Написать запрос, который позволит узнать, сколько (`cnt`) вакансий в каждом регионе (`area`).
Выбрать пятёрку лидеров по количеству вакансий:

***Ответ - Москва, Санкт-Петербург, Минск, Новосибирск, Алматы***

In [8]:
query_4_1 = f'''
SELECT
    a.name AS area,
    COUNT(*) AS cnt
FROM public.vacancies AS v
JOIN public.areas AS a ON
    v.area_id = a.id
GROUP BY a.id
ORDER BY cnt DESC
LIMIT 10
'''
display(make_request(query_4_1))

Unnamed: 0,area,cnt
0,Москва,5333
1,Санкт-Петербург,2851
2,Минск,2112
3,Новосибирск,2006
4,Алматы,1892
5,Екатеринбург,1698
6,Нижний Новгород,1670
7,Казань,1415
8,Краснодар,1301
9,Самара,1144


### Задание 4.2 ###

У какого количества вакансий заполнено хотя бы одно из двух полей с зарплатой?

***Ответ - 24073***

In [9]:
query_4_2 = f'''
SELECT
    COUNT(*)
FROM public.vacancies
WHERE
    salary_from IS NOT NULL
    OR
    salary_to IS NOT NULL
'''
display(make_request(query_4_2))

Unnamed: 0,count
0,24073


### Задание 4.3 ###

Найти средние значения для нижней и верхней границы зарплатной вилки. Округлить значения до целого числа.

***Ответ - 71065, 110537***

In [10]:
query_4_3 = f'''
SELECT
    AVG(salary_from)::integer AS avg_min,
    AVG(salary_to)::integer AS avg_max
FROM public.vacancies
'''
display(make_request(query_4_3))

Unnamed: 0,avg_min,avg_max
0,71065,110537


### Задание 4.4 ###

Написать запрос, который выведет количество вакансий для каждого сочетания типа рабочего графика (`schedule`) и типа трудоустройства (`employment`), используемого в вакансиях. Какая пара находится на втором месте по популярности?

***Ответ - Удалённая работа + Полная занятость***

In [11]:
query_4_4 = f'''
SELECT
    schedule,
    employment,
    COUNT(*) AS cnt
FROM public.vacancies
GROUP BY schedule, employment
ORDER BY cnt DESC
OFFSET 1
LIMIT 1
'''
display(make_request(query_4_4))

Unnamed: 0,schedule,employment,cnt
0,Удаленная работа,Полная занятость,7802


### Задание 4.5 ###

Написать запрос, выводящий значения поля **Требуемый опыт работы** (`experience`) в порядке возрастания количества вакансий, в которых указан данный вариант опыта.

***Ответ - Более 6 лет / Нет опыта / От 3 до 6 лет / От 1 года до 3 лет***

In [12]:
query_4_5 = f'''
SELECT
    experience AS "Требуемый опыт работы"
FROM public.vacancies
GROUP BY experience
ORDER BY COUNT(*)
'''
display(make_request(query_4_5))

Unnamed: 0,Требуемый опыт работы
0,Более 6 лет
1,Нет опыта
2,От 3 до 6 лет
3,От 1 года до 3 лет


### Задание 5.1 ###

Написать запрос, который позволит узнать, какие работодатели находятся на первом и пятом месте по количеству вакансий.

***Ответ - Яндекс / Газпром нефть***

In [13]:
query_5_1 = f'''
SELECT
    e.name
FROM public.vacancies AS v
JOIN public.employers AS e ON
    v.employer_id = e.id
GROUP BY e.name
ORDER BY COUNT(*) DESC
LIMIT 5
'''
display(make_request(query_5_1))

Unnamed: 0,name
0,Яндекс
1,Ростелеком
2,Тинькофф
3,СБЕР
4,Газпром нефть


### Задание 5.2 ###

Написать запрос, который для каждого региона выведет количество работодателей и вакансий в нём.

Среди регионов, в которых нет вакансий, найти тот, в котором наибольшее количество работодателей. Вписать его название в поле ниже в том виде, который вернул запрос.

***Ответ - Россия***

In [15]:
query_5_2 = f'''
SELECT
    a.name,
    COUNT(DISTINCT e.id) AS employers_cnt,
    COUNT(DISTINCT v.id) AS vacancies_cnt
FROM public.areas AS a
LEFT JOIN public.employers AS e ON
    a.id = e.area
LEFT JOIN public.vacancies AS v ON
    a.id = v.area_id
GROUP BY a.id
ORDER BY vacancies_cnt, employers_cnt DESC
LIMIT 1
'''
display(make_request(query_5_2))

Unnamed: 0,name,employers_cnt,vacancies_cnt
0,Россия,410,0


### Задание 5.3 ###

Для каждого работодателя посчитать количество регионов, в которых он публикует свои вакансии.

Выбрать максимальное значение из получившегося списка.

***Ответ - 181***

In [17]:
query_5_3 = f'''
SELECT
    e.name,
    COUNT(DISTINCT v.area_id) AS a_cnt
FROM public.employers AS e
LEFT JOIN public.vacancies AS v ON
    e.id = v.employer_id
GROUP BY e.id
ORDER BY a_cnt DESC
LIMIT 1
'''
display(make_request(query_5_3))

Unnamed: 0,name,a_cnt
0,Яндекс,181


### Задание 5.4 ###

Написать запрос для подсчёта количества работодателей, у которых не указана сфера деятельности.

***Ответ - ***

###  Задание 5.5 ###

Написать запрос, чтобы узнать название компании, находящейся на третьем месте в алфавитном списке (по названию) компаний, у которых указано четыре сферы деятельности.

***Ответ -***

###  Задание 5.6 ###

С помощью запроса выяснить, у какого количества работодателей в качестве сферы деятельности указана «Разработка программного обеспечения».

***Ответ -***

###  Задание 5.7 ###

Для компании «Яндекс» вывести список регионов-миллионников, в которых представлены вакансии компании, вместе с количеством вакансий в этих регионах. Также добавить строку **Total** с общим количеством вакансий компании. Должна получиться выборка такого вида (приведён пример результата для компании **SberTech**):

***Ответ -***

----

# Дополнительные исследования #