# PROJECT-2

###  Содержание <a class="anchor" id=0></a>
- [1. Введение. Знакомство с датасетом](#1)
- [2. Предварительный анализ данных](#2)
- [3. Глобальный анализ показателей](#3)
- [4. Анализ кандидатов для заказчиков](#4)
- [5. Подготовка к аттестации по SQL](#5)

##  Введение. Знакомство с датасетом <a class="anchor" id=1></a>

[к содержанию](#0)

Большинство крупных компаний хранят данные в реляционных базах, так как в таком виде они более структурированы и адаптированы для внешних систем, с помощью которых, как правило, данные в базу и заносятся. В системах с такими базами данных имеют значение именно отношения между сущностями. Если вам понадобилось, например, посчитать статистику по заказам, то здесь важны отношения: заказ, клиент, товар и т. д.

>Мы переделали уже знакомый вам по предыдущему проекту датасет *hh.ru* в реляционный, чтобы вы могли попрактиковаться и в этой области.

Представьте, что вы работаете в некотором дата-центре по трудоустройству, куда стекаются данные с различных платформ для найма. Вам необходимо познакомиться с данными, понять, с какими резюме вы имеете дело, а дальше собрать статистику для различных кадровых агентств и статистических центров.

>Вы получите данные по возрасту кандидатов, по городам с наиболее активным рынком труда, поймёте специфику найма (где какие вакансии более активны), а также узнаете желаемые позиции для тех или иных кандидатов.

### Проект включает в себя несколько этапов:

1. знакомство с датасетом;
2. предварительный анализ данных;
3. анализ кандидатов;
4. глобальный анализ показателей.

###  В качестве итогового задания проекта вы подготовите текстовый **Google-документ**, в котором по каждой встречающейся вам в этом модуле задаче приведёте ваш ответ в формате:

1. номер задания;
2. код с пояснениями;
3. результат запроса (в виде таблицы);
4. общий вывод в конце по результатам анализа рынка труда.

### ЗНАКОМСТВО С ДАТАСЕТОМ

Напоминаем, что датасет, с которым мы будем работать, уже вам знаком. Мы взяли те же данные *HeadHunter*, только разбили их по таблицам и перенесли в [БД SQL](http://sql.skillfactory.ru:3000/browse/2/schema/hh). Такой процесс называется **нормализацией** (вы можете почитать про неё дополнительно, если вам понадобятся знания по проектированию баз данных).

<img src=p_2_img1.png>

**CANDIDATE**

Таблица хранит в себе общие данные по кандидатам: id, пол, возраст, желаемая должность, город, вид занятости, текущая должность, дата обновления записи и зарплата.

**CITY**

city — таблица-справочник для наших кандидатов — хранит код города и его название.

**CANDIDATE_TIMETABLE_TYPE**

Это дополнительная таблица. Она существует для организации связи многие-ко-многим, так как у нас есть много кандидатов и у них может быть несколько подходящих типов рабочего графика.

**TIMETABLE_TYPE**

Это таблица-справочник вариантов рабочего графика, подходящего кандидату.

##  2. Предварительный анализ данных <a class="anchor" id=2></a>

[к содержанию](#0)

`Задание 2.1 -2.2`

Максимальный и минимальный возраст кандидатов

In [None]:
select
    max(age),
    min(age)
from
    hh.candidate

<img src=p_2_img3.png>

**Вывод:**
1. Минимальный возраст соискателя составляет 14 лет
2. Максимальный 100 лет, что похоже на выброс

`Задание 2.3`

Попробуем «почистить» данные. Напишите запрос, который позволит посчитать для каждого возраста (`age`) сколько (`cnt`) человек этого возраста у нас есть.
Отсортируйте результат по возрасту в обратном порядке.

In [None]:
select
    age,
    count(*) cnt /* посчитаем количество строк для каждого возраста */
from
    hh.candidate
group by 1 /* группируем вывод по возрастам */ 
order by 1 desc 

<img src=p_2_img4.png>

**Вывод:**
1. 100 летний соискатель **является выбросом** (ошибкой в данных, в дальнейшем мы не будем учитывать его при анализе)
2. Начиная с 77 лет и моложе прослеживается не единичность таких значений **принимаем их за реальные**

`Задание 2.4`

По данным Росстата, средний возраст занятых в экономике России составляет 39.7 лет. Мы округлим это значение до 40. Найдите количество кандидатов, которые старше данного возраста. Не забудьте отфильтровать «ошибочный» возраст 100.

In [None]:
select
    count(age)
from
    hh.candidate
where
    age > 40
and age != 100 /* не учитываем "выброс" в подсчётах */

<img src=p_2_img5.png>

**Вывод:**
1. Количество кандидатов старше 40 лет 6263 (что составляет 14% от всех соискателей)
2. Если верить Росстату можно сделать вывод, что "быть занятым в экономике" и поиск работы это сильно разные вещи. Ищут работу, хотят начать или сменить работу в основном молодые люди, с увеличение возраста число соискателей падает.
3. Медианный возраст соискателей составляет окола 30 лет

##  3. Глобальный анализ показателей <a class="anchor" id=2></a>

[к содержанию](#0)

`Задание 3.1`

Для начала напишите запрос, который позволит узнать, сколько (`cnt`) у нас кандидатов из каждого города (`city`).
Формат выборки: `city`, `cnt`.
Группировку таблицы необходимо провести по столбцу `title`, результат отсортируйте по количеству в обратном порядке.

In [None]:
select
    c.title city,
    count(c.title) cnt 
from
    hh.city c 
join
    hh.candidate cnd on cnd.city_id = c.id
group by 1 
order by 2 desc

<img src=p_2_img6.png>

`Задание 3.2`

Москва бросается в глаза как, пожалуй, самый активный рынок труда. Напишите запрос, который позволит понять, каких кандидатов из Москвы устроит «проектная работа».
Формат выборки: `gender`, `age`, `desirable_occupation`, `city`, `employment_type`.
Отсортируйте результат по `id` кандидата.

In [None]:
select
    cnd.gender,
    cnd.age,
    cnd.desirable_occupation,
    c.title,
    cnd.employment_type
from
    hh.candidate cnd 
join hh.city c on cnd.city_id = c.id 
where cnd.employment_type like '%проектная работа%'
and c.title = 'Москва'
order by cnd.id

`Задание 3.3`

Данных оказалось многовато. Отфильтруйте только самые популярные IT-профессии — `разработчик`, `аналитик`, `программист`.
Обратите внимание, что данные названия могут быть написаны как с большой, так и с маленькой буквы.
Отсортируйте результат по `id` кандидата.

In [None]:
select
    cnd.gender,
    cnd.age,
    cnd.desirable_occupation,
    c.title,
    cnd.employment_type
from
    hh.candidate cnd 
join hh.city c on cnd.city_id = c.id 
where cnd.employment_type like '%проектная работа%'
and c.title = 'Москва'
and (cnd.desirable_occupation  ilike '%разработчик%'
or cnd.desirable_occupation ilike '%аналитик%'
or cnd.desirable_occupation ilike '%программист%')
order by cnd.id

`Задание 3.4`

Для общей информации попробуйте выбрать номера и города кандидатов, у которых занимаемая должность совпадает с желаемой.
Формат выборки: `id`, `city`.
Отсортируйте результат по городу и `id` кандидата.

In [None]:
select
    cnd.id,
    c.title city
from
    hh.candidate cnd 
join hh.city c on cnd.city_id = c.id
where
    cnd.desirable_occupation = cnd.current_occupation
order by 2, 1

`Задание 3.5`

Определите количество кандидатов пенсионного возраста.
Пенсионный возраст для мужчин наступает в 65 лет, для женщин — в 60 лет.

In [None]:
select
    count(age)
from hh.candidate
where
age != 100
and 
    (gender = 'M' and age >= 65)
or
    (gender = 'F' and age >= 60)
--75

##  3. Анализ кандидатов для заказчиков <a class="anchor" id=2></a>

[к содержанию](#0)

`Задание 4.1`

Для добывающей компании нам необходимо подобрать кандидатов из Новосибирска, Омска, Томска и Тюмени, которые готовы работать вахтовым методом.
Формат выборки: `gender`, `age`, `desirable_occupation`, `city`, `employment_type`, `timetable_type`.
Отсортируйте результат по городу и номеру кандидата.

In [None]:
select
    cnd.gender,
    cnd.age,
    cnd.desirable_occupation,
    c.title city,
    cnd.employment_type,
    tt.title timetable_type
from
    hh.candidate cnd
join hh.city c on cnd.city_id = c.id
join hh.candidate_timetable_type ctt on cnd.id = ctt.candidate_id
join hh.timetable_type tt on ctt.timetable_id = tt.id
where
    c.title in ('Новосибирск', 'Омск', 'Томск', 'Тюмень')
and
    tt.title = 'вахтовый метод'
order by c.title, cnd.id

`Задание 4.2`

Для заказчиков из Санкт-Петербурга нам необходимо собрать список из 10 желаемых профессий кандидатов из того же города от 16 до 21 года (в выборку включается 16 и 21, сортировка производится по возрасту) с указанием их возраста, а также добавить строку `Total` с общим количеством таких кандидатов. Напишите запрос, который позволит получить выборку вида:

<img src=p_2_img2.png>

In [None]:
(select
    cnd.desirable_occupation,
    cnd.age
from
    hh.candidate cnd
join hh.city c on cnd.city_id = c.id
where
    cnd.age between 16 and 21
and
    c.title = 'Санкт-Петербург'
order by cnd.age
limit 10)
union all
(select
    'Total',
    count(*)
from
    hh.candidate cnd
join hh.city c on cnd.city_id = c.id
where
    cnd.age between 16 and 21
and
    c.title = 'Санкт-Петербург')