<center> <img src = https://raw.githubusercontent.com/AndreyRysistov/DatasetsForPandas/main/hh%20label.jpg alt="drawing" style="width:400px;">

# <center> Проект: Анализ вакансий из HeadHunter
   

In [1]:
import pandas as pd
import psycopg2

# веб-скрэпинг сайтов
import requests

# скрытие сообщений об ошибках при обработке pandas ответов psycopg2
import warnings
warnings.filterwarnings('ignore')

# подключение графики
import plotly.express as px

# подключение Latex
from IPython.display import Latex

In [2]:
# функция чтения запроса из файла
def read_sql_from_file(filename: str) -> str:
    """ Функция чтения запроса из скрипта формата 'sql'

    Args:
        filename (str): Относительный путь к файлу скрипта

    Returns:
        str: Возвращает запрос из скрипта
    """
    with open (filename, 'r', encoding="utf8") as fd:
        sql_file = fd.read()
    return sql_file

In [3]:
# вставьте сюда параметры подключения из юнита 1. Работа с базой данных из Python 
DBNAME = 
HOST = 
PORT = 
USER = 
PASSWORD = 

In [4]:
# создаем соединение к БД с заданными параметрами
connection = psycopg2.connect(
    dbname=DBNAME,
    user=USER,
    host=HOST,
    password=PASSWORD,
    port=PORT
)

# Юнит 3. Предварительный анализ данных

### 1. Напишите запрос, который посчитает **количество вакансий** в нашей базе (вакансии находятся в таблице *vacancies*).

In [5]:
# текст запроса
# так как public единственная схема в данной базе, то схема будет "опущена" при написании запросов
# (на основании на вебинара по SQL)
query_3_1 = read_sql_from_file('./SQL/3.1.sql')
# метод read_sql_query -> ответ запроса в виде датафрейма
df_3_1 = pd.read_sql_query(query_3_1, connection)

In [6]:
# результат запроса
df_3_1

Unnamed: 0,cnt_vacancies
0,49197


### 2. Напишите запрос, который посчитает **количество работодателей** (таблица *employers*).

In [7]:
# текст запроса
query_3_2 = read_sql_from_file('./SQL/3.2.sql')
df_3_2 = pd.read_sql_query(query_3_2, connection)

In [8]:
# результат запроса
df_3_2

Unnamed: 0,cnt_employers
0,23501


### 3. Посчитайте с помощью запроса **количество регионов** (таблица *areas*).

In [9]:
# текст запроса
query_3_3 = read_sql_from_file('./SQL/3.3.sql')
df_3_3 = pd.read_sql_query(query_3_3, connection)

In [10]:
# результат запроса
df_3_3

Unnamed: 0,cnt_areas
0,1362


### 4. Посчитате с помощью запроса **количество сфер деятельности** в базе (таблица *industries*).

In [11]:
# текст запроса
query_3_4 = read_sql_from_file('./SQL/3.4.sql')
df_3_4 = pd.read_sql_query(query_3_4, connection)

In [12]:
# результат запроса
df_3_4

Unnamed: 0,cnt_industries
0,294


***

### **Выводы по предварительному анализу данных**

Схема данных содержит <font color='LightSeaGreen'>**5 основных таблиц**</font> для анализа вакансий: ***vacancies*** (вакансии), ***employers*** (работодатели), ***areas*** (регионы), ***industries*** (сферы деятельности предприятий), и промежуточная дополнительная таблица ***employers_industries*** (имеет связи по ключам "многие-ко-многим" между таблицами *employers* и *industries*).

После знакомства с данными в таблицах можно сделать следующие выводы:
- Соотношение вакансий и работодателей достигает пропорции **1 : 2**, <font color='LightSeaGreen'>**число работодателей свыше 23 тыс.**</font> (точно, 23501) к <font color='LightSeaGreen'>**числу вакансий почти в 50 тыс.**</font> (точно, 49197).
    > Вполне, ожидаемо, так как ***организациям для успешного функционирования могут требоваться как специалисты различного профиля***, особенно в быстрорастущей IT-сфере, так и ***одна вакансия может размещаться в нескольких регионах***;

- Табличные данные охватывают довольно широкую географию, включая зарубежные страны (страны СНГ и Европы, и, даже, другие континенты - США, Австралия), в базе представлено <font color='LightSeaGreen'>**почти 1400 регионов**</font> (точно, 1362).
    > Некоторые регионы представлены как целой **страной**, так **отдельными городами** входящими в состав страны, что накладывает как неудобства, так и преимущества. Кандидат может рассматривать как глобальный регион (***страну***) в целях релокации, так и выбирать конкретный ***город***, когда выбор сделан. ***Работодатель должен предусмотреть возможность размещения вакансии в обоих регионах*** (дублируя резюме), чтобы соискатель не упустил потенциальный шанс при поиске вакансий;

- Работодатели представляют <font color='LightSeaGreen'>**почти 300 различных сфер деятельности**</font> (точно, 294).
    > ***Охват достаточный*** для ознакомительного анализа;

- В таблице представлено <font color='LightSeaGreen'>**свыше 21 тыс. уникальных вакансий**</font> (точно, 21223). 
    > Это говорит о ***широких возможностях*** представленных для соискателей, чтобы найти подходящую себе работу (работодателя) из различных сфер деятельности;

- <font color='LightSeaGreen'>**Тор-5 популярных вакансий**</font> приходятся **на сферу IT или область анализа данных / аналитики**.

<br>

>Представленные ***данные содержат достаточный объем информации о вакансиях в разных регионах и сферах деятельности для учебного анализа***, у соискателей есть возможности выбора и шансы для реализации своего профессионального опыта, навыков и знаний.

***

# Юнит 4. Детальный анализ вакансий

### 1. Напишите запрос, который позволит узнать, **сколько** (*cnt*) **вакансий** <font color='LightSeaGreen'>**в каждом регионе**</font> (*area*). <br/>Отсортируйте по <font color='Tomato'>**количеству вакансий в порядке убывания**</font>.

In [13]:
# текст запроса
query_4_1 = read_sql_from_file('./SQL/4.1.sql')
df_4_1 = pd.read_sql_query(query_4_1, connection)

In [14]:
# результат запроса
df_4_1

Unnamed: 0,area,cnt
0,Москва,5333
1,Санкт-Петербург,2851
2,Минск,2112
3,Новосибирск,2006
4,Алматы,1892


### 2. Напишите запрос, чтобы определить у какого **количества вакансий** <font color='LightSeaGreen'>**заполнено**</font> <font color='Tomato'>**хотя бы одно**</font> <font color='LightSeaGreen'>**из двух полей с зарплатой**</font>.

In [15]:
# текст запроса
query_4_2 = read_sql_from_file('./SQL/4.2.sql')
df_4_2 = pd.read_sql_query(query_4_2, connection)

In [16]:
# результат запроса
df_4_2

Unnamed: 0,cnt_vacancies_filled_salary
0,24073


### 3. Найдите **средние значения** <font color='LightSeaGreen'>**для нижней**</font> **и** <font color='LightSeaGreen'>**верхней границы зарплатной вилки**</font>. Округлите значения <font color='Tomato'>**до целого**</font>.

In [17]:
query_4_3 = read_sql_from_file('./SQL/4.3.sql')
df_4_3 = pd.read_sql_query(query_4_3, connection)

In [18]:
# результат запроса
df_4_3

Unnamed: 0,Min_AVG_salary_from,Max_AVG_salary_to
0,71065,110537


### 4. Напишите запрос, который выведет **количество вакансий** <font color='LightSeaGreen'>**для каждого сочетания типа рабочего графика**</font> (*schedule*) **и** <font color='LightSeaGreen'>**типа трудоустройства**</font> (*employment*), используемого в вакансиях. <br/>Результат отсортируйте по <font color='Tomato'>**убыванию количества**</font>.

In [19]:
# текст запроса
query_4_4 = read_sql_from_file('./SQL/4.4.sql')
df_4_4 = pd.read_sql_query(query_4_4, connection)

In [20]:
# результат запроса
df_4_4

Unnamed: 0,schedule,employment,cnt_vacancies
0,Полный день,Полная занятость,35367
1,Удаленная работа,Полная занятость,7802
2,Гибкий график,Полная занятость,1593
3,Удаленная работа,Частичная занятость,1312
4,Сменный график,Полная занятость,940
5,Полный день,Стажировка,569
6,Вахтовый метод,Полная занятость,367
7,Полный день,Частичная занятость,347
8,Гибкий график,Частичная занятость,312
9,Полный день,Проектная работа,141


### 5. Напишите запрос, выводящий значения поля требуемый **опыт работы** (*experience*) в порядке <font color='Tomato'>**возрастания количества вакансий**</font>, в которых <font color='LightSeaGreen'>**указан данный вариант опыта**</font>.

In [21]:
# текст запроса
query_4_5 = read_sql_from_file('./SQL/4.5.sql')
df_4_5 = pd.read_sql_query(query_4_5, connection)

In [22]:
# результат запроса
df_4_5

Unnamed: 0,experience,cnt_vacancies
0,Более 6 лет,1337
1,Нет опыта,7197
2,От 3 до 6 лет,14511
3,От 1 года до 3 лет,26152


***

### **Выводы по детальному анализу вакансий**

После детального анализа вакансий и дополнительного исследования можно сделать следующие выводы:

- Основная доля вакансий размещены в крупных городах-миллионниках, в <font color='LightSeaGreen'>**Топ-5 по числу вакансий**</font> входят:
    - Москва, 
    - Санкт-Петербург, 
    - Минск, 
    - Новосибирск,
    - Алматы.
    
    <br>

    На данные города приходится 28,85% всех вакансий. <font color='LightSeaGreen'>**Москва**</font> - абсолютный лидер в данном рейтинге, <font color='LightSeaGreen'>**свыше 5,3 тыс.**</font> вакансий. За ним следует <font color='LightSeaGreen'>**Санкт-Петербург**</font>, где <font color='LightSeaGreen'>**почти 2,9 тыс.**</font> вакансий.<br>
    > Это связано с тем, что ***крупные города***, где расположено множество бизнес-центров ***представляют более гибкие возможности для развития многих компаний IT-сферы*** и становления стартап-компаний IT-сферы (коворкинг, стабильные и надежные интернет-провайдеры, транспортные узлы и развязки);

- Данные о границах зарплатой вилки **доступны только в половине вакансий** - 48,93% (<font color='LightSeaGreen'>**свыше 24 тыс. из более 49 тыс. вакансий**</font>), остальные - гибко обсуждаемы при формировании оффера, возможно, скрыты из соблюдений коммерческой тайны.
    > Данное обстоятельство необходимо учесть при разработке алгоритмов рекомендаций вакансий, например, ***предсказывать эти значения*** из аналогичных вакансий ***посредством заполнения модальным значением*** или ***задания весового коэффициента для этого признака*** при отборе подходящих вакансий, и т.д.

- В данных **по вакансиям** <font color='Tomato'>**разброс значений**</font> ***для границ зарплатной вилки*** <font color='Tomato'>**слишком велик, присутствуют потенциально аномальные значения**</font> в зарплатной вилке, как по нижней границе: 30-1000000 руб., так и по верхней: 75-1000000 руб.
    > <font color='Tomato'>**Что делает расчет среднего значения**</font> для этих параметров <font color='Tomato'>**неинформативным**</font>. 
    
    Например, вакансия "технический директор" со стартовой вилкой в 1 млн. руб. присутствует, это единичная вакансия, можно сказать, что это ***"выброс"***. Также и по верхней вилке, данные, вероятнее всего, ошибочны - возможно, загружены ошибочные данные или не учтена размерность валютных значений (кратность), в тысячах рублей.

    > Как показал анализ, ***разброс уровня ЗП*** <font color='LightSeaGreen'>**может существенно различаться**</font> в зависимости от *региона*, *сферы деятельности предприятия*, так и *потенциально занимаемой должности*. 

- Работодатели отдают **преимущество сотрудникам, которые** будут заняты и <font color='LightSeaGreen'>**полностью погружены в рабочий процесс**</font> в 71,89% вакансий, сочетание "Полный день" - "Полная занятость". В 15,86% вакансий работодатели готовы рассмотреть и предложить "удаленную работу" с "полной занятостью".

- Рынок вакансий выглядит **достаточно активным**:
    - ${}^2/_3$ ***(67,78%) вакансий*** <font color='LightSeaGreen'>**не требуют сверхвысокой квалификации**</font> - только от года до трёх или, вообще, без опыта. 
    - В большинстве вакансий (53,15%) требуются соискатели с опытом работы от 1 года до 3 лет, 
    - Достаточно большое кол-во вакансий (14,63%), где готовы взять соискателя без опыта работы,
    - Только в 29,5% вакансий необходимый опыт составляет от 3 до 6 лет.
    
    <br>

    > По зарплатным ожиданиям ***тепловая карта показывает*** <font color='LightSeaGreen'>**прямую зависимость**</font> средних минимальных и максимальных уровней зарплатной вилки <font color='LightSeaGreen'>**от опыта работы**</font> (запрос 7.3). 

- Результаты запроса 7.2 с точки зрения **финансового вознаграждения по вакансиям из области Data Science**: 
    - С графиками на "полный день" и "удаленная работа", *уровни соотношения распределяются, примерно, на одном уровне*, **1 : 1** - Москва, Санкт-Петербург, Рязань, <font color='LightSeaGreen'>**соискатель волен выбирать удобный ему вариант типа занятости**</font>. 
    - Рязань и Пермь выделяются особо - <font color='LightSeaGreen'>**работодатели готовы больше платить**</font> таким ***талантливым удаленным сотрудникам***, так как локально, видимо, <font color='Tomato'>**не хватает достаточно квалифицированных кадров**</font>. 
    - Несмотря на близость расположения к столице, Королев *не жалует специалистов DS, как финансово, так и с вариантом работы только из дома*. 
    - Новосибирск, наоборот, <font color='Tomato'>**вряд ли порадует "удалёнщиков"**</font>, разрыв достигает почти 60% (58,33%), но <font color='LightSeaGreen'>**готов оплатить труды и старания при работе в офисе**</font>.
    - Армения готова вкладываться в специалистов и <font color='LightSeaGreen'>**щедро платить, почти 270 тыс. руб. в среднем**</font>, но <font color='Tomato'>**придется смириться с отсутствием возможности "удалёнки"**</font>, как и **в Белгороде**, город очень небольшой, но <font color='LightSeaGreen'>**хорошим специалистам готовы платить свыше 200 тыс**</font>. 
    - Города на периферии РФ и Республика Казахстан <font color='Tomato'>**не готовы платить свыше 100 тыс. руб., даже, при работе в офисе**</font>, хотя <font color='LightSeaGreen'>**Уфа выгодно выделяется "удалённым графиком"**</font>.
    - **Страны Европы и Ближнего Востока** готовы и платить талантам, и открыты к "удалёнщикам" - <font color='LightSeaGreen'>**предоставляются все возможности для комфортной и успешной работы**</font>.
    
    <br>
    
- По запросу 7.4 <font color='LightSeaGreen'>**Топ-5 работодателей**</font> предлагающих вакансии <font color='LightSeaGreen'>**из области Data Science**</font> приходится на:
    - Банковскую деятельность и банки (СБЕР, Банк ВТБ), что, несколько удивляет, так планируешь увидеть на первом и втором местах как минимум VK или Яндекс; 
    - Системная интеграция и автоматизация, интеграторы, ожидались, как раз, на 1 месте (VK, Bell Integrator, Positive Technologies);
    - Замыкает пятерку лидеров - онлайн-казино, что удивило еще больше, хотя взглянув на сайт, понимаешь, что работодатель в тренде - использует криптовалюту <img src='https://discords.com/_next/image?url=https%3A%2F%2Fcdn.discordapp.com%2Femojis%2F869353535416967188.gif%3Fv%3D1&w=64&q=75' width='20'><img src='https://discords.com/_next/image?url=https%3A%2F%2Fcdn.discordapp.com%2Femojis%2F624256731337326592.gif%3Fv%3D1&w=64&q=75' width='20'><img src='https://discords.com/_next/image?url=https%3A%2F%2Fcdn.discordapp.com%2Femojis%2F624235898657046529.gif%3Fv%3D1&w=64&q=75' width='20'>, а, значит, и требуются специалисты с релевантными навыками.
    
    Оставшиеся в списке: 
    - Крупные и средние ритейлеры, такие как МТС, Мегафон, Ozon, Лента и Спортмастер;
    - Работодатели касающиеся финансовой сферы, в т.ч. банки - Газпромбанк, сюда также могут попасть Яндекс Банк и МТС Банк (но быть под общим названием);
    - Интеграторы в списке также знакомы - Andersen (*я лично прошёл успешно вступительные испытания и был зачислен на стажировку*), Бэнкс Софт Системс, Контур, 2ГИС, inDriver, Иннотех.
    
    <br>
    
    > Вполне ожидаемая истина: данные компании ***бесспорно преуспевают сегодня*** в современном бизнесе, ***в том числе, благодаря и Data Science***. Как видно, ***компетентные компании - профессионалы своего дела***, закладывая надёжный фундамент ***с помощью специалистов DS управляют ожиданиями потребителей*** и являются лидерами в этом направлении.

***

# Юнит 5. Анализ работодателей

### 1. Напишите запрос, который позволит узнать, **какие работодатели** находятся на <font color='LightSeaGreen'>**первом**</font> и <font color='LightSeaGreen'>**пятом**</font> месте **по количеству вакансий**.

In [23]:
# текст запроса
query_5_1 = read_sql_from_file('./SQL/5.1.sql')
df_5_1 = pd.read_sql_query(query_5_1, connection)

In [24]:
# результат запроса
df_5_1

Unnamed: 0,employer_name,cnt_vacancies
0,Яндекс,1933
1,Газпром нефть,331


### 2. Напишите запрос, который <font color='LightSeaGreen'>**для каждого региона**</font> выведет **количество работодателей** и **вакансий в нём**. <br><font color="Tomato">**Среди регионов, в которых нет вакансий**</font>, найдите тот, в котором ***наибольшее количество работодателей***


In [25]:
# текст запроса
# объёмный запрос, на выполнение требуется время ожидания
query_5_2 = read_sql_from_file('./SQL/5.2.sql')
df_5_2 = pd.read_sql_query(query_5_2, connection)

In [26]:
# результат запроса
df_5_2

Unnamed: 0,area_name,cnt_employers,cnt_vacancies
0,Россия,410,0


### 3. <font color='LightSeaGreen'>**Для каждого работодателя**</font> посчитайте **количество регионов**, в которых он публикует свои вакансии. Отсортируйте результат по <font color='Tomato'>**убыванию количества**</font>.

In [27]:
# текст запроса
query_5_3 = read_sql_from_file('./SQL/5.3.sql')
df_5_3 = pd.read_sql_query(query_5_3, connection)

In [28]:
# результат запроса
df_5_3

Unnamed: 0,employer_name,cnt_areas
0,Яндекс,181
1,Ростелеком,152
2,Спецремонт,116
3,Поляков Денис Иванович,88
4,ООО ЕФИН,71
...,...,...
14901,НПП Авиатрон,1
14902,Центр дистанционных торгов,1
14903,Городские Телекоммуникационные Системы,1
14904,"Введенский, Отель",1


### 4. Напишите запрос для **подсчёта количества работодателей**, у которых <font color='Tomato'>**не указана сфера деятельности**</font>. 

In [29]:
# текст запроса
query_5_4 = read_sql_from_file('./SQL/5.4.sql')
df_5_4 = pd.read_sql_query(query_5_4, connection)

In [30]:
# результат запроса
df_5_4

Unnamed: 0,cnt_employers_empty_industries
0,8419


### 5. Напишите запрос, чтобы узнать **название компании**, находящейся на <font color='LightSeaGreen'>**третьем месте**</font> <font color='Tomato'>**в алфавитном списке**</font> (по названию) <font color='Tomato'>**компаний**</font>, у которых указано ***четыре сферы деятельности***. 

In [31]:
# текст запроса
query_5_5 = read_sql_from_file('./SQL/5.5.sql')
df_5_5 = pd.read_sql_query(query_5_5, connection)

In [32]:
# результат запроса
df_5_5

Unnamed: 0,employer_with_4_industries
0,2ГИС


### 6. С помощью запроса выясните, у <font color='LightSeaGreen'>**какого количества работодателей**</font> в качестве ***сферы деятельности*** указана **"Разработка программного обеспечения"**.

In [33]:
# текст запроса
query_5_6 = read_sql_from_file('./SQL/5.6.sql')
df_5_6 = pd.read_sql_query(query_5_6, connection)

In [34]:
# результат запроса
df_5_6

Unnamed: 0,cnt_developer_employers
0,3553


### 7. **Для компании «Яндекс»** выведите **список регионов-миллионников**, в которых представлены вакансии компании, вместе <font color='LightSeaGreen'>**с количеством вакансий в этих регионах**</font>. Также ***добавьте строку*** (*Total*) ***с общим количеством вакансий компании***. Результат отсортируйте по <font color='Tomato'>**возрастанию количества**</font>.

Список городов-милионников надо взять [отсюда](https://ru.wikipedia.org/wiki/%D0%93%D0%BE%D1%80%D0%BE%D0%B4%D0%B0-%D0%BC%D0%B8%D0%BB%D0%BB%D0%B8%D0%BE%D0%BD%D0%B5%D1%80%D1%8B_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8). 

Если возникнут трудности с этим задание посмотрите материалы модуля  PYTHON-17. Как получать данные из веб-источников и API. 

In [35]:
# код для получения списка городов-милионников
url = 'https://ru.wikipedia.org/wiki/Города-миллионеры_России'
response = requests.get(url)

# считываем 2 по порядку таблицу, корректируем "хвостики" в названиях городов, собираем в кортеж 
df = pd.DataFrame(pd.read_html(response.text)[1])
cities = tuple(df['Город'].apply(lambda x: x.strip('[a]')))

In [36]:
# проверка результата
cities

('Москва',
 'Санкт-Петербург',
 'Новосибирск',
 'Екатеринбург',
 'Казань',
 'Нижний Новгород',
 'Челябинск',
 'Красноярск',
 'Самара',
 'Уфа',
 'Ростов-на-Дону',
 'Омск',
 'Краснодар',
 'Воронеж',
 'Пермь',
 'Волгоград')

In [37]:
# текст запроса
query_5_7 = f"""
-- вывод вакансий Яндекса по регионам
(
    SELECT
        a.name AS area_name,
        COUNT(v.id) AS cnt_yandex_vacancies
    FROM
        employers AS e
        JOIN vacancies AS v
            ON e.id = v.employer_id
            AND
            e.name = 'Яндекс' 
        JOIN areas AS a
            ON v.area_id = a.id
            AND 
            a.name IN {cities}
    GROUP BY
        a.id
)
UNION ALL
-- вывод вакансий Яндекса совокупно
(
    SELECT
        'Total',
        COUNT(v.id)
    FROM
        employers AS e
        JOIN vacancies AS v
            ON e.id = v.employer_id
            AND
            e.name = 'Яндекс' 
        JOIN areas AS a
            ON v.area_id = a.id
            AND 
            a.name IN {cities}
)
ORDER BY
    cnt_yandex_vacancies
"""
df_5_7 = pd.read_sql_query(query_5_7, connection)

In [38]:
# результат запроса
df_5_7

Unnamed: 0,area_name,cnt_yandex_vacancies
0,Омск,21
1,Челябинск,22
2,Красноярск,23
3,Волгоград,24
4,Пермь,25
5,Казань,25
6,Ростов-на-Дону,25
7,Самара,26
8,Уфа,26
9,Краснодар,30


***

### **Выводы по детальному анализу работодателей**

- Всего в БД хранятся данные о <font color='LightSeaGreen'>**более, чем 23 тыс. работодателей**</font> (точно, 23501). <font color='LightSeaGreen'>**Топ-5 лидеров по количеству размещенных вакансий**</font>, ожидаемо, **зарегистрированы от имени крупных компаний**, таких как:
    - Яндекс, 
    - Ростелеком, 
    - Тинькофф, 
    - СБЕР, 
    - Газпром нефть и т.д. 
    
    Абсолютным лидером является **Яндекс**, они <font color='LightSeaGreen'>**предлагают в 4 раза больше вакансий**</font>, чем другие крупные компании.
    
    > ***Это одни из крупнейших работодателей, имеющих развитую сеть филиалов / представительств и специализирующихся на нескольких смежных областях и направлениях роста***.  

- Среди регионов, в которых нет вакансий, по количеству работодателей лидируют:
    - Россия, 
    - Казахстан, 
    - Московская область с сильным отставанием от Республики Казахстан в 3 раза (207 против 75).
    
    <br>

    > С оглядкой (на запрос 5.7) стоит отметить, что <font color='Tomato'>**данные были собраны не очень аккуратно или так поданы работодателями**</font>, тут сложно судить почему, может, из экономии средств, ***а, может, чтобы потенциальный соискатель искал не только у себя в регионе, но и смотрел более глобально***.
    
    Всё-таки в базе есть не только населённые пункты, но и регионы, которые указывают работодатели. Однако, некоторыми работодателями <font color='Tomato'>**формат указания региона явно не был согласован**</font>, где-то не указывают вакансии в крупных регионах (*областях*), а только в ***городах***, или, наоборот, только в ***стране*** (*как глобальный регион*). Например, в <font color='Tomato'>**Ростовской области - нет вакансий**</font>, в то время как <font color='LightSeaGreen'>**в Ростове-на-Дону есть 25 вакансий**</font> от компании **Яндекс**.

    > Это создает ***дополнительные сложности в процесс анализа данных*** и <font color='Tomato'>**может привести к некорректным результатам**</font>. 

- Специалисту по Data Science <font color='LightSeaGreen'>**полезно отслеживать появление вакансий у работодателей, находящихся в регионах**</font> (запрос 5.3). Крупные компании имеют возможность специализироваться на нескольких смежных областях и развивать направления роста, следовательно, есть шансы, что их филиалы появятся в городе проживания кандидата. 

    > Например, ***СБЕР сейчас в 2023 году активно начал продвигать регион [Сочи](https://developers.sber.ru/kak-v-sbere/locations/sochi)*** в привлечении внимания к IT-сфере.

- У более ${}^1/_3$ работодателей (36.72%) указано <font color='LightSeaGreen'>**2 и более сфер деятельности**</font>.

    > ***Отсутствие данных о сфере деятельности*** у 35,82% работодателей <font color='Tomato'>**создает ограничения по детализации анализа**</font>.

- <font color='LightSeaGreen'>**Свыше 15% работодателей занимаются разработкой ПО**</font> (точно 15,12%). Но трудно сказать, много это или мало, в рамках рынка, зависит от релевантности выборки из баз данных HH.ru.

    > ***Применительно ко всем сферам***, 1 из 294, ***это значительный показатель по всем работодателям***, как никак, <font color='LightSeaGreen'>**чуть менее ${}^1/_7$**</font>.

- **Среди регионов** с доступными вакансиями **прослеживается** <font color='LightSeaGreen'>**линейная зависимость количества работодателей**</font> и <font color='LightSeaGreen'>**числа предложений**</font>. Работодатели размещают свои вакансии, *преимущественно, в городах-миллионниках и столицах*. Например, <font color='LightSeaGreen'>**в Москве находятся почти 25%**</font> (точно 22,69%) из <font color='LightSeaGreen'>**всех работодалей**</font>, сохраненных в БД, <font color='LightSeaGreen'>**в Санкт-Петербурге более 12%**</font> (точно 12,13%), и далее этот процент уменьшается для остальных регионов.

    > Это связано с тем, что ***крупные города***, где расположено множество бизнес-центров ***представляют более гибкие возможности для развития многих компаний IT-сферы*** (коворкинг, стабильные и надежные интернет-провайдеры, транспортные узлы и развязки).

***

# Юнит 6. Предметный анализ

### 1. <font color='LightSeaGreen'>**Сколько вакансий**</font> имеет **отношение к данным**?

### Считаем, что вакансия имеет отношение к данным, если в её названии содержатся слова '***data***' или '***данн***'.

Подсказка: Обратите внимание, что <font color='Tomato'>**названия вакансий могут быть написаны в любом регистре.**</font>


In [39]:
# текст запроса
query_6_1 = read_sql_from_file('./SQL/6.1.sql')
df_6_1 = pd.read_sql_query(query_6_1, connection)

In [40]:
# результат запроса
df_6_1

Unnamed: 0,cnt_data_vacancies
0,1771


### 2. **Сколько** есть подходящих **вакансий** <font color='LightSeaGreen'>**для начинающего дата-сайентиста**</font>? 

### Будем считать **вакансиями для дата-сайентистов** такие, <font color='LightSeaGreen'>**в названии**</font> которых <font color='Tomato'>**есть хотя бы одно**</font> <font color='LightSeaGreen'>**из следующих сочетаний**</font>:
* 'data scientist'
* 'data science'
* 'исследователь данных'
* 'ML' (здесь не нужно брать вакансии по HTML)
* 'machine learning'
* 'машинн%обучен%'

***В следующих заданиях мы продолжим работать с вакансиями по этому условию ↑.***

### Считаем **вакансиями** для специалистов уровня <font color='LightSeaGreen'>**Junior**</font> следующие:
* в названии есть слово 'junior' *или*
* требуемый опыт — Нет опыта *или*
* тип трудоустройства — Стажировка.

In [41]:
# текст запроса
query_6_2 = read_sql_from_file('./SQL/6.2.sql')
df_6_2 = pd.read_sql_query(query_6_2, connection)

In [42]:
# результат запроса
df_6_2

Unnamed: 0,cnt_junior_ds_vacancies
0,51


### 3. **Сколько** есть **вакансий** для **DS**, у которых <font color='LightSeaGreen'>**в качестве ключевого навыка указан SQL или Postgres**</font>?

***Критерии для отнесения вакансии к DS указаны в предыдущем задании.***

In [43]:
# текст запроса
query_6_3 = read_sql_from_file('./SQL/6.3.sql')
df_6_3 = pd.read_sql_query(query_6_3, connection)

In [44]:
# результат запроса
df_6_3

Unnamed: 0,cnt_postgres_sql_ds_vacancies
0,201


### 4. Проверьте, насколько популярен Python в требованиях работодателей к DS.
### Для этого вычислите **количество вакансий**, у которых <font color='LightSeaGreen'>**в качестве ключевого навыка указан Python**</font>.

***Это можно сделать помощью запроса, аналогичного предыдущему.***

In [45]:
# текст запроса
query_6_4 = read_sql_from_file('./SQL/6.4.sql')
df_6_4 = pd.read_sql_query(query_6_4, connection)

In [46]:
# результат запроса
df_6_4

Unnamed: 0,cnt_python_ds_vacancies
0,351


### 5. **Сколько ключевых навыков** <font color='LightSeaGreen'>**в среднем**</font> указывают ***в вакансиях для DS***?
### Ответ <font color='Tomato'>**округлите до двух знаков после точки**</font>-разделителя.

In [47]:
# текст запроса
query_6_5 = read_sql_from_file('./SQL/6.5.sql')
df_6_5 = pd.read_sql_query(query_6_5, connection)

In [48]:
# результат запроса
df_6_5

Unnamed: 0,avg_keyskills
0,6.41


### 6. Напишите запрос, позволяющий вычислить, **какую зарплату для DS** <font color='LightSeaGreen'>**в среднем**</font> указывают <font color='Tomato'>**для каждого типа**</font> требуемого <font color='Tomato'>**опыта**</font> (уникальное значение из поля ***experience***). 

При решении задачи примите во внимание следующее:
1. Рассматриваем только вакансии, у которых заполнено хотя бы одно из двух полей с зарплатой.
2. Если заполнены оба поля с зарплатой, то считаем зарплату по каждой вакансии как сумму двух полей, делённую на 2. Если заполнено только одно из полей, то его и считаем зарплатой по вакансии.
3. Если в расчётах участвует null, в результате он тоже даст null (посмотрите, что возвращает запрос select 1 + null). Чтобы избежать этой ситуацию, мы воспользуемся функцией [coalesce](https://postgrespro.ru/docs/postgresql/9.5/functions-conditional#functions-coalesce-nvl-ifnull), которая заменит null на значение, которое мы передадим. Например, посмотрите, что возвращает запрос `select 1 + coalesce(null, 0)`

### Выясните, на **какую зарплату** <font color='LightSeaGreen'>**в среднем**</font> может рассчитывать ***дата-сайентист*** <font color='LightSeaGreen'>**с опытом работы от 3 до 6 лет**</font>. Результат округлите <font color='Tomato'>**до целого числа**</font>. 

In [49]:
# текст запроса
query_6_6 = read_sql_from_file('./SQL/6.6.sql')
df_6_6 = pd.read_sql_query(query_6_6, connection)

In [50]:
# результат запроса
df_6_6

Unnamed: 0,experience,avg_salary
0,Нет опыта,74643
1,От 1 года до 3 лет,139675
2,От 3 до 6 лет,243115


***

### Выводы по предметному анализу:

- Найдена <font color='LightSeaGreen'>**1771 вакансия**</font>, где в названии встречается '**data**' / '**данн**'. Это примерно 3,6% от общего числа вакансий. 
  >Однако, <font color='Tomato'>**не все из них имеют отношение к DS**</font>.

- Было принято считать **вакансиями для дата-сайентистов** такие, <font color='LightSeaGreen'>**в названии**</font> которых <font color='Tomato'>**есть хотя бы одно**</font> <font color='LightSeaGreen'>**из следующих сочетаний**</font>:
  - 'data scientist'
  - 'data science'
  - 'исследователь данных'
  - 'ML' (здесь не нужно брать вакансии по HTML)
  - 'machine learning'
  - 'машинн%обучен%'

  В ходе исследования данных были обнаружены вакансии, которые <font color='Tomato'>**ошибочно попали под указанные условия фильтрации**</font>, например, "C++ разработчик (QML)". Также были замечены <font color='Tomato'>**вакансии в сфере DS, которые не попадали под указанные критерии**</font>, например, "DataOps", "Data engineer", "Data analyst".
  
  <font color='LightSeaGreen'>**Возможно их следовало бы включить в запрос**</font>. Запрос не был дополнен условием по условиям постановки задания.
  
  >***Новичку войти в отрасль Data Science не просто*** - только в 2,88% вакансий работодатель готов принять специалиста без опыта работы.
 
- **Одним из ключевых навыков** для специалиста в области **Data Science является** владение языком **Python**. В явном виде этот навык указан в более чем 80% (точно, 81,44%) DS вакансий, но, реальное количество будет больше, т.к. в требованиях работодателя встречаются описания владения, как конкретными питоновскими фреймворками и библиотеками (scikit-learn, pandas, numpy, nltk, keras, pytorch, opencv и т.п.), так и специфичными для проектов работодателя.
  - Также довольно важны навыки Postgres/SQL, встречается почти в 50% (точно 46,64%) DS-вакансий.
  - В представленных вакансиях запрос на наличие у кандидата навыков Postgres/SQL/Python встречается почти в 88% (87,7%) случаев (запрос 7.1).

  <br>

  > ***Для успешной работы в области Data Science*** к кандидату ***предъявляются высокие входные требования по hardskills*** - требуется владение <font color='LightSeaGreen'>**6 и более**</font> (6.41) различными навыками. Основные из них: Python, SQL, Git, Linux, Pandas, Nupmy и др.

- Для совсем начинающих специалистов **средняя зарплата выглядит очень оптимистично и привлекательно**, <font color='LightSeaGreen'>**каждые 3 года средняя заработная плата**</font> увеличивается пропорциально - <font color='LightSeaGreen'>**почти в двукратном размере**</font>. Вероятно, данные показатели могут отличаться в зависимости от региона, рекомендуются дополнительные исследования.
  По таблице из запроса 6.6, на самом деле, <font color='LightSeaGreen'>**вакансии для опыта более 6 лет присутствуют**</font>, <font color='Tomato'>**но вилка зарплат не указана**</font>, т.к. в обоих полях присутствуют значения NULL. Видимо, зарплатные ожидания кандидатов настолько высокие, что все детали гибко решаются работодателем при собеседовании, либо, как вариант, скрыты из соблюдений коммерческой тайны.

  > Это является дополнительным подтверждением того, что ***Data Science - является одной из наиболее высокооплачиваемых и востребованных профессий в наши дни***. 

- В отрасль Data Science чаще требуются специалисты с опытом работы от 1 года и более, но <font color='LightSeaGreen'>**вакансии для начинающих специалистов также присутствуют на рынке вакансий**</font> (2,88%) **в регионе (СПб и Ленинградская область)**, из результатов запроса 7.5, на данный момент видно, что:
	- Зарплатные предложения не указаны в 66,67% случаев, что <font color='LightSeaGreen'>**повышает шансы на получение оффера с зарплатной вилкой выше средней**</font>;
	- Требуемый опыт работы также не указан в 66,67% случаев, что <font color='LightSeaGreen'>**повышает шансы на трудоустройство**</font>;
	- Привлекательные крупные работодатели в 33,33% присутствуют в списке - DINS, Банк ВТБ (ПАО) и Самокат.

  <br>

  > Для начинающих дата-сайентистов ***в регионе Санкт-Петербург и Ленинградской области есть возможности***, при появлении новых вакансий результаты отобразятся в запросе, так как он подготовлен с учётом этих условий.

***

# 7. Дополнительные исследования
### 1. Рассмотрим **частоту запросов требований работодателей** <font color='LightSeaGreen'>**по знаниям Python & SQL/Postgres**</font> от специалистов ***в области DataScience***.

In [51]:
# текст запроса
query_7_1 = read_sql_from_file('./SQL/7.1.sql')
df_7_1 = pd.read_sql_query(query_7_1, connection)

In [52]:
# результат запроса
df_7_1

Unnamed: 0,ds_skills,cnt_vacancies
0,Postgres/SQL,201
1,Python,351
2,Postgres/SQL/Python,378
3,Total,431


In [53]:
fig_bar = px.bar(
    data_frame=df_7_1,
    x='ds_skills',
    y='cnt_vacancies',
    color='ds_skills',
    text='cnt_vacancies',                                    # текст внутри баров
    orientation='v',
    width=1000,
    height=500
)

fig_bar.update_layout(
    title='Количество вакансий Data Science с навыками Postgres/SQL/Python',
    title_x=0.5,                                             # центрировать заголовок
    xaxis_title='Требуемые навыки',
    yaxis_title='Количество вакансий DS',
    legend_title='DS Skills:'                                # заголовок легенды
)

# fig_bar.show()
# fig_bar.show('svg')                                          # сформировать картинку в векторном формате

fig_bar.write_image('./images/fig_bar_7_1.svg')

![Alt text](./images/fig_bar_7_1.svg)

### 2. Интересно взглянуть на **распределение зарплатных предложений** <font color='LightSeaGreen'>**по типу ожидаемой занятости**</font> ***исходя из региона***.

In [54]:
# текст запроса
query_7_2 = read_sql_from_file('./SQL/7.2.sql')
df_7_2 = pd.read_sql_query(query_7_2, connection)

In [55]:
# результат запроса
df_7_2

Unnamed: 0,area_name,schedule,avg_salary
0,Алматы,Полный день,95000
1,Армения,Полный день,269000
2,Барнаул,Полный день,60000
3,Белгород,Полный день,200000
4,Владивосток,Полный день,85000
5,Екатеринбург,Полный день,168000
6,Екатеринбург,Гибкий график,37000
7,Казань,Полный день,50000
8,Кипр,Удаленная работа,300000
9,Королев,Полный день,130000


In [56]:
fig_bar = px.bar(
    data_frame=df_7_2,
    x='avg_salary',
    y='area_name',
    color='schedule',
    text='avg_salary',                                      # текст внутри баров
    text_auto=True,                                         # привести метрики текста к единой представлению
    orientation='h',
    width=800,
    height=800
)

fig_bar.update_layout(
    title='Распределение з/п Data Science по регионам и типу занятости',
    title_x=0.5,                                            # центрировать заголовок
    xaxis_title='Средняя з/п по вакансиям DS',
    yaxis_title='Регионы',
    yaxis_autorange='reversed',                             # расположить города на оси ординат в порядке сверху вниз
    legend_title='Тип занятости:',                          # заголовок легенды
    legend=dict(                                            # расположить легенду в правом верхнем углу
        yanchor='top',
        y=0.99,
        xanchor='right',
        x=0.99
    )
)

# fig_bar.show()
# fig_bar.show('svg')                                          # сформировать картинку в векторном формате

fig_bar.write_image('./images/fig_bar_7_2.svg')

![Alt text](./images/fig_bar_7_2.svg)

### 3. Обзор **границ средней вилки заработной платы** в зависимости <font color='LightSeaGreen'>**от опыта работы**</font>.

In [57]:
# текст запроса
query_7_3 = read_sql_from_file('./SQL/7.3.sql')
df_7_3 = pd.read_sql_query(query_7_3, connection)

In [58]:
# результат запроса
df_7_3

Unnamed: 0,experience,Мин. средн. от,Макс. средн. до
0,Более 6 лет,153172,179341
1,От 3 до 6 лет,121409,145013
2,От 1 года до 3 лет,69206,83876
3,Нет опыта,36534,44410


In [59]:
df_heat = df_7_3.copy().set_index('experience')             # создать копию данных и перенести столбец индексов

fig_heat = px.imshow(
    df_heat,
    color_continuous_scale=['crimson', 'orange', 'yellow', 'lime', 'green'],
    title='Тепловая карта границ средней з/п вилки в зависимости от опыта работы',
    width=700,
    height=600
    )

fig_heat.update_traces(
    hovertemplate='З/п (средняя): %{z}<extra></extra>'       # отобразить подсказку при наведении
    )

fig_heat.update_layout(
    title_x=0.5,                                             # центрировать заголовок
    xaxis_title='З/п вилка',
    yaxis_title='Опыт работы',
)

# fig_heat.show()
# fig_heat.show('svg')                                         # сформировать картинку в векторном формате

fig_heat.write_image('./images/fig_heat_7_3.svg')

![Alt text](./images/fig_heat_7_3.svg)

### 4. **Какие компании** <font color='LightSeaGreen'>**чаще всего**</font> ***ищут специалистов по Data Science***, объем предложений на рынке вакансий.

In [60]:
# текст запроса
query_7_4 = read_sql_from_file('./SQL/7.4.sql')
df_7_4 = pd.read_sql_query(query_7_4, connection)

In [61]:
# результат запроса
df_7_4

Unnamed: 0,employer_name,cnt_ds_vacancies
0,СБЕР,37
1,Bell Integrator,25
2,Банк ВТБ (ПАО),18
3,VK,15
4,Positive Technologies,11
5,EvenBet Gaming,9
6,Яндекс,9
7,МегаФон,8
8,Andersen,7
9,МТС,6


### 5. Какие есть **вакансии** для ***начинающих DS-специалистов*** </font> <font color='LightSeaGreen'>**по Санкт-петербургу и Ленинградской области**?

In [62]:
url = 'https://www.locdb.ru/info/region/1078/'
response = requests.get(url)

# населённые пункты Санкт-Петербурга, включая сам г. Санкт-Петербург
df_cities_78_big = pd.DataFrame([])
table = 0

# перебираем все таблицы пока не сработает IndexError
while True:
    try:
        # каждую найденную таблицу, добавляем в общую, вносим приращение счётчика
        df_cities_78_small = pd.DataFrame(pd.read_html(response.text)[table])
        df_cities_78_big = pd.concat([df_cities_78_big, df_cities_78_small])
        table += 1
    except IndexError:
        break

In [63]:
# очистка таблицы от лишних данных
df_cities_78_big.dropna(how='any', inplace=True)
df_cities_78_big.drop(columns=[0, 2], axis=1, inplace=True)

# дубликация наименований населённых пунктов с 'ё' -> 'е', чтобы учесть все варианты при поиске
df_replace_78 = df_cities_78_big[df_cities_78_big[1].str.contains('ё')].copy()
df_replace_78[1] = df_replace_78[1].apply(lambda x: x.replace('ё', 'е'))
df_cities_78_big = pd.concat([df_cities_78_big, df_replace_78])

# сброс индекса
df_cities_78_big.reset_index(drop=True, inplace=True)

# 28 населённых пунктов Санкт-Петербурга, включая сам г. Санкт-Петербург, отсортированный кортеж
spb_78 = tuple(sorted(df_cities_78_big[1]))

In [64]:
# проверка результата
# df_cities_78_big
spb_78

('Александровская',
 'Белоостров',
 'Зеленогорск',
 'Колпино',
 'Комарово',
 'Красное Село',
 'Кронштадт',
 'Левашово',
 'Лисий Нос',
 'Ломоносов',
 'Металлострой',
 'Молодежное',
 'Молодёжное',
 'Павловск',
 'Парголово',
 'Песочный',
 'Петергоф',
 'Петро-Славянка',
 'Понтонный',
 'Пушкин',
 'Репино',
 'Санкт-Петербург',
 'Саперный',
 'Сапёрный',
 'Сестрорецк',
 'Солнечное',
 'Стрельна',
 'Тярлево',
 'Усть-Ижора',
 'Шушары')

In [65]:
url = 'https://www.locdb.ru/info/region/1047/'
response = requests.get(url)

# населённые пункты Ленинградской области
df_cities_47_big = pd.DataFrame([])
table = 0

# перебираем все таблицы пока не сработает IndexError
while True:
    try:
        # каждую найденную таблицу, добавляем в общую, вносим приращение счётчика
        df_cities_47_small = pd.DataFrame(pd.read_html(response.text)[table])
        df_cities_47_big = pd.concat([df_cities_47_big, df_cities_47_small])
        table += 1
    except IndexError:
        break

In [66]:
# очистка таблицы от лишних данных
df_cities_47_big.dropna(how='any', inplace=True)
df_cities_47_big.drop(columns=[0, 2], axis=1, inplace=True)

# очистка дубликатов, есть населённые пункты в Ленинградской области
# с одинаковым наименованием в разных районах или разным типом город-село-поселок
df_cities_47_big[1] = df_cities_47_big[1].apply(lambda x: x.split('  ')[0])
df_cities_47_big.drop_duplicates(inplace=True)

# дубликация наименований населённых пунктов с 'ё' -> 'е', чтобы учесть все варианты при поиске
df_replace_47 = df_cities_47_big[df_cities_47_big[1].str.contains('ё')].copy()
df_replace_47[1] = df_replace_47[1].apply(lambda x: x.replace('ё', 'е'))
df_cities_47_big = pd.concat([df_cities_47_big, df_replace_47])

# сброс индекса
df_cities_47_big.reset_index(drop=True, inplace=True)

# более 240 населённых пунктов Ленинградской области, отсортированный кортеж
lo_47 = tuple(sorted(df_cities_47_big[1]))

In [67]:
# проверка результата
# df_cities_47_big
lo_47

('Агалатово',
 'Алеховщина',
 'Алёховщина',
 'Аннино',
 'Батово',
 'Бегуницы',
 'Белогорка',
 'Бережки',
 'Беседа',
 'Бокситогорск',
 'Большая Вруда',
 'Большая Ижора',
 'Большая Пустомержа',
 'Большие Колпаны',
 'Большие Тайцы',
 'Большое Рейзино',
 'Большой Двор',
 'Большой Сабск',
 'Бор',
 'Борисова Грива',
 'Бугры',
 'Будогощь',
 'Ваганово',
 'Важины',
 'Вартемяги',
 'Верхние Осельки',
 'Вещево',
 'Виллози',
 'Винницы',
 'Вознесенье',
 'Возрождение',
 'Войсковицы',
 'Войскорово',
 'Володарское',
 'Волосово',
 'Волошово',
 'Волхов',
 'Всеволожск',
 'Выборг',
 'Вындин Остров',
 'Вырица',
 'Выскатка',
 'Высокоключевой',
 'Высоцк',
 'Гаврилово',
 'Гарболово',
 'Гатчина',
 'Глажево',
 'Глебычево',
 'Гончарово',
 'Горбунки',
 'Гостилицы',
 'Гостицы',
 'Громово',
 'Дзержинского',
 'Дружная Горка',
 'Дружноселье',
 'Дубровка',
 'Елизаветинка',
 'Елизаветино',
 'Ермилово',
 'Ефимовский',
 'Заборье',
 'Заклинье',
 'Заневка',
 'Запорожское',
 'Зимитицы',
 'Ивангород',
 'Ивановка',
 'Извара',


In [68]:
# текст запроса
query_7_5 = f"""
SELECT
    a.name AS area_name,
    v.name AS vacancy_name,
    e.name AS employer_name,
    v.experience,
    v.employment,
    v.salary_from,
    v.salary_to
FROM
    employers AS e
    JOIN vacancies AS v
        ON e.id = v.employer_id
    JOIN areas AS a
        ON v.area_id = a.id
        AND 
        (
            -- г. Санкт-Петербург и муниципальные населённые пункты
            a.name IN {spb_78}
            OR
            -- города Ленинградской области и муниципальные населённые пункты
            a.name IN {lo_47}
            OR
            -- регионы имеющие в названии присутствие (Ленинградская обл) или (Ленинградская область) с учётом регистра
            a.name ILIKE '%ленингр%'
            )
WHERE
    (
        LOWER(v.name) SIMILAR TO '%(data scientist|data science|исследователь данных|machine learning|машинн%обучен)%'
        OR 
        (
            v.name LIKE '%ML%' 
            AND 
            v.name NOT ILIKE '%HTML%'
        )
    )
    AND 
    (
        v.name ILIKE '%junior%' 
        OR 
        v.experience = 'Нет опыта'
        OR 
        v.employment = 'Стажировка'
    )
ORDER BY
    area_name,
    employer_name,
    vacancy_name
"""
df_7_5 = pd.read_sql_query(query_7_5, connection)

In [69]:
# результат запроса
df_7_5

Unnamed: 0,area_name,vacancy_name,employer_name,experience,employment,salary_from,salary_to
0,Санкт-Петербург,Data Scientist/Machine Learning Engineer (Deve...,Comexp,Нет опыта,Частичная занятость,,
1,Санкт-Петербург,Senior Data Scientist (AI),DINS,Нет опыта,Полная занятость,,
2,Санкт-Петербург,Junior Data Scientist (Валидация скоринговых м...,Банк ВТБ (ПАО),От 1 года до 3 лет,Полная занятость,,
3,Санкт-Петербург,Математик-аналитик (data scientist / data anal...,ННФормат,Нет опыта,Полная занятость,,98000.0
4,Санкт-Петербург,Junior Data Scientist,Самокат (ООО Умное пространство),От 1 года до 3 лет,Полная занятость,,
5,Санкт-Петербург,Intern/Junior Data Scientist,"СтарЛайн, Научно-производственное объединение",Нет опыта,Стажировка,,
6,Санкт-Петербург,Junior/Middle Data Scientist,"СтарЛайн, Научно-производственное объединение",От 1 года до 3 лет,Полная занятость,,
7,Санкт-Петербург,Junior Data Scientist,Улыбка радуги,Нет опыта,Полная занятость,50000.0,
8,Санкт-Петербург,Исследователь в области машинного обучения и м...,Университет ИТМО,Нет опыта,Полная занятость,80000.0,150000.0


In [70]:
# закрываем соединение
connection.close()

***

# Общий вывод по проекту

- Итак, мы провели практическую работу по <font color='LightSeaGreen'>**CRISP в части Data Understanding**</font>, а именно:
	- Внимательно изучили данные вакансий HeadHunter;
	- Провели детальный анализ вакансий и работодателей;
	- Более подробно предметно остановившись на вакансиях из области Data Science;
	- Провели дополнительные исследования для лучшего понимания представленных данных. 

	<br>

	> В целом, <font color='LightSeaGreen'>***по результатам анализа данных можно сказать, что данные соответствуют ожиданиям и позволят в дальнейшем реализовать цель проекта***</font> - **Создание модели машинного обучения, которая будет рекомендовать вакансии клиентам агентства, претендующим на позицию Data Scientist**

- Основные выводы по анализу данных, применимых к Data Science:
	- Специальность, весьма, востребована на рынка труда, рынок ещё не перегрет и очень быстрорастущий;
	- Достойный уровень оплаты труда, растет пропорционально опыту работы, примерно x2, каждые 3 года;
	- Достаточно высокие требования по основным навыкам для успешной работы. Основной инструмент - SQL запросы, но количество требуемых навыков 6 и более, такие как Python, Git, Pandas, Nupmy и другие hardskills;
	- Опыт работы и обладаемые навыки - самое большое преимущество, как с точки зрения финансов, так и преимуществ, в плане remote / part-time и проектных вариантов работы;
	- Достаточно обширный спектр направлений сфер деятельности и географии (Европа, Восток и другие континенты);
	- Для начинающего специалиста отрасль закрыта в плане удалёнки (на испытательном сроке контроль в офисе), но если "пробиться", то открываются дополнительные возможности по занятости.

	<br>

	> Однако, было отмечено, что в <font color='Tomato'>***процессе сбора данных были допущены некоторые отклонения / неточности (ошибки?)***</font>, которые могли бы облегчить последующий анализ при их наличии:
	- Неточный формат указания адреса регистрации работодателя, региона вакансии;
	- Незаполненные сферы деятельности;
	- Зарплатные вилки содержат аномальные или отсутствующие значения;
	- Было бы полезно добавить в выборку данных различные временнЫе метки.

	<br>
	
- Для полной реализации проекта потребуется пройти следующие шаги:
	- Очистка и нормализация грязных данных (отсутствующие данные, выбросы),
	- Моделирование (агрегирование данных, выбор ключевых признаков, выбор алгоритмов),
	- Тестирование модели,
	- Обучение модели,
	- Оценка результатов.