# Анализ вакансий
**Часть 1**
## Первичная обработка данных

# 1. Служебный код

## 1.1. Импорт необходимых библиотек

In [1]:
from importlib import reload
import pandas as pd
import warnings

In [2]:
import config
reload(config)
from config import settings

import scripts.data_scripts.prepare_data as prepare
reload(prepare)

import scripts.utils.files as files
reload(files)

<module 'scripts.data_scripts.files' from '/mnt/data/projects/active/urfu/vkr/scripts/data_scripts/files.py'>

## 1.2. Настройка параметров

In [3]:
pd.set_option("display.max_rows", 20)
pd.set_option("display.max_columns", 20)
pd.set_option("display.precision",6)
warnings.simplefilter("ignore")

RAW_DATA_FILES=["hh_data_it_2022", "hh_data_it_2021", "hh_data_it_2020", "hh_data_it_2019", "hh_data_it_2018", "hh_data_it_2017", "hh_data_it_2016", "hh_data_it_2015"]

# 2 Загрузка данных и общее описание набора данных

## 2.1 Словесное описание признаков

Элементами данных являются описания вакансий, полученные с сайта hh.ru, полученные с помощью api.hh.ru.
Для анализа взяты не все параметры вакансии, а только те, которые необходимы для задач анализа.
Таким образом, признаки, полученные при парсинге данных с сайта-агрегатора api.hh.ru:

- id (int): Идентификатор вакансии
- name (string): Название
- description (string): Описание в html
- key_skills (Array of string): Ключевые навыки, список названий ключевых навыков, не более 30
- experience_id (string): Опыт работы, возможные значения: "noExperience" ("Нет опыта"),"between1And3" ("От 1 года до 3 лет"), "between3And6" ("От 3 до 6 лет"), "moreThan6" ("Более 6 лет")
- published_at (string): Дата и время публикации вакансии
- employer_id (string) и employer_name: Идентификатор и название компании
- salary_from (string): Нижняя граница зарплаты
- salary_to (string): Верхняя граница зарплаты
- salary_currency (string): Код валюты
- area_id (string): Идентификатор региона
- area_name (string): Название региона
- spec_id_0, spec_id_1, spec_id_2 и spec_0, spec_1, spec_2 - коды и названия специализаций в классификаторе hh.ru

## 2.2. Загрузка данных

Данные разбиты по годам в несколько файлов. Выполним загрузку двух из них за 2021 и 2022 года.

In [4]:
raw_data_local_subdir = settings.get_fresh('RAW_DATA_LOCAL_SUBDIR')
df_list=files.load_files(RAW_DATA_FILES, raw_data_local_subdir, to_decompress=True)

## 2.3. Информация о данных

### Размеры наборов данных

In [5]:
for i, dfi in df_list.items():
    print(f'Размер датаcета {i}:')
    print(f'Строк - {dfi.shape[0]}\nСтолбцов - {dfi.shape[1]}')

Размер датаcета hh_data_it_2022:
Строк - 40398
Столбцов - 40
Размер датаcета hh_data_it_2021:
Строк - 287915
Столбцов - 19
Размер датаcета hh_data_it_2020:
Строк - 587637
Столбцов - 19
Размер датаcета hh_data_it_2019:
Строк - 535956
Столбцов - 19
Размер датаcета hh_data_it_2018:
Строк - 517670
Столбцов - 19
Размер датаcета hh_data_it_2017:
Строк - 391464
Столбцов - 19
Размер датаcета hh_data_it_2016:
Строк - 332460
Столбцов - 19
Размер датаcета hh_data_it_2015:
Строк - 284763
Столбцов - 19


In [6]:
for key in df_list.keys():
    print(key)
    display(df_list[key])

hh_data_it_2022


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,...,Unnamed: 70,Unnamed: 71,Unnamed: 72,Unnamed: 73,Unnamed: 74,spec_id_1,spec_id_2,spec_0,spec_1,spec_2
0,42151148,Эксперт по тестированию на проникновение/Пенте...,1221.0,<p>Привет! Мы расширяем команду пентестеров. И...,,between1And3,2393,"Программный Продукт, ИТ-компания",,,...,,,,,,1110.0,1272.0,"Программирование, Разработка",Компьютерная безопасность,Системная интеграция
1,42151191,Эксперт по тестированию на проникновение/Пенте...,1221.0,<p>Привет! Мы расширяем команду пентестеров. И...,,between1And3,2393,"Программный Продукт, ИТ-компания",,,...,,,,,,1110.0,1272.0,"Программирование, Разработка",Компьютерная безопасность,Системная интеграция
2,42151224,Специалист технической поддержки (бухгалтерски...,1172.0,<p>Крупный российский разработчик информационн...,,noExperience,72977,БАРС Груп,25000,,...,,,,,,1273.0,1082.0,"Начальный уровень, Мало опыта",Системный администратор,Инженер
3,42152647,Оператор системы WMS,1110.0,"<p>ГК «Бест», на рынке находится с 1992 года, ...",,noExperience,3155,"Бест, Торгово-производственная компания, Екате...",45000,,...,,,,,,1273.0,1420.0,Компьютерная безопасность,Системный администратор,Администратор баз данных
4,42153070,"Системный аналитик (DWH/BI, DG/DQ)",1221.0,<p><strong>КОРУС Консалтинг</strong> – одна из...,SQL\nMS Visio\nРазработка технических заданий\...,between3And6,675,КОРУС Консалтинг,,,...,,,,,,1272.0,1025.0,"Программирование, Разработка",Системная интеграция,Аналитик
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
40393,54155520,"Junior Frontend Developer (JS, CSS, HTML)",1221.0,<p><strong>Кто мы?</strong></p> <p>Мы молодая ...,JavaScript\nGit\nAtlassian Jira\nHTML\nCSS,noExperience,5481550,makeROI,24000,48000,...,,,,,,1050.0,1082.0,"Программирование, Разработка",Системы управления предприятием (ERP),Инженер
40394,54155562,Наладчик станков и манипуляторов с программным...,18142.0,<p><strong>ГРУППА КОМПАНИЙ &quot;КАМАЗ&quot; -...,,between1And3,52951,КАМАЗ,40000,45000,...,,,,,,29511.0,29162.0,Машиностроение,"Токарь, Фрезеровщик",Наладчик
40395,54155600,Специалист по планированию производства,17751.0,<p><strong>Компания АО «Главснабсервис» являет...,Производственное планирование\n1С: Производств...,between1And3,1349115,Главснабсервис,85000,,...,,,,,,1025.0,3026.0,Другое,Аналитик,Аналитик
40396,54155643,Главный механик,25381.0,<p> </p> <strong>Требования:</strong> <ul> <li...,Управление персоналом\nДеловое общение\nMS Dos...,between3And6,5593245,Первый хлебозавод,53000,53000,...,,,,,,25386.0,1082.0,Сервисный инженер,Инсталляция и настройка оборудования,Инженер


hh_data_it_2021


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2
0,39870033,PHP Веб-разработчик Bitrix24,1221,<p><strong>Факт </strong>- лидер рынка веб-инт...,PHP\nBackend\nWEB\nБитрикс24\nБитрикс\nBitrix ...,between1And3,939762.0,Факт,100000.0,,RUR,70,Оренбург,2021-01-18 09:39:51+03:00,,,"Программирование, Разработка",,
1,39870044,Инженер-программист,1221,<strong>Обязанности:</strong> <ul> <li>Выполне...,1С: Предприятие 8\nПользователь ПК\nУмение раб...,between1And3,4653343.0,Контакт,20000.0,25000.0,RUR,61,Йошкар-Ола,2021-01-16 10:39:23+03:00,1082.0,,"Программирование, Разработка",Инженер,
2,39870105,Ведущий специалист (Отдел технического обслужи...,1395,<strong>Обязанности:</strong> <ul> <li>Монитор...,Сборка ПК\nРемонт ПК\nНастройка ПК\nНастройка ПО,between1And3,3388.0,«Газпромбанк» (Акционерное общество),,,,77,Рязань,2021-01-12 09:55:42+03:00,5192.0,,Банковское ПО,"Обменные пункты, Банкоматы",
3,39870253,Разработчик ETL,1395,"<p>Компания «Сбербанк», блок Технологии, сейча...",,between1And3,3529.0,Сбербанк,,,,1,Москва,2021-01-15 16:40:06+03:00,1221.0,1270.0,Банковское ПО,"Программирование, Разработка",Сетевые технологии
4,39870287,PHP разработчик / PHP Developer (удаленно),1221,<p>С 2005 года наша команда занимается цифрово...,Git\nHTML\nCSS\nPHP\nMySQL\nAjax\nJavaScript,between1And3,570957.0,Simtech Development,120000.0,,RUR,79,Саратов,2021-01-13 12:11:37+03:00,1359.0,,"Программирование, Разработка",Электронная коммерция,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
287910,50771532,Оператор службы поддержки водителей,1172,<p><strong>В известную службу такси требуется ...,Грамотная речь\nДеловое общение\nКлиентоориент...,noExperience,3634424.0,Ростелеком Контакт-центр,25000.0,,RUR,107,Чебоксары,2021-12-30 18:00:57+03:00,1089.0,12180.0,"Начальный уровень, Мало опыта",Интернет,"Начальный уровень, Мало опыта"
287911,50771536,Trainee Business Analyst / Начинающий бизнес-а...,15093,<p><strong>Tapston</strong> (Tapston Developme...,Английский язык\nAtlassian Jira\nAtlassian Con...,noExperience,3116933.0,Тэпстон Девелопмент,,,,1002,Минск,2021-12-30 18:01:42+03:00,1221.0,1272.0,"Информационные технологии, Интернет, Мультимедиа","Программирование, Разработка",Системная интеграция
287912,50771547,"Инженер по эксплуатации систем ( Глогасс, Тахо...",7267,<strong>Обязанности:</strong> <ul> <li>Поддерж...,Настройка ПК\nНастройка ПО\nТехническая поддер...,noExperience,3813756.0,Автобус 62,45000.0,50000.0,RUR,77,Рязань,2021-12-30 18:05:05+03:00,7733.0,21017.0,Сервисное обслуживание,Другое,Автоперевозки
287913,50771612,Ассистент менеджера по работе с маркетплейсами,1359,<p><strong>Обязанности: </strong></p> <ul> <li...,Пользователь ПК\nЭлектронный документооборот\n...,between1And3,41.0,ЮНЭКТ,48000.0,,RUR,1,Москва,2021-12-30 18:14:05+03:00,,,Электронная коммерция,,


hh_data_it_2020


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2
0,30711158,Тестировщик QA,1117,<p><strong>О Компании</strong></p> <p>Мы помог...,,between1And3,3034828.0,Смарт консалтинг,,,,4,Новосибирск,2020-10-12 05:18:46+03:00,,,Тестирование,,
1,30711538,PHP-разработчик,1221,<p><strong>Vigrom</strong> сегодня – междунаро...,PHP\nSQL\nООП\nPostgreSQL\nMemcached\nSymfony\...,between1And3,1110684.0,Vigrom Corp.,,,,71,Пенза,2020-01-28 10:52:44+03:00,1009.0,1010.0,"Программирование, Разработка",Web инженер,Web мастер
2,30713109,Оператор саll-центра,4278,<p>Каждый день миллионы пользователей находят ...,,noExperience,1740.0,Яндекс,,,,2,Санкт-Петербург,2020-03-21 10:07:10+03:00,1295.0,,Сотрудник call-центра,Телекоммуникации,
3,30714567,Продавец - Консультант офиса продаж и обслужив...,17269,<p><strong>В твоих руках - отличная возможност...,,noExperience,1217313.0,МегаФон Ритейл,23000.0,29000.0,RUR,1395,Копейск,2020-01-13 12:38:10+03:00,17623.0,17242.0,"Телекоммуникации, Сетевые решения",Финансовые услуги,Прямые продажи
4,30716168,Технический консультант,1221,<p><strong>Компания «Северсталь-Инфоком» - цен...,Bash\nPowerShell\nC++\nC#\nJava\nPerl\nPython\...,between1And3,6041.0,"Северсталь, Москва",,,,1753,Череповец,2020-01-23 17:59:56+03:00,1050.0,,"Программирование, Разработка",Системы управления предприятием (ERP),
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
587632,29701878,Senior Data Scientist (Академгородок),1395,<p><strong>LС Group </strong>– продуктовая IT-...,,between3And6,2994882.0,ЭЛСИ ГРУПП,,,,4,Новосибирск,2020-03-12 07:44:15+03:00,1221.0,1327.0,Банковское ПО,"Программирование, Разработка",Управление проектами
587633,29703872,Менеджер по продажам,1225,<p><em>Мы помогаем владельцам малого и среднег...,,noExperience,59436.0,ТаксНет,40000.0,,RUR,88,Казань,2020-03-27 13:24:22+03:00,17183.0,17538.0,Продажи,"Начальный уровень, Мало опыта","Продажи по телефону, Телемаркетинг"
587634,29704859,Ведущий программист 1С,1221,<p>Компания PricewaterhouseCoopers (PwC) реали...,1C: Бухгалтерия\n1С: Предприятие 8\n1С: Управл...,moreThan6,1201.0,PwC,,,,88,Казань,2020-01-13 11:48:07+03:00,1272.0,1113.0,"Программирование, Разработка",Системная интеграция,"Консалтинг, Аутсорсинг"
587635,29707339,Marketing Product Owner,1327,<p><strong>Grow Food готовит и доставляет здор...,,between3And6,2104558.0,GrowFood,,,,2,Санкт-Петербург,2020-01-06 11:14:00+03:00,,,Управление проектами,,


hh_data_it_2019


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2
0,30710009,Системный администратор,1270,<p>Системное администрирование и поддержка пол...,,between1And3,140043.0,Kramp,,,,2078,Чехов,2019-03-25 07:22:32+03:00,1273.0,1089.0,Сетевые технологии,Системный администратор,Интернет
1,30710016,Менеджер по продаже проектов автоматизации САП...,17112,<p><em>Представительство крупной российской IT...,,between1And3,41144.0,АСКОН,35000.0,,RUR,4,Новосибирск,2019-06-14 06:57:56+03:00,17149.0,18081.0,Компьютерные программы,Менеджер по работе с клиентами,Инженер
2,30710022,Менеджер по продажам и обслуживанию в Сall-Центр,1295,<p>Компания Барнаулгоргаз - крупнейшая компани...,Грамотная речь\nРабота в команде\nВедение пере...,noExperience,2651392.0,Барнаулгоргаз,20000.0,57000.0,RUR,11,Барнаул,2019-03-25 07:23:53+03:00,,,Телекоммуникации,,
3,30710036,Senior разработчик,1221,<p>Компания «Этажи» с 2000 года помогает выгод...,,between3And6,669587.0,"Этажи, федеральная компания",75000.0,,RUR,95,Тюмень,2019-03-25 07:25:45+03:00,1327.0,1536.0,"Программирование, Разработка",Управление проектами,CRM системы
4,30710047,Разработчик Python,1221,<strong>Что мы ожидаем от вас:</strong> <ul> <...,,between1And3,33305.0,СКБ-Банк,,,,3,Екатеринбург,2019-03-25 07:26:29+03:00,,,"Программирование, Разработка",,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
535951,29709954,Менеджер по продажам b2b,17269,<p><strong>Задачи должности:</strong></p> <ul>...,,between1And3,608106.0,"МегаКом, ГК",35000.0,,RUR,4,Новосибирск,2019-01-17 13:36:52+03:00,17149.0,17538.0,"Телекоммуникации, Сетевые решения",Менеджер по работе с клиентами,"Продажи по телефону, Телемаркетинг"
535952,29709980,Менеджер продаж корпоративным клиентам (сущест...,1203,<p><strong>Обязанности:</strong></p> <ul> <li>...,Привлечение клиентов\nB2B Продажи\nВедение пер...,between1And3,608106.0,"МегаКом, ГК",40000.0,,RUR,4,Новосибирск,2019-01-17 13:37:24+03:00,1270.0,1295.0,Передача данных и доступ в интернет,Сетевые технологии,Телекоммуникации
535953,29709981,Инженер ИТ,1273,<p><strong>Обязанности:</strong></p> <p>- Уста...,,moreThan6,1443514.0,Бауцентр Рус,56000.0,70000.0,RUR,2062,Пушкино (Московская область),2019-01-23 09:35:51+03:00,1082.0,,Системный администратор,Инженер,
535954,29709987,Контент-менеджер в IT отдел,1172,<p><strong>Обязанности:</strong></p> <ul> <li>...,,between1And3,4303.0,"СиСофт, (CSoft)",,50000.0,RUR,1,Москва,2019-03-13 11:57:03+03:00,1270.0,1272.0,"Начальный уровень, Мало опыта",Сетевые технологии,Системная интеграция


hh_data_it_2018


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2
0,16398095,Программист С++ / С++ Developer,1221,<p><strong>Netwrix Corporation </strong>- межд...,,between1And3,574211.0,Netwrix Corporation,,,,2,Санкт-Петербург,2018-04-13 11:29:31+03:00,1082.0,,"Программирование, Разработка",Инженер,
1,16399803,Менеджер по продажам,17269,<p><strong>ООО «УЦСБ» – Уральский центр систем...,B2B Продажи\nАктивные продажи\nВедение перегов...,between1And3,662065.0,Уральский центр систем безопасности,,,,3,Екатеринбург,2018-05-10 10:47:56+03:00,17333.0,17446.0,"Телекоммуникации, Сетевые решения",Услуги для бизнеса,Системы безопасности
2,28720019,Ведущий специалист контроля качества обслужива...,17269,<p>Ищем к себе в команду коллегу и единомышлен...,,noExperience,1898133.0,Волна мобайл (ООО КТК ТЕЛЕКОМ),,,,131,Симферополь,2018-11-08 15:02:04+03:00,17149.0,25382.0,"Телекоммуникации, Сетевые решения",Менеджер по работе с клиентами,Руководитель сервисного центра
3,28720032,Специалист по абонентским подключениям (ИП),1203,<p><strong>NETBYNET (бренд Wifire) ГК МегаФон ...,,noExperience,43410.0,NETBYNET,,,,2,Санкт-Петербург,2018-11-16 10:22:50+03:00,1172.0,1082.0,Передача данных и доступ в интернет,"Начальный уровень, Мало опыта",Инженер
4,28720034,Специалист ИТ-отдела,1110,<p>Онлайн-кинотеатр ShowJet ищет в свою команд...,,between1And3,1763369.0,ШоуДжет,,,,1,Москва,2018-11-08 15:02:41+03:00,1089.0,,Компьютерная безопасность,Интернет,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
517665,24079923,Бизнес-ассистент,4205,"<p>Компании<strong> Робополис</strong>, а имен...",Реклама\nУправление проектами\nМаркетинговые к...,between1And3,3020731.0,Мирей Роботикс,35000.0,40000.0,RUR,78,Самара,2018-01-13 13:54:29+03:00,2469.0,1327.0,Персональный ассистент,Первичная документация,Управление проектами
517666,24079935,Веб-дизайнер,11062,"<p><strong>Работа в крупном интернет-проекте, ...",,between1And3,2220449.0,МЕГА Сервис,45000.0,60000.0,RUR,89,Тверь,2018-01-13 13:57:39+03:00,3064.0,1089.0,"Дизайн, графика, живопись",Дизайнер,Интернет
517667,24079946,Копирайтер интернет-проектов,11076,<p>Интернет-издательство RedRocketMedia ищет в...,Редактирование текстов\nНаписание текстов\nКор...,between1And3,1330054.0,RedRocketMedia,25000.0,30000.0,RUR,19,Брянск,2018-02-12 17:37:47+03:00,11134.0,11071.0,Издательская деятельность,"Литературная, Редакторская деятельность",Журналистика
517668,24079958,Инженер по внедрению,1110,<p>Команда R-Vision создает инновационный прод...,,between1And3,1885395.0,Р-Вижн,,,,1,Москва,2018-03-14 09:26:22+03:00,1082.0,,Компьютерная безопасность,Инженер,


hh_data_it_2017


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2
0,16269274,Бизнес-аналитик 2 категории,12251,<p><strong>Обязанности:</strong></p> <ul> <li>...,,between3And6,28435.0,Группа компаний БТК,,55000.0,RUR,2,Санкт-Петербург,2017-02-13 09:41:24+03:00,12197.0,1050.0,Реинжиниринг бизнес процессов,Организационное консультирование,Системы управления предприятием (ERP)
1,16392512,Менеджер по продажам,17269,<p><em><strong>«Манго Телеком» - первый россий...,,between1And3,32918.0,MANGO OFFICE,30000.0,80000.0,RUR,76,Ростов-на-Дону,2017-01-12 18:56:25+03:00,17333.0,17112.0,"Телекоммуникации, Сетевые решения",Услуги для бизнеса,Компьютерные программы
2,16399012,Senior Game Project Manager,1475,<p><strong>Requirements:</strong></p> <ul> <li...,,between3And6,62126.0,Sperasoft,,,,2,Санкт-Петербург,2017-03-29 16:02:57+03:00,1327.0,,Игровое ПО,Управление проектами,
3,23690079,Монтажник слаботочных систем / Монтажник систе...,1203,<p>Монтажник слаботочных систем / Монтажник си...,,between1And3,2595750.0,АВН-Инжиниринг,35000.0,,RUR,88,Казань,2017-12-03 14:05:50+03:00,1270.0,1082.0,Передача данных и доступ в интернет,Сетевые технологии,Инженер
4,23690090,Ведущий менеджер по аренде,1270,<p>Билайн – это прежде всего высокопрофессиона...,,between1And3,4934.0,Билайн,,,,1,Москва,2017-12-12 10:16:01+03:00,1225.0,1277.0,Сетевые технологии,Продажи,"Сотовые, Беспроводные технологии"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
391459,21829953,PHP-разработчик,1221,<p><strong>Обязанности:</strong></p> <ul> <li>...,PHP\nYii\nJavaScript\nCSS3\nSQL\nPHP5\nООП\nHT...,between3And6,1292168.0,Polonium Arts,70000.0,,RUR,19,Брянск,2017-07-04 16:50:17+03:00,1009.0,1010.0,"Программирование, Разработка",Web инженер,Web мастер
391460,21829954,Инженер по техническому сопровождению информац...,1203,<p><strong>Обязанности:</strong></p> <ul> <li>...,,between1And3,819947.0,ЦентрИнформ,30000.0,35000.0,RUR,2,Санкт-Петербург,2017-09-25 12:39:50+03:00,1272.0,1082.0,Передача данных и доступ в интернет,Системная интеграция,Инженер
391461,21829963,Оператор call-центра,6319,<p><strong>Обязанности:</strong></p> <ul> <li>...,,noExperience,720606.0,Правильные люди,25000.0,30000.0,RUR,2,Санкт-Петербург,2017-09-08 10:16:00+03:00,15320.0,15391.0,Управление персоналом,Управление персоналом,Консультирование
391462,21829989,Главный архитектор IT,1270,<strong>Обязанности:</strong> <ul> <li>Основна...,,between3And6,2346.0,"Волга-Днепр, Группа компаний",,,,1,Москва,2017-07-04 16:51:37+03:00,1272.0,1050.0,Сетевые технологии,Системная интеграция,Системы управления предприятием (ERP)


hh_data_it_2016


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2
0,16260123,Системный аналитик,1221,<p>Современная и амбициозная российская компан...,UML\nUse Case Analysis\nнаписание технических ...,between1And3,707239.0,Embria,,,,2,Санкт-Петербург,2016-03-10 20:56:17+03:00,1272.0,1296.0,"Программирование, Разработка",Системная интеграция,Технический писатель
1,16260126,Менеджер по работе с клиентами,1225,"<p><em><strong>Развивающаяся компания, успешно...",Активные продажи\nХолодные продажи\nВедение пе...,between3And6,1391634.0,Брайт Солюшенз,,,,1002,Минск,2016-03-10 20:57:08+03:00,1137.0,3148.0,Продажи,Маркетинг,Менеджер по работе с клиентами
2,16260127,Ведущий менеджер по персоналу,1172,<p><strong>Требования:</strong></p> <p>1.Продв...,,noExperience,2139835.0,Галкина А.А.,20000.0,25000.0,RUR,1,Москва,2016-03-10 20:57:31+03:00,1089.0,6319.0,"Начальный уровень, Мало опыта",Интернет,Управление персоналом
3,16260130,Специалист по подбору персонала,1172,<p><strong>Обязанности:</strong></p> <p>1. Под...,,noExperience,2139835.0,Галкина А.А.,32000.0,35000.0,RUR,1,Москва,2016-03-10 20:58:06+03:00,1089.0,6254.0,"Начальный уровень, Мало опыта",Интернет,Рекрутмент
4,16260135,Специалист по подбору персонала,1172,<p><strong>Обязанности:</strong></p> <p>1. Под...,,noExperience,2139835.0,Галкина А.А.,25000.0,35000.0,RUR,2,Санкт-Петербург,2016-03-10 20:58:49+03:00,1089.0,6254.0,"Начальный уровень, Мало опыта",Интернет,Рекрутмент
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
332455,16029968,Фронтенд-разработчик,1221,<p>В команду DigitalWand требуется хороший фро...,HTML5\nCSS3\nБЭМ\nGit\njQuery\nJavaScript\nAja...,between1And3,1901832.0,DigitalWand,20000.0,40000.0,RUR,99,Уфа,2016-02-17 12:36:24+03:00,,,"Программирование, Разработка",,
332456,16029976,Менеджер интернет-магазина,17256,<p><strong>Обязанности:</strong></p> <ul> <li>...,,between1And3,649011.0,INTERMODA,25000.0,40000.0,RUR,66,Нижний Новгород,2016-04-27 13:08:52+03:00,17242.0,17149.0,Розничная торговля,Прямые продажи,Менеджер по работе с клиентами
332457,16029981,Project manager,1225,<p><em>Компания Sale Partners ЧП «Золотые бере...,Project management\nУправление проектами\nВеде...,between1And3,1936811.0,ЧП Золотые Берега,4000.0,8000.0,UAH,127,Одесса,2016-02-17 12:37:03+03:00,1327.0,,Продажи,Управление проектами,
332458,16029984,Инженер связи,1203,<p><strong>Обязанности</strong>:</p> <ul> <li>...,,noExperience,2206.0,Простор Телеком,25000.0,,RUR,92,Тула,2016-02-17 12:37:14+03:00,1082.0,1089.0,Передача данных и доступ в интернет,Инженер,Интернет


hh_data_it_2015


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2
0,7382570,Solution Architect,1221,<p> <b><span>Responsibilities:</span></b></p><...,,between3And6,3945.0,Netcracker Technology Corp.,,,,2,Санкт-Петербург,2015-03-18 13:48:26+03:00,1270.0,1277.0,"Программирование, Разработка",Сетевые технологии,"Сотовые, Беспроводные технологии"
1,7382593,Technical Manager,1221,"<p> <span>NetCracker Technology Corp., a large...",,between3And6,3945.0,Netcracker Technology Corp.,,,,2,Санкт-Петербург,2015-03-18 13:48:26+03:00,1270.0,1295.0,"Программирование, Разработка",Сетевые технологии,Телекоммуникации
2,7382700,.NET Разработчик,1221,"<p>Компания, которая является лидером в област...",,between3And6,841087.0,IHS Global,,,,1002,Минск,2015-01-05 10:08:31+03:00,,,"Программирование, Разработка",,
3,12760014,Специалист технической поддержки (г. Зеленоград),15093,<p><strong>Требования:</strong></p> <ul> <li>в...,,between1And3,13820.0,АКАДО Телеком,,36400.0,RUR,2088,Зеленоград,2015-02-11 09:14:08+03:00,15391.0,1211.0,"Информационные технологии, Интернет, Мультимедиа",Консультирование,"Поддержка, Helpdesk"
4,12760016,Технический специалист (г. Зеленоград),12092,<p><strong>Основные обязанности:</strong></p> ...,,between1And3,13820.0,АКАДО Телеком,36400.0,42000.0,RUR,2088,Зеленоград,2015-02-11 09:14:16+03:00,1273.0,1211.0,Информационные технологии,Системный администратор,"Поддержка, Helpdesk"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
284758,13279918,JavaScript разработчик Front-End,1221,<p><strong>Обазянности:</strong></p> <ul> <li>...,,between1And3,40912.0,БИФИТ,,,,1,Москва,2015-05-15 17:43:01+03:00,1110.0,1270.0,"Программирование, Разработка",Компьютерная безопасность,Сетевые технологии
284759,13279965,Менеджер проектов 1С / Специалист-проектировщик.,1400,<p><strong>Должностные обязанности:</strong></...,,between3And6,1305566.0,Хорошая связь,,,,73,Петрозаводск,2015-04-29 16:55:02+03:00,1003.0,1327.0,Оптимизация сайта (SEO),"CTO, CIO, Директор по IT",Управление проектами
284760,13279985,Главный системный инженер,1272,<p><strong>Обязанности</strong>:</p> <ul> <li>...,,between3And6,1651539.0,Верси,35000.0,,RUR,23,Владимир,2015-04-16 17:25:47+03:00,1273.0,1420.0,Системная интеграция,Системный администратор,Администратор баз данных
284761,13279991,Младший аналитик,1172,<p><strong>Обязанности:</strong></p> <ul> <li>...,,noExperience,1735.0,НПК КАТАРСИС,28000.0,30000.0,RUR,2,Санкт-Петербург,2015-04-16 17:26:43+03:00,1025.0,,"Начальный уровень, Мало опыта",Аналитик,


### Описание типов данных по признакам

In [7]:
for i, dfi in df_list.items():
    print(f'\nДатаcет {i}:')
    dfi.info()


Датаcет hh_data_it_2022:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40398 entries, 0 to 40397
Data columns (total 40 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id               40398 non-null  int64  
 1   name             40339 non-null  object 
 2   spec_id_0        40186 non-null  float64
 3   description      40398 non-null  object 
 4   key_skills       33633 non-null  object 
 5   experience_id    40391 non-null  object 
 6   employer_id      40284 non-null  object 
 7   employer_name    40368 non-null  object 
 8   salary_from      18011 non-null  object 
 9   salary_to        10750 non-null  object 
 10  salary_currency  19837 non-null  object 
 11  area_id          40320 non-null  object 
 12  area_name        40306 non-null  object 
 13  published_at     40343 non-null  object 
 14  Unnamed: 54      132 non-null    object 
 15  Unnamed: 55      113 non-null    object 
 16  Unnamed: 56      79 non-null    

## 2.3. Предварительная обработка датасетов
### Удаление аномальных данных

Анализ полученных данных показывает, что некоторые строки загрузились неверно, что привело к появлению безымянных столбцов.
Ошибка связана с дефектом в записи в csv файле с данными из-за наличия поля "description" со сложным форматированием. Поскольку количество данных достаточно велико, наиболее целесообразно просто удалить ошибочные данные.

Строки с ошибками:

In [8]:
for i, dfi in df_list.items():
    wrong_cols = [col for col in dfi.columns if 'Unnamed' in col]
    print(f'\nДатаcет {i}:')
    display(dfi.loc[dfi[wrong_cols].notna().any(axis=1)])


Датаcет hh_data_it_2022:


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,...,Unnamed: 70,Unnamed: 71,Unnamed: 72,Unnamed: 73,Unnamed: 74,spec_id_1,spec_id_2,spec_0,spec_1,spec_2
39,43334290,1246145,,<p><strong>Обязанности:</strong></p> <ul> <li>...,</li> <li>проведение ремонта транспортных средств,</li> <li>знание программы 1С,</p> </li> <li> <p>Предоставляется спецодежда,</p> </li> <li> <p>Трудоустройство осуществляе...,Стандарт,True,...,Полная занятость,,,,,,,,,
40,43334291,1246145,,<p><strong>Обязанности:</strong></p> <ul> <li>...,</li> <li>проведение ремонта транспортных средств,</li> <li>знание программы 1С,</p> </li> <li> <p>Предоставляется спецодежда,</p> </li> <li> <p>Трудоустройство осуществляе...,Стандарт,True,...,Полная занятость,,,,,,,,,
160,45637986,Открытая,,<p><strong>В связи с увеличением объема произв...,</li> </ul> <strong>Требования:</strong> <ul> ...,</strong></li> <li>Спецодежда,От 1 года до 3 лет,"18.142 Машиностроение 18 Производство, сельско...",True,https://hh.ru/employer/140061,...,,,,,,,,,,
971,49020813,,,<p>ООО &quot,Грин Агро-Сахалин&quot,заработная плата.</li> </ul>,standard,Стандарт,False,open,...,,,,,,,,,,
1405,49184951,RUR,,<strong>Обязанности:</strong> <ul> <li>Токарна...,</li> <li>Глубокое сверление и расточка,False,,False,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39852,54034752,False,,<p><strong>Вахта до конца декабря в г. Гродно ...,</li> <li>Опыт работы шлифовщиком от 1 года.</...,False,True,2255720,,,...,,,,,,,,,,
40161,54152275,Открытая,,<strong>Обязанности:</strong> <ul> <li> <p>Ана...,</p> </li> <li> <p>Анализ исходного кода пакет...,</p> </li> <li> <p>Знание СУБД Oracle,От 3 до 6 лет,17.751 Другое 17 Продажи\n1.25 Аналитик 1 Инфо...,True,https://hh.ru/employer/6189,...,,,,,,,,,,
40162,54152276,Открытая,,<strong>Обязанности:</strong> <ul> <li> <p>Ана...,</p> </li> <li> <p>Анализ исходного кода пакет...,</p> </li> <li> <p>Знание СУБД Oracle,От 3 до 6 лет,17.751 Другое 17 Продажи\n1.25 Аналитик 1 Инфо...,True,https://hh.ru/employer/6189,...,,,,,,,,,,
40163,54152277,Открытая,,<strong>Обязанности:</strong> <ul> <li> <p>Ана...,</p> </li> <li> <p>Анализ исходного кода пакет...,</p> </li> <li> <p>Знание СУБД Oracle,От 3 до 6 лет,17.751 Другое 17 Продажи\n1.25 Аналитик 1 Инфо...,True,https://hh.ru/employer/6189,...,,,,,,,,,,



Датаcет hh_data_it_2021:


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2



Датаcет hh_data_it_2020:


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2



Датаcет hh_data_it_2019:


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2



Датаcет hh_data_it_2018:


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2



Датаcет hh_data_it_2017:


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2



Датаcет hh_data_it_2016:


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2



Датаcет hh_data_it_2015:


Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2


Удаляем некорректные строки, а также лишние столбцы:

In [9]:
for i, dfi in df_list.items():
    dropped_count=prepare.remove_unnamed_cols(dfi)
    print(f'\nДатаcет {i}: удалено столбцов {dropped_count}')
    display(dfi.info())


Датаcет hh_data_it_2022: удалено столбцов 21
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40182 entries, 0 to 40181
Data columns (total 19 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id               40182 non-null  int64  
 1   name             40182 non-null  object 
 2   spec_id_0        40182 non-null  float64
 3   description      40182 non-null  object 
 4   key_skills       33417 non-null  object 
 5   experience_id    40182 non-null  object 
 6   employer_id      40122 non-null  object 
 7   employer_name    40182 non-null  object 
 8   salary_from      17871 non-null  object 
 9   salary_to        10599 non-null  object 
 10  salary_currency  19710 non-null  object 
 11  area_id          40182 non-null  object 
 12  area_name        40182 non-null  object 
 13  published_at     40182 non-null  object 
 14  spec_id_1        38357 non-null  float64
 15  spec_id_2        35280 non-null  float64
 16  spec_0      

None


Датаcет hh_data_it_2021: удалено столбцов 0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 287915 entries, 0 to 287914
Data columns (total 19 columns):
 #   Column           Non-Null Count   Dtype                    
---  ------           --------------   -----                    
 0   id               287915 non-null  int64                    
 1   name             287915 non-null  object                   
 2   spec_id_0        287915 non-null  int64                    
 3   description      287915 non-null  object                   
 4   key_skills       229830 non-null  object                   
 5   experience_id    287915 non-null  object                   
 6   employer_id      287477 non-null  float64                  
 7   employer_name    287915 non-null  object                   
 8   salary_from      124427 non-null  float64                  
 9   salary_to        78088 non-null   float64                  
 10  salary_currency  137310 non-null  object                   

None


Датаcет hh_data_it_2020: удалено столбцов 0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 587637 entries, 0 to 587636
Data columns (total 19 columns):
 #   Column           Non-Null Count   Dtype                    
---  ------           --------------   -----                    
 0   id               587637 non-null  int64                    
 1   name             587637 non-null  object                   
 2   spec_id_0        587637 non-null  int64                    
 3   description      587637 non-null  object                   
 4   key_skills       431738 non-null  object                   
 5   experience_id    587637 non-null  object                   
 6   employer_id      586477 non-null  float64                  
 7   employer_name    587637 non-null  object                   
 8   salary_from      258741 non-null  float64                  
 9   salary_to        164509 non-null  float64                  
 10  salary_currency  285014 non-null  object                   

None


Датаcет hh_data_it_2019: удалено столбцов 0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 535956 entries, 0 to 535955
Data columns (total 19 columns):
 #   Column           Non-Null Count   Dtype                    
---  ------           --------------   -----                    
 0   id               535956 non-null  int64                    
 1   name             535956 non-null  object                   
 2   spec_id_0        535956 non-null  int64                    
 3   description      535956 non-null  object                   
 4   key_skills       253047 non-null  object                   
 5   experience_id    535956 non-null  object                   
 6   employer_id      534903 non-null  float64                  
 7   employer_name    535956 non-null  object                   
 8   salary_from      243087 non-null  float64                  
 9   salary_to        154594 non-null  float64                  
 10  salary_currency  266918 non-null  object                   

None


Датаcет hh_data_it_2018: удалено столбцов 0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 517670 entries, 0 to 517669
Data columns (total 19 columns):
 #   Column           Non-Null Count   Dtype                    
---  ------           --------------   -----                    
 0   id               517670 non-null  int64                    
 1   name             517670 non-null  object                   
 2   spec_id_0        517670 non-null  int64                    
 3   description      517670 non-null  object                   
 4   key_skills       173650 non-null  object                   
 5   experience_id    517670 non-null  object                   
 6   employer_id      516705 non-null  float64                  
 7   employer_name    517670 non-null  object                   
 8   salary_from      262150 non-null  float64                  
 9   salary_to        170846 non-null  float64                  
 10  salary_currency  283688 non-null  object                   

None


Датаcет hh_data_it_2017: удалено столбцов 0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 391464 entries, 0 to 391463
Data columns (total 19 columns):
 #   Column           Non-Null Count   Dtype                    
---  ------           --------------   -----                    
 0   id               391464 non-null  int64                    
 1   name             391464 non-null  object                   
 2   spec_id_0        391464 non-null  int64                    
 3   description      391464 non-null  object                   
 4   key_skills       114195 non-null  object                   
 5   experience_id    391464 non-null  object                   
 6   employer_id      390672 non-null  float64                  
 7   employer_name    391464 non-null  object                   
 8   salary_from      187747 non-null  float64                  
 9   salary_to        111855 non-null  float64                  
 10  salary_currency  203791 non-null  object                   

None


Датаcет hh_data_it_2016: удалено столбцов 0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 332460 entries, 0 to 332459
Data columns (total 19 columns):
 #   Column           Non-Null Count   Dtype                    
---  ------           --------------   -----                    
 0   id               332460 non-null  int64                    
 1   name             332460 non-null  object                   
 2   spec_id_0        332460 non-null  int64                    
 3   description      332460 non-null  object                   
 4   key_skills       81745 non-null   object                   
 5   experience_id    332460 non-null  object                   
 6   employer_id      331766 non-null  float64                  
 7   employer_name    332460 non-null  object                   
 8   salary_from      165429 non-null  float64                  
 9   salary_to        97742 non-null   float64                  
 10  salary_currency  177431 non-null  object                   

None


Датаcет hh_data_it_2015: удалено столбцов 0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284763 entries, 0 to 284762
Data columns (total 19 columns):
 #   Column           Non-Null Count   Dtype                    
---  ------           --------------   -----                    
 0   id               284763 non-null  int64                    
 1   name             284763 non-null  object                   
 2   spec_id_0        284763 non-null  int64                    
 3   description      284763 non-null  object                   
 4   key_skills       31596 non-null   object                   
 5   experience_id    284763 non-null  object                   
 6   employer_id      284203 non-null  float64                  
 7   employer_name    284763 non-null  object                   
 8   salary_from      137501 non-null  float64                  
 9   salary_to        89131 non-null   float64                  
 10  salary_currency  147698 non-null  object                   

None

### Объединение данных

Теперь можно эти датафреймы объединить:

In [11]:
df=prepare.concat_dataframes(df_list.values())
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2978047 entries, 0 to 2978046
Data columns (total 19 columns):
 #   Column           Dtype  
---  ------           -----  
 0   id               int64  
 1   name             object 
 2   spec_id_0        float64
 3   description      object 
 4   key_skills       object 
 5   experience_id    object 
 6   employer_id      object 
 7   employer_name    object 
 8   salary_from      object 
 9   salary_to        object 
 10  salary_currency  object 
 11  area_id          object 
 12  area_name        object 
 13  published_at     object 
 14  spec_id_1        float64
 15  spec_id_2        float64
 16  spec_0           object 
 17  spec_1           object 
 18  spec_2           object 
dtypes: float64(3), int64(1), object(15)
memory usage: 431.7+ MB


Столбцы spec_0, spec_1, spec_2 содержат информацию о специализации в соответствии с внутренней классификацией портала hh.ru.
Согласно этой классификации, каждая вакансия может относиться к нескольким специализациям.
Для данного исследования достаточно одной специализации. Она будет использоваться только для предварительной фильтрации данных.
Всего в датасете представлено 482 специализации.

In [12]:
spec_values=pd.concat([df.spec_0.value_counts(), df.spec_1.value_counts(), df.spec_2.value_counts()], axis=1, ignore_index=True)
spec_values

Unnamed: 0,0,1,2
"Программирование, Разработка",946676.0,187538.0,21946.0
"Начальный уровень, Мало опыта",215469.0,48296.0,30820.0
Банковское ПО,128122.0,5174.0,1680.0
Сетевые технологии,121688.0,89100.0,47969.0
Продажи,108528.0,81524.0,54082.0
...,...,...,...
Машинист экскаватора,,,10.0
Автожестянщик,,,8.0
Маляр,,,7.0
Семейное право,,,5.0


Для дальнейшей работы ограничим количество специализаций.
Для построения модели оставим только вакансии, относящиеся к наиболее многочисленной группе из таблицы выше: профессиональная область - "1. Информационные технологии, интернет, телеком", специализация - "1.221. Программирование, Разработка".
Отберем только те вакансии, для которых хотя бы одна из трех специализаций совпадает с выбранной:

In [13]:
df = df[((df.spec_id_1.notna()) & (df.spec_id_1== 1221)) | ((df.spec_id_0.notna()) & (df.spec_id_0== 1221)) |((df.spec_id_2.notna()) & (df.spec_id_2== 1221)) ]
df

Unnamed: 0,id,name,spec_id_0,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,spec_id_1,spec_id_2,spec_0,spec_1,spec_2
0,42151148,Эксперт по тестированию на проникновение/Пенте...,1221.0,<p>Привет! Мы расширяем команду пентестеров. И...,,between1And3,2393,"Программный Продукт, ИТ-компания",,,,4,Новосибирск,2022-03-02T11:56:37+0300,1110.0,1272.0,"Программирование, Разработка",Компьютерная безопасность,Системная интеграция
1,42151191,Эксперт по тестированию на проникновение/Пенте...,1221.0,<p>Привет! Мы расширяем команду пентестеров. И...,,between1And3,2393,"Программный Продукт, ИТ-компания",,,,1,Москва,2022-03-02T11:56:33+0300,1110.0,1272.0,"Программирование, Разработка",Компьютерная безопасность,Системная интеграция
4,42153070,"Системный аналитик (DWH/BI, DG/DQ)",1221.0,<p><strong>КОРУС Консалтинг</strong> – одна из...,SQL\nMS Visio\nРазработка технических заданий\...,between3And6,675,КОРУС Консалтинг,,,,1,Москва,2022-03-01T12:01:08+0300,1272.0,1025.0,"Программирование, Разработка",Системная интеграция,Аналитик
5,42227361,Специалист по IT,1395.0,<p><strong>Специалист по информационным технол...,,noExperience,1840010,филиал ФКУ Налог-Сервис ФНС России в Республик...,32000,50000,RUR,88,Казань,2022-03-21T11:18:32+0300,1221.0,1420.0,Банковское ПО,"Программирование, Разработка",Администратор баз данных
8,42323563,Системный администратор/программист,1221.0,<strong>Обязанности:</strong> <ul> <li> <p>Адм...,Администрирование серверов Linux\nАдминистриро...,between1And3,1080425,"Челябинский государственный университет, ФГБОУ...",30000,,RUR,104,Челябинск,2022-03-14T06:20:21+0300,1273.0,,"Программирование, Разработка",Системный администратор,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2978032,13279849,IOS разработчик,1221.0,"<p>amoCRM - это облачный сервис, который позво...",,between1And3,999442.0,amoCRM,,80000.0,RUR,1,Москва,2015-04-16 17:10:46+03:00,1474.0,,"Программирование, Разработка",Стартапы,
2978034,13279864,Java-разработчик,1221.0,"<p>Приглашаем присоединиться к команде, котора...",Java\nSQL\nJDBC\nXML\nXsd\nSpring Core\nSOAP,between1And3,22494.0,Неофлекс,,,,1,Москва,2015-11-10 09:53:27+03:00,1082.0,,"Программирование, Разработка",Инженер,
2978036,13279878,Квант-трейдер,1221.0,<p>Один из лидеров алгоритмической торговли на...,,between3And6,1833.0,Брокеркредитсервис,,,,1,Москва,2015-05-06 20:52:06+03:00,1117.0,5101.0,"Программирование, Разработка",Тестирование,"Трейдинг, Дилинг"
2978038,13279885,Frontend разработчик / верстальщик,1221.0,<p>Оператору по приему моментальных платежей &...,,between1And3,48666.0,Чек-онлайн,30000.0,,RUR,76,Ростов-на-Дону,2015-05-12 10:54:50+03:00,,,"Программирование, Разработка",,


Удалось значительно уменьшить объем датасета. Теперь шесть столбцов со специализацией больше не нужны и их можно удалить:

In [14]:
prepare.drop_spec_cols(df)

6

### Преобразования признаков

Столбцы 'key_skills', 'salary_from', 'salary_to', 'salary_currency', 'employer_id', 'spec_1', 'spec_2' содержат пустые значения. Это означает, что работодатель не заполнил эти поля. Для решения поставленной задачи эти столбцы существенной роли не играют, поскольку были добавлены в датасет для дополнительной информации о вакансии, поэтому заполним их значениями по умолчанию.

In [15]:
df.isnull().sum()

id                      0
name                    0
description             0
key_skills         567644
experience_id           0
employer_id          2039
employer_name           0
salary_from        700923
salary_to          854811
salary_currency    653063
area_id                 0
area_name               0
published_at            0
dtype: int64

In [16]:
count=prepare.fill_nans(df)
print('Количество пропусков:', count)

Количество пропусков: id                 0
name               0
description        0
key_skills         0
experience_id      0
employer_id        0
employer_name      0
salary_from        0
salary_to          0
salary_currency    0
area_id            0
area_name          0
published_at       0
dtype: int64


Также некоторые столбцы имеют неверный тип данных:
- столбец 'published_at' имеет тип данных 'object', а необходимо 'datetime';
- столбцы 'area_id', 'employer_id' имеют тип данных 'object', а необходимо 'int32';
- столбцы 'salary_from', 'salary_to' имеют тип данных 'object', а необходимо 'int32'.
Исправим это:

In [17]:
prepare.fix_data_types(df)
df.dtypes

id                                     int64
name                                  object
description                           object
key_skills                            object
experience_id                         object
employer_id                           uint32
employer_name                         object
salary_from                           uint32
salary_to                             uint32
salary_currency                       object
area_id                               uint16
area_name                             object
published_at       datetime64[ns, UTC+03:00]
dtype: object

Проанализируем распределение значений в признаках:

In [18]:
df.describe(include=['object','datetime64[ns]', 'category'])

Unnamed: 0,name,description,key_skills,experience_id,employer_name,salary_currency,area_name
count,1156160,1156160,1156160.0,1156160,1156160,1156160,1156160
unique,250006,744300,254990.0,4,77614,10,2934
top,Программист 1С,<p>Приглашаем Senior .NET-разработчиков в наш ...,,between1And3,Сбербанк,RUR,Москва
freq,46319,1069,567644.0,584294,19160,1087150,345135


Некоторые столбцы имеют ограниченный набор значений и, по сути, являются категориальными: столбец 'experience_id' содержит 4 уникальных значения, salary_currency - 10:

In [19]:
df.experience_id.value_counts()

experience_id
between1And3    584294
between3And6    417260
noExperience    112260
moreThan6        42346
Name: count, dtype: int64

In [20]:
df.salary_currency.value_counts()

salary_currency
RUR    1087150
USD      29269
KZT      18854
BYR       8802
EUR       5641
UAH       4906
UZS       1068
KGS        294
AZN        172
GEL          4
Name: count, dtype: int64

Закодируем категориальные признаки целыми числами:

In [21]:
prepare.cat_to_num(df)
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1156160 entries, 0 to 2978042
Data columns (total 13 columns):
 #   Column           Non-Null Count    Dtype                    
---  ------           --------------    -----                    
 0   id               1156160 non-null  int64                    
 1   name             1156160 non-null  object                   
 2   description      1156160 non-null  object                   
 3   key_skills       1156160 non-null  object                   
 4   experience_id    1156160 non-null  uint8                    
 5   employer_id      1156160 non-null  uint32                   
 6   employer_name    1156160 non-null  object                   
 7   salary_from      1156160 non-null  uint32                   
 8   salary_to        1156160 non-null  uint32                   
 9   salary_currency  1156160 non-null  uint8                    
 10  area_id          1156160 non-null  uint16                   
 11  area_name        1156160 non-

В результате выполненных преобразований размер данных в памяти уменьшился в несколько раз.

### Удаление дубликатов

In [22]:
df.describe(include=['object','datetime64[ns]', 'category'])

Unnamed: 0,name,description,key_skills,employer_name,area_name
count,1156160,1156160,1156160.0,1156160,1156160
unique,250006,744300,254990.0,77614,2934
top,Программист 1С,<p>Приглашаем Senior .NET-разработчиков в наш ...,,Сбербанк,Москва
freq,46319,1069,567644.0,19160,345135


Как видно из таблицы, в столбцах с текстовым содержимым много одинаковых данных. Это особенно нежелательно для признака с описанием вакансии. Работодатели часто создают однотипные объявления, например, для разных регионов, или републикуют свои объявления через некоторые интервалы времени. Оценим количество дублей.

Объявления с одинаковыми названием, описанием, работодателем, навыками и опытом (отличаются только полями, не создающими отличительных признаков вакансии, таких как дата публикации, регион, идентификатор и т.п.):

In [23]:
same_cols=['name','description','experience_id', 'key_skills', 'employer_id']
print(f'Количество одинаковых объявлений: {df[same_cols].duplicated(keep=False).sum()}')

Количество одинаковых объявлений: 539001


In [24]:
df2=df[df[same_cols].duplicated(keep=False)].sort_values(by='description', ascending=True, ignore_index=True)
df2

Unnamed: 0,id,name,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at
0,24550613,Серверный разработчик,<p> </p> <p> </p> <p>В связи с рас...,,1,3239489,Картрек,50000,80000,0,88,Казань,2018-02-13 16:36:30+03:00
1,24550612,Серверный разработчик,<p> </p> <p> </p> <p>В связи с рас...,,1,3239489,Картрек,50000,80000,0,3,Екатеринбург,2018-02-13 16:36:30+03:00
2,24550614,Серверный разработчик,<p> </p> <p> </p> <p>В связи с рас...,,1,3239489,Картрек,50000,80000,0,4,Новосибирск,2018-02-13 16:36:30+03:00
3,18913578,Senior PHP разработчик,<p> </p> <p><strong>Сегодня мы при...,,2,2846280,Компания «ФИНТЕРРА»,100000,0,0,95,Тюмень,2016-11-10 05:36:41+03:00
4,18913580,Senior PHP разработчик,<p> </p> <p><strong>Сегодня мы при...,,2,2846280,Компания «ФИНТЕРРА»,100000,0,0,78,Самара,2016-11-10 05:37:07+03:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
538996,24966349,Full Stack Developer,▬▬▬▬▬▬▬▬▬▬▬<br />Who are we?<br />▬▬▬▬▬▬▬▬▬▬▬<...,AngularJS,2,2160182,RapidSeedbox,120000,0,0,72,Пермь,2018-03-17 06:23:23+03:00
538997,24966348,Full Stack Developer,▬▬▬▬▬▬▬▬▬▬▬<br />Who are we?<br />▬▬▬▬▬▬▬▬▬▬▬<...,AngularJS,2,2160182,RapidSeedbox,120000,0,0,68,Омск,2018-03-17 06:23:23+03:00
538998,24966360,Full Stack Developer For Startup - Develop Awe...,▬▬▬▬▬▬▬▬▬▬▬<br />Who are we?<br />▬▬▬▬▬▬▬▬▬▬▬<...,Software Development,2,2160182,RapidSeedbox,120000,0,0,1,Москва,2018-04-16 06:37:11+03:00
538999,22810715,Full Stack Developer For Startup - AngularJS E...,▬▬▬▬▬▬▬▬▬▬▬<br />Who are we?<br />▬▬▬▬▬▬▬▬▬▬▬<...,AngularJS,2,2160182,RapidSeedbox,120000,0,0,1,Москва,2017-10-20 18:09:57+03:00


Дублей много. Их необходимо удалить:

In [25]:
dropped=prepare.drop_all_fields_duplicates(df,to_reset_index=True)
print(f'Удалено одинаковых объявлений: {dropped}')

Удалено одинаковых объявлений: 371449


In [26]:
df.describe(include=['object','datetime64[ns]', 'category'])

Unnamed: 0,name,description,key_skills,employer_name,area_name
count,784704,784704,784704.0,784704,784704
unique,250003,744294,254988.0,77578,1639
top,Программист 1С,<p>China Electronic Technology Group Corporati...,,Сбербанк,Москва
freq,29240,43,371816.0,16005,264574


Анализ таблицы показывает, что все еще много объявлений с неуникальным содержимым. Исследуем этот вопрос.

Объявления с одинаковым описанием  (отличаются названием, работодателем, навыками и опытом):

In [27]:
df[df.description.duplicated(keep=False)].sort_values(by='description', ascending=True, ignore_index=True)

Unnamed: 0,id,name,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at
0,30398276,JavaScript разработчик,<p><strong><em>Позиция подразумева...,AngularJS\nJavaScript\njQuery\nNode.js,2,6769,"EPAM Systems, Inc.",0,0,0,15,Астрахань,2019-03-02 13:46:07+03:00
1,30856099,JavaScript разработчик,<p><strong><em>Позиция подразумева...,AngularJS\nJavaScript\njQuery\nNode.js,1,6769,"EPAM Systems, Inc.",0,0,0,51,Сыктывкар,2019-04-02 10:07:32+03:00
2,34009578,DevOps engineer(офис Москва),<p><strong>DevOps engineer</strong...,Python\nGit\nLinux\nBash\nУправленческие навыки,1,4219,Tele2,0,0,0,26,Воронеж,2019-10-09 17:26:13+03:00
3,34009579,DevOps engineer (офис Москва),<p><strong>DevOps engineer</strong...,Python\nGit\nLinux\nBash\nУправленческие навыки,1,4219,Tele2,0,0,0,2,Санкт-Петербург,2019-10-09 17:26:13+03:00
4,32765479,Программист,<p>Мы разрабатываем уникальные dig...,PHP\nYii\nZend Framework\nJavaScript\njQuery\n...,1,2297436,Mozgami,0,0,0,2850,Кызыл-Кия,2019-09-27 14:24:04+03:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
75291,20452680,Senior iOS developer,Швейцарская компания приглашает для длительног...,iOS\nC/C++\nXcode\nObjective-C,2,1979728,Swiss Technologies,2000,0,1,54,Красноярск,2017-06-04 13:07:23+03:00
75292,20398307,IOS программист,Швейцарская компания приглашает для длительног...,iOS\nC/C++\nXcode\nObjective-C\nPython\nSwift,2,1979728,Swiss Technologies,2000,0,1,135,Харьков,2017-04-28 23:53:29+03:00
75293,24966349,Full Stack Developer,▬▬▬▬▬▬▬▬▬▬▬<br />Who are we?<br />▬▬▬▬▬▬▬▬▬▬▬<...,AngularJS,2,2160182,RapidSeedbox,120000,0,0,72,Пермь,2018-03-17 06:23:23+03:00
75294,24966350,Full Stack Developer For Startup,▬▬▬▬▬▬▬▬▬▬▬<br />Who are we?<br />▬▬▬▬▬▬▬▬▬▬▬<...,AngularJS,2,2160182,RapidSeedbox,120000,0,0,104,Челябинск,2018-03-17 06:23:23+03:00


Значительная часть объявлений имеет неуникальное описание. Необходимо выяснить, действительно ли они являются дублями.

Объявления с одинаковыми описанием и работодателем (отличаются названием, навыками и опытом):

In [28]:
same_cols=['description', 'employer_id']
df[df[same_cols].duplicated(keep=False)].sort_values(by='description', ascending=True, ignore_index=True)

Unnamed: 0,id,name,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at
0,30398276,JavaScript разработчик,<p><strong><em>Позиция подразумева...,AngularJS\nJavaScript\njQuery\nNode.js,2,6769,"EPAM Systems, Inc.",0,0,0,15,Астрахань,2019-03-02 13:46:07+03:00
1,30856099,JavaScript разработчик,<p><strong><em>Позиция подразумева...,AngularJS\nJavaScript\njQuery\nNode.js,1,6769,"EPAM Systems, Inc.",0,0,0,51,Сыктывкар,2019-04-02 10:07:32+03:00
2,34009578,DevOps engineer(офис Москва),<p><strong>DevOps engineer</strong...,Python\nGit\nLinux\nBash\nУправленческие навыки,1,4219,Tele2,0,0,0,26,Воронеж,2019-10-09 17:26:13+03:00
3,34009579,DevOps engineer (офис Москва),<p><strong>DevOps engineer</strong...,Python\nGit\nLinux\nBash\nУправленческие навыки,1,4219,Tele2,0,0,0,2,Санкт-Петербург,2019-10-09 17:26:13+03:00
4,31301144,Back-end Web Разработчик,<p>Мы разрабатываем уникальные dig...,PHP\nYii\nZend Framework\nJavaScript\njQuery\n...,1,2297436,Mozgami,0,0,0,2855,Токмок,2019-05-28 14:57:49+03:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
73540,20452680,Senior iOS developer,Швейцарская компания приглашает для длительног...,iOS\nC/C++\nXcode\nObjective-C,2,1979728,Swiss Technologies,2000,0,1,54,Красноярск,2017-06-04 13:07:23+03:00
73541,20398307,IOS программист,Швейцарская компания приглашает для длительног...,iOS\nC/C++\nXcode\nObjective-C\nPython\nSwift,2,1979728,Swiss Technologies,2000,0,1,135,Харьков,2017-04-28 23:53:29+03:00
73542,24966362,Full Stack Developer For Startup - Develop Awe...,▬▬▬▬▬▬▬▬▬▬▬<br />Who are we?<br />▬▬▬▬▬▬▬▬▬▬▬<...,Software Development,2,2160182,RapidSeedbox,120000,0,0,3,Екатеринбург,2018-04-16 06:37:11+03:00
73543,24966349,Full Stack Developer,▬▬▬▬▬▬▬▬▬▬▬<br />Who are we?<br />▬▬▬▬▬▬▬▬▬▬▬<...,AngularJS,2,2160182,RapidSeedbox,120000,0,0,72,Пермь,2018-03-17 06:23:23+03:00


In [29]:
print(f'Количество одинаковых объявлений: {df[same_cols].duplicated(keep=False).sum()}')

Количество одинаковых объявлений: 73545


Из таблицы видно, что очень много работодателей используют один и тот же текст объявлений для разных вакансий и должностей.

Объявления с одинаковыми названием, описанием и работодателем (отличаются только навыками и опытом):

In [30]:
same_cols=['description', 'employer_id', 'name']
df[df[same_cols].duplicated(keep=False)].sort_values(by='description', ascending=True, ignore_index=True)

Unnamed: 0,id,name,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at
0,30856099,JavaScript разработчик,<p><strong><em>Позиция подразумева...,AngularJS\nJavaScript\njQuery\nNode.js,1,6769,"EPAM Systems, Inc.",0,0,0,51,Сыктывкар,2019-04-02 10:07:32+03:00
1,30398276,JavaScript разработчик,<p><strong><em>Позиция подразумева...,AngularJS\nJavaScript\njQuery\nNode.js,2,6769,"EPAM Systems, Inc.",0,0,0,15,Астрахань,2019-03-02 13:46:07+03:00
2,34519188,Android\ iOS Developer,<strong>Задача:</strong> <ul> <li>...,Git\nAndroid\nKotlin\nJava\niOS\nSwift\nObject...,1,1947330,ANCOR FinTech,0,0,0,54,Красноярск,2019-11-12 07:10:11+03:00
3,34519187,Android\ iOS Developer,<strong>Задача:</strong> <ul> <li>...,Git\nAndroid\nKotlin\nJava\niOS\nObjective-C\n...,1,1947330,ANCOR FinTech,0,0,0,90,Томск,2019-11-12 07:10:11+03:00
4,32362823,Технический архитектор 1С,<em><strong>Ваши задачи:</strong></em> <ul> <l...,,2,139,IBS,0,0,0,1,Москва,2019-08-05 09:24:36+03:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
28972,39081282,Программист C#,Чем заниматься : Разрабатывать и поддерживать ...,Git\nC#\nXML\nOracle Pl/SQL\nMS SQL Server\nSQL,0,4258227,В2-Групп,0,0,0,3695,Промышленная,2020-09-07 16:50:43+03:00
28973,20398326,Программист iOS,Швейцарская компания приглашает для длительног...,iOS\nC/C++\nXcode\nObjective-C,2,1979728,Swiss Technologies,2000,0,1,32,Иваново (Ивановская область),2017-05-29 00:24:49+03:00
28974,20398329,Senior iOS developer,Швейцарская компания приглашает для длительног...,iOS\nC/C++\nXcode\nObjective-C,2,1979728,Swiss Technologies,2000,0,1,131,Симферополь,2017-05-29 00:26:27+03:00
28975,20463031,Senior iOS developer,Швейцарская компания приглашает для длительног...,iOS\nC/C++\nXcode\nObjective-C\nSwift,2,1979728,Swiss Technologies,2000,0,1,1,Москва,2017-06-07 16:44:55+03:00


In [31]:
print(f'Количество одинаковых объявлений: {df[same_cols].duplicated(keep=False).sum()}')

Количество одинаковых объявлений: 28977


Примерно в одном случае из трех работодатели при повторной публикации объявления используют одно и то же описание. Отличаются такие объявления  либо датой публикации, либо регионом. При этом перечень навыков и стаж могут незначительно изменяться, однако такие объявления несомненно являются дублями.
Из таблицы видно, что опыт многие работодатели проставляют рандомно, и разным значениям стажа соответствуют одинаковые должности с одинаковыми зарплатами. Поэтому использовать опыт в качестве отличительного признака при определении дублей нет никакого смысла.

Объявления с одинаковыми описанием, навыками и работодателем (отличаются только названием и опытом):

In [32]:
same_cols=['description', 'employer_id', 'key_skills']
df[df[same_cols].duplicated(keep=False)].sort_values(by='description', ascending=True, ignore_index=True)

Unnamed: 0,id,name,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at
0,30856099,JavaScript разработчик,<p><strong><em>Позиция подразумева...,AngularJS\nJavaScript\njQuery\nNode.js,1,6769,"EPAM Systems, Inc.",0,0,0,51,Сыктывкар,2019-04-02 10:07:32+03:00
1,30398276,JavaScript разработчик,<p><strong><em>Позиция подразумева...,AngularJS\nJavaScript\njQuery\nNode.js,2,6769,"EPAM Systems, Inc.",0,0,0,15,Астрахань,2019-03-02 13:46:07+03:00
2,34009578,DevOps engineer(офис Москва),<p><strong>DevOps engineer</strong...,Python\nGit\nLinux\nBash\nУправленческие навыки,1,4219,Tele2,0,0,0,26,Воронеж,2019-10-09 17:26:13+03:00
3,34009579,DevOps engineer (офис Москва),<p><strong>DevOps engineer</strong...,Python\nGit\nLinux\nBash\nУправленческие навыки,1,4219,Tele2,0,0,0,2,Санкт-Петербург,2019-10-09 17:26:13+03:00
4,31301144,Back-end Web Разработчик,<p>Мы разрабатываем уникальные dig...,PHP\nYii\nZend Framework\nJavaScript\njQuery\n...,1,2297436,Mozgami,0,0,0,2855,Токмок,2019-05-28 14:57:49+03:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
55348,20398329,Senior iOS developer,Швейцарская компания приглашает для длительног...,iOS\nC/C++\nXcode\nObjective-C,2,1979728,Swiss Technologies,2000,0,1,131,Симферополь,2017-05-29 00:26:27+03:00
55349,20398330,Старший iOS разработчик,Швейцарская компания приглашает для длительног...,iOS\nC/C++\nXcode\nObjective-C,2,1979728,Swiss Technologies,2000,0,1,53,Краснодар,2017-05-29 00:27:58+03:00
55350,20398326,Программист iOS,Швейцарская компания приглашает для длительног...,iOS\nC/C++\nXcode\nObjective-C,2,1979728,Swiss Technologies,2000,0,1,32,Иваново (Ивановская область),2017-05-29 00:24:49+03:00
55351,24966349,Full Stack Developer,▬▬▬▬▬▬▬▬▬▬▬<br />Who are we?<br />▬▬▬▬▬▬▬▬▬▬▬<...,AngularJS,2,2160182,RapidSeedbox,120000,0,0,72,Пермь,2018-03-17 06:23:23+03:00


In [33]:
print(f'Количество одинаковых объявлений: {df[same_cols].duplicated(keep=False).sum()}')

Количество одинаковых объявлений: 55353


Из таблицы видно, что одному и тому же сочетанию описания и навыков у одного и того же работодателя могут соответствовать разные вакансии и должности. При этом у них может отличаться и зарплата. Отличительным признаком объявлений-дублей в этом случае может служить полная или некоторая схожесть названия объявления: общая база + дополнительная информация в скобочках.
 Присутствуют также дубли, у которых названия объявлений содержат слова-синонимы, относящиеся к одной и той же должности или профессии. Такие дубли можно распознать только методами машинного обучения.

Объявления с одинаковыми названием, описанием, работодателем и навыками (отличаются только опытом):

In [34]:
same_cols=['name','description', 'employer_id','key_skills']
df[df[same_cols].duplicated(keep=False)].sort_values(by='description', ascending=True, ignore_index=True)

Unnamed: 0,id,name,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at
0,30856099,JavaScript разработчик,<p><strong><em>Позиция подразумева...,AngularJS\nJavaScript\njQuery\nNode.js,1,6769,"EPAM Systems, Inc.",0,0,0,51,Сыктывкар,2019-04-02 10:07:32+03:00
1,30398276,JavaScript разработчик,<p><strong><em>Позиция подразумева...,AngularJS\nJavaScript\njQuery\nNode.js,2,6769,"EPAM Systems, Inc.",0,0,0,15,Астрахань,2019-03-02 13:46:07+03:00
2,32363491,Технический архитектор 1С,<em><strong>Ваши задачи:</strong></em> <ul> <l...,1С,0,139,IBS,0,0,0,72,Пермь,2019-08-05 09:25:16+03:00
3,32363745,Технический архитектор 1С,<em><strong>Ваши задачи:</strong></em> <ul> <l...,1С,2,139,IBS,0,0,0,66,Нижний Новгород,2019-08-05 09:25:20+03:00
4,50732928,Ведущий Python разработчик,<em><strong>Находимся в поиске Ведущего Python...,Python\nООП\nSQL\nCистемы управления базами да...,3,985,Кадровое агентство Юнити,0,270000,0,2,Санкт-Петербург,2021-12-28 14:25:06+03:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
14249,19311411,Tax Consultant (C1) - Business Process Solutio...,Ты молод и амбициозен? Мечтаешь работать в кру...,,0,1513490,Интеграция Taleo Тестовая версия,30000,100000,0,1218,Алейск,2017-01-05 15:28:35+03:00
14250,23988222,Разработчик фронтенда,Условия: <ul> <li>На работу требуется фронтенд...,JavaScript\nNode.js\nGit,1,2453463,Стронг-Софт,200000,350000,2,181,Павлодар,2018-02-09 12:36:21+03:00
14251,24861785,Разработчик фронтенда,Условия: <ul> <li>На работу требуется фронтенд...,JavaScript\nNode.js\nGit,0,2453463,Стронг-Софт,250000,0,2,181,Павлодар,2018-07-18 11:46:33+03:00
14252,39081282,Программист C#,Чем заниматься : Разрабатывать и поддерживать ...,Git\nC#\nXML\nOracle Pl/SQL\nMS SQL Server\nSQL,0,4258227,В2-Групп,0,0,0,3695,Промышленная,2020-09-07 16:50:43+03:00


In [35]:
print(f'Количество одинаковых объявлений: {df[same_cols].duplicated(keep=False).sum()}')

Количество одинаковых объявлений: 14254


Все объявления с одинаковыми названием, описанием, работодателем и навыками можно считать дублями.

Анализ этих таблиц показывает, что в  наборе много объявлений с одинаковым описанием и навыками, которые отличаются только названием. Такое возможно в следующих ситуациях:
    - работодатели одно и то же объявление публикуют для разных должностей в силу своей некомпетентности, слабо представляя различия в должностных обязанностях и требованиям к соискателям для разных позиций (например, Инженер технической поддержки и Главный инженер);
    - одну и ту же должность по-разному именуют для большего охвата аудитории (например, специалист контакт-центра и менеджер по работе с входящими обращениями), т.е. это по сути синонимы названия должности;
    - одну и ту же позицию продвигают для разных населенных пунктов, отличия в названии заключаются в добавлении названия населенного пункта или адреса (например, Инженер технической поддержки (Обь) и Инженер технической поддержки (Новосибирск)).

Следовательно, признаками дублей являются:
1. Одинаковые: описания, названия, работодатель, дата публикации, отличается регион. Оставляем тот вариант, у которого навыки длиннее.
2. Одинаковые: описания, названия, работодатель, регион, отличается дата публикации. Оставляем тот вариант, у которого навыки длиннее.
3. Одинаковые: описания, работодатель; регионы и даты могут отличаться,  но название = общий корень + название города, название города в названии совпадает с регионом. Оставляем тот вариант, у которого строка с навыками длиннее.
4. Одинаковые: описания, список навыков, работодатель,  а названия имеют общий корень. Оставляем самое короткое название.
5. Одинаковые: описания, названия, работодатель, список навыков. Оставляем с наименьшим опытом.

Анализ также показал, что у одного и того же работодателя могут быть объявления с очень близкими названиями, при совпадающих других параметрах. Можно предположить, что такие объявления также являются дублями, но перед их проверкой на совпадение, их необходимо привести к некой общей базе. Для этого удалим специальные символы, текст в скобках, поменяем регистр и сохраним измененное название в новом столбце с названием 'short_title':

In [36]:
prepare.add_shortname_feature(df)

In [37]:
df[['name', 'short_name']]

Unnamed: 0,name,short_name
0,Эксперт по тестированию на проникновение/Пенте...,эксперт по тестированию на проникновение/пенте...
1,Эксперт по тестированию на проникновение/Пенте...,эксперт по тестированию на проникновение/пенте...
2,"Системный аналитик (DWH/BI, DG/DQ)",системный аналитик
3,Специалист по IT,специалист по it
4,Системный администратор/программист,системный администратор/программист
...,...,...
784699,IOS разработчик,ios разработчик
784700,Java-разработчик,java разработчик
784701,Квант-трейдер,квант трейдер
784702,Frontend разработчик / верстальщик,frontend разработчик / верстальщик


Количество дублей с новым признаком для названия объявления удвоилось:

In [38]:
same_cols=['short_name','description', 'employer_id','key_skills']
df[df[same_cols].duplicated(keep=False)].sort_values(by='description', ascending=True, ignore_index=True)

Unnamed: 0,id,name,description,key_skills,experience_id,employer_id,employer_name,salary_from,salary_to,salary_currency,area_id,area_name,published_at,short_name
0,30398276,JavaScript разработчик,<p><strong><em>Позиция подразумева...,AngularJS\nJavaScript\njQuery\nNode.js,2,6769,"EPAM Systems, Inc.",0,0,0,15,Астрахань,2019-03-02 13:46:07+03:00,javascript разработчик
1,30856099,JavaScript разработчик,<p><strong><em>Позиция подразумева...,AngularJS\nJavaScript\njQuery\nNode.js,1,6769,"EPAM Systems, Inc.",0,0,0,51,Сыктывкар,2019-04-02 10:07:32+03:00,javascript разработчик
2,34009578,DevOps engineer(офис Москва),<p><strong>DevOps engineer</strong...,Python\nGit\nLinux\nBash\nУправленческие навыки,1,4219,Tele2,0,0,0,26,Воронеж,2019-10-09 17:26:13+03:00,devops engineer
3,34009579,DevOps engineer (офис Москва),<p><strong>DevOps engineer</strong...,Python\nGit\nLinux\nBash\nУправленческие навыки,1,4219,Tele2,0,0,0,2,Санкт-Петербург,2019-10-09 17:26:13+03:00,devops engineer
4,34519189,Android/ iOS Developer,<strong>Задача:</strong> <ul> <li>...,Git\nAndroid\nKotlin\nJava\niOS\nObjective-C\n...,1,1947330,ANCOR FinTech,0,0,0,11,Барнаул,2019-11-12 07:10:11+03:00,android/ ios developer
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29137,39081282,Программист C#,Чем заниматься : Разрабатывать и поддерживать ...,Git\nC#\nXML\nOracle Pl/SQL\nMS SQL Server\nSQL,0,4258227,В2-Групп,0,0,0,3695,Промышленная,2020-09-07 16:50:43+03:00,программист c#
29138,20452721,IOS developer,Швейцарская компания приглашает для длительног...,iOS\nC/C++\nXcode\nObjective-C,2,1979728,Swiss Technologies,2000,0,1,4,Новосибирск,2017-06-04 13:10:03+03:00,ios developer
29139,20398330,Старший iOS разработчик,Швейцарская компания приглашает для длительног...,iOS\nC/C++\nXcode\nObjective-C,2,1979728,Swiss Technologies,2000,0,1,53,Краснодар,2017-05-29 00:27:58+03:00,ios разработчик
29140,20398329,Senior iOS developer,Швейцарская компания приглашает для длительног...,iOS\nC/C++\nXcode\nObjective-C,2,1979728,Swiss Technologies,2000,0,1,131,Симферополь,2017-05-29 00:26:27+03:00,ios developer


Удаление дублей:

In [39]:
dropped_count =prepare.drop_duplicates(df)
print(f"Удалено строк: {dropped_count}")

Удалено строк: 74077


Осталось дублей:

In [40]:
same_cols=['short_name','description', 'employer_id','key_skills']
df[same_cols].duplicated(keep=False).sum()

0

In [41]:
print(f'Размер очищенного датаcета:')
print(f'Строк - {df.shape[0]}\nСтолбцов - {df.shape[1]}')

Размер очищенного датаcета:
Строк - 735850
Столбцов - 14


# 3. Сохранение датасета

In [42]:
raw_data_local_subdir = settings.get_fresh('PROCESSED_LOCAL_SUBDIR')
filename=settings.get_fresh('FILENAME_CLEANED')

files.save_dataframe(df, filename,raw_data_local_subdir)

'/mnt/data/projects/active/urfu/vkr/data/processed/cleaned.csv.gz'