3. Краткая информация о данных
Проблематика: часть соискателей не указывает желаемую заработную плату, когда составляет своё резюме
Общая цель: компания HeadHunter хочет построить модель, которая бы автоматически определяла примерный уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе
Постановка задачи текущего проекта: преобразовать, исследовать и очистить данные представленного датасета с резюме
⬆️ к оглавлению
Нужно преобразовать, исследовать и очистить данные представленного датасета с резюме.
Метрика качества:
Отсутствие в итоговом датасете дубликатов, пропущенных значений, выбросов, все категориальные переменные переведены в числовой / логический вид; данные готовы к использованию в построении модели
⬆️ к оглавлению
Исходный датасет размещен по ссылке: https://drive.google.com/file/d/1ZfplJnpXWvzv98_4axXdXWyu-IbzBf3d/view?usp=sharing (перед запуском ноутбука его и ноутбук необходимо сохранить локально)
⬆️ к оглавлению
- Бвзовый анализ структуры данных
- Преобразование данных (формирование возможных к дальнейшему использованию признаков из сложных исходных форматов; преобразование категориальных переменных (обобщение, one-hot-encoding), пересчет валюты)
- Разведывательный анализ данных (построение графиков зависимостей между признаками)
- Очистка данных (удаление дубликатов, заполнение и удаление пропусков, удаление выбросов)
⬆️ к оглавлению
Модель готова к дальнейшему использованию заказчиком для прогнозирования заработной платы
⬆️ к оглавлению
- исходный датасет без преобразования не пригоден для построения моделей (состоит из множества сложно представленных категориальных признаков)
- в результате работы датасет приведен к состоянию, готовому для дальнейшего использования
- полученный датасет имеет довольно мало числовых характеристик, что может исказить итоговый прогноз
- по итогам проведенного анализа данных сделаны следующие основные выводы:
- возраст большинства кандидатов находится в промежутке от 20 до 40 лет, мода распределения - 30 лет (что соответствует ожиданиям)
- опыт работы большинства кандидатов находится в промежутке от 3-5 до 12-15 лет (мода распределения - 7 лет)
- зарплатные ожидания большинства кандидатов укладываются в пределы 30 - 100 тыс. руб. (мода распределения - 50 тыс. руб.), но есть и значения за границей 300 тыс. руб.
- медианный уровень заработной платы зависит от уровня образования для специалистов и служащих (где образование является требованием), для представителей рабочих профессий образование не играет определяющей роли
- медианная ожидаемая заработная плата наиболее высока в Москве, далее идет второй по величине город РФ - Санкт-Петербург (что ожидаемо), очевидной разницы между городами-миллионниками и прочими городами не отмечено
- обращает на себя внимание также наибольший разброс зарплат в Москве в сравнении с другими городами (большее расстояние между 1 и 3 квартилью)
- тепловая карта распределения з/п в зависимости от уровня образования демонстрирует очевидную пользу высшего образования: соискатели с данным уровнем образования претендуют на более высокие зарплаты в течение всей трудовой жизни и, собственно трудовая жизнь у них длится дольше, также из плюсов - наиболее быстрый карьерный рост
⬆️ к оглавлению