Проект 1. Анализ резюме из HeadHunter (PJ)

Проблематика: часть соискателей не указывает желаемую заработную плату, когда составляет своё резюме
Общая цель: компания HeadHunter хочет построить модель, которая бы автоматически определяла примерный уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе
Постановка задачи текущего проекта: преобразовать, исследовать и очистить данные представленного датасета с резюме

⬆️ к оглавлению

Какой кейс решаем

Нужно преобразовать, исследовать и очистить данные представленного датасета с резюме.

Метрика качества:
Отсутствие в итоговом датасете дубликатов, пропущенных значений, выбросов, все категориальные переменные переведены в числовой / логический вид; данные готовы к использованию в построении модели

⬆️ к оглавлению

Краткая информация о данных

Исходный датасет размещен по ссылке: https://drive.google.com/file/d/1ZfplJnpXWvzv98_4axXdXWyu-IbzBf3d/view?usp=sharing (перед запуском ноутбука его и ноутбук необходимо сохранить локально)

⬆️ к оглавлению

Этапы работы над проектом

Бвзовый анализ структуры данных
Преобразование данных (формирование возможных к дальнейшему использованию признаков из сложных исходных форматов; преобразование категориальных переменных (обобщение, one-hot-encoding), пересчет валюты)
Разведывательный анализ данных (построение графиков зависимостей между признаками)
Очистка данных (удаление дубликатов, заполнение и удаление пропусков, удаление выбросов)

⬆️ к оглавлению

Результат

Модель готова к дальнейшему использованию заказчиком для прогнозирования заработной платы

⬆️ к оглавлению

Выводы

исходный датасет без преобразования не пригоден для построения моделей (состоит из множества сложно представленных категориальных признаков)
в результате работы датасет приведен к состоянию, готовому для дальнейшего использования
полученный датасет имеет довольно мало числовых характеристик, что может исказить итоговый прогноз
по итогам проведенного анализа данных сделаны следующие основные выводы:
- возраст большинства кандидатов находится в промежутке от 20 до 40 лет, мода распределения - 30 лет (что соответствует ожиданиям)
- опыт работы большинства кандидатов находится в промежутке от 3-5 до 12-15 лет (мода распределения - 7 лет)
- зарплатные ожидания большинства кандидатов укладываются в пределы 30 - 100 тыс. руб. (мода распределения - 50 тыс. руб.), но есть и значения за границей 300 тыс. руб.
- медианный уровень заработной платы зависит от уровня образования для специалистов и служащих (где образование является требованием), для представителей рабочих профессий образование не играет определяющей роли
- медианная ожидаемая заработная плата наиболее высока в Москве, далее идет второй по величине город РФ - Санкт-Петербург (что ожидаемо), очевидной разницы между городами-миллионниками и прочими городами не отмечено
- обращает на себя внимание также наибольший разброс зарплат в Москве в сравнении с другими городами (большее расстояние между 1 и 3 квартилью)
- тепловая карта распределения з/п в зависимости от уровня образования демонстрирует очевидную пользу высшего образования: соискатели с данным уровнем образования претендуют на более высокие зарплаты в течение всей трудовой жизни и, собственно трудовая жизнь у них длится дольше, также из плюсов - наиболее быстрый карьерный рост

⬆️ к оглавлению

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Проект 1. Анализ резюме из HeadHunter (PJ)

Оглавление

Описание проекта

Какой кейс решаем

Краткая информация о данных

Этапы работы над проектом

Результат

Выводы

Files

README.md

Latest commit

History

README.md

File metadata and controls

Проект 1. Анализ резюме из HeadHunter (PJ)

Оглавление

Описание проекта

Какой кейс решаем

Краткая информация о данных

Этапы работы над проектом

Результат

Выводы