Преобразование данных – это сложный процесс подготовки данных для дальнейшего исследования, который включает в себя сортировку, группировку, составление сводных таблиц и объединение данных. Очистка данных - это процесс обнаружения и удаления (или исправления) поврежденных, ложных или неинформативных записей таблицы или целой базы данных. Процесс состоит из двух этапов: поиск и ликвидация (или редактирование).
Основные этапы подготовки данных:
- Группировка данных
- Сортировка данных
- объединение данных
- Работа с пропущенными значениями.
- Очистка данных от пропусков.
- Удаление признаков и записей, которые не несут полезной информации.
Цель преобразования и очистки данных — создать новые важные признаки и избавиться от «мусора», который может помешать моделированию или исказить его результаты. Во многих задачах преобразование и очистка данных — это самая главная часть этапа подготовки данных к построению модели, которая нередко занимает большую часть времени работы над задачей.
Данный проект направлен на демонстрацию применения различных методов преобразования и очистки данных на примере датасета из базы данных резюме на HeadHunter.
О структуре проекта:
- plotly - папка с графиками в формате html
- Project-1. Ноутбук-шаблон.ipynb - jupyter-ноутбук, содержащий основной код проекта
В этом проекте используются данные с сайта по поиску вакансий HeadHunter.
Требования состояли в том, чтобы избавиться от лишних неинформативных признаков, выделив из них наиболее важные признаки для работодателя такие, как: "Пол", "Возраст", "Опыт работы в месяцах", "ЗП в рублях", "Готовность к переездам и к командировкам", "Город", "Тип рабочего графика".
Исходный датасет представляет собой набор данных с информацией об ожидаемой зарплате соискателей в разных валютах, а также данные о возрасте, опыте работы, городе, желаемом графике работы и т.д.
Для демонстрации техники преобразования и очистки данных мы использовали два датасета с резюме, а также курсами валют. Они содержат информацию об 11 и 7 признаках соответственно.
- Python (3.9):
git clone https://github.com/Blef0099/HeadHunterProject
Вся информация о работе представлена в jupyter-ноутбуке по ссылке https://drive.google.com/file/d/1xpMh7QKYPYGlN_F2VcSsvjjBPTPmZSEd/view?usp=share_link
Ссылки на графики plotly к разделу "Исследование данных":
- Задание 1. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/age_distribution.html
- Задание 8. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/anomaly_line.html
- Задание 5. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/city_salary.html
- Задание 2. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/exp_distribution.html
- Доп баллы https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/gender_ed.html
- Задание 7. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/pivot.html
- Задание 6. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/ready_to_move.html
- Задание 4. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/reduced_salary_diagram.html
- Доп баллы https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/salary_by_city.html
- Задание 3. https://nbviewer.org/github/Blef0099/HeadHunterProject/blob/master/plotly/salary_distribution.html
- [Иванов Дмитрий]
Данный проект учит начинающего датасайнтиста правильно подходить к работе с данными. Это работа требует значительного усердия и внимательности обращения с данными, так как именно от этого этапа будет зависить на сколько правильно будут интерпретированы данные на выходе, какие будут сделаны выводы или как будет работать созданная на базе этих данных модель.