# Индивидуальное комплексное задание. Вариант 4

## HR-аналитика: Анализ текучести кадров и прогнозирование оттока сотрудников

**ФИО студента:** _____________________

**Группа:** _____________________

**Дата:** _____________________

---

### Описание задачи

Вы — HR-аналитик в крупной IT-компании. Ваша задача — проанализировать данные о сотрудниках, выявить факторы, влияющие на текучесть кадров, и построить модель прогнозирования оттока.

**База данных содержит следующие таблицы:**
- `employees` (EmployeeID, Name, Department, Position, HireDate, Salary, PerformanceScore, HasLeft)
- `departments` (DepartmentID, DepartmentName, City, Budget)
- `attendance` (AttendanceID, EmployeeID, Date, HoursWorked, OvertimeHours)

**Время выполнения:** 40 минут

---

## Подготовка к работе

In [None]:
# Импорт необходимых библиотек
import pandas as pd
import numpy as np
import sqlite3
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score
import warnings
warnings.filterwarnings('ignore')

plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

In [None]:
# Подключение к базе данных
conn = sqlite3.connect('hr_analytics.db')
print("Подключение к базе данных установлено.")

---

## Часть 1. Работа с SQL и Pandas (10 минут)

### Задача 1.1 (2 балла)

Напишите SQL-запрос для получения информации о **уволившихся сотрудниках** (`HasLeft = 1`). Выведите: имя, отдел, должность, зарплату и показатель эффективности.

Загрузите результат в DataFrame `left_employees`.

In [None]:
# Ваш код здесь
query1 = """

"""

left_employees = pd.read_sql_query(query1, conn)
display(left_employees)

### Задача 1.2 (3 балла)

Используя `LEFT JOIN`, получите данные о всех сотрудниках с информацией об их отделах. Загрузите в DataFrame `all_employees`.

С помощью Pandas:
1. Создайте столбец `Tenure` (стаж работы) — количество полных лет с даты найма до текущей даты
2. Рассчитайте процент оттока (`HasLeft=1`) для каждого отдела
3. Определите отдел с наибольшей текучестью кадров

In [None]:
# Ваш код здесь
query2 = """

"""

all_employees = pd.read_sql_query(query2, conn)

# Создание столбца Tenure

# Анализ оттока по отделам


---

## Часть 2. Исследовательский анализ данных (EDA) (10 минут)

### Задача 2.1 (2 балла)

Используя DataFrame `all_employees`:
1. Выведите описательную статистику для столбцов `Salary` и `PerformanceScore`
2. Постройте **гистограмму** распределения зарплат
3. Постройте **boxplot** для зарплат в разрезе статуса сотрудника (`HasLeft`)

In [None]:
# Ваш код здесь
# Описательная статистика

# Гистограмма

# Boxplot


### Задача 2.2 (3 балла)

**Бизнес-гипотеза:** "Сотрудники с более низким показателем эффективности чаще увольняются."

1. Постройте **bar chart** среднего показателя эффективности для уволившихся и работающих сотрудников
2. Рассчитайте среднее значение `PerformanceScore` для каждой группы
3. Сделайте вывод: подтверждается ли гипотеза? Какие HR-стратегии можно предложить?

In [None]:
# Ваш код здесь
# Bar chart

# Средние значения

# Вывод (текстом)


---

## Часть 3. Анализ временных рядов (10 минут)

### Задача 3.1 (3 балла)

Получите из базы данных ежемесячную статистику количества нанятых сотрудников.

1. Преобразуйте столбец с датой найма в формат `datetime`
2. Выполните **ресэмплинг** в месячные агрегаты (количество нанятых за месяц)
3. Постройте **линейный график** динамики найма
4. Извлеките признак "месяц" и определите, в какие месяцы компания нанимает больше всего сотрудников

In [None]:
# Ваш код здесь
query3 = """

"""

monthly_hires = pd.read_sql_query(query3, conn)

# Преобразование даты и ресэмплинг

# График

# Анализ по месяцам


### Задача 3.2 (2 балла)

Для временного ряда количества найма создайте:
1. `Hires_Lag1` — количество найма за предыдущий месяц
2. `Rolling_Mean_6` — скользящее среднее за 6 месяцев

Удалите строки с NaN и выведите последние 5 строк результата.

In [None]:
# Ваш код здесь
# Лаговые признаки и скользящее среднее

# Удаление NaN


---

## Часть 4. Построение модели классификации (10 минут)

### Задача 4.1 (3 балла)

Постройте модель **дерева решений** для предсказания оттока сотрудников.

1. Используйте признаки: `Salary`, `PerformanceScore`, `Tenure`, `Department` (закодировать через One-Hot Encoding)
2. Целевая переменная: `HasLeft`
3. Разделите данные на обучающую (70%) и тестовую (30%) выборки
4. Обучите модель `DecisionTreeClassifier(max_depth=5, random_state=42)`
5. Сделайте предсказания

In [None]:
# Ваш код здесь
# One-Hot Encoding для Department

# Определение X и y

# Разделение на train/test

# Обучение модели

# Предсказания


### Задача 4.2 (2 балла)

Оцените качество модели:
1. Рассчитайте **Accuracy**, **Precision**, **Recall** и **F1-score**
2. Постройте **матрицу ошибок**
3. Сделайте бизнес-вывод: какая метрика важнее для HR-отдела (Precision или Recall) и почему? Какие действия предпринять для снижения оттока?

In [None]:
# Ваш код здесь
# Метрики

# Confusion Matrix

# Бизнес-вывод (текстом)


---

## Закрытие подключения

In [None]:
conn.close()
print("Подключение к базе данных закрыто.")

---

## Критерии оценки

| Часть | Максимальный балл |
|-------|-------------------|
| Часть 1: SQL и Pandas | 5 баллов |
| Часть 2: EDA | 5 баллов |
| Часть 3: Временные ряды | 5 баллов |
| Часть 4: ML | 5 баллов |
| **ИТОГО** | **20 баллов** |

---

**Файл должен быть сохранен с именем:** `Фамилия_Вариант4.ipynb`