# Задание 5: Прогнозное моделирование в HR-аналитике

**Цель:** Продемонстрировать навыки построения и оценки простой модели машинного обучения для решения управленческой задачи (прогнозирование увольнения сотрудников).

## Исходные данные

Ниже сгенерирован датасет, содержащий информацию о сотрудниках компании, включая факторы, которые могут влиять на их решение об увольнении (`left_company`).

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Генерация данных
np.random.seed(42)
data = {
    'satisfaction_level': np.random.rand(200),
    'last_evaluation': np.random.rand(200),
    'number_project': np.random.randint(2, 7, 200),
    'average_monthly_hours': np.random.randint(100, 300, 200),
    'time_spend_company': np.random.randint(2, 10, 200),
    'work_accident': np.random.randint(0, 2, 200)
}
df_hr = pd.DataFrame(data)

# Создание целевой переменной (упрощенная логика)
df_hr['left_company'] = (
    (df_hr['satisfaction_level'] < 0.4) & (df_hr['time_spend_company'] > 5) |
    (df_hr['average_monthly_hours'] > 250) & (df_hr['last_evaluation'] < 0.5)
).astype(int)

print("Фрагмент датасета:")
display(df_hr.head())

### Задача 1: Исследовательский анализ данных (EDA)

1.  Выведите основную информацию о датасете (`.info()`, `.describe()`).
2.  Постройте **countplot** для целевой переменной `left_company`, чтобы увидеть баланс классов.
3.  Постройте **boxplot**, чтобы сравнить распределение `satisfaction_level` для уволившихся и оставшихся сотрудников.

In [None]:
# Ваш код для вывода основной информации

# Ваш код для countplot

# Ваш код для boxplot


### Задача 2: Подготовка данных и обучение модели

1.  Определите признаки (`X`) и целевую переменную (`y`).
2.  Разделите данные на обучающую и тестовую выборки в соотношении 80/20. Используйте `random_state=42` для воспроизводимости.
3.  Обучите модель `LogisticRegression`.

In [None]:
# Ваш код для определения X и y
X = df_hr.drop('left_company', axis=1)
y = df_hr['left_company']

# Ваш код для разделения данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ваш код для обучения модели
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

### Задача 3: Оценка модели

1.  Сделайте предсказания на тестовой выборке.
2.  Рассчитайте **точность (accuracy)** модели.
3.  Постройте **матрицу ошибок (confusion matrix)** и визуализируйте ее с помощью `heatmap`.

In [None]:
# Ваш код для предсказаний
y_pred = model.predict(X_test)

# Ваш код для расчета точности
accuracy = accuracy_score(y_test, y_pred)
print(f"Точность модели: {accuracy:.2f}")

# Ваш код для матрицы ошибок
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Предсказанные значения')
plt.ylabel('Истинные значения')
plt.title('Матрица ошибок')
plt.show()

### Задача 4: Управленческий вывод

На основе проведенного анализа и оценки модели, ответьте на следующие вопросы:
1.  Насколько хорошо модель справляется с задачей прогнозирования? (Оцените точность и матрицу ошибок).
2.  Какие факторы, судя по EDA, наиболее сильно связаны с увольнением сотрудников?
3.  Какие практические шаги мог бы предпринять HR-менеджер, используя результаты этой модели, для снижения текучести кадров?

**Ваш вывод:**

*