**Лабораторная работа №2** Вариант 9

**Цель лабораторной работы:** изучить программные средства, используемые для визуализации наборов данных.

Выполним анализ набора данных «Анализ текучести кадров в компании». Набор данных содержит информацию о сотрудниках компании, включая их образование, историю работы, демографию и факторы, связанные с занятостью. Необходимо проанализировать проблемы, связанные с текучестью кадров в компании. Набор данных включает следующие атрибуты:

* **satisfaction_level** – уровень удовлетворенности (0-1)
* **last_evaluation** – время, прошедшее с момента последней оценки в годах
* **number_projects** – количество выполненных проектов
* **average_monthly_hours** – среднее количество рабочих часов за месяц
* **time_spend_company** – время работы в компании в годах
* **work_accident** – у сотрудника был несчастный случай на рабочем месте
* **promotion_last_5years** – было ли у сотрудника повышение за последние 5 лет
* **sales** – отдел, в котором работает сотрудник
* **salary** – уровень заработной платы
* **left** – работник уволился или нет (1 или 0) – целевая переменная

**1. Импортируем необходимые библиотеки**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

**2. Импортируем набор данных из файла employee.csv и поместим его в
  объект DataFrame**

In [None]:
df = pd.read_csv('employee.csv')
df.head(10)

**3. Получим сводную информацию по датафрейму**

In [None]:
df.info()

**4. Визуализация количественных признаков**

In [None]:
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

numerical_features = ['satisfaction_level', 'last_evaluation', 'number_project',
                     'average_montly_hours', 'time_spend_company']

fig, axes = plt.subplots(2, 3, figsize=(18, 10))
axes = axes.ravel()

for i, feature in enumerate(numerical_features):
    axes[i].hist(df[feature], bins=20, alpha=0.7, color='skyblue', edgecolor='black')
    axes[i].set_title(f'Распределение {feature}')
    axes[i].set_xlabel(feature)
    axes[i].set_ylabel('Частота')

fig.delaxes(axes[5])
plt.tight_layout()
plt.show()

# Boxplot для количественных признаков
plt.figure(figsize=(15, 8))
df[numerical_features].boxplot()
plt.title('Boxplot количественных признаков')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)
plt.show()

**5. Визуализация категориальных признаков**

In [None]:
fig, axes = plt.subplots(2, 3, figsize=(20, 12))
axes = axes.ravel()

sns.countplot(data=df, x='Work_accident', ax=axes[0])
axes[0].set_title('Несчастные случаи на работе')
axes[0].set_xlabel('Был несчастный случай')

sns.countplot(data=df, x='promotion_last_5years', ax=axes[1])
axes[1].set_title('Повышения за последние 5 лет')
axes[1].set_xlabel('Было повышение')

sns.countplot(data=df, y='department', ax=axes[2])
axes[2].set_title('Распределение по отделам')
axes[2].set_xlabel('Количество сотрудников')

sns.countplot(data=df, x='salary', ax=axes[3])
axes[3].set_title('Распределение по уровню зарплат')
axes[3].set_xlabel('Уровень зарплаты')

sns.countplot(data=df, x='left', ax=axes[4])
axes[4].set_title('Распределение по увольнениям')
axes[4].set_xlabel('Уволился (1-да, 0-нет)')

fig.delaxes(axes[5])
plt.tight_layout()
plt.show()

fig, axes = plt.subplots(2, 2, figsize=(15, 12))
axes = axes.ravel()

salary_counts = df['salary'].value_counts()
axes[0].pie(salary_counts.values, labels=salary_counts.index, autopct='%1.1f%%', startangle=90)
axes[0].set_title('Распределение по уровням зарплат')

left_counts = df['left'].value_counts()
axes[1].pie(left_counts.values, labels=['Остался', 'Уволился'], autopct='%1.1f%%', startangle=90)
axes[1].set_title('Распределение по увольнениям')

accident_counts = df['Work_accident'].value_counts()
axes[2].pie(accident_counts.values, labels=['Не было', 'Был'], autopct='%1.1f%%', startangle=90)
axes[2].set_title('Несчастные случаи на работе')

promotion_counts = df['promotion_last_5years'].value_counts()
axes[3].pie(promotion_counts.values, labels=['Не было', 'Было'], autopct='%1.1f%%', startangle=90)
axes[3].set_title('Повышения за 5 лет')

plt.tight_layout()
plt.show()

**6. Визуализация взаимосвязей признаков**

In [None]:
plt.figure(figsize=(12, 8))
scatter = plt.scatter(df['satisfaction_level'], df['last_evaluation'],
                     c=df['left'], alpha=0.6, cmap='viridis')
plt.colorbar(scatter, label='Уволился (1-да, 0-нет)')
plt.xlabel('Уровень удовлетворенности')
plt.ylabel('Последняя оценка')
plt.title('Удовлетворенность vs Оценка (цвет - увольнение)')
plt.grid(True, alpha=0.3)
plt.show()

sns.pairplot(df[numerical_features + ['left']], hue='left', diag_kind='kde', palette='viridis')
plt.suptitle('Pairplot количественных признаков с выделением увольнений', y=1.02)
plt.show()

fig, axes = plt.subplots(2, 3, figsize=(18, 12))

for i, feature in enumerate(numerical_features):
    row, col = i // 3, i % 3
    sns.boxplot(data=df, x='left', y=feature, ax=axes[row, col])
    axes[row, col].set_title(f'{feature} vs Увольнение')
    axes[row, col].set_xlabel('Уволился (1-да, 0-нет)')
    axes[row, col].set_ylabel(feature)

fig.delaxes(axes[1, 2])
plt.tight_layout()
plt.show()

fig, axes = plt.subplots(2, 2, figsize=(16, 12))

sns.countplot(data=df, x='salary', hue='left', ax=axes[0, 0])
axes[0, 0].set_title('Уровень зарплаты и увольнение')
axes[0, 0].set_xlabel('Уровень зарплаты')

department_left = pd.crosstab(df['de'], df['left'])
department_left.plot(kind='bar', ax=axes[0, 1])
axes[0, 1].set_title('Отдел и увольнение')
axes[0, 1].set_xlabel('Отдел')
axes[0, 1].tick_params(axis='x', rotation=45)

sns.countplot(data=df, x='Work_accident', hue='left', ax=axes[1, 0])
axes[1, 0].set_title('Несчастные случаи и увольнение')
axes[1, 0].set_xlabel('Был несчастный случай')

sns.countplot(data=df, x='promotion_last_5years', hue='left', ax=axes[1, 1])
axes[1, 1].set_title('Повышения и увольнение')
axes[1, 1].set_xlabel('Было повышение')

plt.tight_layout()
plt.show()

**7. Корреляция признаков**

In [None]:
df_corr = df.copy()

df_corr['salary'] = df_corr['salary'].map({'low': 0, 'medium': 1, 'high': 2})
df_corr['department'] = df_corr['department'].astype('category').cat.codes

plt.figure(figsize=(12, 10))
correlation_matrix = df_corr.corr(numeric_only=True)

mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, mask=mask, annot=True, cmap='coolwarm', center=0,
            square=True, linewidths=0.5, fmt='.2f', cbar_kws={"shrink": 0.8})
plt.title('Матрица корреляции признаков', fontsize=16, pad=20)
plt.tight_layout()
plt.show()

print("Анализ корреляции признаков:")
print("=" * 50)

high_corr_pairs = []
for i in range(len(correlation_matrix.columns)):
    for j in range(i + 1, len(correlation_matrix.columns)):
        corr_value = abs(correlation_matrix.iloc[i, j])
        if corr_value > 0.7:
            high_corr_pairs.append((
                correlation_matrix.columns[i],
                correlation_matrix.columns[j],
                correlation_matrix.iloc[i, j]
            ))

if high_corr_pairs:
    print("Обнаружены сильно коррелирующие пары признаков:")
    for feat1, feat2, corr_value in high_corr_pairs:
        print(f"  {feat1} - {feat2}: {corr_value:.3f}")

    features_to_drop = set()
    for feat1, feat2, corr_value in high_corr_pairs:
        corr_feat1_left = abs(correlation_matrix.loc[feat1, 'left'])
        corr_feat2_left = abs(correlation_matrix.loc[feat2, 'left'])

        if corr_feat1_left >= corr_feat2_left:
            features_to_drop.add(feat2)
        else:
            features_to_drop.add(feat1)

    print(f"\nПризнаки для удаления: {list(features_to_drop)}")

    df_uncorr = df_corr.drop(features_to_drop, axis=1)

else:
    print("Сильно коррелирующих пар признаков (|r| > 0.7) не обнаружено.")
    df_uncorr = df_corr

plt.figure(figsize=(12, 10))
correlation_matrix_uncorr = df_uncorr.corr(numeric_only=True)

mask_uncorr = np.triu(np.ones_like(correlation_matrix_uncorr, dtype=bool))
sns.heatmap(correlation_matrix_uncorr, mask=mask_uncorr, annot=True, cmap='coolwarm', center=0,
            square=True, linewidths=0.5, fmt='.2f', cbar_kws={"shrink": 0.8})
plt.title('Матрица корреляции после удаления коррелирующих признаков', fontsize=16, pad=20)
plt.tight_layout()
plt.show()

Таким образом, в лабораторной работе №2 были выполнены практические задачи, связанные с визуализацией данных и был проанализирован набор данных «Анализ текучести кадров в компании».