# Задание
## Требования к заданию:

1. Выберите область применения для системы анализа данных
* Определите ключевые параметры и характеристики данных, которые будут анализироваться в выбранной области.

2. Сбор и подготовка данных:
* Загрузите данные из CSV файла.
* Проведите предварительный анализ данных, выявите и устраните пропущенные значения, дубликаты и другие возможные проблемы в данных.

3. Анализ данных:
* Проведите исследовательский анализ данных с использованием библиотек Python, таких, как Pandas и NumPy.
Рассчитать среднее, медиану, моду, стандартное отклонение, минимальное и максимальное значение для каждого числового признака в датасете.
* Определить количество уникальных значений для категориальных признаков.
* Рассчитать корреляционную матрицу для числовых признаков. Интерпретировать полученные значения, выявить наиболее коррелирующие признаки.
* Выполнить группировку данных по одному или нескольким категориальным признакам и рассчитать агрегированные статистики (среднее, сумма, количество и т.д.) для числовых признаков.
* Проанализировать полученные результаты, выявить зависимости и тренды.

4. Визуализация данных:
* Создание графиков для представления распределений признаков с использованием библиотеки matplotlib.
* Построить гистограммы и ящики с усами для числовых признаков, чтобы оценить распределение данных.
* Построить столбчатые диаграммы для категориальных признаков.
* Визуализировать корреляционную матрицу с помощью тепловой карты.
* Построить точечные диаграммы для пар числовых признаков, чтобы оценить взаимосвязи между ними.
* Создать парные графики для выявления взаимосвязей между несколькими признаками.
* Построить графики временных рядов для анализа трендов и сезонности (*если в данных присутствует временная компонента).

## Подготовьте отчет:

Подготовьте отчет, включающий обзор выбранной области, описание анализа и визуализации данных, а также код программы + подробное описание графиков (назначение и смысл в выбранной области)


In [1]:
# # Библиотеки для работы с данными
import pandas as pd
import numpy as np

# Визуализация
import seaborn as sns
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.figure_factory as ff
import plotly.express as px
import matplotlib.pyplot as plt

# Установка глобального стиля ggplot2
from plotly.io import templates
templates.default = "plotly_white"


import warnings
warnings.filterwarnings('ignore')

In [88]:
df = pd.read_csv('Employee-Attrition.csv')

# Анализ датасета HR Analytics и предсказание ухода сотрудников
!["hr-logo.png"](images/hr-logo.png)

## Область применения
Система анализа данных будет использоваться для предсказания ухода сотрудников из компании. Это позволит HR-отделам оптимизировать стратегии удержания персонала и улучшить общую рабочую атмосферу.

## Ключевые параметры и характеристики данных

| Параметр                                                 | Описание                                                                 |
|----------------------------------------------------------|--------------------------------------------------------------------------|
| Возраст (Age)                                            | Возраст сотрудника, целочисленное значение                               |
| Уход (Attrition)                                         | Уход сотрудника, бинарный признак (Yes/No)                               |
| Командировки (BusinessTravel)                            | Частота командировок, категориальный признак                             |
| Дневная ставка (DailyRate)                               | Дневная ставка сотрудника, целочисленное значение                        |
| Отдел (Department)                                       | Отдел, в котором работает сотрудник, категориальный признак              |
| Расстояние от дома (DistanceFromHome)                    | Расстояние от дома до работы, целочисленное значение                     |
| Образование (Education)                                  | Уровень образования сотрудника, категориальный признак                   |
| Область образования (EducationField)                     | Область образования, категориальный признак                              |
| Удовлетворенность окружением (EnvironmentSatisfaction)   | Удовлетворенность рабочим окружением, категориальный признак             |
| Пол (Gender)                                             | Пол сотрудника, категориальный признак                                   |
| Уровень работы (JobLevel)                                | Уровень должности сотрудника, категориальный признак                     |
| Должность (JobRole)                                      | Название должности, категориальный признак                               |
| Удовлетворенность работой (JobSatisfaction)              | Удовлетворенность работой, категориальный признак                        |
| Семейное положение (MaritalStatus)                       | Семейное положение, категориальный признак                               |
| Месячный доход (MonthlyIncome)                           | Месячный доход сотрудника, целочисленное значение                        |
| Сверхурочные (OverTime)                                  | Сверхурочная работа, бинарный признак (Yes/No)                           |
| Удовлетворенность отношениями (RelationshipSatisfaction) | Удовлетворенность отношениями на работе, категориальный признак          |
| Уровень акций (StockOptionLevel)                         | Уровень акционных опционов у сотрудника, категориальный признак          |
| Общий трудовой стаж (TotalWorkingYears)                  | Общий трудовой стаж в годах, целочисленное значение                      |
| Обучение в прошлом году (TrainingTimesLastYear)          | Количество обучений в прошлом году, целочисленное значение               |
| Баланс работы и жизни (WorkLifeBalance)                  | Баланс между работой и личной жизнью, категориальный признак             |
|Количество лет в компании (YearsAtCompany)                         | Количество лет, проведенных в компании, целочисленное значение           |
| Количество лет на текущей должности (YearsInCurrentRole)           | Количество лет на текущей должности, целочисленное значение                        |
| Количество лет с последнего повышения (YearsSinceLastPromotion)    | Количество лет с последнего повышения, целочисленное значение                      |
| Количество лет с текущим руководителем (YearsWithCurrManager)      | Годы работы с текущим руководителем, целочисленное значение              |
| Количество компаний (NumCompaniesWorkedGroup)            | Количество компаний, в которых работал сотрудник, категориальный признак |


## Drop constant features

In [89]:
df.drop(columns = ['EmployeeNumber', 'EmployeeCount', 'StandardHours', 'Over18'], inplace = True)

## Преобразование типов данных

Все столбцы, которые представляют категориальные данные, теперь имеют тип category, что оптимизирует использование памяти и улучшает производительность для операций фильтрации и группировки.

In [90]:
df.Education.replace(
    {
        1: 'High School',
        2:'Undergrad',
        3:'Graduate',
        4:'Post Graduate',
        5:'Doctorate'
    },
    inplace=True
)

for feature in [
    "JobInvolvement", "JobSatisfaction", 'EnvironmentSatisfaction',
    'RelationshipSatisfaction', "PerformanceRating", 'WorkLifeBalance'
]:
    df[feature].replace(
        {
            1 : "Low",
            2 : "Medium",
            3 : "High",
            4 : "Very High"
        },
        inplace = True
    )

df['MaritalStatus'].replace(
    {
        0 : 'Single',
        1 : 'Married',
        2 : 'Divorced'
    },
    inplace=True
)
df["StockOptionLevel"].replace(
    {
        0: "Low",
        1: "Medium",
        2: "High",
        3: "Very High"
    },
    inplace=True
)

categorical_features = df.select_dtypes(include=object).columns.tolist()
numerical_features   = df.select_dtypes(include=['int64', 'float64']).columns.tolist()

# Преобразование типов данных с object на category для категориальных столбцов
for feature in categorical_features:
    df[feature] = df[feature].astype('category')

df.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EnvironmentSatisfaction,Gender,...,PerformanceRating,RelationshipSatisfaction,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,Undergrad,Life Sciences,Medium,Female,...,High,Low,0,8,0,Low,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,High School,Life Sciences,High,Male,...,Very High,Very High,1,10,3,High,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,Undergrad,Other,Very High,Male,...,High,Medium,0,7,3,High,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,Post Graduate,Life Sciences,Very High,Female,...,High,High,0,8,3,High,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,High School,Medical,Low,Male,...,High,Very High,1,6,3,High,2,2,2,2


In [91]:
sub_data = df.groupby(['JobSatisfaction'])["Age"].count().reset_index(name='Counts')
sub_data

Unnamed: 0,JobSatisfaction,Counts
0,High,442
1,Low,289
2,Medium,280
3,Very High,459


##  Предварительный анализ данных

Предварительный анализ данных показал следующее:

* Данные содержат 1470 строк и 35 столбцов.
* В датасете нет пропущенных значений, что указывает на хорошее качество данных.
* Некоторые параметры, такие как месячный доход и вероятность ухода, имеют высокое количество уникальных значений, что может указывать на разнообразие данных и потенциал для более детального анализа.
* Большинство категориальных данных имеют несколько категорий (2-6), что удобно для анализа и визуализации.

In [92]:
info = pd.DataFrame()
info.index                    = df.columns
info['Тип данных']            = df.dtypes
info['Количество уникальных'] = df.nunique()
info['Количество пропусков']  = df.isna().sum()
info['Количество значений']   = df.count()
info

Unnamed: 0,Тип данных,Количество уникальных,Количество пропусков,Количество значений
Age,int64,43,0,1470
Attrition,category,2,0,1470
BusinessTravel,category,3,0,1470
DailyRate,int64,886,0,1470
Department,category,3,0,1470
DistanceFromHome,int64,29,0,1470
Education,category,5,0,1470
EducationField,category,6,0,1470
EnvironmentSatisfaction,category,4,0,1470
Gender,category,2,0,1470


In [93]:
# melt (расплавление)
cat_df=pd.DataFrame(
    df[categorical_features].melt(
        var_name='column',
        value_name='value'
    ).value_counts()
).rename(columns={0: 'count'}).sort_values(by=['column', 'count'])
cat_df

Unnamed: 0_level_0,Unnamed: 1_level_0,count
column,value,Unnamed: 2_level_1
Attrition,Yes,237
Attrition,No,1233
BusinessTravel,Non-Travel,150
BusinessTravel,Travel_Frequently,277
BusinessTravel,Travel_Rarely,1043
Department,Human Resources,63
Department,Sales,446
Department,Research & Development,961
Education,Doctorate,48
Education,High School,170


# Анализ данных

## Рассчитаем основные статистики для числовых признаков

Эти основные статистики помогают понять распределение и диапазон значений каждого признака, что важно для последующего анализа и моделирования данных.
- Возраст (Age): Средний возраст сотрудников составляет примерно 37 лет, с минимальным возрастом 18 лет и максимальным 60 лет. Распределение возраста показывает стандартное отклонение в 9 лет.
- Дневная ставка (DailyRate): Средняя дневная ставка равна 802 с большим разбросом значений (минимум 102, максимум 1499).
- Месячный доход (MonthlyIncome): Средний месячный доход составляет около 6503 с вариативностью от 1009 до 19999. Это указывает на значительное различие в уровнях оплаты труда внутри организации.
- Общий трудовой стаж (TotalWorkingYears): Варьируется от 0 до 40 лет с медианой в 10 лет, что говорит о широком диапазоне опыта среди сотрудников.

Числовые данные показывают большое разнообразие среди сотрудников по возрасту, оплате труда и общему трудовому стажу, что может влиять на HR-стратегии по удержанию сотрудников и определению потребностей в обучении.

In [94]:
print("Основные статистики для числовых признаков:")
df.describe()

Основные статистики для числовых признаков:


Unnamed: 0,Age,DailyRate,DistanceFromHome,HourlyRate,JobLevel,MonthlyIncome,MonthlyRate,NumCompaniesWorked,PercentSalaryHike,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
count,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0,1470.0
mean,36.92381,802.485714,9.192517,65.891156,2.063946,6502.931293,14313.103401,2.693197,15.209524,0.793878,11.279592,2.79932,7.008163,4.229252,2.187755,4.123129
std,9.135373,403.5091,8.106864,20.329428,1.10694,4707.956783,7117.786044,2.498009,3.659938,0.852077,7.780782,1.289271,6.126525,3.623137,3.22243,3.568136
min,18.0,102.0,1.0,30.0,1.0,1009.0,2094.0,0.0,11.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,30.0,465.0,2.0,48.0,1.0,2911.0,8047.0,1.0,12.0,0.0,6.0,2.0,3.0,2.0,0.0,2.0
50%,36.0,802.0,7.0,66.0,2.0,4919.0,14235.5,2.0,14.0,1.0,10.0,3.0,5.0,3.0,1.0,3.0
75%,43.0,1157.0,14.0,83.75,3.0,8379.0,20461.5,4.0,18.0,1.0,15.0,3.0,9.0,7.0,3.0,7.0
max,60.0,1499.0,29.0,100.0,5.0,19999.0,26999.0,9.0,25.0,3.0,40.0,6.0,40.0,18.0,15.0,17.0


## Рассчитаем основные статистики для категориальных признаков

- Уход (Attrition): Два уникальных значения (Yes и No), с преобладанием "No" (1233 случая).
- Командировки (BusinessTravel): Три категории с большинством путешествующих редко (1043 случая).
- Отдел (Department): Три отдела, с наибольшим числом сотрудников в исследовании и разработке (961).
- Образование (Education) и Пол (Gender): Несколько уровней образования и два пола, с мужским полом чуть больше представлен (882 против женского).
- Удовлетворенность работой (JobSatisfaction) и Баланс работы и жизни (WorkLifeBalance): По четыре уровня каждый, где чаще всего встречаются высокие значения удовлетворенности и баланса.

Категориальные данные показывают, что большинство сотрудников не склонны к уходу, чаще всего редко командируются, работают в отделе исследований и разработок, и имеют высокую степень удовлетворенности работой и баланса работы и жизни. Эти факторы могут быть важны при разработке стратегий для улучшения удержания и удовлетворенности сотрудников.

In [95]:
df.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EnvironmentSatisfaction,Gender,...,PerformanceRating,RelationshipSatisfaction,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,Undergrad,Life Sciences,Medium,Female,...,High,Low,0,8,0,Low,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,High School,Life Sciences,High,Male,...,Very High,Very High,1,10,3,High,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,Undergrad,Other,Very High,Male,...,High,Medium,0,7,3,High,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,Post Graduate,Life Sciences,Very High,Female,...,High,High,0,8,3,High,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,High School,Medical,Low,Male,...,High,Very High,1,6,3,High,2,2,2,2


In [96]:
print("Количество уникальных значений для категориальных признаков:")
df.describe(include='category')

Количество уникальных значений для категориальных признаков:


Unnamed: 0,Attrition,BusinessTravel,Department,Education,EducationField,EnvironmentSatisfaction,Gender,JobInvolvement,JobRole,JobSatisfaction,MaritalStatus,OverTime,PerformanceRating,RelationshipSatisfaction,WorkLifeBalance
count,1470,1470,1470,1470,1470,1470,1470,1470,1470,1470,1470,1470,1470,1470,1470
unique,2,3,3,5,6,4,2,4,9,4,3,2,2,4,4
top,No,Travel_Rarely,Research & Development,Graduate,Life Sciences,High,Male,High,Sales Executive,Very High,Married,No,High,High,High
freq,1233,1043,961,572,606,453,882,868,326,459,673,1054,1244,459,893


### Рассчитаем корреляционную матрицу для числовых признаков

Корреляционная матрица представляет связь между различными числовыми параметрами. В данном случае:
* Сильные положительные корреляции между такими параметрами как: TotalWorkingYears и MonthlyIncome (0.77), YearsAtCompany и YearsWithCurrManager (0.77) указывают на взаимосвязь между опытом работы и заработной платой, а также стабильностью в компании и длительностью работы с одним руководителем.
* Отрицательная корреляция между Age и AttrionLikelihood (-0.31) показывает, что молодые сотрудники склонны уходить из компании чаще, чем более взрослые.

In [97]:
# Корреляционная матрица
numerical_features = df.select_dtypes(include=['int64', 'float64']).columns

corr = df[numerical_features].corr().round(2)

fig = ff.create_annotated_heatmap(
    z=corr.values,
    x=list(corr.columns),
    y=list(corr.index),
    colorscale='sunset',
)

fig.update_layout(title='Матрица корреляции', height=800)
fig.show()

# Выполним группировку данных по одному или нескольким категориальным признакам

Группировка будет выполнена по отделу и полу с агрегированием средних значений числовых признаков

В отделе Human Resources молодые женщины преобладают, в то время как мужчины этого же отдела чуть старше. Женщины в отделе Sales имеют самый высокий средний доход, а сотрудники Sales и Research & Development чаще других размышляют о возможном увольнении. Отдел Sales также отличается более коротким средним сроком работы в компании по сравнению с другими отделами. Эти наблюдения могут помочь в выявлении тенденций и принятии мер для удержания персонала.

In [98]:
grouped_data = (
    df.groupby(
        ['Department', 'Gender']
    )[numerical_features]
    .agg(['count', 'mean'])
    .round(2)
)
grouped_data

Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Age,DailyRate,DailyRate,DistanceFromHome,DistanceFromHome,HourlyRate,HourlyRate,JobLevel,JobLevel,...,TrainingTimesLastYear,TrainingTimesLastYear,YearsAtCompany,YearsAtCompany,YearsInCurrentRole,YearsInCurrentRole,YearsSinceLastPromotion,YearsSinceLastPromotion,YearsWithCurrManager,YearsWithCurrManager
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,count,mean,count,mean,count,mean,count,mean,...,count,mean,count,mean,count,mean,count,mean,count,mean
Department,Gender,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2
Human Resources,Female,20,37.65,20,890.1,20,11.8,20,54.35,20,2.15,...,20,2.3,20,5.3,20,2.7,20,1.45,20,3.35
Human Resources,Male,43,37.88,43,687.09,43,7.26,43,68.93,43,1.98,...,43,2.67,43,8.14,43,3.93,43,1.93,43,3.81
Research & Development,Female,379,37.37,379,788.87,379,9.11,379,65.52,379,2.05,...,379,2.91,379,7.3,379,4.46,379,2.29,379,4.3
Research & Development,Male,582,36.83,582,818.56,582,9.17,582,66.59,582,1.93,...,582,2.72,582,6.58,582,3.96,582,2.04,582,3.95
Sales,Female,189,37.22,189,838.53,189,9.14,189,67.9,189,2.25,...,189,2.83,189,7.3,189,4.5,189,2.39,189,4.28
Sales,Male,257,36.04,257,772.14,257,9.53,257,63.77,257,2.26,...,257,2.86,257,7.28,257,4.48,257,2.33,257,4.27


# Визуализация данных

## Гистограммы и ящики с усами
* Гистограмма — это вид диаграммы, представляющий распределение числовых данных. Она помогает оценить плотность вероятности распределения данных. Гистограммы идеально подходят для иллюстрации распределений признаков, таких как возраст клиентов или продолжительность контакта в секундах.
* Ящик с усами — это еще один тип графика для визуализации распределения числовых данных. Он показывает медиану, первый и третий квартили, а также “усы”, которые простираются до крайних точек данных, не считая выбросов. Ящики с усами особенно полезны для сравнения распределений между несколькими группами и выявления выбросов.

In [99]:
def filter_outliers(df, column_name):
    """Отфильтровать выбросы данных на основе метода IQR для указанного столбца."""
    Q3 = df[column_name].quantile(0.75)
    Q1 = df[column_name].quantile(0.25)
    IQR = Q3 - Q1
    upper = Q3 + (1.5 * IQR)
    lower = Q1 - (1.5 * IQR)
    filtered_df = df[(df[column_name] > lower) & (df[column_name] < upper)]
    return filtered_df

In [100]:
def create_histogram(df, column_name, title):
    fig = px.histogram(
        df,
        x=column_name,
        color='Attrition',
        marginal="box",
        title=title,
    )
    fig.show()


### Распределение возраста
Назначение: Исследование возрастного состава сотрудников с разделением по статусу увольнения.
Смысл: Помогает выявить, есть ли возрастные группы с повышенным риском увольнения.

In [101]:
create_histogram(df, 'Age', 'Распределение возраста')


### Распределение ежедневной ставки

Назначение: Анализ различий в оплате труда между ушедшими и оставшимися сотрудниками.
Смысл: Может указывать на неудовлетворенность уровнем заработной платы как потенциальную причину увольнений.

In [102]:
create_histogram(df, 'DailyRate', 'Распределение ежедневной ставки')

### Распределение общего количества рабочих лет

Назначение: Оценка опыта работы сотрудников в контексте их увольнения.
Смысл: Исследует корреляцию между стажем работы и стабильностью на текущем месте работы.

In [103]:
create_histogram(df, 'TotalWorkingYears', 'Распределение общего количества рабочих лет')

### Распределение количества лет в компании
Назначение: Анализ продолжительности работы в компании среди разных групп сотрудников.
Смысл: Помогает определить, влияет ли время работы в компании на решение о увольнении.

In [104]:
create_histogram(df, 'YearsAtCompany', 'Распределение количества лет в компании')

### Распределение расстояния до работы

Назначение: Выявление влияния расстояния до места работы на увольнение сотрудников.
Смысл: Может показать, что длительное путешествие до работы повышает вероятность увольнения из-за стресса или утомления.

In [105]:
create_histogram(df, 'DistanceFromHome', 'Распределение расстояния до работы')

## Ящики с усами для числовых признаков
Эти графики позволяют наглядно оценить распределение основных числовых параметров сотрудников в зависимости от их статуса увольнения.

In [106]:
# Создание сетки графиков
fig = make_subplots(
    rows=2, cols=3,
    subplot_titles=(
        'Возраст', 'Ежедневная ставка', 'Количество лет с последнего повышения', 'Общее количество рабочих лет',
        'Количество лет в компании', 'Расстояние до работы'
    )
)

colors = {'Yes': '#FF5733', 'No': '#1F77B4'}  # Цвета для различных категорий увольнения
for i, feature in enumerate([
    'Age', 'DailyRate', 'YearsSinceLastPromotion', 'TotalWorkingYears',
    'YearsAtCompany', 'DistanceFromHome'
]):
    for attrition_type in df['Attrition'].cat.categories:
        filtered_df = df[df['Attrition'] == attrition_type]
        fig.add_trace(
            go.Box(
                y=filtered_df[feature],
                name=f'{feature} ({attrition_type})',
                marker_color=colors[attrition_type]
            ),
            row=(i // 3) + 1, col=(i % 3) + 1
        )

fig.update_layout(title_text="Распределение ключевых метрик по статусу увольнения", height=1000)

# Отображение графиков
fig.show()


### Распределение ежемесячного дохода по балансу работы
У женщин с самой низкой оценкой баланса между работой и жизнью самая высокая медианная зарплата среди всех групп - 5400 долларов в месяц.

In [107]:
fig = go.Figure()

for i, gender in enumerate(df['Gender'].unique()):
    df_plot = df[df['Gender'] == gender]
    fig.add_trace(go.Box(
        x=df_plot['WorkLifeBalance'],
        y=df_plot['MonthlyIncome'],
        notched=True,
        line=dict(color=['#FF5733', '#1F77B4'][i]),
        name=gender
    ))

fig.update_layout(
    title='Распределение ежемесячного дохода по балансу работы',
    xaxis_title='Баланс работы',
    boxmode='group',
)

fig.show()


## Столбчатые диаграммы для категориальных признаков


In [108]:
fig, axes = plt.subplots(nrows=4, ncols=3, figsize=(18,35))
fig.subplots_adjust(hspace=0.5, bottom=0)
sns.set_theme(style="dark")
for ax, catplot in zip(axes.flatten(), categorical_features):
        sns.countplot(x=catplot, data=df, hue='Attrition', ax=ax, )
        ax.set_title(catplot.upper(), fontsize=18)
        ax.set_ylabel('Count', fontsize=16)
        ax.set_xlabel(f'{catplot} Values', fontsize=15)
        ax.legend(title='Attrition', fontsize=12)
        ax.tick_params(axis='x', rotation=45)

fig.show()

In [109]:
# Создание сетки графиков
fig = make_subplots(rows=5, cols=3, subplot_titles=tuple(categorical_features))


# Добавление графиков для каждой категориальной переменной
for i, cat_col in enumerate(categorical_features):
    # Подготовка данных
    data = df[cat_col].value_counts().reset_index()
    data.columns = ['category', 'counts']

    # Создание столбчатой диаграммы для каждого признака
    trace = go.Bar(x=data['category'], y=data['counts'])

    fig.add_trace(trace, row=(i // 3) + 1, col=(i % 3) + 1)

# Обновление макета и отображение фигуры
fig.update_layout(
    title_text="Категориальные переменные: Распределение значений",
    height=300*6,
    showlegend=False
)
fig.show()

### Процент увольнений по отделам и полу

Наибольшая текучесть кадров наблюдается среди женщин, работающих в отделе кадров: почти каждая третья женщина, работающая в отделе кадров, покидает компанию. Среди мужчин самая высокая текучесть кадров наблюдается в отделе продаж.

In [110]:

attrition_percentage = (
    df.groupby(
        ['Gender', 'Department']
    )['Attrition']
    .value_counts(normalize=True).mul(100)
    .rename('Процент увольнений').reset_index()
)
fig = px.bar(
    attrition_percentage,
    x="Department",
    y="Процент увольнений",
    color="Attrition",
    barmode="group",
    facet_col="Gender",
    category_orders={'Attrition': ['Yes', 'No']},
    color_discrete_map={'Yes': '#FF5733', 'No': '#1F77B4'},
    labels={
        'Department': 'Отдел',
        'Attrition': 'Увольнение',
        'Gender': 'Пол'
    })
fig.update_traces(
    texttemplate='%{y:.3s}%',
    textposition='outside',
    marker_line=dict(width=1, color='black')
)
fig.update_layout(title_text='Процент увольнений по отделам и полу', yaxis_ticksuffix='%')
fig.show()


### Процент увольнений по балансу работы и полу
Среди женщин с самым высоким уровнем баланса между работой и личной жизнью, каждая четвертая покинула компанию, что является самой высокой долей среди всех оценок для женщин. Для мужчин самая высокая доля увольнений наблюдалась среди тех, у кого был самый низкий баланс между работой и личной жизнью.

In [111]:
work_life_balance_attrition = (
    df.groupby(['WorkLifeBalance', 'Gender'])['Attrition']
    .value_counts(normalize=True).mul(100)
    .rename('Процент увольнений').reset_index()
)

fig = px.bar(
    work_life_balance_attrition,
    x='WorkLifeBalance',
    y='Процент увольнений',
    color='Attrition',
    facet_row='Gender',
    barmode='group',
    category_orders={'Attrition': ['Yes', 'No']},
    color_discrete_map={'Yes': '#FF5733', 'No': '#1F77B4'},
    labels={
        'WorkLifeBalance': 'Баланс работы',
        'Attrition': 'Увольнение',
        'Gender': 'Пол'
    }
)

fig.update_traces(
    texttemplate='%{y:.3s}%',
    textposition='outside',
    marker_line=dict(width=1, color='black'),

)

fig.update_layout(
    title_text='Процент увольнений по балансу работы и полу',
    height=750,
    xaxis_title='Баланс работы',
    yaxis_ticksuffix='%',
)

fig.show()


### Уровни удовлетворенности работы и текучести кадров
Среди уволившихся сотрудников большинство были удовлетворены своей работой: 53 % оценили удовлетворенность работой как хорошую или отличную, а 28 % были наименее удовлетворены своей работой.

In [112]:

job_satisfaction_attrition = (
    df.groupby(['Attrition'])['JobSatisfaction']
    .value_counts(normalize=True)
    .mul(100)
    .rename('Процент увольнений')
    .reset_index()
)

fig = px.bar(
    job_satisfaction_attrition,
    x='JobSatisfaction',
    y='Процент увольнений',
    color='Attrition',
    title='Уровни удовлетворенности работы и текучести кадров',
    labels={
        'Attrition': 'Увольнение',
    }
)
fig.update_xaxes(title='Уровень удовлетворенности работой')
fig.update_yaxes(ticksuffix='%')
fig.update_traces(texttemplate='%{y:.2s}%', textposition='inside')
fig.show()


### Медианная зарплата по отделам и статусу увольнения
По сравнению с нынешними сотрудниками, бывшие сотрудники имели более низкую медианную зарплату во всех трех отделах. В отделе кадров женщины, как правило, имеют более высокую медианную зарплату, чем мужчины.

In [113]:
import plotly.express as px

salary_department_attrition_gender = (
    df.groupby(['Department', 'Attrition', 'Gender'])['MonthlyIncome']
    .median().mul(12)  # Перевод в годовую зарплату
    .rename('Salary').reset_index()
    .sort_values(by=['Gender', 'Salary'], ascending=[True, False])  # Сортировка по полу и зарплате
)

fig = px.bar(
    salary_department_attrition_gender,
    x='Department',
    y='Salary',
    color='Gender',
    barmode='group',
    facet_col='Attrition',
    category_orders={'Attrition': ['Yes', 'No']},
    labels={
        'Department': 'Отдел',
        'Salary': 'Зарплата',
        'Attrition': 'Увольнение',
        'Gender': 'Пол'
    }
)

fig.update_traces(
    texttemplate='$%{y:.3s}',
    textposition='outside',
    marker_line=dict(width=1, color='black')
)


fig.update_layout(
    title_text='Медианная зарплата по отделам и статусу увольнения',
    yaxis=dict(title='Зарплата',tickprefix='$',range=(0,79900)),
    height=500
)

fig.show()

## Точечные диаграммы для пар числовых признаков



In [114]:
sns.pairplot(df, hue='Attrition', vars=['Age', 'DailyRate', 'DistanceFromHome', 'MonthlyIncome',
       'TotalWorkingYears',  'YearsAtCompany'],)

<seaborn.axisgrid.PairGrid at 0x1adddf3a5d0>

In [115]:
# # Создание pairplot
# fig = px.scatter_matrix(
#     df,
#     dimensions=[
#         'Age', 'DailyRate', 'DistanceFromHome', 'MonthlyIncome',
#         'TrainingTimesLastYear', 'YearsAtCompany', 'AttrionLikelihood'
#     ],
#     color='Attrition'
# )
#
# fig.update_layout(
#     title='Pairplot с подсветкой сезона',
#     width=1000,
#     height=1000
# )
# fig.update_traces(diagonal_visible=True)
#
# fig.show()