## Employee Attrition Analysis

#### Import Libraries & Loading Dataset

In [1]:
import pandas as pd 
import numpy as np 

# 1. Import file 
df = pd.read_csv('WA_Fn-UseC_-HR-Employee-Attrition.csv')
df.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,...,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,...,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,...,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,...,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,...,4,80,1,6,3,3,2,2,2,2


#### Data Wrangling:

#### 1. Computing the Dimension of Dataset

In [2]:
# Kích thước dữ liệu
df.shape

(1470, 35)

>**Insight:**
>1. There are total 1470 records/rows in the dataset
>2. There are total 35 reature/columns in the dataset

#### 2. Generating Basic Infomation of Attributes

In [3]:
# Thông tin cơ bản của dữ liệu
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1470 entries, 0 to 1469
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   Age                       1470 non-null   int64 
 1   Attrition                 1470 non-null   object
 2   BusinessTravel            1470 non-null   object
 3   DailyRate                 1470 non-null   int64 
 4   Department                1470 non-null   object
 5   DistanceFromHome          1470 non-null   int64 
 6   Education                 1470 non-null   int64 
 7   EducationField            1470 non-null   object
 8   EmployeeCount             1470 non-null   int64 
 9   EmployeeNumber            1470 non-null   int64 
 10  EnvironmentSatisfaction   1470 non-null   int64 
 11  Gender                    1470 non-null   object
 12  HourlyRate                1470 non-null   int64 
 13  JobInvolvement            1470 non-null   int64 
 14  JobLevel                

>**Insight:**
> 1. There are only 26 **Numerical Attibutes** in the dataset
> 2. On the other hand we have 9 **Categorical Attibutes.**

#### 3. Showing A Random Sample of Dataset with only Numerical Features

In [4]:
# Kiểm tra dữ liệu ngẫu nhiên của các cột dữ liệu kiểu số (number)
df.select_dtypes(np.number).sample(5)

Unnamed: 0,Age,DailyRate,DistanceFromHome,Education,EmployeeCount,EmployeeNumber,EnvironmentSatisfaction,HourlyRate,JobInvolvement,JobLevel,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
435,33,1277,15,1,1,582,2,56,3,3,...,4,80,0,15,2,4,7,6,7,7
731,20,1097,11,3,1,1016,4,98,2,1,...,1,80,0,1,2,3,1,0,0,0
1107,38,888,10,4,1,1563,3,71,3,2,...,3,80,0,10,2,3,6,3,1,2
556,53,346,6,3,1,769,4,86,3,2,...,4,80,0,19,4,3,2,2,2,2
261,38,1327,2,2,1,361,4,39,2,2,...,4,80,1,13,0,3,8,7,7,5


#### 4. Lebelling of Categories In Numerical Features

In [5]:
# Kiểm tra dữ liệu của cột Education và chuẩn hóa: 1: 'Below College', 2: 'College', 3: 'Bachelor', 4: 'Master', 5: 'Doctor' 
dict_education = {
    1: 'Below College',
    2: 'College',
    3: 'Bachelor',
    4: 'Master',
    5: 'Doctor'
}
df['Education'] = df['Education'].map(dict_education)
#Cách 2
# df['Education'] = df['Education'].replace({1: 'Below College',
#                                            2: 'College',
#                                            3: 'Bachelor',
#                                            4: 'Master',
#                                            5: 'Doctor'})

In [6]:
# Kiểm tra giá trị duy nhất của cột Education
df['Education'].unique()

array(['College', 'Below College', 'Master', 'Bachelor', 'Doctor'],
      dtype=object)

In [7]:
# Kiểm tra dữ liệu cột EnvironmentSatisfaction và chuẩn hóa dữ liệu: 1: 'Low', 2: 'Medium', 3: 'High', 4: 'Very High' 
dict_EnvironmentSatisfaction = {
    1: 'Low',
    2: 'Medium',
    3: 'High',
    4: 'Very High'
}
df['EnvironmentSatisfaction'] = df['EnvironmentSatisfaction'].map(dict_EnvironmentSatisfaction)
#Cách 2
# df['EnvironmentSatisfaction'] = df['EnvironmentSatisfaction'].replace({1: 'Low',
#                                                                        2: 'Medium',
#                                                                        3: 'High',
#                                                                        4: 'Very High'})

In [8]:
# kiểm tra giá trị duy nhất của cột EnvironmentSatisfaction
df['EnvironmentSatisfaction'].unique()

array(['Medium', 'High', 'Very High', 'Low'], dtype=object)

In [9]:
# Kiểm tra dữ liệu cột JobInvolvement và chuẩn hóa: 1: 'Low', 2: 'Medium', 3: 'High', 4: 'Very High' 
dict_JobInvolvement = {
    1: 'Low',
    2: 'Medium',
    3: 'High',
    4: 'Very High'
}
df['JobInvolvement'] = df['JobInvolvement'].map(dict_JobInvolvement)
#cách 2
# df['JobInvolvement'] = df['JobInvolvement'].replace({1: 'Low',
#                                                     2: 'Medium',
#                                                     3: 'High',
#                                                     4: 'Very High'})

In [10]:
# kiểm tra giá trị duy nhất của cột JobInvolvement
df['JobInvolvement'].unique()

array(['High', 'Medium', 'Very High', 'Low'], dtype=object)

In [11]:
# Kiểm tra dữ liệu cột PerformanceRating và chuẩn hóa: 1: 'Low', 2: 'Good', 3: 'Excellent', 4: 'Outstanding' 
df['PerformanceRating'] = df['PerformanceRating'].replace({1: 'Low',
                                                           2: 'Good',
                                                           3: 'Excellent',
                                                           4: 'Outstanding'})

In [12]:
# Kiểm tra giá trị duy nhất cột PerformanceRating
df['PerformanceRating'].unique()

array(['Excellent', 'Outstanding'], dtype=object)

In [13]:
# Kiểm tra dữ liệu cột RelationshipSatisfaction và chuẩn hóa: 1: 'Low', 2: 'Good', 3: 'Excellent', 4: 'Outstanding'
df['RelationshipSatisfaction'] = df['RelationshipSatisfaction'].replace({1: 'Low',
                                                                         2: 'Good',
                                                                         3: 'Excellent',
                                                                         4: 'Outstanding'})

In [14]:
# Kiểm tra giá trị duy nhất cột RelationshipSatisfaction
df['RelationshipSatisfaction'].unique()

array(['Low', 'Outstanding', 'Good', 'Excellent'], dtype=object)

In [15]:
# Kiểm tra dữ liệu cột WorkLifeBalance và chuẩn hóa: 1: 'Bad', 2: 'Good', 3: 'Better', 4: 'Best'
df['WorkLifeBalance'] = df['WorkLifeBalance'].replace({1: 'Bad',
                                                       2: 'Good',
                                                       3: 'Better',
                                                       4: 'Best'})

In [16]:
# Kiểm tra giá trị duy nhất cột WorkLifeBalance 
df['WorkLifeBalance'].unique()

array(['Bad', 'Better', 'Good', 'Best'], dtype=object)

In [17]:
# Kiểm tra dữ liệu cột JobLevel và chuẩn hóa:
# 1: 'Executive level', 2: 'Senior level', 3: 'Mid level', 4: 'Junior level', 5: 'Entry level' 
df['JobLevel'] = df['JobLevel'].replace({1: 'Executive level',
                                         2: 'Senior level',
                                         3: 'Mid level',
                                         4: 'Junior level',
                                         5: 'Entry level'})

In [18]:
# Kiểm tra giá trị duy nhất cột JobLevel 
df['JobLevel'].unique()

array(['Senior level', 'Executive level', 'Mid level', 'Junior level',
       'Entry level'], dtype=object)

In [19]:
# Kiểm tra dữ liệu cột JobSatisfaction và chuẩn hóa: 1: 'Low', 2: 'Medium', 3: 'High', 4: 'Very High'
df['JobSatisfaction'] = df['JobSatisfaction'].replace({1: 'Low',
                                                       2: 'Medium',
                                                       3: 'High',
                                                       4: 'Very High'})

In [20]:
# Kiểm tra giá trị duy nhất cột JobSatisfaction 
df['JobSatisfaction'].unique()

array(['Very High', 'Medium', 'High', 'Low'], dtype=object)

#### 5. Showing A Random Sample of Dataset with only Categorical Features

In [21]:
# Lộc ra những cột có dtypes là str
df.select_dtypes(np.object_).sample(5)

Unnamed: 0,Attrition,BusinessTravel,Department,Education,EducationField,EnvironmentSatisfaction,Gender,JobInvolvement,JobLevel,JobRole,JobSatisfaction,MaritalStatus,Over18,OverTime,PerformanceRating,RelationshipSatisfaction,WorkLifeBalance
873,No,Travel_Rarely,Research & Development,Master,Life Sciences,High,Male,Low,Executive level,Laboratory Technician,High,Divorced,Y,No,Excellent,Excellent,Better
1450,No,Travel_Rarely,Human Resources,Master,Life Sciences,High,Female,High,Mid level,Human Resources,Very High,Single,Y,Yes,Excellent,Excellent,Better
265,No,Travel_Rarely,Sales,Bachelor,Medical,Low,Male,Medium,Senior level,Sales Executive,Medium,Married,Y,No,Excellent,Good,Better
1156,No,Travel_Rarely,Research & Development,Bachelor,Life Sciences,Low,Female,Medium,Mid level,Manufacturing Director,High,Married,Y,No,Excellent,Outstanding,Better
476,No,Travel_Rarely,Research & Development,College,Other,Very High,Male,Medium,Executive level,Laboratory Technician,Medium,Married,Y,No,Outstanding,Outstanding,Better


#### 6. Checking if There's Any Duplicate Records

In [22]:
# Check dfuplicate data 
df.duplicated().any()

False

>**Insigh:** Since the output is False, we can say that there's No Duplicate Records present in the Dataset

#### 7. Computing Total No. of Missing Values and the Percentage of Missing Values

In [23]:
# Tính toán phần trăm giá trị bị null và % giá trị bị null
missing_df = df.isnull().sum().to_frame().rename(columns={0: 'Total No. of Missing Values'})
missing_df['% of Missing Values'] = np.round(missing_df['Total No. of Missing Values']/len(df)*100,2)


In [24]:
# In ra bảng dữ liệu
missing_df

Unnamed: 0,Total No. of Missing Values,% of Missing Values
Age,0,0.0
Attrition,0,0.0
BusinessTravel,0,0.0
DailyRate,0,0.0
Department,0,0.0
DistanceFromHome,0,0.0
Education,0,0.0
EducationField,0,0.0
EmployeeCount,0,0.0
EmployeeNumber,0,0.0


>**Insigh:**
> 1. None of the Attributes are having Missing Values
> 2. Sine there's no missing values our further analysis will be consistent and unbaised.
>

#### 8. Performing Descriptive Analysis on Numerical Attributes 


In [25]:
# Thống kế dữ liệu kiểu số 
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Age,1470.0,36.92381,9.135373,18.0,30.0,36.0,43.0,60.0
DailyRate,1470.0,802.485714,403.5091,102.0,465.0,802.0,1157.0,1499.0
DistanceFromHome,1470.0,9.192517,8.106864,1.0,2.0,7.0,14.0,29.0
EmployeeCount,1470.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
EmployeeNumber,1470.0,1024.865306,602.024335,1.0,491.25,1020.5,1555.75,2068.0
HourlyRate,1470.0,65.891156,20.329428,30.0,48.0,66.0,83.75,100.0
MonthlyIncome,1470.0,6502.931293,4707.956783,1009.0,2911.0,4919.0,8379.0,19999.0
MonthlyRate,1470.0,14313.103401,7117.786044,2094.0,8047.0,14235.5,20461.5,26999.0
NumCompaniesWorked,1470.0,2.693197,2.498009,0.0,1.0,2.0,4.0,9.0
PercentSalaryHike,1470.0,15.209524,3.659938,11.0,12.0,14.0,18.0,25.0


**Note:**
1. Count: Cho biết số lượng giá trị không bị thiếu (không phải là null hoặc NA) trong cột đó.
2. Mean: Là giá trị trung bình của các giá trị trong cột.
3. Std: Viết tắt của Standard Deviation, là độ lệch chuẩn, đo lường mức độ phân tán của các giá trị so với giá trị trung bình.
4. Min: Là giá trị nhỏ nhất trong cột.
5. Max: Là giá trị lớn nhất trong cột.
6. 25%, 50%, 75%: Là các phân vị, chia dữ liệu thành các phần bằng nhau. Ví dụ, 25% nghĩa là 25% số liệu có giá trị nhỏ hơn hoặc bằng giá trị này.

**Insight:**
1. Tuổi nhỏ nhất là 18: Điều này cho thấy tất cả nhân viên đều là người trưởng thành, do đó không cần thiết phải phân tích thêm về thuộc tính "Over18" (trên 18 tuổi).
2. Độ lệch chuẩn của EmployeeCount và StandardHours bằng 0: Điều này có nghĩa là tất cả các giá trị trong hai cột này đều giống nhau, tức là không có sự thay đổi.
3. EmployeeNumber là một giá trị duy nhất cho mỗi nhân viên: Thuộc tính này chỉ dùng để phân biệt các nhân viên chứ không cung cấp thông tin hữu ích cho việc phân tích.
4. Kết luận: Vì các thuộc tính ở điểm 2 và 3 không cung cấp thông tin hữu ích, chúng ta có thể loại bỏ chúng khỏi quá trình phân tích.

#### 9. Droping Attributes which doesn't imply any meaningful insights in our analysis

In [26]:
# Xóa mọt số cột không cần sử dụng: 'Over18', 'EmployeeCount', 'EmployeeNumber', 'StandardHours' 
df = df.drop(columns=['Over18', 'EmployeeCount', 'EmployeeNumber', 'StandardHours'], axis='columns')
df.columns

Index(['Age', 'Attrition', 'BusinessTravel', 'DailyRate', 'Department',
       'DistanceFromHome', 'Education', 'EducationField',
       'EnvironmentSatisfaction', 'Gender', 'HourlyRate', 'JobInvolvement',
       'JobLevel', 'JobRole', 'JobSatisfaction', 'MaritalStatus',
       'MonthlyIncome', 'MonthlyRate', 'NumCompaniesWorked', 'OverTime',
       'PercentSalaryHike', 'PerformanceRating', 'RelationshipSatisfaction',
       'StockOptionLevel', 'TotalWorkingYears', 'TrainingTimesLastYear',
       'WorkLifeBalance', 'YearsAtCompany', 'YearsInCurrentRole',
       'YearsSinceLastPromotion', 'YearsWithCurrManager'],
      dtype='object')

#### 10. Performing Desciptive Analysis on Categorical Attributes.

In [27]:
# Thống kê dữ liệu kiểu chữ 
df.select_dtypes(np.object_).describe().T

Unnamed: 0,count,unique,top,freq
Attrition,1470,2,No,1233
BusinessTravel,1470,3,Travel_Rarely,1043
Department,1470,3,Research & Development,961
Education,1470,5,Bachelor,572
EducationField,1470,6,Life Sciences,606
EnvironmentSatisfaction,1470,4,High,453
Gender,1470,2,Male,882
JobInvolvement,1470,4,High,868
JobLevel,1470,5,Executive level,543
JobRole,1470,9,Sales Executive,326


#### 11. Checking Unique Values of Categorical Attributes

In [28]:
# In các giá trị duy nhất của các cột: 'Attrition', 'BusinessTravel', 'Department', 'Education',
    #    'EducationField', 'EnvironmentSatisfaction', 'Gender', 'JobInvolvement',
    #    'JobLevel', 'JobRole', 'JobSatisfaction', 'MaritalStatus', 'OverTime',
    #    'PerformanceRating', 'RelationshipSatisfaction', 'WorkLifeBalance'
col_get_values = df.select_dtypes(np.object_).columns
for i, col in enumerate(col_get_values):
    val = set(df[col])
    print('Columns {}. Unique values of {}: {}'.format(i+1, col, val))
    print('-'*124)

Columns 1. Unique values of Attrition: {'No', 'Yes'}
----------------------------------------------------------------------------------------------------------------------------
Columns 2. Unique values of BusinessTravel: {'Travel_Frequently', 'Non-Travel', 'Travel_Rarely'}
----------------------------------------------------------------------------------------------------------------------------
Columns 3. Unique values of Department: {'Human Resources', 'Research & Development', 'Sales'}
----------------------------------------------------------------------------------------------------------------------------
Columns 4. Unique values of Education: {'Doctor', 'Bachelor', 'College', 'Master', 'Below College'}
----------------------------------------------------------------------------------------------------------------------------
Columns 5. Unique values of EducationField: {'Other', 'Human Resources', 'Medical', 'Marketing', 'Life Sciences', 'Technical Degree'}
---------------------

### VII. Exploratory Data Analysis

#### 1. Analyzing Employee Attrition Rate

In [29]:
# Total employee and employee attrtion
df_emp_attrition_rate = df.groupby(['Attrition']).agg({'Attrition': 'count'}).rename(columns={'Attrition': 'Attrition_Num'}).reset_index()
df_emp_attrition_rate['%Attrition_rate'] = np.round((df_emp_attrition_rate['Attrition_Num']/len(df))*100,2)
df_emp_attrition_rate

Unnamed: 0,Attrition,Attrition_Num,%Attrition_rate
0,No,1233,83.88
1,Yes,237,16.12


>**Nhận xét:**
>1. Tỷ lệ nhân viên nghỉ việc của công ty này là 16,12%.
>2. Theo các chuyên gia nhân sự, tỷ lệ nghỉ việc từ 4% đến 6% là bình thường trong các tổ chức.
>3. Vì vậy, có thể nói rằng tỷ lệ nghỉ việc của công ty đang ở mức báo động.
>4. Do đó, công ty cần thực hiện các biện pháp để giảm tỷ lệ nghỉ việc.

>**Ý nghĩa:**
>Tỷ lệ nghỉ việc cao có thể gây ra nhiều hậu quả tiêu cực cho công ty, bao gồm:
>1. Tăng chi phí tuyển dụng và đào tạo: Khi nhân viên nghỉ việc, công ty phải mất thời gian và tiền bạc để tuyển dụng và đào tạo nhân viên mới.
>2. Giảm hiệu quả làm việc: Khi nhân viên mới chưa quen với công việc, hiệu quả làm việc của toàn bộ đội ngũ có thể bị ảnh hưởng.
>3. Mất đi những nhân viên có kinh nghiệm: Việc nhân viên có kinh nghiệm nghỉ việc sẽ làm mất đi những kiến thức và kỹ năng quý báu của công ty.
>4. Ảnh hưởng đến uy tín của công ty: Tỷ lệ nghỉ việc cao có thể khiến các ứng viên tiềm năng e ngại khi ứng tuyển vào công ty.

>**Các câu hỏi gợi mở:**
>Để hiểu rõ hơn về vấn đề này, bạn có thể đặt ra một số câu hỏi như:
>1. Nguyên nhân nào dẫn đến tỷ lệ nghỉ việc cao của công ty? (Ví dụ: lương thấp, môi trường làm việc không tốt, cơ hội thăng tiến hạn chế,...)
>2. Các bộ phận nào có tỷ lệ nghỉ việc cao nhất?
>3. Nhân viên nghỉ việc thường đưa ra lý do gì?
>4. Công ty đã có những biện pháp nào để giảm tỷ lệ nghỉ việc?
>5. Những biện pháp nào có thể được thực hiện để giải quyết vấn đề này?

#### 2. Analyzing Employee Attrition by Gender

In [30]:
# total employee by fender and attrition by gender
num_emp_gender = df[['Attrition', 'Gender']].pivot_table(
    columns=['Attrition'],
    index=['Gender'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={'No': '#Active', 'Yes': '#Attrition', 'Grand Total': '#Total'})
# Add %Active empoyee column
num_emp_gender['%Active'] = np.round(100*(num_emp_gender['#Active']/num_emp_gender['#Total']),2)
# Add % Attrition employee column
num_emp_gender['%Attrition'] = np.round(100*(num_emp_gender['#Attrition']/num_emp_gender['#Total']),2)
#print
num_emp_gender

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Female,501,87,588,85.2,14.8
Male,732,150,882,82.99,17.01
Grand Total,1233,237,1470,83.88,16.12


>**Nhận xét:**
>1. Số lượng nhân viên nam trong công ty chiếm tỷ lệ cao hơn so với nhân viên nữ, cụ thể là hơn 26%.
>2. Nhân viên nam có xu hướng rời khỏi công ty nhiều hơn so với nhân viên nữ.

>**Giải thích:**
> Đoạn văn trên đang đưa ra hai nhận xét chính về tình hình nhân sự của một công ty:
>1. Sự chênh lệch về giới tính: Số lượng nhân viên nam trong công ty đông hơn so với nhân viên nữ một cách đáng kể.
>2. Tỷ lệ nghỉ việc: Nam giới có xu hướng nghỉ việc thường xuyên hơn so với nữ giới.

>**Ý nghĩa:**
> Những thông tin này cho thấy có sự khác biệt đáng kể giữa nam và nữ về việc làm và nghỉ việc tại công ty này. Để hiểu rõ hơn về tình hình, cần phải phân tích sâu hơn về các yếu tố có thể ảnh hưởng đến quyết định nghỉ việc của nhân viên, chẳng hạn như:
>1. Lương thưởng: Có sự chênh lệch về mức lương giữa nam và nữ không?
>2. Cơ hội thăng tiến: Nam giới và nữ giới có được trao cơ hội thăng tiến như nhau không?
>3. Môi trường làm việc: Môi trường làm việc có phù hợp với cả nam và nữ không? Có tồn tại những rào cản giới tính nào không?
>4. Lý do nghỉ việc: Nam giới và nữ giới thường đưa ra những lý do gì khi quyết định nghỉ việc?

>**Các câu hỏi gợi mở:**
>1. Tại sao số lượng nhân viên nam lại chiếm tỷ lệ cao hơn? Có phải do đặc thù ngành nghề hay có những chính sách tuyển dụng ưu tiên nam giới?
>2. Tại sao nam giới lại có xu hướng nghỉ việc nhiều hơn? Có phải do yếu tố công việc, gia đình, hay có những vấn đề khác?
>3. Công ty đã có những biện pháp nào để thu hút và giữ chân nhân viên nữ?
>4. Công ty nên làm gì để giảm tỷ lệ nghỉ việc của cả nam và nữ?

>**Kết luận:**
>1. Việc phân tích sự khác biệt giữa nam và nữ trong tỷ lệ nghỉ việc là rất quan trọng để giúp công ty đánh giá tình hình nhân sự một cách toàn diện và đưa ra những giải pháp phù hợp.


#### 3. Analyzing Emplooyee Attrition by Age

In [31]:
# Create bins by age group
bins = [0, 20, 30, 40, 50, 999]
labels = ['Under 20', 'Group 20-30', 'Group 30-40', 'Group 40-50', 'Above 50']
df['Age_labels'] = pd.cut(df['Age'], bins=bins, labels=labels)

# group by data
df_emp_age = df[['Age_labels', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['Age_labels'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_age['%Active'] = np.round(100*(df_emp_age['#Active']/df_emp_age['#Total']),2)
df_emp_age['%Attrition'] = np.round(100*(df_emp_age['#Attrition']/df_emp_age['#Total']),2)


#print
df_emp_age

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
Age_labels,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Under 20,12,16,28,42.86,57.14
Group 20-30,274,84,358,76.54,23.46
Group 30-40,534,85,619,86.27,13.73
Group 40-50,288,34,322,89.44,10.56
Above 50,125,18,143,87.41,12.59
Grand Total,1233,237,1470,83.88,16.12


>**Nhận xét:**

>1. Hầu hết nhân viên có độ tuổi `từ 30 đến 40`: Điều này cho thấy rằng nhóm nhân viên có độ tuổi trung niên chiếm tỷ lệ lớn trong công ty.
>2. Có một xu hướng rõ ràng là khi tuổi tác tăng lên thì tỷ lệ nghỉ việc giảm: Nghĩa là, nhân viên lớn tuổi có xu hướng gắn bó với công ty lâu hơn so với nhân viên trẻ tuổi.
>3. Từ biểu đồ hộp, chúng ta cũng có thể thấy rằng độ tuổi trung bình của nhân viên nghỉ việc thấp hơn so với nhân viên đang làm việc tại công ty: Điều này cũng củng cố thêm nhận định ở câu 2, cho thấy `nhân viên trẻ tuổi có xu hướng nghỉ việc nhiều hơn`.
>4. Nhân viên trẻ tuổi rời khỏi công ty nhiều hơn so với nhân viên lớn tuổi: Đây là cách diễn đạt khác của câu 2 và 3, nhấn mạnh vào sự khác biệt về tỷ lệ nghỉ việc giữa hai nhóm tuổi.

>**Tóm tắt:**
>Đoạn văn trên đang phân tích về mối quan hệ giữa độ tuổi của nhân viên và tỷ lệ nghỉ việc trong một công ty. Kết quả cho thấy:
>1. Nhân viên trung niên chiếm đa số: Nhóm nhân viên từ 30 đến 40 tuổi là nhóm đông nhất.
>2. Nhân viên trẻ tuổi hay nghỉ việc hơn: Tỷ lệ nghỉ việc giảm dần theo độ tuổi, nghĩa là nhân viên càng lớn tuổi thì càng ít có khả năng rời khỏi công ty.

>**Ý nghĩa:**
>Những thông tin này có thể giúp công ty:
>1. Hiểu rõ hơn về lực lượng lao động: Biết được độ tuổi chủ yếu của nhân viên để có những chính sách phù hợp.
>2. Xác định nguyên nhân nghỉ việc: Tìm hiểu lý do tại sao nhân viên trẻ tuổi lại hay nghỉ việc hơn, từ đó đưa ra các giải pháp cải thiện.
>3. Lập kế hoạch nhân sự: Dự đoán xu hướng nghỉ việc trong tương lai và xây dựng kế hoạch tuyển dụng, đào tạo phù hợp.

>**Các câu hỏi gợi mở:**
>1. Tại sao nhân viên trẻ tuổi lại hay nghỉ việc hơn? Có phải do mức lương, cơ hội thăng tiến, hay các yếu tố khác?
>2. Công ty có thể làm gì để giữ chân nhân viên trẻ tuổi? Ví dụ như tạo cơ hội phát triển nghề nghiệp, tăng cường giao tiếp, hoặc cải thiện môi trường làm việc.
>3. Việc nhân viên lớn tuổi gắn bó lâu dài với công ty có lợi ích gì? Có thể kể đến kinh nghiệm, ổn định, và sự trung thành.

>**Kết luận:**
>Phân tích trên cung cấp những thông tin quan trọng về mối quan hệ giữa độ tuổi và tỷ lệ nghỉ việc. Việc hiểu rõ những thông tin này sẽ giúp công ty đưa ra những quyết định đúng đắn để xây dựng một lực lượng lao động ổn định và hiệu quả.

#### 4. Analyzing Empoyee Attrition by Business Travel.

In [32]:
# Kiểm tra dữ liệu duy nhất của BusinessTravel
df['BusinessTravel'].unique()
# group emp by Business Travel & Attition 
df_emp_businessTravel = df[['BusinessTravel', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['BusinessTravel'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_businessTravel['%Active'] = np.round(100*(df_emp_businessTravel['#Active']/df_emp_businessTravel['#Total']),2)
df_emp_businessTravel['%Attrition'] = np.round(100*(df_emp_businessTravel['#Attrition']/df_emp_businessTravel['#Total']),2)
#print
df_emp_businessTravel

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
BusinessTravel,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Non-Travel,138,12,150,92.0,8.0
Travel_Frequently,208,69,277,75.09,24.91
Travel_Rarely,887,156,1043,85.04,14.96
Grand Total,1233,237,1470,83.88,16.12


>**Nhận xét:**
>1. `Hầu hết nhân viên trong công ty đi công tác ít`: Điều này cho thấy rằng đa số nhân viên không thường xuyên phải đi công tác.
>2. `Tỷ lệ nhân viên nghỉ việc cao nhất được quan sát thấy ở những người thường xuyên đi công tác`: Nghĩa là, những nhân viên phải đi công tác thường xuyên có xu hướng rời khỏi công ty nhiều hơn.
>3. `Tỷ lệ nhân viên nghỉ việc thấp nhất được quan sát thấy ở những người không đi công tác`: Điều này có nghĩa là những nhân viên không phải đi công tác ít có khả năng nghỉ việc hơn.

#### 5. Analyzing Employee Attrition by Department

In [33]:
# Kiểm tra dữ liệu duy nhất của Department
df['Department'].unique()
# groupby emp by department and attrition
df_emp_department = df[['Department', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['Department'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_department['%Active'] = np.round(100*(df_emp_department['#Active']/df_emp_department['#Total']),2)
df_emp_department['%Attrition'] = np.round(100*(df_emp_department['#Attrition']/df_emp_department['#Total']),2)
# print
df_emp_department

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
Department,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Human Resources,51,12,63,80.95,19.05
Research & Development,828,133,961,86.16,13.84
Sales,354,92,446,79.37,20.63
Grand Total,1233,237,1470,83.88,16.12


>**Nhận xét:**
>1. `Hầu hết nhân viên thuộc phòng ban Nghiên cứu và Phát triển`: Điều này cho thấy rằng phòng ban Nghiên cứu và Phát triển có số lượng nhân viên lớn nhất trong công ty.
>2. Tỷ lệ nghỉ việc cao nhất ở phòng ban Kinh doanh: Nghĩa là, phòng ban Kinh doanh đang mất đi nhiều nhân viên nhất so với các phòng ban khác.
>3. Tỷ lệ nghỉ việc của phòng ban Nhân sự cũng rất cao: Điều này cho thấy phòng ban Nhân sự cũng đang gặp phải vấn đề về việc giữ chân nhân viên.
>4. Mặc dù phòng ban Nghiên cứu và Phát triển có số lượng nhân viên lớn nhất nhưng tỷ lệ nghỉ việc lại thấp nhất so với các phòng ban khác: Điều này cho thấy phòng ban Nghiên cứu và Phát triển đang làm rất tốt trong việc giữ chân nhân viên của mình.

#### 6. Analyzing Employee Attrition by DailyRate

>**Note:**
>1. `DailyRate` shows the Daily salary rate for employees
>2. To `generate meaningful insights` we can cut `Daily Rates` into three groups for meaningful analysis.

In [34]:
# Thống kê dữ kiệu cột DailyRate. Lấy cơ sở tạo bins
df['DailyRate'].describe().to_frame().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
DailyRate,1470.0,802.485714,403.5091,102.0,465.0,802.0,1157.0,1499.0


In [35]:
# create bins
bins_dailyrate = [0, 500, 1000, 1500]
labels_dailyrate = ['Low DailyRate', 'Medium DailyRate', 'Hight DailyRate']
df['DailyRateGroup'] = pd.cut(df['DailyRate'], bins=bins_dailyrate, labels=labels_dailyrate)
df['DailyRateGroup'].unique()

['Hight DailyRate', 'Low DailyRate', 'Medium DailyRate']
Categories (3, object): ['Low DailyRate' < 'Medium DailyRate' < 'Hight DailyRate']

In [36]:
# groupby emp by DailyRateGroup and Attrition
df_emp_dailyrate = df[['DailyRateGroup', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['DailyRateGroup'],
    aggfunc=len,
    margins=True,
    margins_name='Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Total': '#Total'
})

df_emp_dailyrate['%Active'] = np.round(100*(df_emp_dailyrate['#Active']/df_emp_dailyrate['#Total']),2)
df_emp_dailyrate['%Attrition'] = np.round(100*(df_emp_dailyrate['#Attrition']/df_emp_dailyrate['#Total']),2)
df_emp_dailyrate['%Total'] = np.round(100*(df_emp_dailyrate['#Total']/df_emp_dailyrate['#Total']['Total']),2)
#print
df_emp_dailyrate

Attrition,#Active,#Attrition,#Total,%Active,%Attrition,%Total
DailyRateGroup,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Low DailyRate,327,78,405,80.74,19.26,27.55
Medium DailyRate,454,88,542,83.76,16.24,36.87
Hight DailyRate,452,71,523,86.42,13.58,35.58
Total,1233,237,1470,83.88,16.12,100.0


>**Nhận xét:**
>1. Số lượng nhân viên có mức lương ngày bình thường và mức lương ngày cao xấp xỉ bằng nhau: Điều này có nghĩa là công ty có số lượng nhân viên ở hai mức lương này tương đối cân bằng.
>2. Tỷ lệ nhân viên nghỉ việc ở mức lương ngày bình thường cao hơn nhiều so với những người có mức lương ngày cao: Điều này cho thấy rằng những nhân viên có mức lương ngày bình thường có xu hướng rời khỏi công ty nhiều hơn.
>3. Tỷ lệ nhân viên nghỉ việc ở mức lương ngày thấp cũng cao: Điều này có nghĩa là những nhân viên có mức lương ngày thấp cũng có khả năng nghỉ việc cao.
>4. Nhân viên không nhận được mức lương ngày cao thường rời khỏi công ty: Câu này nhấn mạnh lại ý của câu 2 và 3, cho thấy mức lương ngày có ảnh hưởng đáng kể đến quyết định ở lại hoặc rời khỏi công ty của nhân viên.

#### 7. Analyzing Employee Attrition by Distance Home.

In [37]:
# detail unique values of distance from home
df['DistanceFromHome'].unique()

array([ 1,  8,  2,  3, 24, 23, 27, 16, 15, 26, 19, 21,  5, 11,  9,  7,  6,
       10,  4, 25, 12, 18, 29, 22, 14, 20, 28, 17, 13], dtype=int64)

In [38]:
# Total unique values of Distance from home
total_distance = df['DistanceFromHome'].nunique()
print('Total unique values of DistanceFromHome: {}'.format(total_distance))

Total unique values of DistanceFromHome: 29


In [39]:
# Descrive distance from home
df['DistanceFromHome'].describe().to_frame().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
DistanceFromHome,1470.0,9.192517,8.106864,1.0,2.0,7.0,14.0,29.0


In [40]:
# crate bins
bins_distancefromhome = [0, 2, 5, 10, 30]
labels_distanceformhome = ['0-2 kms', '3-5 kms', '6-10 kms', '10+ kms']
df['DistanceGroup'] = pd.cut(df['DistanceFromHome'], bins=bins_distancefromhome, labels=labels_distanceformhome)
df['DistanceGroup'].unique()

['0-2 kms', '6-10 kms', '3-5 kms', '10+ kms']
Categories (4, object): ['0-2 kms' < '3-5 kms' < '6-10 kms' < '10+ kms']

In [41]:
# groupby emp by distance from home and attrition
df_emp_distance = df[['DistanceGroup', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['DistanceGroup'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_distance['%Active'] = np.round(100*(df_emp_distance['#Active']/df_emp_distance['#Total']),2)
df_emp_distance['%Attrition'] = np.round(100*(df_emp_distance['#Attrition']/df_emp_distance['#Total']),2)
df_emp_distance['%Total'] = np.round(100*(df_emp_distance['#Total']/df_emp_distance['#Total']['Grand Total']),2)
# print
df_emp_distance

Attrition,#Active,#Attrition,#Total,%Active,%Attrition,%Total
DistanceGroup,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0-2 kms,365,54,419,87.11,12.89,28.5
3-5 kms,180,33,213,84.51,15.49,14.49
6-10 kms,337,57,394,85.53,14.47,26.8
10+ kms,351,93,444,79.05,20.95,30.2
Grand Total,1233,237,1470,83.88,16.12,100.0


>**Insight:**
>1. Trong công ty, có tất cả các loại nhân viên, những người ở gần công ty và những người ở xa công ty. Câu này cho thấy rằng khoảng cách từ nhà đến công ty của nhân viên là đa dạng, không chỉ tập trung ở một khoảng cách nhất định.
>2. Yếu tố "Khoảng cách từ nhà đến công ty" không có bất kỳ xu hướng nào liên quan đến tỷ lệ nghỉ việc. Câu này có nghĩa là việc nhân viên ở gần hay xa công ty không ảnh hưởng đến quyết định có nghỉ việc hay không của họ. Nói cách khác, khoảng cách đi làm không phải là yếu tố quyết định nhân viên có muốn rời khỏi công ty hay không.
>3. Nhân viên ở gần công ty có xu hướng nghỉ việc nhiều hơn so với những người ở xa công ty. Câu này trái ngược với câu 2, cho thấy có một xu hướng ngược lại: những người ở gần công ty lại có tỷ lệ nghỉ việc cao hơn.

#### 8. Analyzing Employee Attrition by Education

In [42]:
# kiểm tra dữ liệu duy nhất của cọt Education
df['Education'].unique()

array(['College', 'Below College', 'Master', 'Bachelor', 'Doctor'],
      dtype=object)

In [43]:
# group by emp by education and attrition
df_emp_education = df[['Education', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['Education'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})
df_emp_education['%Active'] = np.round(100*(df_emp_education['#Active']/df_emp_education['#Total']),2)
df_emp_education['%Attrition'] = np.round(100*(df_emp_education['#Attrition']/df_emp_education['#Total']),2)
df_emp_education['%Total'] = np.round(100*(df_emp_education['#Total']/df_emp_education['#Total']['Grand Total']),2)
# print
df_emp_education

Attrition,#Active,#Attrition,#Total,%Active,%Attrition,%Total
Education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Bachelor,473,99,572,82.69,17.31,38.91
Below College,139,31,170,81.76,18.24,11.56
College,238,44,282,84.4,15.6,19.18
Doctor,43,5,48,89.58,10.42,3.27
Master,340,58,398,85.43,14.57,27.07
Grand Total,1233,237,1470,83.88,16.12,100.0


#### 9. Analyzing Employee Attrition by Education Field

In [44]:
# Kiểm tra dữ liệu duy nhất EducationField. Lĩnh vực học
df['EducationField'].unique()

array(['Life Sciences', 'Other', 'Medical', 'Marketing',
       'Technical Degree', 'Human Resources'], dtype=object)

In [45]:
# group by emp by education field and attrition
df_emp_educationField = df[['EducationField', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['EducationField'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_educationField['%Active'] = np.round(100*(df_emp_educationField['#Active']/df_emp_educationField['#Total']),2)
df_emp_educationField['%Attrition'] = np.round(100*(df_emp_educationField['#Attrition']/df_emp_educationField['#Total']),2)
# df_emp_educationField['%Total'] = np.round(100*(df_emp_educationField['#Total']/df_emp_educationField['#Total']['Grand Total']),2)
# print
df_emp_educationField

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
EducationField,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Human Resources,20,7,27,74.07,25.93
Life Sciences,517,89,606,85.31,14.69
Marketing,124,35,159,77.99,22.01
Medical,401,63,464,86.42,13.58
Other,71,11,82,86.59,13.41
Technical Degree,100,32,132,75.76,24.24
Grand Total,1233,237,1470,83.88,16.12


#### 10. Analyzing Employee Attrition by Environment Satisfaction

In [46]:
# Kiểm tra dữ liệu duy nhất của cột EnvironmentSatisfaction
df['EnvironmentSatisfaction'].unique()

array(['Medium', 'High', 'Very High', 'Low'], dtype=object)

In [47]:
# group by emp by enviroment_satisroment and attrition
df_emp_enviroment_satisroment = df[['EnvironmentSatisfaction', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['EnvironmentSatisfaction'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_enviroment_satisroment['%Active'] = np.round(100*(df_emp_enviroment_satisroment['#Active']/df_emp_enviroment_satisroment['#Total']),2)
df_emp_enviroment_satisroment['%Attrition'] = np.round(100*(df_emp_enviroment_satisroment['#Attrition']/df_emp_enviroment_satisroment['#Total']),2)
# df_emp_educationField['%Total'] = np.round(100*(df_emp_educationField['#Total']/df_emp_educationField['#Total']['Grand Total']),2)
# print
df_emp_enviroment_satisroment

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
EnvironmentSatisfaction,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
High,391,62,453,86.31,13.69
Low,212,72,284,74.65,25.35
Medium,244,43,287,85.02,14.98
Very High,386,60,446,86.55,13.45
Grand Total,1233,237,1470,83.88,16.12


#### 11. Analyzing Employee Attrition by Job Roles

In [48]:
# kiểm tra dữ liệu duy nhất của cột JobRole
df['JobRole'].unique()

array(['Sales Executive', 'Research Scientist', 'Laboratory Technician',
       'Manufacturing Director', 'Healthcare Representative', 'Manager',
       'Sales Representative', 'Research Director', 'Human Resources'],
      dtype=object)

In [49]:
# group by emp by job role and attrition
df_emp_jobrole = df[['JobRole', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['JobRole'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total'
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_jobrole['%Active'] = np.round(100*(df_emp_jobrole['#Active']/df_emp_jobrole['#Total']),2)
df_emp_jobrole['%Attrition'] = np.round(100*(df_emp_jobrole['#Attrition']/df_emp_jobrole['#Total']),2)
#print
df_emp_jobrole

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
JobRole,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Healthcare Representative,122,9,131,93.13,6.87
Human Resources,40,12,52,76.92,23.08
Laboratory Technician,197,62,259,76.06,23.94
Manager,97,5,102,95.1,4.9
Manufacturing Director,135,10,145,93.1,6.9
Research Director,78,2,80,97.5,2.5
Research Scientist,245,47,292,83.9,16.1
Sales Executive,269,57,326,82.52,17.48
Sales Representative,50,33,83,60.24,39.76
Grand Total,1233,237,1470,83.88,16.12


>**Insight:**
>1. Hầu hết nhân viên đang làm việc ở các vị trí như Giám đốc Nghiên cứu, Chuyên viên Bán hàng hoặc Kỹ thuật viên Phòng thí nghiệm trong tổ chức này. Câu này cho thấy rằng phần lớn nhân viên trong công ty đang đảm nhận những công việc liên quan đến nghiên cứu, bán hàng và kỹ thuật phòng thí nghiệm.
>2. Tỷ lệ nghỉ việc cao nhất được ghi nhận ở các vị trí Giám đốc Nghiên cứu, Chuyên viên Bán hàng và Kỹ thuật viên Phòng thí nghiệm. Câu này cho biết rằng những người làm việc ở các vị trí được nhắc đến ở câu 1 lại có tỷ lệ thôi việc cao nhất so với các vị trí khác trong công ty.

#### 12. Analyzing Employee Attrition by Job Level

In [50]:
# kiểm tra tính duy nhất của cột JobLevel
df['JobLevel'].unique()

array(['Senior level', 'Executive level', 'Mid level', 'Junior level',
       'Entry level'], dtype=object)

In [51]:
# group by emp by job level and attrition
df_emp_joblevel = df[['JobLevel', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['JobLevel'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_joblevel['%Active'] = np.round(100*(df_emp_joblevel['#Active']/df_emp_joblevel['#Total']),2)
df_emp_joblevel['%Attrition'] = np.round(100*(df_emp_joblevel['#Attrition']/df_emp_joblevel['#Total']),2)
#print
df_emp_joblevel

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
JobLevel,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Entry level,64,5,69,92.75,7.25
Executive level,400,143,543,73.66,26.34
Junior level,101,5,106,95.28,4.72
Mid level,186,32,218,85.32,14.68
Senior level,482,52,534,90.26,9.74
Grand Total,1233,237,1470,83.88,16.12


>**Insight: (Thông tin chi tiết)**
>1. Hầu hết nhân viên trong công ty ở cấp bậc mới vào hoặc cấp bậc junior. Câu này cho thấy đa số nhân viên trong công ty là những người mới bắt đầu công việc hoặc có kinh nghiệm làm việc không nhiều.
>2. Tỷ lệ nghỉ việc cao nhất ở cấp bậc mới vào. Câu này có nghĩa là những nhân viên mới vào làm việc có xu hướng nghỉ việc nhiều nhất so với các cấp bậc khác.
Khi cấp bậc tăng lên thì tỷ lệ nghỉ việc giảm dần. Câu này cho thấy rằng càng lên các cấp bậc cao hơn, tỷ lệ nhân viên nghỉ việc càng giảm.

#### 13. Analyzing Employee Attrition by Job Satisfaction

In [52]:
# kiểm tra dữ liệu duy nhất của cột JobSatisfaction
df['JobSatisfaction'].unique()

array(['Very High', 'Medium', 'High', 'Low'], dtype=object)

In [53]:
# group by emp by job satisfaction and attrition
df_emp_jobSatisfaction = df[['JobSatisfaction', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['JobSatisfaction'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_jobSatisfaction['%Active'] = np.round(100*(df_emp_jobSatisfaction['#Active']/df_emp_jobSatisfaction['#Total']),2)
df_emp_jobSatisfaction['%Attrition'] = np.round(100*(df_emp_jobSatisfaction['#Attrition']/df_emp_jobSatisfaction['#Total']),2)
#print
df_emp_jobSatisfaction

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
JobSatisfaction,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
High,369,73,442,83.48,16.52
Low,223,66,289,77.16,22.84
Medium,234,46,280,83.57,16.43
Very High,407,52,459,88.67,11.33
Grand Total,1233,237,1470,83.88,16.12


>**Insight: (Thông tin chi tiết)**
>1. Hầu hết nhân viên đánh giá mức độ hài lòng với công việc là cao hoặc rất cao. Câu này cho thấy đa số nhân viên cảm thấy hài lòng với công việc của mình.
>2. Những nhân viên đánh giá mức độ hài lòng với công việc là thấp thường rời khỏi công ty. Câu này có nghĩa là những người không hài lòng với công việc có xu hướng nghỉ việc.
T>3. ất cả các mức độ hài lòng với công việc đều có tỷ lệ nghỉ việc cao. Câu này cho thấy rằng dù là những người đánh giá hài lòng cao hay thấp thì tỷ lệ nghỉ việc vẫn ở mức cao.

#### 14. Analyzing Employee Attrition by Marital Status

In [54]:
# kiểm tra dữ liệu duy nhất của cột MaritalStatus
df['MaritalStatus'].unique()

array(['Single', 'Married', 'Divorced'], dtype=object)

In [55]:
# group by emp by Marital Status and attrition
df_emp_maritalStatus = df[['MaritalStatus', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['MaritalStatus'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_maritalStatus['%Active'] = np.round(100*(df_emp_maritalStatus['#Active']/df_emp_maritalStatus['#Total']),2)
df_emp_maritalStatus['%Attrition'] = np.round(100*(df_emp_maritalStatus['#Attrition']/df_emp_maritalStatus['#Total']),2)
#print
df_emp_maritalStatus

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
MaritalStatus,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Divorced,294,33,327,89.91,10.09
Married,589,84,673,87.52,12.48
Single,350,120,470,74.47,25.53
Grand Total,1233,237,1470,83.88,16.12


>**Insight: (Thông tin chi tiết)**
>1. Hầu hết nhân viên trong công ty đã kết hôn. Câu này cho thấy tình trạng hôn nhân của đa số nhân viên trong công ty.
>2. Tỷ lệ nghỉ việc của những nhân viên đã ly hôn rất cao. Câu này cho thấy những người đã ly hôn có xu hướng rời khỏi công ty nhiều hơn.
>3. Tỷ lệ nghỉ việc của những nhân viên độc thân khá thấp. Câu này cho thấy những người độc thân có xu hướng gắn bó với công ty lâu hơn.

#### 15. Analyzing Emloyee Attrition by Monthly Income

In [56]:
# create bins
bins_income = [0, 5000, 10000, 15000, 20000]
labels_income = ['Under 5K', 'Group 5K-10K', 'Group 10K-15K', 'Group 15K-20K']
df['MonthlyIncome_labels'] = pd.cut(df['MonthlyIncome'], bins=bins_income, labels=labels_income)

df['MonthlyIncome_labels'].unique()

['Group 5K-10K', 'Under 5K', 'Group 15K-20K', 'Group 10K-15K']
Categories (4, object): ['Under 5K' < 'Group 5K-10K' < 'Group 10K-15K' < 'Group 15K-20K']

In [57]:
# Nếu cột Attrition = Yes thì trả về 1 ngược lại trả về 0
df['Attrition_labels'] = np.where(df['Attrition'] == 'Yes', 1, 0)
# tính tổng cột Attrition_labels
df['Attrition_labels'].sum()

237

In [58]:
#nếu cột Attrition = Yes thì trả về 0 ngược lại trả về 1
df['Active_labels'] = np.where(df['Attrition'] == 'Yes', 0, 1)
# tính tổng cột df['Attrition_labels']
df['Active_labels'].sum()

1233

In [59]:
# group by emp by monthly income labels and attrition
df_income = pd.pivot_table(
    df,
    columns=['Attrition'],
    index=['MonthlyIncome_labels'],
    values=['MonthlyIncome', 'Attrition_labels', 'Active_labels'],
    aggfunc={
        'MonthlyIncome': 'sum',
        'Attrition_labels': 'sum',
        'Active_labels': 'sum'
    },
    # margins=True,
    # margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition'
})

# df_income['%Active'] = np.round(100*(df_income['#Active']/df_income['#Total']),2)
# df_income['%Attrition'] = np.round(100*(df_income['#Attrition']/df_income['#Total']),2)
# print
df_income

Unnamed: 0_level_0,Active_labels,Active_labels,Attrition_labels,Attrition_labels,MonthlyIncome,MonthlyIncome
Attrition,#Active,#Attrition,#Active,#Attrition,#Active,#Attrition
MonthlyIncome_labels,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Under 5K,586,0,0,163,1928037,460937
Group 5K-10K,391,0,0,49,2653782,350367
Group 10K-15K,128,0,0,20,1538373,225918
Group 15K-20K,128,0,0,5,2304576,97319


#### 16. Analyzing Employee Attrition by Monthly Rate

In [60]:
# create bins
bins_monthlyrate = [0, 5000, 10000, 15000, 20000, 25000]
labels_monthlyrate = ['Under 5K', 'Group 5K-10K', 'Group 10K-15K', 'Group 15K-20K', 'Group 20K-25K']
df['MonthlyRate_labels'] = pd.cut(df['MonthlyRate'], bins=bins_monthlyrate, labels=labels_monthlyrate)
df['MonthlyRate_labels'].unique()

['Group 15K-20K', 'Group 20K-25K', 'Under 5K', 'Group 10K-15K', 'Group 5K-10K', NaN]
Categories (5, object): ['Under 5K' < 'Group 5K-10K' < 'Group 10K-15K' < 'Group 15K-20K' < 'Group 20K-25K']

In [61]:
# group by emp by monthly rate
df_emp_monthlyrate = df[['MonthlyRate_labels', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['MonthlyRate_labels'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_monthlyrate['%Active'] = np.round(100*(df_emp_monthlyrate['#Active']/df_emp_monthlyrate['#Total']),2)
df_emp_monthlyrate['%Attrition'] = np.round(100*(df_emp_monthlyrate['#Attrition']/df_emp_monthlyrate['#Total']),2)
#print
df_emp_monthlyrate

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
MonthlyRate_labels,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Under 5K,141,30,171,82.46,17.54
Group 5K-10K,274,42,316,86.71,13.29
Group 10K-15K,234,53,287,81.53,18.47
Group 15K-20K,254,44,298,85.23,14.77
Group 20K-25K,254,48,302,84.11,15.89
Grand Total,1157,217,1374,84.21,15.79


#### 17. Analyzing Employee Attrition by Number of Companies Worked

In [62]:
# Thống kê dữ liệu cột NumCompaniesWorked
df['NumCompaniesWorked'].describe().to_frame().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
NumCompaniesWorked,1470.0,2.693197,2.498009,0.0,1.0,2.0,4.0,9.0


In [63]:
# Define the bin adges for groups
bins_adges = [0, 1, 3, 5, 10]
# Define the labels for the groups
bin_labels = ['0-1 Comanies', '2-3 Companies', '4-5 Companies', '5+ Companies']
#Cut the DailyRate column into groups
df['NumCompaniesWorked_labels'] = pd.cut(df['NumCompaniesWorked'], bins=bins_adges, labels=bin_labels)
df['NumCompaniesWorked_labels'].unique()

['5+ Companies', '0-1 Comanies', NaN, '4-5 Companies', '2-3 Companies']
Categories (4, object): ['0-1 Comanies' < '2-3 Companies' < '4-5 Companies' < '5+ Companies']

In [64]:
# group emp by companies worked and attrition
df_emp_numCompaniesWorked = df[['NumCompaniesWorked_labels', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['NumCompaniesWorked_labels'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_numCompaniesWorked['%Active'] = np.round(100*(df_emp_numCompaniesWorked['#Active']/df_emp_numCompaniesWorked['#Total']),2)
df_emp_numCompaniesWorked['%Attrition'] = np.round(100*(df_emp_numCompaniesWorked['#Attrition']/df_emp_numCompaniesWorked['#Total']),2)
# print
df_emp_numCompaniesWorked

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
NumCompaniesWorked_labels,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0-1 Comanies,423,98,521,81.19,18.81
2-3 Companies,273,32,305,89.51,10.49
4-5 Companies,169,33,202,83.66,16.34
5+ Companies,194,51,245,79.18,20.82
Grand Total,1059,214,1273,83.19,16.81


#### 18. Analyzing Employee Attrition by Over Time

In [65]:
# kiểm tra dữ liệu duy nhất cột OverTime
df['OverTime'].unique()

array(['Yes', 'No'], dtype=object)

In [66]:
# group by emp by over time
df_emp_overtime = df[['OverTime', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['OverTime'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_overtime['%Active'] = np.round(100*(df_emp_overtime['#Active']/df_emp_overtime['#Total']),2)
df_emp_overtime['%Attrition'] = np.round(100*(df_emp_overtime['#Attrition']/df_emp_overtime['#Total']),2)
# print
df_emp_overtime

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
OverTime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
No,944,110,1054,89.56,10.44
Yes,289,127,416,69.47,30.53
Grand Total,1233,237,1470,83.88,16.12


#### 19. Analyzing Employee Attrition by Percentage Salary Hike

In [67]:
# kiểm tra dữ liệu duy nhất của cột PercentSalaryHike
bacluong = df['PercentSalaryHike'].unique().tolist()
bacluong.sort()
bacluong

[11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25]

In [68]:
# group by emp by PercentSalaryHike
df_emp_perhike = df[['PercentSalaryHike', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['PercentSalaryHike'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_perhike['%Active'] = np.round(100*(df_emp_perhike['#Active']/df_emp_perhike['#Total']),2)
df_emp_perhike['%Attrition'] = np.round(100*(df_emp_perhike['#Attrition']/df_emp_perhike['#Total']),2)
# print
df_emp_perhike

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
PercentSalaryHike,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
11,169,41,210,80.48,19.52
12,165,33,198,83.33,16.67
13,175,34,209,83.73,16.27
14,177,24,201,88.06,11.94
15,83,18,101,82.18,17.82
16,64,14,78,82.05,17.95
17,68,14,82,82.93,17.07
18,76,13,89,85.39,14.61
19,67,9,76,88.16,11.84
20,48,7,55,87.27,12.73


#### 20. Analyzing Employee Attrition by Performance Raing

In [69]:
# kiểm tra dữ liệu duy nhất của cột PerformanceRating
df['PerformanceRating'].unique()

array(['Excellent', 'Outstanding'], dtype=object)

In [70]:
# employee by performance rating
df_emp_performanceRating = df[['PerformanceRating', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['PerformanceRating'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_performanceRating['%Active'] = np.round(100*(df_emp_performanceRating['#Active']/df_emp_performanceRating['#Total']),2)
df_emp_performanceRating['%Attrition'] = np.round(100*(df_emp_performanceRating['#Attrition']/df_emp_performanceRating['#Total']),2)
# print
df_emp_performanceRating

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
PerformanceRating,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Excellent,1044,200,1244,83.92,16.08
Outstanding,189,37,226,83.63,16.37
Grand Total,1233,237,1470,83.88,16.12


#### 21. Analyzing Employee Attrition by Relationship Satisfaction

In [71]:
# kiểm tra dữ liệu côt RelationshipSatisfaction
df['RelationshipSatisfaction'].unique()

array(['Low', 'Outstanding', 'Good', 'Excellent'], dtype=object)

In [72]:
# group by emp by RelationshipSatisfaction
df_emp_relationshipSatisfaction = df[['RelationshipSatisfaction', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['RelationshipSatisfaction'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_relationshipSatisfaction['%Active'] = np.round(100*(df_emp_relationshipSatisfaction['#Active']/df_emp_relationshipSatisfaction['#Total']),2)
df_emp_relationshipSatisfaction['%Attrition'] = np.round(100*(df_emp_relationshipSatisfaction['#Attrition']/df_emp_relationshipSatisfaction['#Total']),2)
# print
df_emp_relationshipSatisfaction

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
RelationshipSatisfaction,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Excellent,388,71,459,84.53,15.47
Good,258,45,303,85.15,14.85
Low,219,57,276,79.35,20.65
Outstanding,368,64,432,85.19,14.81
Grand Total,1233,237,1470,83.88,16.12


#### 22. Analyzing Employee Attrition by Work Life Balance

In [73]:
# kiểm tra dữ liệu duy nhất của cột WorkLifeBalance
df['WorkLifeBalance'].unique()

array(['Bad', 'Better', 'Good', 'Best'], dtype=object)

In [74]:
#group by emp by work life balance
df_emp_workLifeBalance = df[['WorkLifeBalance', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['WorkLifeBalance'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_workLifeBalance['%Active'] = np.round(100*(df_emp_workLifeBalance['#Active']/df_emp_workLifeBalance['#Total']),2)
df_emp_workLifeBalance['%Attrition'] = np.round(100*(df_emp_workLifeBalance['#Attrition']/df_emp_workLifeBalance['#Total']),2)
#print
df_emp_workLifeBalance

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
WorkLifeBalance,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Bad,55,25,80,68.75,31.25
Best,126,27,153,82.35,17.65
Better,766,127,893,85.78,14.22
Good,286,58,344,83.14,16.86
Grand Total,1233,237,1470,83.88,16.12


#### 23. Analyzing Employee Attrition by Total Working Years

In [75]:
# Define the bin edges the groups
bins_edges = [0, 5, 10, 20, 50]
# Define the labels for the groups
bins_labels = ['0-5 years', '5-10 years', '10-20 years', '20+ years']
# cut the DailyRate column into groups
df['TotalWorkingYears_labels'] = pd.cut(df['TotalWorkingYears'], bins=bins_adges, labels=bins_labels)
df['TotalWorkingYears_labels'].unique()

['20+ years', NaN, '0-5 years', '10-20 years', '5-10 years']
Categories (4, object): ['0-5 years' < '5-10 years' < '10-20 years' < '20+ years']

In [76]:
#group by emp by TotalWorkingYears
df_emp_totalWorkingYears = df[['TotalWorkingYears_labels', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['TotalWorkingYears_labels'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_totalWorkingYears['%Active'] = np.round(100*(df_emp_totalWorkingYears['#Active']/df_emp_totalWorkingYears['#Total']),2)
df_emp_totalWorkingYears['%Attrition'] = np.round(100*(df_emp_totalWorkingYears['#Attrition']/df_emp_totalWorkingYears['#Total']),2)
#print
df_emp_totalWorkingYears

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
TotalWorkingYears_labels,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0-5 years,41,40,81,50.62,49.38
5-10 years,55,18,73,75.34,24.66
10-20 years,123,28,151,81.46,18.54
20+ years,516,91,607,85.01,14.99
Grand Total,735,177,912,80.59,19.41


#### 24. Analyzing Employee Attrition by Years at Company

In [77]:
# Define the bin for the groups
bin_edges = [0, 1, 5, 10, 20]
# Define the labels for the groups
bin_labels = ['0-1 years', '2-5 years', '5-10 years', '10+ years']
#Cut the DailyRate columns into groups
df['YearAtCompany_labels'] = pd.cut(df['YearsAtCompany'], bins=bin_edges, labels=bin_labels)
df['YearAtCompany_labels'].unique()

['5-10 years', NaN, '2-5 years', '0-1 years', '10+ years']
Categories (4, object): ['0-1 years' < '2-5 years' < '5-10 years' < '10+ years']

In [78]:
#group by emp by YearsAtCompany
df_emp_yearsAtCompany = df[['YearAtCompany_labels', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['YearAtCompany_labels'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_yearsAtCompany['%Active'] = np.round(100*(df_emp_yearsAtCompany['#Active']/df_emp_yearsAtCompany['#Total']),2)
df_emp_yearsAtCompany['%Attrition'] = np.round(100*(df_emp_yearsAtCompany['#Attrition']/df_emp_yearsAtCompany['#Total']),2)
#print
df_emp_yearsAtCompany

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
YearAtCompany_labels,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0-1 years,112,59,171,65.5,34.5
2-5 years,474,87,561,84.49,15.51
5-10 years,393,55,448,87.72,12.28
10+ years,168,12,180,93.33,6.67
Grand Total,1147,213,1360,84.34,15.66


#### 25. Analyzing Employee Attrition by Years In Current Role

In [79]:
# Define the bin edges for the groups
bin_edges = [0, 1, 5, 10, 20]
# Define the labels for the groups
bin_labels = ['0-1 years', '2-5 years', '5-10 years', '10+ years']
#Cut the DailyRate column into groups
df['YearsInCurrentRole_lables'] = pd.cut(df['YearsInCurrentRole'], bins=bin_edges, labels=bin_labels)
df['YearsInCurrentRole_lables'].unique()

['2-5 years', '5-10 years', NaN, '10+ years', '0-1 years']
Categories (4, object): ['0-1 years' < '2-5 years' < '5-10 years' < '10+ years']

In [80]:
#group by emp by YearsInCurrentRole
df_emp_yearsInCurrentRole = df[['YearsInCurrentRole_lables', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['YearsInCurrentRole_lables'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_yearsInCurrentRole['%Active'] = np.round(100*(df_emp_yearsInCurrentRole['#Active']/df_emp_yearsInCurrentRole['#Total']),2)
df_emp_yearsInCurrentRole['%Attrition'] = np.round(100*(df_emp_yearsInCurrentRole['#Attrition']/df_emp_yearsInCurrentRole['#Total']),2)
#print
df_emp_yearsInCurrentRole

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
YearsInCurrentRole_lables,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0-1 years,46,11,57,80.7,19.3
2-5 years,547,100,647,84.54,15.46
5-10 years,396,48,444,89.19,10.81
10+ years,73,5,78,93.59,6.41
Grand Total,1062,164,1226,86.62,13.38


#### 26. Analyzing Employee Attrition by Years Since Last Promotion

In [81]:
# Define the bin edges for the groups
bin_edges = [0, 1, 5, 10, 20]
#Define the labels for the groups
bin_labels = ['0-1 years', '2-5 years', '5-10 years', '10+ years']
# Cut the DailyRate columns into groups
df['YearsSinceLastPromotion_labels'] = pd.cut(df['YearsSinceLastPromotion'], bins=bin_edges, labels=bin_labels)
df['YearsSinceLastPromotion_labels'].unique()

[NaN, '0-1 years', '2-5 years', '5-10 years', '10+ years']
Categories (4, object): ['0-1 years' < '2-5 years' < '5-10 years' < '10+ years']

In [82]:
#group by emp by YearsSinceLastPromotion
df_emp_YearsSinceLastPromotion = df[['YearsSinceLastPromotion_labels', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['YearsSinceLastPromotion_labels'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_YearsSinceLastPromotion['%Active'] = np.round(100*(df_emp_YearsSinceLastPromotion['#Active']/df_emp_YearsSinceLastPromotion['#Total']),2)
df_emp_YearsSinceLastPromotion['%Attrition'] = np.round(100*(df_emp_YearsSinceLastPromotion['#Attrition']/df_emp_YearsSinceLastPromotion['#Total']),2)
#print
df_emp_YearsSinceLastPromotion

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
YearsSinceLastPromotion_labels,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0-1 years,308,49,357,86.27,13.73
2-5 years,274,43,317,86.44,13.56
5-10 years,122,27,149,81.88,18.12
10+ years,58,8,66,87.88,12.12
Grand Total,762,127,889,85.71,14.29


#### 27. Analyzing Employee Attrition by Years with Currrent Manager

In [83]:
# Define the bin edges for the groups
bin_edges = [0, 1, 5, 10, 20]
#Define the labels for the groups
bin_labels = ['0-1 years', '2-5 years', '5-10 years', '10+ years']
# Cut the DailyRate columns into groups
df['YearsWithCurrManager_lables'] = pd.cut(df['YearsWithCurrManager'], bins=bin_edges, labels=bin_labels)
df['YearsWithCurrManager_lables'].unique()

['2-5 years', '5-10 years', NaN, '10+ years', '0-1 years']
Categories (4, object): ['0-1 years' < '2-5 years' < '5-10 years' < '10+ years']

In [84]:
#group by emp by YearsWithCurrManager
df_emp_YearsWithCurrManager = df[['YearsWithCurrManager_lables', 'Attrition']].pivot_table(
    columns=['Attrition'],
    index=['YearsWithCurrManager_lables'],
    aggfunc=len,
    margins=True,
    margins_name='Grand Total',
    observed=False
).rename(columns={
    'No': '#Active',
    'Yes': '#Attrition',
    'Grand Total': '#Total'
})

df_emp_YearsWithCurrManager['%Active'] = np.round(100*(df_emp_YearsWithCurrManager['#Active']/df_emp_YearsWithCurrManager['#Total']),2)
df_emp_YearsWithCurrManager['%Attrition'] = np.round(100*(df_emp_YearsWithCurrManager['#Attrition']/df_emp_YearsWithCurrManager['#Total']),2)
#print
df_emp_YearsWithCurrManager

Attrition,#Active,#Attrition,#Total,%Active,%Attrition
YearsWithCurrManager_lables,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0-1 years,65,11,76,85.53,14.47
2-5 years,531,84,615,86.34,13.66
5-10 years,389,54,443,87.81,12.19
10+ years,70,3,73,95.89,4.11
Grand Total,1055,152,1207,87.41,12.59
