# 📘 IBM HR Attrition Analysis

**Tên đề tài:** Phân tích và Dự đoán Nghỉ Việc của Nhân viên (Attrition)

**Thành viên nhóm:**
- Don
- Hùng
- Hải

## 📌 Phase 1: Hiểu & Thống kê sơ bộ

In [None]:
# Import thư viện
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Đọc dữ liệu
df = pd.read_csv("WA_Fn-UseC_-HR-Employee-Attrition.csv")
df.head()

In [None]:
# Thống kê thông tin tổng quát
df.info()


In [None]:
# Kiểm tra missing value
df.isnull().sum()

In [None]:
# Thống kê mô tả các biến số
df.describe()

In [None]:
# Boxplot để khảo sát ngoại lệ
plt.figure(figsize=(12, 6))
sns.boxplot(data=df.select_dtypes(include='number'), orient='h')
plt.title("Boxplot - Numerical Variables")
plt.show()

## 📌 Phase 2: Làm sạch & Chuẩn hóa

In [None]:
# Đổi tên cột cho đồng bộ
df.columns = df.columns.str.strip().str.replace(' ', '_')

# Sinh thêm biến AgeBand
df['AgeBand'] = pd.cut(df['Age'], bins=[17, 25, 35, 45, 60], labels=["18-25", "26-35", "36-45", "46-60"])

# Sinh TenureBand
df['TenureBand'] = pd.cut(df['TotalWorkingYears'], bins=[0, 3, 6, 10, 40], labels=["0-3", "4-6", "7-10", "11+"])

# WorkLifeBalanceScore mapping
df['WorkLifeBalanceScore'] = df['WorkLifeBalance'].map({
    1: 'Bad',
    2: 'Good',
    3: 'Better',
    4: 'Best'
})

df.head()

## 📌 Phase 3: Khám phá trực quan (EDA)

In [None]:
# Phân bố nghỉ việc theo Department
plt.figure(figsize=(6,4))
sns.countplot(data=df, x='Department', hue='Attrition')
plt.title("Attrition theo Department")
plt.xticks(rotation=45)
plt.show()

In [None]:
# Heatmap tương quan
plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm')
plt.title("Heatmap - Correlation giữa các biến số")
plt.show()

## 📌 Phase 4: KPI cốt lõi

In [None]:
# KPI 1: Attrition Rate toàn công ty
attrition_rate = df['Attrition'].value_counts(normalize=True)['Yes']
print(f"Attrition Rate toàn công ty: {attrition_rate:.2%}")


In [None]:
# KPI 2: Attrition theo Department
df.groupby('Department')['Attrition'].value_counts(normalize=True).unstack().plot(kind='bar', stacked=True)
plt.title("Attrition theo Department")
plt.ylabel("Tỷ lệ")
plt.show()


In [None]:
# KPI 4: Avg Monthly Income theo nhóm nghỉ & không nghỉ
df.groupby('Attrition')['MonthlyIncome'].mean()