In [None]:
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Phân Tích Dữ Liệu Nhân Sự\n",
    "\n",
    "Notebook này dùng để phân tích dữ liệu nhân sự, chấm công, nghỉ phép để hiểu rõ hơn về tình hình nhân viên."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "import numpy as np\n",
    "import matplotlib.pyplot as plt\n",
    "import seaborn as sns\n",
    "import warnings\n",
    "warnings.filterwarnings('ignore')\n",
    "\n",
    "# Cài đặt style cho biểu đồ\n",
    "plt.style.use('seaborn-v0_8')\n",
    "sns.set_palette(\"husl\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 1. Đọc dữ liệu"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Đọc dữ liệu đã được xử lý\n",
    "df = pd.read_csv('../data/nhan_su_processed.csv', index_col=0)\n",
    "print(f\"📊 Dữ liệu: {df.shape[0]} nhân viên, {df.shape[1]} features\")\n",
    "df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 2. Thống kê mô tả"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Thống kê cơ bản\n",
    "print(\"📈 Thống kê mô tả:\")\n",
    "df.describe()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3. Phân tích phân phối các chỉ số"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Tạo subplot cho các biểu đồ\n",
    "fig, axes = plt.subplots(2, 3, figsize=(15, 10))\n",
    "fig.suptitle('Phân Phối Các Chỉ Số Nhân Sự', fontsize=16)\n",
    "\n",
    "# Số ngày đi làm\n",
    "axes[0,0].hist(df['so_ngay_di_lam'], bins=20, alpha=0.7, color='skyblue')\n",
    "axes[0,0].set_title('Số Ngày Đi Làm')\n",
    "axes[0,0].set_xlabel('Số ngày')\n",
    "axes[0,0].set_ylabel('Số nhân viên')\n",
    "\n",
    "# Số lần đi muộn\n",
    "axes[0,1].hist(df['so_lan_di_muon'], bins=20, alpha=0.7, color='lightcoral')\n",
    "axes[0,1].set_title('Số Lần Đi Muộn')\n",
    "axes[0,1].set_xlabel('Số lần')\n",
    "axes[0,1].set_ylabel('Số nhân viên')\n",
    "\n",
    "# Số ngày nghỉ phép\n",
    "axes[0,2].hist(df['tong_ngay_nghi_phep'], bins=20, alpha=0.7, color='lightgreen')\n",
    "axes[0,2].set_title('Số Ngày Nghỉ Phép')\n",
    "axes[0,2].set_xlabel('Số ngày')\n",
    "axes[0,2].set_ylabel('Số nhân viên')\n",
    "\n",
    "# Số năm làm việc\n",
    "axes[1,0].hist(df['so_nam_lam_viec'], bins=20, alpha=0.7, color='gold')\n",
    "axes[1,0].set_title('Số Năm Làm Việc')\n",
    "axes[1,0].set_xlabel('Số năm')\n",
    "axes[1,0].set_ylabel('Số nhân viên')\n",
    "\n",
    "# Tuổi\n",
    "axes[1,1].hist(df['tuoi'], bins=20, alpha=0.7, color='plum')\n",
    "axes[1,1].set_title('Tuổi Nhân Viên')\n",
    "axes[1,1].set_xlabel('Tuổi')\n",
    "axes[1,1].set_ylabel('Số nhân viên')\n",
    "\n",
    "# Giờ làm việc trung bình\n",
    "axes[1,2].hist(df['gio_lam_viec_tb'], bins=20, alpha=0.7, color='orange')\n",
    "axes[1,2].set_title('Giờ Làm Việc Trung Bình')\n",
    "axes[1,2].set_xlabel('Giờ')\n",
    "axes[1,2].set_ylabel('Số nhân viên')\n",
    "\n",
    "plt.tight_layout()\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 4. Phân tích tương quan"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Ma trận tương quan\n",
    "plt.figure(figsize=(12, 8))\n",
    "correlation_matrix = df.corr()\n",
    "sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, \n",
    "            square=True, linewidths=0.5)\n",
    "plt.title('Ma Trận Tương Quan Giữa Các Chỉ Số', fontsize=16)\n",
    "plt.tight_layout()\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 5. Phân tích theo phòng ban"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Thống kê theo phòng ban\n",
    "if 'phong_ban_encoded' in df.columns:\n",
    "    dept_stats = df.groupby('phong_ban_encoded').agg({\n",
    "        'so_ngay_di_lam': 'mean',\n",
    "        'so_lan_di_muon': 'mean',\n",
    "        'tong_ngay_nghi_phep': 'mean',\n",
    "        'so_nam_lam_viec': 'mean'\n",
    "    }).round(2)\n",
    "    \n",
    "    print(\"📊 Thống kê theo phòng ban:\")\n",
    "    print(dept_stats)\n",
    "    \n",
    "    # Biểu đồ so sánh\n",
    "    fig, axes = plt.subplots(2, 2, figsize=(12, 8))\n",
    "    fig.suptitle('So Sánh Chỉ Số Theo Phòng Ban', fontsize=16)\n",
    "    \n",
    "    dept_stats.plot(kind='bar', ax=axes[0,0], title='Số Ngày Đi Làm TB')\n",
    "    dept_stats.plot(kind='bar', ax=axes[0,1], title='Số Lần Đi Muộn TB')\n",
    "    dept_stats.plot(kind='bar', ax=axes[1,0], title='Số Ngày Nghỉ Phép TB')\n",
    "    dept_stats.plot(kind='bar', ax=axes[1,1], title='Số Năm Làm Việc TB')\n",
    "    \n",
    "    plt.tight_layout()\n",
    "    plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 6. Phân tích xu hướng"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Scatter plot: Tuổi vs Số năm làm việc\n",
    "plt.figure(figsize=(10, 6))\n",
    "plt.scatter(df['tuoi'], df['so_nam_lam_viec'], alpha=0.6, color='blue')\n",
    "plt.xlabel('Tuổi')\n",
    "plt.ylabel('Số năm làm việc')\n",
    "plt.title('Mối Quan Hệ: Tuổi vs Số Năm Làm Việc')\n",
    "plt.grid(True, alpha=0.3)\n",
    "plt.show()\n",
    "\n",
    "# Scatter plot: Số ngày đi làm vs Số lần đi muộn\n",
    "plt.figure(figsize=(10, 6))\n",
    "plt.scatter(df['so_ngay_di_lam'], df['so_lan_di_muon'], alpha=0.6, color='red')\n",
    "plt.xlabel('Số ngày đi làm')\n",
    "plt.ylabel('Số lần đi muộn')\n",
    "plt.title('Mối Quan Hệ: Số Ngày Đi Làm vs Số Lần Đi Muộn')\n",
    "plt.grid(True, alpha=0.3)\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 7. Phân tích outliers"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Box plot để phát hiện outliers\n",
    "fig, axes = plt.subplots(2, 3, figsize=(15, 10))\n",
    "fig.suptitle('Phân Tích Outliers', fontsize=16)\n",
    "\n",
    "features = ['so_ngay_di_lam', 'so_lan_di_muon', 'tong_ngay_nghi_phep', \n",
    "           'so_nam_lam_viec', 'tuoi', 'gio_lam_viec_tb']\n",
    "\n",
    "for i, feature in enumerate(features):\n",
    "    row = i // 3\n",
    "    col = i % 3\n",
    "    \n",
    "    if feature in df.columns:\n",
    "        axes[row, col].boxplot(df[feature])\n",
    "        axes[row, col].set_title(feature.replace('_', ' ').title())\n",
    "        axes[row, col].set_ylabel('Giá trị')\n",
    "\n",
    "plt.tight_layout()\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 8. Kết luận và đề xuất"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Tóm tắt thống kê quan trọng\n",
    "print(\"📊 TÓM TẮT PHÂN TÍCH:\")\n",
    "print(\"=\" * 50)\n",
    "\n",
    "print(f\"👥 Tổng số nhân viên: {len(df)}\")\n",
    "print(f\"📅 Số ngày đi làm trung bình: {df['so_ngay_di_lam'].mean():.1f} ngày\")\n",
    "print(f\"⏰ Số lần đi muộn trung bình: {df['so_lan_di_muon'].mean():.1f} lần\")\n",
    "print(f\"🏖️ Số ngày nghỉ phép trung bình: {df['tong_ngay_nghi_phep'].mean():.1f} ngày\")\n",
    "print(f\"⏱️ Giờ làm việc trung bình: {df['gio_lam_viec_tb'].mean():.1f} giờ\")\n",
    "print(f\"👴 Tuổi trung bình: {df['tuoi'].mean():.1f} tuổi\")\n",
    "print(f\"📈 Số năm làm việc trung bình: {df['so_nam_lam_viec'].mean():.1f} năm\")\n",
    "\n",
    "print(\"\\n🎯 PHÁT HIỆN CHÍNH:\")\n",
    "print(\"=\" * 30)\n",
    "\n",
    "# Nhân viên có nguy cơ cao (đi muộn nhiều, nghỉ phép nhiều)\n",
    "high_risk = df[(df['so_lan_di_muon'] > df['so_lan_di_muon'].quantile(0.75)) | \n",
    "              (df['tong_ngay_nghi_phep'] > df['tong_ngay_nghi_phep'].quantile(0.75))]\n",
    "print(f\"⚠️ Nhân viên có nguy cơ cao: {len(high_risk)} người ({len(high_risk)/len(df)*100:.1f}%)\")\n",
    "\n",
    "# Nhân viên xuất sắc (đi làm đều, ít đi muộn)\n",
    "excellent = df[(df['so_ngay_di_lam'] > df['so_ngay_di_lam'].quantile(0.75)) & \n",
    "             (df['so_lan_di_muon'] < df['so_lan_di_muon'].quantile(0.25))]\n",
    "print(f\"⭐ Nhân viên xuất sắc: {len(excellent)} người ({len(excellent)/len(df)*100:.1f}%)\")\n",
    "\n",
    "print(\"\\n💡 ĐỀ XUẤT:\")\n",
    "print(\"=\" * 20)\n",
    "print(\"1. Theo dõi sát sao nhân viên có nguy cơ cao\")\n",
    "print(\"2. Khen thưởng nhân viên xuất sắc\")\n",
    "print(\"3. Cải thiện môi trường làm việc\")\n",
    "print(\"4. Xây dựng chính sách nghỉ phép hợp lý\")"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.5"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}