# HR Analytics with Python — Chapter 3 Code Examples

This notebook consolidates the executable code examples from **Chapter 3: Working with HR Data Structures** into a clean, sequential format.

**How to use**: Run cells top-to-bottom. Where a CSV file is referenced, either upload it to Colab (Files sidebar) or mount Google Drive.


In [None]:
# (Optional) Mount Google Drive if your CSV files are stored there
from google.colab import drive
# drive.mount('/content/drive')

# Basic imports used in parts of the chapter
import pandas as pd


## 1) Lists: Organising employee data

In [1]:
# Create basic lists
employee_names = ["عمر يوسف", "نورا حسن", "خالد سعد", "فاطمة علي", "أحمد محمد"]
employee_ids   = [1001, 1002, 1003, 1004, 1005]
departments    = ["المحاسبة", "الموارد البشرية", "التسويق", "المبيعات", "تقنية المعلومات"]

print("أسماء الموظفين:", employee_names)
print("معرفات الموظفين:", employee_ids)
print("الأقسام:", departments)


أسماء الموظفين: ['عمر يوسف', 'نورا حسن', 'خالد سعد', 'فاطمة علي', 'أحمد محمد']
معرفات الموظفين: [1001, 1002, 1003, 1004, 1005]
الأقسام: ['المحاسبة', 'الموارد البشرية', 'التسويق', 'المبيعات', 'تقنية المعلومات']


## 2) Indexing: accessing list elements

In [2]:
first_employee = employee_names[0]
last_employee  = employee_names[-1]
it_department  = departments[4]  # 'تقنية المعلومات'

print("الموظف الأول:", first_employee)
print("آخر موظف:", last_employee)
print("قسم تقنية المعلومات:", it_department)


الموظف الأول: عمر يوسف
آخر موظف: أحمد محمد
قسم تقنية المعلومات: تقنية المعلومات


## 3) Editing lists: append and insert

In [4]:
# Append (add to end)
employee_names.append("سارة محمود")
employee_ids.append(1006)
departments.append("الشؤون القانونية")

print("بعد الإضافة:")
print("عدد الموظفين:", len(employee_names))
print("آخر موظف مضاف:", employee_names[-1])

# Insert (add at a specific position)
employee_names.insert(1, "محمد الأحمد")
employee_ids.insert(1, 1007)
departments.insert(1, "التطوير")

print("بعد الإدراج في الموضع الثاني:")
print("الموظف في الموضع الثاني:", employee_names[1])

بعد الإضافة:
عدد الموظفين: 6
آخر موظف مضاف: سارة محمود
بعد الإدراج في الموضع الثاني:
الموظف في الموضع الثاني: محمد الأحمد


## 4) Deleting items safely (synchronised lists)

In [6]:
# Remove an employee by name (while keeping the 3 lists aligned)
name_to_remove = "خالد سعد"

if name_to_remove in employee_names:
    idx = employee_names.index(name_to_remove)
    removed_name = employee_names.pop(idx)
    removed_id   = employee_ids.pop(idx)
    removed_dept = departments.pop(idx)

    print(f"تم حذف الموظف: {removed_name}")
    print(f"معرف الموظف المحذوف: {removed_id}")
    print(f"قسم الموظف المحذوف: {removed_dept}")
else:
    print("الاسم غير موجود في القائمة")

# Remove last employee (from the names list only, as a simple example)
last_removed = employee_names.pop()
print("آخر موظف تم حذفه من قائمة الأسماء:", last_removed)


تم حذف الموظف: خالد سعد
معرف الموظف المحذوف: 1003
قسم الموظف المحذوف: التسويق
آخر موظف تم حذفه من قائمة الأسماء: سارة محمود


## 5) Practical: a simple attendance report

In [7]:
employee_emails = [
    "ismael.abdusalaam@dummyco.com",
    "jeff.abney@dummyco.com",
    "jennifer.adams@dummyco.com",
    "cindy.alligood@dummyco.com",
    "darryl.andrews@dummyco.com",
]

attendance_status = [True, True, False, True, False]  # True=حاضر, False=غائب
arrival_times     = ["08:45", "08:30", "غائب", "09:15", "غائب"]

print("تقرير الحضور:")
for i in range(len(employee_emails)):
    email = employee_emails[i]
    status = "حاضر" if attendance_status[i] else "غائب"
    time = arrival_times[i]
    print(f"{email}: {status} - {time}")


تقرير الحضور:
ismael.abdusalaam@dummyco.com: حاضر - 08:45
jeff.abney@dummyco.com: حاضر - 08:30
jennifer.adams@dummyco.com: غائب - غائب
cindy.alligood@dummyco.com: حاضر - 09:15
darryl.andrews@dummyco.com: غائب - غائب


## 6) Concatenating lists

In [8]:
employees_old = ["خالد سعد", "فاطمة علي", "أحمد محمد"]
employees_new = ["سارة محمود", "عمر يوسف", "نورا حسن"]

all_employees = employees_old + employees_new
print("جميع الموظفين بعد الدمج:", all_employees)


جميع الموظفين بعد الدمج: ['خالد سعد', 'فاطمة علي', 'أحمد محمد', 'سارة محمود', 'عمر يوسف', 'نورا حسن']


## 7) Nested lists: employee records

In [9]:
employees = [
    ["أحمد محمد", 1001, "الموارد البشرية"],
    ["فاطمة علي", 1002, "التسويق"],
    ["خالد سعد", 1003, "المبيعات"],
    ["نورا حسن", 1004, "تقنية المعلومات"],
    ["عمر يوسف", 1005, "المحاسبة"],
]

for employee in employees:
    name, emp_id, dept = employee
    print(f"الاسم: {name}, المعرف: {emp_id}, القسم: {dept}")


الاسم: أحمد محمد, المعرف: 1001, القسم: الموارد البشرية
الاسم: فاطمة علي, المعرف: 1002, القسم: التسويق
الاسم: خالد سعد, المعرف: 1003, القسم: المبيعات
الاسم: نورا حسن, المعرف: 1004, القسم: تقنية المعلومات
الاسم: عمر يوسف, المعرف: 1005, القسم: المحاسبة


## 8) Searching with enumerate + simple filtering

In [11]:
# Search for an employee by name in employee_names
search_name = "فاطمة علي"
found = False

for i, name in enumerate(employee_names):
    if name == search_name:
        print(f"تم العثور على {search_name} في الموضع {i}")
        # Guard: employee_ids/departments may be shorter if you edited earlier cells.
        if i < len(employee_ids):
            print(f"معرف الموظف: {employee_ids[i]}")
        if i < len(departments):
            print(f"القسم: {departments[i]}")
        found = True
        break

if not found:
    print(f"لم يتم العثور على الموظف {search_name}")

# Filter present employees (emails)
present_employees = []
for i, status in enumerate(attendance_status):
    if status:
        present_employees.append(employee_emails[i])

print("الموظفون الحاضرون:")
for email in present_employees:
    print("-", email)


تم العثور على فاطمة علي في الموضع 3
معرف الموظف: 1004
القسم: المبيعات
الموظفون الحاضرون:
- ismael.abdusalaam@dummyco.com
- jeff.abney@dummyco.com
- cindy.alligood@dummyco.com


## 9) Dictionaries: storing employee attributes

In [12]:
employee_data = {
    "EmployeeID": 1001,
    "Name": "أحمد محمد",
    "Department": "الموارد البشرية",
    "Salary": 7500,
    "YearsAtCompany": 5,
}

print(employee_data)


{'EmployeeID': 1001, 'Name': 'أحمد محمد', 'Department': 'الموارد البشرية', 'Salary': 7500, 'YearsAtCompany': 5}


## 10) Departments dictionary from a CSV (pandas)

Expected columns (as in the chapter): `Department`, `Manager`.

Upload the CSV into Colab with the exact filename below, or update the path.


In [16]:
import pandas as pd

# Update the filename/path as needed
csv_path = 'E3 HR Data Consolidating_Department Info.csv'

# If the file is not found, Colab will raise an error.
data = pd.read_csv(csv_path)
print(data.head())

departments_structure = {}
for _, row in data.iterrows():
    department = row['Department']
    manager = row['Manager']
    departments_structure[department] = manager

print("القاموس الناتج:")
print(departments_structure)

# Example: access one key safely
print("مدير قسم HR:", departments_structure.get('HR'))

   Employee ID Department           Manager
0         2100    Finance        Harry Kwan
1         2101         HR    Mandy Crenshaw
2         2102      Sales  Chris Kilpatrick
3         2103  Marketing    Marnie Matlock
4         2104         IT         Leo Blair
القاموس الناتج:
{'Finance': 'Harry Kwan', 'HR': 'Mandy Crenshaw', 'Sales': 'Chris Kilpatrick', 'Marketing': 'Marnie Matlock', 'IT': 'Leo Blair', 'Operations': 'Theresa Wu', 'Special Projects': 'Michael Jefferson'}
مدير قسم HR: Mandy Crenshaw


## 11) Adding, updating, and safe access (get / in)

In [17]:
# Add a new department
departments_structure["Legal"] = "Sarah Johnson"

# Update an existing department
departments_structure["IT"] = "New IT Manager"

# Safe get
manager_name = departments_structure.get("Finance")
print("مدير قسم المالية:", manager_name)

# Membership check
if "Marketing" in departments_structure:
    print("قسم التسويق موجود ومديره:", departments_structure["Marketing"])
else:
    print("قسم التسويق غير موجود في القاموس")


مدير قسم المالية: Harry Kwan
قسم التسويق موجود ومديره: Marnie Matlock


## 12) Nested dictionaries: richer department structure

In [18]:
company_structure = {
    "Finance": {
        "manager": "Harry Kwan",
        "employees": [2100, 2107, 2114],
        "budget": 500000,
        "location": "Floor 3",
    },
    "Sales": {
        "manager": "Chris Kilpatrick",
        "employees": [2105, 2108, 2109, 2115, 2116],
        "budget": 750000,
        "location": "Floor 1",
    },
    "HR": {
        "manager": "Mandy Crenshaw",
        "employees": [2101],
        "budget": 300000,
        "location": "Floor 2",
    },
}

print("عدد موظفي قسم المبيعات:", len(company_structure["Sales"]["employees"]))


عدد موظفي قسم المبيعات: 5


## 13) Sets: unique job types from a CSV

In [24]:
job_csv_path = 'E3 HR Data - Consolidating_Job Info.csv'
job_data = pd.read_csv(job_csv_path)

print("أول 5 سجلات:")
print(job_data.head())

print("عدد السجلات:", len(job_data))
print("الأعمدة:", list(job_data.columns))

all_job_types = job_data['Job Type'].tolist()
print("أول 10 قيم (مع التكرار):", all_job_types[:10])

unique_job_types = set(all_job_types)
print("فئات الوظائف الفريدة:", unique_job_types)
print("عدد الفئات الفريدة:", len(unique_job_types))


أول 5 سجلات:
   Employee ID  Salary   Job Type
0         2100   86135  Permanent
1         2101   29587  Permanent
2         2102   39748   Contract
3         2103   40689  Permanent
4         2104   66314  Permanent
عدد السجلات: 99
الأعمدة: ['Employee ID', 'Salary', 'Job Type']
أول 10 قيم (مع التكرار): ['Permanent', 'Permanent', 'Contract', 'Permanent', 'Permanent', 'Permanent', 'Contract', 'Permanent', 'Permanent', 'Permanent']
فئات الوظائف الفريدة: {'Permanent', 'Contract'}
عدد الفئات الفريدة: 2


## 14) Sets: add/remove/discard and membership

In [26]:
job_categories = set()
print("مجموعة فارغة:", job_categories)

job_categories.add("Permanent")
job_categories.add("Contract")
job_categories.add("Temporary")
print("بعد إضافة عناصر:", job_categories)

# Duplicate add has no effect
job_categories.add("Permanent")
print("بعد محاولة إضافة عنصر مكرر:", job_categories)

current_job_types = {"Permanent", "Contract"}
print("فئات الوظائف الحالية:", current_job_types)

current_job_types.add("Internship")
print("بعد إضافة Internship:", current_job_types)

current_job_types.remove("Internship")
print("بعد حذف Internship:", current_job_types)

# discard: no error if missing
current_job_types.discard("Part-time")
print("بعد discard لعنصر غير موجود:", current_job_types)

employee_job_type = "Contract"
if employee_job_type in current_job_types:
    print(f"✓ فئة الوظيفة '{employee_job_type}' موجودة في النظام")
else:
    print(f"✗ فئة الوظيفة '{employee_job_type}' غير موجودة في النظام")


مجموعة فارغة: set()
بعد إضافة عناصر: {'Permanent', 'Temporary', 'Contract'}
بعد محاولة إضافة عنصر مكرر: {'Permanent', 'Temporary', 'Contract'}
فئات الوظائف الحالية: {'Permanent', 'Contract'}
بعد إضافة Internship: {'Permanent', 'Internship', 'Contract'}
بعد حذف Internship: {'Permanent', 'Contract'}
بعد discard لعنصر غير موجود: {'Permanent', 'Contract'}
✓ فئة الوظيفة 'Contract' موجودة في النظام


## 15) Set operations: union, intersection, difference

In [27]:
it_department_jobs = {"Software Engineer", "Data Analyst", "DevOps"}
hr_department_jobs = {"HR Specialist", "Recruiter", "Data Analyst"}

all_department_jobs = it_department_jobs.union(hr_department_jobs)
common_jobs = it_department_jobs.intersection(hr_department_jobs)

a_only = it_department_jobs.difference(hr_department_jobs)
b_only = hr_department_jobs.difference(it_department_jobs)

print("وظائف قسم تقنية المعلومات:", it_department_jobs)
print("وظائف قسم الموارد البشرية:", hr_department_jobs)
print("الاتحاد (كل الوظائف بدون تكرار):", all_department_jobs)
print("التقاطع (المشتركة):", common_jobs)
print("الفرق (تقنية المعلومات فقط):", a_only)
print("الفرق (الموارد البشرية فقط):", b_only)


وظائف قسم تقنية المعلومات: {'DevOps', 'Data Analyst', 'Software Engineer'}
وظائف قسم الموارد البشرية: {'HR Specialist', 'Recruiter', 'Data Analyst'}
الاتحاد (كل الوظائف بدون تكرار): {'DevOps', 'HR Specialist', 'Recruiter', 'Data Analyst', 'Software Engineer'}
التقاطع (المشتركة): {'Data Analyst'}
الفرق (تقنية المعلومات فقط): {'DevOps', 'Software Engineer'}
الفرق (الموارد البشرية فقط): {'HR Specialist', 'Recruiter'}


## 16) Tuples: immutable performance records

In [28]:
employee_performance = ("أحمد محمد", 4.5, 2019)
print("سجل أداء موظف:", employee_performance)

empty_performance = ()
print("Tuple فارغ:", empty_performance)

single_rating = (4.8,)  # note the comma
print("تقييم واحد:", single_rating)


سجل أداء موظف: ('أحمد محمد', 4.5, 2019)
Tuple فارغ: ()
تقييم واحد: (4.8,)


## 17) Tuples from CSV using zip

Expected columns: `Name`, `Rating 2019`.


In [30]:
ratings_csv_path = 'HR Analytics Fuzzy Lookup YoY Rating Change_2019 Ratings.csv'
data = pd.read_csv(ratings_csv_path)
print(data.head())

names = data['Name'].tolist()
ratings = data['Rating 2019'].tolist()

records_as_tuples = list(zip(names, ratings))

# Show a few records
for record in records_as_tuples[:10]:
    print(record)


                   Name  Rating 2019
0          Anurag Kumar          2.9
1  Gudepu Santosh Kumar          4.4
2        Anshu Abhishek          3.4
3         Anand Agrawal          3.6
4      Akash Deep Patel          3.9
('Anurag Kumar', 2.9)
('Gudepu Santosh Kumar', 4.4)
('Anshu Abhishek', 3.4)
('Anand Agrawal', 3.6)
('Akash Deep Patel', 3.9)
('Kumar Shubham', 4.5)
('Ankur Duhoon', 3.7)
('Karnekota Rahul Raj', 4.5)
('Avirup Dasgupta', 4.7)
('Aayush Gupta', 4.3)


## 18) Tuple indexing and reverse indexing

In [32]:
employee_metrics = ("أحمد محمد", 4.5, 2019, "مدير المبيعات", 85000)

employee_name = employee_metrics[0]
performance_score = employee_metrics[1]
evaluation_year = employee_metrics[2]
job_title = employee_metrics[3]
salary = employee_metrics[4]

print("اسم الموظف:", employee_name)
print("درجة الأداء:", performance_score)
print("سنة التقييم:", evaluation_year)
print("المسمى الوظيفي:", job_title)
print("الراتب:", salary)

last_element = employee_metrics[-1]
second_last = employee_metrics[-2]
print("آخر عنصر (الراتب):", last_element)
print("ثاني آخر عنصر (المسمى الوظيفي):", second_last)


اسم الموظف: أحمد محمد
درجة الأداء: 4.5
سنة التقييم: 2019
المسمى الوظيفي: مدير المبيعات
الراتب: 85000
آخر عنصر (الراتب): 85000
ثاني آخر عنصر (المسمى الوظيفي): مدير المبيعات


## 19) Tuple slicing

In [33]:
complete_profile = ("سارة أحمد", 28, "محاسبة", 4.3, 2019, "بكالوريوس", 65000)

basic_info = complete_profile[0:3]
performance_info = complete_profile[3:5]
financial_education = complete_profile[5:]

print("المعلومات الأساسية:", basic_info)
print("بيانات الأداء:", performance_info)
print("التعليم والراتب:", financial_education)


المعلومات الأساسية: ('سارة أحمد', 28, 'محاسبة')
بيانات الأداء: (4.3, 2019)
التعليم والراتب: ('بكالوريوس', 65000)


## 20) Practical: find the best performer

In [34]:
team_performance = [
    ("سارة أحمد", 4.8, "A"),
    ("محمد علي", 4.2, "B+"),
    ("فاطمة خالد", 4.9, "A+"),
    ("عبدالله حسن", 3.8, "B"),
    ("مريم عثمان", 4.5, "A-"),
]

best_performer = None
highest_score = -1

for name, score, grade in team_performance:
    if score > highest_score:
        highest_score = score
        best_performer = (name, score, grade)

print(f"أفضل أداء: {best_performer[0]} بدرجة {best_performer[1]} (التقدير: {best_performer[2]})")


أفضل أداء: فاطمة خالد بدرجة 4.9 (التقدير: A+)
