# CSC17104 – LẬP TRÌNH KHOA HỌC DỮ LIỆU
# ĐỒ ÁN CUỐI KỲ: **Data Science Salaries 2023**

---

## **GVHD:** Phạm Trọng Nghĩa - Lê Nhựt Nam - Nguyễn Thanh Tình

## **Thành viên nhóm:**
- 23122011 - Đoàn Hải Nam
- 23122014 - Hoàng Minh Trung
- 23122036 - Nguyễn Ngọc Khoa

---

# **1. Thu thập dữ liệu**

### Chủ đề dữ liệu là gì?
- Bộ dữ liệu nói về mức lương của các vị trí công việc thuộc lĩnh vực Data Science và các lĩnh vực liên quan (Data Analyst, Data Engineer, Machine Learning Engineer,…). Nó ghi nhận các yếu tố ảnh hưởng đến lương như kinh nghiệm, chức danh, loại hình làm việc, mức độ làm việc từ xa, vị trí công ty và quy mô công ty.
- **Bối cảnh:** Bộ dữ liệu phản ánh thực tế thị trường việc làm Data Science toàn cầu trong giai đoạn 2020-2023, đặc biệt là sự bùng nổ của làm việc từ xa sau đại dịch COVID-19, sự chênh lệch lương mạnh mẽ giữa các khu vực địa lý (đặc biệt Mỹ so với phần còn lại của thế giới), và xu hướng trả lương cao hơn ở các công ty lớn hoặc các vị trí senior/executive.

### Nguồn dữ liệu là gì?
- **Nguồn dữ liệu**: Kaggle – [Data Science Salaries 2023](https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023/data)
- **Tác giả gốc**: [randomarnab](https://www.kaggle.com/arnabchaki)
- **Ngày xuất bản**: Được đăng tải trên Kaggle vào năm 2023 (dữ liệu lương trải dài từ 2020 đến 2023).

### Dữ liệu này có được cấp phép để sử dụng không?
- Bộ dữ liệu có giấy phép: [Open Data Commons Attribution License v1.0 (ODC-By)](https://opendatacommons.org/licenses/dbcl/1-0/)
- Theo giấy phép, ta hoàn toàn được phép sử dụng cho mục đích học tập, nghiên cứu, thương mại,… miễn là ghi nguồn đầy đủ.

### Dữ liệu này được thu thập như thế nào?
- **Phương pháp thu thập**: Tác giả không đề cập cụ thể đến phương pháp thu thập dữ liệu trong mô tả trên Kaggle. Tuy nhiên, dựa trên các bộ dữ liệu tương tự về lương Data Science trên Kaggle (như các phiên bản trước đó hoặc dataset từ các nguồn crowdsourced), có thể giả thuyết rằng dữ liệu được thu thập qua web scraping từ các trang việc làm công khai (ví dụ: Levels.fyi, Glassdoor) hoặc từ các nền tảng chuyên về việc làm AI/Data như ai-jobs.net, kết hợp với dữ liệu tự báo cáo (crowdsourced) từ cộng đồng.
- **Khoảng thời gian thu thập dữ liệu**: Ghi nhận lương của các năm 2020, 2021, 2022 và 2023.

### Tại sao chọn bộ dữ liệu này?
- Nhóm chúng em đều đang học và định hướng theo ngành Data Science/AI nên rất quan tâm đến thực tế lương thưởng, sự khác biệt giữa các vị trí, ảnh hưởng của làm remote và vị trí địa lý tới thu nhập. Đây là chủ đề rất thực tế và gần gũi với sự nghiệp tương lai của cả nhóm.

- **Dữ liệu này có thể cung cấp những câu hỏi hoặc thông tin chi tiết tiềm năng như:**
  - Mức lương trung bình của Data Scientist là bao nhiêu? Xu hướng tăng lương qua các năm ra sao?
  - Làm remote 100% có thực sự giúp người ở các nước lương thấp tiếp cận mức lương cao hơn không?
  - Chức danh nào (Data Scientist, ML Engineer, Data Engineer,…) có mức lương cao nhất khi cùng level kinh nghiệm?
  - Quy mô công ty (S/M/L) ảnh hưởng thế nào đến lương khi kiểm soát các yếu tố khác?
  - Có thể xây dựng mô hình dự đoán lương dựa trên kinh nghiệm, vị trí, loại hình làm việc không?

In [None]:
# Import các thư viện cần thiết
import sys
import os
import numpy as np
import random

# Thiết lập random seed toàn cục
RANDOM_SEED = 42
random.seed(RANDOM_SEED)
np.random.seed(RANDOM_SEED)

# Import các module từ /src
sys.path.append(os.path.abspath('src'))
from src import data_processing as dp
from src import visualization as vis

# Thiết lập autoreload để tự động tải lại các thay đổi trong /src
%load_ext autoreload
%autoreload 2

# Bỏ qua các cảnh báo không cần thiết
import warnings
warnings.simplefilter('ignore')

# Tải tập dữ liệu
df = dp.load_data('data/raw/ds_salaries.csv')
df.head()

---

# **2. Khám phá dữ liệu**

## **2.1. Tổng quan về tập dữ liệu**

### **Thông tin cơ bản**
*   Số lượng dòng: 3755
*   Số lượng cột: 11
*   Mỗi dòng đại diện cho một bản ghi mô tả mức lương của một nhân sự làm việc trong lĩnh vực Data Science. Bao gồm các thông tin về **cấp độ kinh nghiệm, loại hợp đồng, chức danh công việc, mức lương (cả tiền gốc và USD), quốc gia cư trú, tỷ lệ làm việc từ xa, quốc gia công ty và quy mô công ty**. Nói cách khác, mỗi dòng là một bản ghi mô tả **mức lương và điều kiện làm việc của một cá nhân cụ thể** trong ngành Data Science.

*   Kích thước tổng thể: ~1.51 MB

In [None]:
print(f"Dữ liệu có: {df.shape[0]} hàng, {df.shape[1]} cột")
print(f"Kích thước tổng thể: {df.memory_usage(deep=True).sum() / 1e6:.2f} MB")

### **Tính toàn vẹn dữ liệu**
*   Số  hàng trùng lặp: 1171
*   Các hàng trống: 0


In [None]:
duplicates = df.duplicated().sum()
print(f"Số hàng trùng lặp: {duplicates}")

empty_rows = df.isnull().all(axis=1).sum()
print(f"Số hàng trống: {empty_rows}")

### **Xử lý dữ liệu trùng lặp**
Dữ liệu phát hiện **1171 hàng trùng lặp**. 
* **Quyết định:** Loại bỏ toàn bộ.
* **Lý do:** Dataset không có cột `Candidate_ID` duy nhất. Tuy nhiên, xác suất để 2 nhân viên có cùng *tất cả* 11 thuộc tính (bao gồm cả mức lương lẻ đến hàng đơn vị) là rất thấp. Các dòng trùng lặp này khả năng cao là nhiễu do quá trình scraping dữ liệu. Việc giữ những bản ghi này sẽ khiến dataset bị **lệch phân phối**, làm sai kết quả thống kê và gây **overfitting** cho mô hình dự báo. Mặc dù tỷ lệ trùng lặp khá cao (khoảng **31%**), việc loại bỏ chúng là cần thiết để đảm bảo dữ liệu **sạch, không thiên lệch**, và phản ánh chính xác phân bố thực tế.

In [None]:
df = df.drop_duplicates()
print(f"Sau khi loại bỏ các hàng trùng lặp: {df.shape[0]} hàng, {df.shape[1]} cột")

### **Các kiểu dữ liệu**
*   Kiểu dữ liệu hiện tại của từng cột:

In [None]:
# Kiểm tra kiểu dữ liệu
df.info()

Dựa trên **thông tin mỗi cột** thì không có cột nào có kiểu dữ liệu bất thường cần phải chuyển đổi.

### **Từ điển dữ liệu (Data Dictionary)**
Để hiểu rõ hơn về các thuộc tính, dưới đây là bảng mô tả chi tiết:

| Tên cột | Mô tả | Ý nghĩa phân tích |
| :--- | :--- | :--- |
| **work_year** | Năm nhận lương (2020-2023) | Phân tích xu hướng lương theo thời gian và lạm phát. |
| **experience_level** | Cấp độ kinh nghiệm (EN, MI, SE, EX) | Yếu tố chính ảnh hưởng đến mức lương. |
| **employment_type** | Loại hợp đồng (FT, PT, CT, FL) | Đánh giá tính ổn định của công việc. |
| **job_title** | Chức danh công việc | Cần gom nhóm để phân tích (High Cardinality). |
| **salary_in_usd** | Lương quy đổi ra USD | **Biến mục tiêu (Target Variable)** để dự báo. |
| **employee_residence** | Quốc gia cư trú của nhân viên | Phân tích thị trường lao động toàn cầu. |
| **remote_ratio** | Tỷ lệ làm từ xa (0, 50, 100) | Đánh giá tác động của xu hướng Remote work. |
| **company_location** | Quốc gia đặt trụ sở công ty | So sánh chênh lệch lương giữa các khu vực. |
| **company_size** | Quy mô công ty (S, M, L) | Đánh giá ngân sách trả lương theo quy mô. |

### **Tiền xử lý sơ bộ**
Để thuận tiện cho quá trình Khám phá dữ liệu (EDA) và đảm bảo tính nhất quán của các biểu đồ, nhóm thực hiện một bước chuẩn hóa dữ liệu sơ bộ thông qua pipeline `clean_data_pipeline`.

Các tác vụ thực hiện bao gồm:
1.  **Gom nhóm chức danh công việc:** Do dữ liệu có tới nhiều chức danh công việc khác nhau (ở `job_title`), chúng được gom về 6 nhóm chức năng chính (Data Scientist, Data Engineer, Analyst, ML/AI Engineer, Manager/Lead, Other) thành cột mơi là `job_category` để phân tích xu hướng rõ ràng hơn.
2.  **Chuẩn hóa nhãn (Label Mapping):** Chuyển đổi các mã viết tắt sang tên đầy đủ để dễ đọc hiểu (Ví dụ: 'SE' $\rightarrow$ 'Senior Level', 'FT' $\rightarrow$ 'Full-time').
4.  **Chuẩn hóa tên quốc gia:** Sử dụng thư viện *country_converter* để chuyển đổi mã quốc gia (ISO-3) sang tên quốc gia đầy đủ, giúp biểu diễn dữ liệu trực quan hơn trong các biểu đồ bản đồ.

In [None]:
df = dp.clean_data_pipeline(df)

# Kiểm tra lại kết quả sau khi chuẩn hóa
print(f"Kích thước dữ liệu sau khi xử lý sơ bộ: {df.shape}")
print("-" * 30)
print("Các nhóm công việc (Job Categories) đã được tạo:")
print(df['job_category'].value_counts())
print("-" * 30)

print("5 dòng dữ liệu đầu tiên sau khi xử lý sơ bộ:")
df.head()

## **2.2. Phân tích các cột số**

**Xác định các cột số:**

In [None]:
# Liệt kê các cột phân loại dựa trên dtype object
cat_cols = df.select_dtypes(include=['int64']).columns.tolist()

print("Danh sách các cột số:")
print(cat_cols)

### ***work_year***

In [None]:
# In các giá trị duy nhất
print(f"Các giá trị duy nhất ({df['work_year'].nunique()}): {df['work_year'].unique()}")

# In các giá trị bị thiếu
missing_values = df['work_year'].isnull().sum()
print(f"Số giá trị thiếu: {missing_values} ({missing_values/len(df)*100:.2f}%)")

Vì `work_year` chỉ có 4 giá trị khác nhau nên ta xem xét nó như một biến phân loại.

In [None]:
# Phân tích và vẽ biểu đồ work_year
vis.plot_bar_count(df, 'work_year', sort_by_index=True)

**Phân bố dữ liệu theo năm:**

- Dữ liệu có sự **tăng trưởng mạnh mẽ** qua các năm, phản ánh xu hướng mở rộng thu thập dữ liệu hoặc sự phát triển của thị trường Data Science:

  - **2020**: 75 bản ghi (2.9%) - giai đoạn đầu, số lượng rất hạn chế
  - **2021**: 228 bản ghi (8.8%) - tăng gấp 3 lần so với 2020
  - **2022**: 1,125 bản ghi (43.5%) - bùng nổ với 1,097 bản ghi mới
  - **2023**: 1,156 bản ghi (44.7%) - duy trì mức cao, chiếm tỷ lệ lớn nhất

**Xu hướng chính:**

- **Tập trung vào 2022-2023**: Hai năm gần nhất chiếm **88.2% tổng dữ liệu** (2,281/2,584 bản ghi), trong khi 2020-2021 chỉ chiếm 11.8%. Điều này cho thấy bộ dữ liệu nghiêng mạnh về thị trường việc làm giai đoạn gần đây.

**Phân bố bị mất cân bằng cao:** 
- Tỷ lệ giữa năm nhiều nhất (2023: 44.7%) và ít nhất (2020: 2.9%) chênh lệch **~15 lần**
- 2020-2021 bị thiếu dữ liệu nghiêm trọng, có thể gây thiên lệch khi phân tích xu hướng dài hạn

**Dữ liệu hoàn toàn nhất quán:**
- Chỉ có 4 giá trị số nguyên: 2020, 2021, 2022, 2023
- Không có vấn đề định dạng, typo, hoặc biến thể
- Không có giá trị bất thường (nằm ngoài khoảng hợp lý)

**Nhóm có ít quan sát:** **Năm 2020 (75 bản ghi, 2.9%)** có số lượng rất thấp, với chỉ 75 mẫu, kết quả phân tích cho 2020 có thể không đáng tin cậy

### ***salary***

In [None]:
# Phân tích và vẽ biểu đồ salary
dp.analyze_numerical_column_metrics(df, 'salary')
vis.plot_column_distribution(df, 'salary')

In [None]:
print("Kiểm tra giá trị không thể có:")
print(f"salary < 0: {np.sum(df['salary'] < 0)}")

**Phân bố dữ liệu:**
Dữ liệu có **phân bố lệch phải cực mạnh** (skewness = 24.09), tập trung chủ yếu ở khoảng **dưới 500K**, trong khi có một số ít giá trị cực cao (lên đến 30.4M).

**Xu hướng trung tâm:**

* **Mean (210K) >> Median (135K)**: chênh lệch lớn do outliers kéo trung bình lên cao
* **Median = 135K** phản ánh mức lương "điển hình" chính xác hơn
* **Độ phân tán rất cao** (Std Dev = 809K): mức lương có sự chênh lệch lớn giữa các vị trí/công ty

**Khoảng giá trị & Outliers:**

* **Khoảng lương**: 6K - 30.4M (chênh lệch ~5,000 lần!)
* **95 outliers (3.68%)**: các mức lương > 321K, có thể là C-level, vai trò đặc biệt hoặc **lỗi dữ liệu** (30.4M là bất thường)
* **IQR = 92.5K** (Q1=90K, Q3=182.5K): 50% dữ liệu nằm trong khoảng hẹp này

**Chất lượng dữ liệu:**

* **Không có giá trị thiếu** và không có lương âm
* **Cần kiểm tra outliers**: giá trị 30.4M có thể là lỗi nhập liệu (nhầm đơn vị tiền tệ, thêm số 0)

### ***salary_in_usd***

In [None]:
# Analyze and Visualize salary_in_usd
dp.analyze_numerical_column_metrics(df, 'salary_in_usd')
vis.plot_column_distribution(df, 'salary_in_usd')

In [None]:
print("Kiểm tra giá trị không thể có:")
print(f"salary_in_usd < 0: {np.sum(df['salary_in_usd'] < 0)}")

**Phân bố dữ liệu:**
Dữ liệu có **phân bố gần chuẩn với lệch phải nhẹ** (skewness = 0.62), tập trung chủ yếu ở khoảng **100K-200K USD**. Đây là phân bố **hợp lý và đại diện** cho thị trường lương Data Science toàn cầu.

**Xu hướng trung tâm:**

* **Mean (133K) ≈ Median (130K)**: chênh lệch nhỏ cho thấy dữ liệu cân đối hơn nhiều so với cột `salary` gốc
* **Std Dev = 67K**: độ biến động vừa phải, phản ánh sự chênh lệch tự nhiên theo kinh nghiệm và vị trí
* Mức lương trung bình **130K USD** là con số thực tế cho ngành Data Science

**Khoảng giá trị & Outliers:**

* **Khoảng lương**: 5K - 450K (khoảng hợp lý hơn nhiều so với cột `salary`)
* **Chỉ 29 outliers (1.12%)**: giảm đáng kể từ 3.68%, cho thấy việc quy đổi USD đã **chuẩn hóa tốt** dữ liệu
* **IQR = 90K** (Q1=85K, Q3=175K): 50% dữ liệu nằm trong khoảng hợp lý

**So sánh với cột salary:**

* **Phân bố ổn định hơn**: skewness giảm từ 24.09 xuống 0.62
* **Ít outliers hơn**: từ 95 xuống 29 điểm
* **Loại bỏ nhiễu tiền tệ**: không còn giá trị bất thường như 30.4M

**Chất lượng dữ liệu:**

* **Không có giá trị thiếu** và không có lương âm
* **Dữ liệu đã được làm sạch tốt** thông qua quy đổi USD

### ***remote_ratio***

In [None]:
# In các giá trị duy nhất
print(f"Các giá trị duy nhất ({df['remote_ratio'].nunique()}): {df['remote_ratio'].unique()}")

# In các giá trị bị thiếu
missing_values = df['remote_ratio'].isnull().sum()
print(f"Số giá trị thiếu: {missing_values} ({missing_values/len(df)*100:.2f}%)")

Tương tự `work_year`, vì `remote_ratio` chỉ có 3 giá trị khác nhau nên ta xem xét nó như một biến phân loại.

In [None]:
# Analyze and Visualize remote_ratio
# Vì remote_ratio chỉ có 3 giá trị (0, 50, 100), ta xem nó như biến phân loại
vis.plot_bar_count(df, 'remote_ratio')

**Phân bố dữ liệu theo mô hình làm việc:**

- Dữ liệu có **phân bố hai cực rõ rệt** với 3 nhóm làm việc, trong đó hai mô hình (**onsite** và **remote**) chiếm áp đảo:

  - **0% (Onsite)**: 1,186 bản ghi (45.9%) - làm việc hoàn toàn tại văn phòng
  - **50% (Hybrid)**: 187 bản ghi (7.2%) - kết hợp remote và onsite
  - **100% (Remote)**: 1,211 bản ghi (46.9%) - làm việc hoàn toàn từ xa

**Xu hướng chính:**

- **Phân hóa mạnh giữa Onsite vs Remote**: Hai nhóm 0% và 100% chiếm **92.8% tổng dữ liệu** (2,397/2,584 bản ghi), cho thấy thị trường Data Science có xu hướng rõ ràng giữa hai mô hình làm việc cực đoan. Mô hình **Hybrid (50%) chỉ chiếm thiểu số** với 7.2%, có thể phản ánh việc các công ty ít áp dụng mô hình lai.

**Phân bố tương đối cân bằng giữa Onsite và Remote**: 
- Tỷ lệ 0% (45.9%) và 100% (46.9%) gần như ngang nhau, chỉ chênh 1%
- **Mất cân bằng tại nhóm Hybrid**: 50% chỉ có 187 bản ghi, chênh lệch **~6.5 lần** so với hai nhóm còn lại
- Phân bố cho thấy thị trường **đang trong giai đoạn chuyển đổi**, chưa có sự thống trị của một mô hình

**Dữ liệu hoàn toàn nhất quán**:
- Chỉ có 3 giá trị số nguyên: 0, 50, 100
- Không có vấn đề định dạng, giá trị trung gian (vd: 25, 75), hoặc typo
- Không có giá trị bất thường (ngoài khoảng 0-100%)

**Nhóm có ít quan sát:** **Nhóm Hybrid 50% (187 bản ghi, 7.2%)** có số lượng thấp hơn nhiều. Nhưng đây là mô hình làm việc riêng biệt có ý nghĩa thực tế, phản ánh thị trường rằng mô hình hybrid ít phổ biến hơn trong ngành Data Science

## **2.3. Phân tích các cột phân loại**


**Xác định danh sách các cột phân loại dựa trên kiểu dữ liệu:**

In [None]:
# Liệt kê các cột phân loại dựa trên dtype object
cat_cols = df.select_dtypes(include=['object']).columns.tolist()

print("Danh sách các cột phân loại:")
print(cat_cols)

### ***experience_level***

In [None]:
dp.analyze_categorical_column(df, 'experience_level')
vis.plot_bar_count(df, 'experience_level')

Có **ít giá trị phân loại** $\rightarrow$ thuộc nhóm **low-cardinality** dễ xử lý và thuận lợi cho trực quan hóa.
Phân phối cấp độ kinh nghiệm cho thấy:
- **Senior Level** chiếm áp đảo với 1554 mẫu.
- **Mid Level** đứng thứ hai với 664 mẫu.
- **Entry Level** chỉ chiếm 270 mẫu.
- **Executive Level** là nhóm hiếm, chỉ 96 mẫu.

Điều này phản ánh rằng dataset thiên nhiều về các vị trí senior, điều có thể ảnh hưởng đến phân tích mức lương chung (salary skewness).  
Nhóm EX quá ít, có thể xem xét gom nhóm khi mô hình hóa.

### ***employment_type***

In [None]:
dp.analyze_categorical_column(df, 'employment_type')
vis.plot_bar_count(df, 'employment_type')

Có **ít giá trị phân loại** → thuộc nhóm **low-cardinality**

Tần suất loại hợp đồng:
- **Full-time** chiếm gần như toàn bộ (2547 mẫu) $\rightarrow$ >97%.
- Các loại Part-time, Contractor, Freelance cực kỳ ít.

Điều này có nghĩa là:
- Phân tích dựa trên loại hợp đồng sẽ không có nhiều ý nghĩa vì dữ liệu lệch mạnh.
- Khi trực quan hóa, chỉ nên hiển thị Full-time và gom các loại khác thành “Other”.

### ***job_title***

In [None]:
dp.analyze_categorical_column(df, 'job_title')
vis.plot_bar_count(df, 'job_title', 15)

Có **93 giá trị**, là cột có độ đa dạng cao nhất. Việc trực quan tất cả job title có thể gây nhiễu, nên cần giới hạn theo nhóm phổ biến nhất.
Sự phân bố rất lệch:
- 3 vị trí phổ biến nhất:
  - Data Engineer - 596 mẫu  
  - Data Scientist - 538 mẫu  
  - Data Analyst - 396 mẫu  
- Phần lớn job title còn lại chỉ có vài mẫu, thậm chí chỉ **1 mẫu**.

Kết luận:
- Đây là một biến **high-cardinality**.
- Trực quan hóa toàn bộ là không khả thi.
- Trong EDA, nên chọn **top 10 hoặc top 15 job titles** để phân tích sâu hơn.
- Khi mô hình hóa, có thể cần chuẩn hóa hoặc gom nhóm theo category lớn (ví dụ: "Data Analyst", "Data Engineer").

### ***salary_currency***

In [None]:
dp.analyze_categorical_column(df, 'salary_currency')
vis.plot_bar_count(df, 'salary_currency')

Có mức độ đa dạng trung bình (20 giá trị). 
    
Loại tiền tệ:
- **USD chiếm 2107 mẫu** (áp đảo).
- EUR, GBP là hai nhóm lớn tiếp theo.
- Các currency khác chỉ xuất hiện vài lần.

Vấn đề EDA:
- Không cần phân tích sâu vì ta đã có cột `salary_in_usd`.
- Dữ liệu currency skew $\rightarrow$ không thích hợp cho biểu đồ bar full.

### ***employee_residence & company_location***

In [None]:
dp.analyze_categorical_column(df, 'employee_residence')
vis.plot_bar_count(df, 'employee_residence', top_n=15)

In [None]:
dp.analyze_categorical_column(df, 'company_location')
vis.plot_bar_count(df, 'company_location', top_n=15)

Đều có lượng phân loại rất cao:
- 78 quốc gia cư trú  
- 72 quốc gia đặt công ty  

Trong cả hai:
- **US chiếm hơn 50% dữ liệu**.
- GB, CA, ES, IN chiếm phần nhỏ.
- Phần lớn quốc gia còn lại chỉ có 1-3 mẫu.

### ***company_size***

In [None]:
dp.analyze_categorical_column(df, 'company_size')
vis.plot_bar_count(df, 'company_size')

Có **ít giá trị phân loại** → thuộc nhóm **low-cardinality**
Ba phân loại:
- M (medium) $\rightarrow$ 2028 mẫu (đa số)
- L (large) $\rightarrow$ 409 mẫu
- S (small) $\rightarrow$ 147 mẫu

Rất rõ ràng: phần lớn công ty trong dataset thuộc quy mô trung bình.

### ***Tóm tắt:***

- Một số cột có phân phối lệch mạnh (employment_type, company_size).
- Một số cột có cardinality rất cao (job_title, residence, company location).
- EDA tiếp theo nên:
  - Trực quan hóa các biến có cardinality thấp (bar chart trực tiếp).
  - Với các biến có cardinality cao $\rightarrow$ chỉ dùng **top N**.
  - Kiểm tra quan hệ giữa từng biến và `salary_in_usd`.

Tiếp theo, chúng ta sẽ tạo trực quan hóa để nắm bắt phân phối rõ hơn.

In [None]:
# Kiểm tra số lượng giá trị duy nhất cho từng cột phân loại
print("\nSố lượng giá trị khác nhau trong mỗi cột:")
df[cat_cols].nunique().sort_values()

## **2.4. Kiểm tra dữ liệu thiếu và dữ liệu bất thường**

### **Kiểm tra missing value:**

Với các phân tích từng cột ở trên, ta dễ dàng nhận ra không có dữ liệu bị thiếu. Kiểm tra:

In [None]:
print("=== Missing Values ===")
missing_values = df[cat_cols].isnull().sum()
print(missing_values[missing_values > 0] if missing_values.any() else "Không có missing value.")

### **Kiểm tra quy đổi currency**

In [None]:
dp.check_currency_rates(df)

#### *Nhận xét về hiện tượng khác biệt tỉ giá và lý do dataset vẫn hợp lệ*

Khi kiểm tra tỉ giá thực tế (`salary_in_usd / salary`) theo từng loại tiền tệ, ta thấy rằng nhiều currency như **HUF, PLN, GBP, EUR, INR, AUD, CAD** có độ lệch tỉ giá khá lớn (từ 7% đến hơn 20%). Điều này có thể trông giống như dữ liệu bị sai hoặc quy đổi không chính xác. Tuy nhiên, đây **không phải lỗi của dataset**.

#### *Giải thích hiện tượng*
Mức độ lệch tỉ giá xảy ra vì dataset:
- được tổng hợp từ **nhiều năm khác nhau**,  
- đến từ **nhiều nguồn khác nhau**,  
- và **mỗi dòng có thể sử dụng tỉ giá theo thời điểm** thay vì một bảng tỉ giá cố định.

Điều này đặc biệt dễ thấy ở các currency có biến động mạnh theo thời gian như **INR, PLN, HUF, JPY**, hoặc các đồng tiền chịu ảnh hưởng tỷ giá thị trường hàng ngày.

Do đó, việc các dòng cùng một currency không sử dụng đúng một tỉ giá duy nhất là **hoàn toàn bình thường** trong bối cảnh dữ liệu thị trường nhân sự quốc tế.

#### *Kết luận*
- Dataset **không sai**,  
- **không có lỗi quy đổi bất thường**,  
- và **không có dấu hiệu dữ liệu bị nhập sai hoặc bị làm bẩn**.  

Sự khác biệt tỉ giá chỉ phản ánh **tính tự nhiên của dữ liệu thực tế**, nơi tỉ giá thay đổi theo ngày, theo năm và theo nguồn thu thập. Đây là đặc điểm **hợp lý và chấp nhận được** khi làm việc với dữ liệu thị trường toàn cầu.


### **Kiểm tra các giá trị bất thường của cột job_title (có quá nhiều giá trị)**

In [None]:
dp.check_job_title_anomalies(df)

#### *Nhận xét kiểm tra tính bất thường của cột `job_title`*

Sau khi chạy các bước kiểm tra định dạng và bất thường trong cột `job_title`, kết quả cho thấy:

- Số dòng có dấu hiệu bất thường: **4**
- Tất cả 4 dòng đều có cùng giá trị: **"3D Computer Vision Researcher"**

Điểm bất thường duy nhất được phát hiện đến từ tiêu chí **chứa số trong job title**. Tuy nhiên, đây không phải lỗi:

#### *Giải thích hiện tượng*
Các job title như **“3D Computer Vision Researcher”** hoàn toàn hợp lệ trong lĩnh vực ngành dữ liệu - thuật ngữ “3D” mô tả lĩnh vực thị giác máy tính 3 chiều. Do vậy, việc chứa số không mang tính chất “bất thường” hay “sai format”, mà chỉ phản ánh đặc thù của mô tả công việc.

#### *Kết luận*
- Cột **job_title hoàn toàn sạch**, không tồn tại lỗi ghi nhầm, sai format hay giá trị bất thường.
- 4 dòng bị gắn cờ chỉ **do chứa số**, nhưng đây là **trường hợp hoàn toàn hợp lệ** và có thể bỏ qua trong phân tích thực tế.
- Dataset **ổn định, nhất quán và không có lỗi nghiêm trọng** trong phần job title.



In [None]:
anomalies = dp.check_remote_anomalies(df)

### **Phân tích các trường hợp bất thường về `remote_ratio`**

Hàm `check_remote_anomalies` đã lọc ra những dòng có **`employee_residence` khác `company_location` nhưng `remote_ratio = 0`**, tức là nhân viên khác quốc gia nhưng vẫn được báo là không làm remote. Đây là các dòng bất thường, vì trong thực tế, nếu nhân viên ở quốc gia khác, thường phải làm remote ít nhất một phần.

#### *Đánh giá hiện tượng*

1. **Khả năng dữ liệu không chính xác:**  
   - `remote_ratio = 0` nhưng nhân viên ở quốc gia khác với công ty, điều này bất hợp lý. Có thể là do dữ liệu bị nhập sai hoặc thiếu thông tin.

2. **Khả năng hợp lý (ít gặp hơn):**  
   - Một số trường hợp hiếm, ví dụ nhân viên đang làm onsite tạm thời hoặc đi công tác nhưng vẫn được ghi `remote_ratio = 0`.

**Kết luận:** Những dòng này nên được đánh dấu là **bất thường** để xử lý thêm trong EDA hoặc khi xây dựng mô hình, có thể cần chỉnh sửa hoặc loại bỏ để tránh gây nhiễu dữ liệu.


In [None]:
df.drop(index=anomalies.index, inplace=True)

## **2.5. Mối quan hệ & Tương quan**

### **Tương quan giữa các biến số**
Bao gồm: `work_year`, `salary`, `salary_in_usd`, `remote_ratio`

In [None]:
# Tương quan giữa work_year, salary_in_usd, remote_ratio
vis.plot_correlation_heatmap(df, title="Ma trận tương quan giữa các biến số")

### **Tương quan giữa Mức lương (`salary_in_usd`) vs Kinh nghiệm (`experience_level`)**

In [None]:
# Lương theo Kinh nghiệm (Sắp xếp theo thứ tự)
order_exp = ['Entry Level', 'Mid Level', 'Senior Level', 'Executive Level']
vis.plot_categorical_vs_numerical_box(
    df,
    cat_col='experience_level',
    num_col='salary_in_usd',
    order=order_exp,
    title="Phân phối lương theo Kinh nghiệm"
)


### **Tương quan giữa Mức lương (`salary_in_usd`) và Nhóm công việc (`job_category`)**

In [None]:
# Lương theo Nhóm công việc (Job Category)
vis.plot_categorical_vs_numerical_box(
    df,
    cat_col='job_category',
    num_col='salary_in_usd',
    title="Phân phối lương theo Nhóm công việc"
)

### **Tương quan giữa Mức lương (`salary_in_usd`) vs Quy mô công ty (`company_size`)**

In [None]:
# Thứ tự logic: Small -> Medium -> Large
size_order = ['Small', 'Medium', 'Large']
vis.plot_categorical_vs_numerical_box(
    df,
    cat_col='company_size',
    num_col='salary_in_usd',
    order=size_order,
    title="Salary Distribution by Company Size"
)

### **Tương quan giữa Mức lương (`salary_in_usd`) và Tỷ lệ làm việc từ xa (`remote_ratio`)**

In [None]:
# Remote ratio thực chất là phân loại (0, 50, 100)
vis.plot_categorical_vs_numerical_box(
    df,
    cat_col='remote_ratio',
    num_col='salary_in_usd',
    title="Salary Distribution by Remote Ratio"
)

### **Tương quan giữa Kinh nghiệm (`experience_level`) và Quy mô công ty (`company_size`)**
Phần này để kiểm tra xem nhân viên ở các trình độ kinh nghiệm khác nhau thường làm ở các công ty có quy mô thế nào.

In [None]:
vis.plot_categorical_heatmap(
    df,
    col1='experience_level',
    col2='company_size',
    title="Quan hệ giữa Kinh nghiệm và Quy mô công ty"
)

**Nhận xét**:

* **Tương quan cột số:** Có sự tương quan dương (0.24) giữa `work_year` và `salary_in_usd`, cho thấy xu hướng lương tăng dần theo thời gian (2020-2023).
* **Kinh nghiệm:** Phân cấp lương rõ rệt theo quy luật `EN < MI < SE < EX`. Nhóm Senior (`SE`) chiếm số lượng áp đảo và có dải lương biến động mạnh nhất.
* **Quy mô công ty:** Trái với suy nghĩ thông thường, công ty quy mô vừa (**M**) có mức lương trung vị ngang bằng hoặc nhỉnh hơn công ty lớn (**L**), trong khi công ty nhỏ (**S**) thấp nhất.
* **Làm việc từ xa:** Không có quan hệ tuyến tính. Nhóm làm từ xa hoàn toàn (100%) có lương cạnh tranh ngang ngửa nhóm tại văn phòng (0%), trong khi nhóm Hybrid (50%) lại có mức lương thấp nhất.

**Kết luận:** Dữ liệu có tiềm năng dự báo tốt nhưng chứa các yếu tố phi tuyến tính. Cần thực hiện **Feature Engineering** (gom nhóm chức danh, chỉnh lạm phát) để chuẩn bị cho mô hình huấn luyện.

### **Tương quan giữa Mức lương (`salary_in_usd`) và Nhóm công việc (`job_category`) & Kinh nghiệm (`experience_level`)**
Sử dụng **Heatmap**: Trục tung là các nhóm công việc, trục hoành Kinh nghiệm. Con số trong các ô thể hiện mức lương trung vị, màu sắc càng đậm thể hiện mức lương trung vị càng cao.

In [None]:
from matplotlib import pyplot as plt
import seaborn as sns

# Tính lương trung vị cho từng cặp (Job Category, Experience Level)
pivot_salary = df.pivot_table(values='salary_in_usd',
                              index='job_category',
                              columns='experience_level',
                              aggfunc='median')

# Sắp xếp lại thứ tự cột cho logic
cols_order = ['Entry Level', 'Mid Level', 'Senior Level', 'Executive Level']
pivot_salary = pivot_salary[cols_order]

plt.figure(figsize=(12, 6))
sns.heatmap(pivot_salary, annot=True, fmt=".0f", cmap="YlGnBu", linewidths=.5)
plt.title('Mức lương Trung vị (Median Salary) theo Vị trí và Kinh nghiệm', fontsize=14)
plt.ylabel('Nhóm công việc')
plt.xlabel('Cấp độ kinh nghiệm')
plt.show()

### **Phân tích Vị trí địa lý (Quốc gia)**
 - Sử dụng bản đồ nhiệt (*Choropleth Map*) để quan sát sự phân bố mức lương trung bình trên toàn thế giới. Điều này giúp trả lời câu hỏi: **"Quốc gia nào trả lương cao nhất cho nhân sự ngành Data?"**
 - Sử dụng biểu đồ cột (*Bar Chart*) để hiển thị **Top 15 quốc gia** (theo vị trí công ty và nơi sinh sống nhân viên) có mức lương trung bình cao nhất.

Mức lương trung bình theo quốc gia của công ty (`company_location`)

In [None]:
from plotly import express as px

country_com_salary = df.groupby('company_location')['salary_in_usd'].mean().reset_index()

# 1. Vẽ bản đồ thể hiện mức lương trung bình theo vị trí công ty
fig = px.choropleth(country_com_salary,
                    locations='company_location',
                    locationmode='country names',
                    color='salary_in_usd',
                    color_continuous_scale='Viridis',
                    title='Mức lương trung bình theo Vị trí Công ty (Global Heatmap)',
                    labels={'salary_in_usd': 'Avg Salary (USD)'})
fig.show()

In [None]:
# 2. Vẽ biểu đồ cột cho Top 15 quốc gia có công ty trả lương cao nhất
top_n = 15

fig = px.bar(country_com_salary.sort_values(by='salary_in_usd', ascending=False).head(top_n),
            x='company_location',
            y='salary_in_usd',
            title=f'Top {top_n} Quốc gia có Mức lương Trung bình cao nhất (USD)',
            labels={'salary_in_usd': 'Lương Trung bình (USD)', 'company_location': 'Quốc gia'},
            text_auto='.2s', # Hiển thị số liệu trên cột (dạng rút gọn 100k)
            color='salary_in_usd',
            color_continuous_scale='Viridis',

            )

fig.update_layout(xaxis_tickangle=-45) # Xoay nhãn trục X để dễ đọc
fig.show()

Mức lương trung bình theo quốc gia là nơi sinh sống của nhân viên (`employee_residence`)

In [None]:
country_emp_salary = df.groupby('employee_residence')['salary_in_usd'].mean().reset_index()

# 1. Vẽ bản đồ thể hiện mức lương trung bình theo quốc gia nơi sinh sống nhân viên
fig = px.choropleth(country_emp_salary,
                    locations='employee_residence',
                    locationmode='country names',
                    color='salary_in_usd',
                    color_continuous_scale='Viridis',
                    title='Mức lương trung bình theo Quốc gia nơi sinh sống Nhân viên (Global Heatmap)',
                    labels={'salary_in_usd': 'Avg Salary (USD)'})
fig.show()

In [None]:
# 2. Vẽ biểu đồ cột cho Top 15 quốc gia Nơi sinh sống của nhân viên được trả lương cao nhất
top_n = 15

fig = px.bar(country_emp_salary.sort_values(by='salary_in_usd', ascending=False).head(top_n),
            x='employee_residence',
            y='salary_in_usd',
            title=f'Top {top_n} Nơi sinh sống của nhân viên có Mức lương Trung bình cao nhất (USD)',
            labels={'salary_in_usd': 'Lương Trung bình (USD)', 'employee_residence': 'Quốc gia'},
            text_auto='.2s', # Hiển thị số liệu trên cột (dạng rút gọn 100k)
            color='salary_in_usd',
            color_continuous_scale='Viridis',
            )

fig.update_layout(xaxis_tickangle=-45) # Xoay nhãn trục X để dễ đọc
fig.show()

### **Xu hướng làm việc từ xa (Remote Work) thay đổi thế nào qua các năm?**
Sử dụng **Radar Chart** để so sánh tỷ lệ các loại hình làm việc (On-site, Hybrid, Remote) thay đổi như thế nào từ năm 2020 đến 2023.

In [None]:
import plotly.graph_objects as go

# Tạo bảng tổng hợp
remote_year = df.groupby(['work_year', 'remote_ratio']).size().reset_index(name='count')
# Pivot để có data vẽ
pivot_remote = remote_year.pivot(index='remote_ratio', columns='work_year', values='count').fillna(0)

# Chuẩn hóa về tỷ lệ %
pivot_remote_pct = pivot_remote.div(pivot_remote.sum(axis=0), axis=1) * 100

categories = pivot_remote_pct.index.tolist()
fig = go.Figure()

for year in pivot_remote_pct.columns:
    fig.add_trace(go.Scatterpolar(
        r=pivot_remote_pct[year].values,
        theta=categories,
        fill='toself',
        name=str(year)
    ))

fig.update_layout(
  polar=dict(radialaxis=dict(visible=True, range=[0, 100])),
  showlegend=True,
  title="Sự thay đổi xu hướng làm việc từ xa (2020 - 2023)"
)
fig.show()

## **2.6. Quan sát & Nhận định ban đầu**

Sau quá trình khám phá và phân tích dữ liệu (EDA), nhóm chúng em tổng hợp lại những quan sát cốt lõi, đánh giá chất lượng dữ liệu và các vấn đề tiềm năng sẽ định hình hướng đi cho phần Phân tích chuyên sâu và Mô hình hóa.

### **1. Các quan sát chính**

* **Sự thống trị của thị trường Mỹ (US):** Dữ liệu bị lệch nghiêm trọng về phía thị trường Mỹ (*US*) cả về số lượng mẫu (>50%) và mức lương. Mức lương tại Mỹ cao vượt trội so với phần còn lại của thế giới (thậm chí gấp 2-3 lần so với Châu Âu). Điều này gợi ý rằng biến `company_location` có khả năng cao là đặc trưng quan trọng nhất trong các mô hình dự đoán.
* **Phân cực trong mô hình làm việc:** Thị trường Data Science, như quan sát từ dataset, phần lớn nhân sự hoặc làm việc hoàn toàn tại văn phòng (*On-site*), hoặc hoàn toàn từ xa (*Remote 100%*). Mô hình kết hợp vừa làm tại công ty vừa làm từ xa (*Hybrid 50%*) chiếm tỷ lệ rất nhỏ (~7.2%) và có mức lương trung vị thấp nhất.
* **Nghịch lý quy mô công ty:** Một quan sát trái ngược với trực giác là các công ty quy mô Vừa (*Medium*) lại có mức lương trung vị cao hơn các công ty Lớn (*Large*) trên bình diện tổng thể. Phân tích sơ bộ cho thấy đây có thể là hệ quả của *Nghịch lý Simpson*: khi các công ty lớn tuyển dụng nhiều nhân sự ở các quốc gia có chi phí thấp (Outsourcing) hơn là các công ty vừa (tập trung tại Mỹ).
* **Lương không tăng tuyến tính theo chức danh:** Mặc dù cấp quản lý (*Manager/Head*) thường được cho là lương cao hơn, nhưng dữ liệu cho thấy nhiều vị trí Chuyên gia kỹ thuật cấp cao (*Principal/Staff Engineer*) có mức lương ngang ngửa hoặc thậm chí nhỉnh hơn.

### **2. Đánh giá chất lượng dữ liệu & Tiền xử lý**

* **Vấn đề Dữ liệu trùng lặp:** Dataset ban đầu chứa lượng lớn dòng trùng lặp (*~31%*). Nhóm đã quyết định loại bỏ toàn bộ để tránh việc mô hình bị *Overfitting* các mẫu này.
* **Vấn đề tính nhất quán:** Phát hiện một số trường hợp bất hợp lý về mặt logic. Ví dụ: nhân viên ở quốc gia khác công ty nhưng `remote_ratio = 0`. Nhóm đã xử lý bằng cách loại bỏ các dòng nhiễu này để đảm bảo dữ liệu sạch, hợp lý.
* **Nhiều chức danh (High Cardinality):** Cột `job_title` quá nhiều giá trị (*93* giá trị). Bước tiền xử lý gom nhóm thành `job_category` và tạo thêm đặc trưng `career_track` (Technical vs Management) là cần thiết để mô hình có thể học được quy luật tổng quát.
* **Biến động tỷ giá:** Việc quy đổi lương sang USD chịu ảnh hưởng bởi tỷ giá hối đoái tại thời điểm thu thập (đặc biệt với các đồng tiền biến động mạnh). Tuy nhiên, sai số này được chấp nhận trong phạm vi nghiên cứu tổng quan.

### **3. Cờ đỏ & Hạn chế (Red Flags & Limitations)**

* **Mất cân bằng dữ liệu:**
    * **Về kinh nghiệm:** Dữ liệu tập trung quá nhiều vào nhóm *Senior (SE)*, trong khi nhóm *Executive (EX)* và *Entry-level (EN)* khá ít. Điều này có thể khiến mô hình dự báo kém chính xác cho các sinh viên mới ra trường hoặc lãnh đạo cấp cao.
    * **Về thời gian:** Dữ liệu năm 2020-2021 rất ít so với 2022-2023, gây khó khăn cho việc phân tích dữ liệu theo time-series.
* **Thiếu thông tin ngữ cảnh:** Dataset thiếu các biến quan trọng ảnh hưởng đến lương như: *Ngành nghề công ty* (Tech, Finance, Healthcare?), *Tech Stack* (Python, Java, Cloud?), hay *Giới tính*. Điều này giới hạn khả năng giải thích biến thiên của lương (`R-squared` của mô hình có thể sẽ không đạt mức cao).

### **4. Hướng tiếp cận tiếp theo**
Từ những nhận định trên, nhóm xác định chiến lược phân tích:
1.  **Tập trung vào phân tách địa lý:** Luôn kiểm soát biến `company_location` (hay cả `employee_residence`) (ví dụ như chia tách US vs Non-US) khi so sánh lương để tránh kết luận sai lệch.
2.  **Feature Engineering:** Cần tạo thêm các biến (ví dụ: nhóm quốc gia theo mức thu nhập, điều chỉnh lạm phát) để hỗ trợ mô hình Machine Learning.
3.  **Kiểm định giả thuyết:** Sử dụng thống kê để làm rõ mối quan hệ mập mờ giữa Quy mô công ty và Lương (Câu hỏi 2).

---

# **3. Đặt câu hỏi**

## **Câu hỏi 1:** 

### **1. Câu hỏi:**

> **Theo đuổi *Manager* hay trở thành *Techincal Expert*?**

Tại các cấp độ thâm niên cao (Senior & Executive), liệu việc chuyển hướng sang con đường Quản lý (*ví dụ: Manager, Head, Director*) có thực sự đảm bảo mức thu nhập cao hơn so với việc tiếp tục phát triển chuyên sâu theo con đường Kỹ thuật (*ví dụ: Principal, Staff, Architect*) hay không? Mức chênh lệch thu nhập giữa hai con đường này là bao nhiêu và liệu có tồn tại "trần thu nhập" cho những nhân sự quyết tâm không làm sếp?

### **2. Động lực & Lợi ích:**
*   **Tại sao đáng điều tra?**
    *   Đây là câu hỏi cốt lõi về định hướng sự nghiệp mà hầu hết nhân sự ngành Data đều trăn trở sau 5-7 năm làm việc. Có một định kiến phổ biến rằng "muốn lương cao thì bắt buộc phải làm quản lý". Phân tích này cần thiết để kiểm chứng xem định kiến đó có đúng với dữ liệu thực tế trong năm 2020-2023 hay không.
*   **Lợi ích và thông tin khi trả lời câu hỏi này?**
    *   Nó giúp xác định xem liệu con đường trở thành *Principal/Staff Engineer* có mang lại lợi ích kinh tế tương đương với *Engineering Manager* hay không.
    *   Đòi hỏi xử lý dữ liệu sâu để tách các từ khóa từ chức danh công việc, thay vì chỉ dùng các nhóm phân loại có sẵn.
*   **Đối tượng quan tâm là ai?**
    *   **Nhân sự Senior:** Giúp họ tự tin ra quyết định thăng tiến dựa trên sở trường thay vì áp lực tài chính.
    *   **HR & Nhà quản lý:** Có cơ sở xây dựng chính sách lương thưởng để giữ chân các nhân tài kỹ thuật giỏi mà không cần ép họ làm quản lý.
*   **Nó nói lên điều gì về  các vấn đề trong thực tế?**
    *   Nó giúp giải quyết bài toán "Peter Principle" trong doanh nghiệp (đề bạt một kỹ sư giỏi lên làm một quản lý tồi chỉ để tăng lương).
    *   Hỗ trợ cá nhân đưa ra quyết định: "Tôi có nên nhận lời đề nghị thăng chức làm Manager không, hay nên tìm một vị trí Staff Engineer ở công ty khác để tối ưu thu nhập?"

## **Câu hỏi 2:**

### **1. Câu hỏi:**

> **Tại sao công ty Vừa lại trả lương cao hơn công ty Lớn?**

Quá trình khám phá dữ liệu đã cho thấy một **nghịch lý**: Các công ty quy mô Vừa (Medium) có mức lương trung vị **cao hơn** đáng kể so với các công ty Lớn (Large). Câu hỏi đặt ra là:
- Liệu mức chênh lệch này có thực sự phản ánh chế độ đãi ngộ tốt hơn của công ty Vừa, hay nó chỉ là một ảo ảnh thống kê (Simpson's Paradox) gây ra bởi sự khác biệt trong **phân bố địa lý**?
- Cụ thể, chúng ta cần phân tích dữ liệu để kiểm chứng giả thuyết: Phải chăng các công ty Lớn có tỷ lệ tuyển dụng nhân sự tại các thị trường quốc tế (Non-US) cao hơn, kéo mức lương trung bình xuống; trong khi các công ty Vừa tập trung chủ yếu tại thị trường Mỹ (nơi có mặt bằng lương cao)?"

### **2. Động lực & Lợi ích**

*   **Tại sao đáng điều tra?**
    *   Kết quả EDA ban đầu (Medium > Large) đi ngược lại suy nghĩ thông thường rằng các tập đoàn lớn luôn trả lương cao nhất. Nếu không điều tra kỹ mối liên hệ giữa **Quy mô** và **Vị trí địa lý**, chúng ta có thể đưa ra những kết luận sai lệch về thị trường lao động. Việc kiểm chứng xem đây là "chiến lược trả lương" hay "biến gây nhiễu" là rất cần thiết.

*   **Lợi ích và thông tin có được khi trả lời câu hỏi này?**
    *   Giúp "bóc tách" tác động của địa lý ra khỏi quy mô công ty. Chúng ta sẽ biết được chính xác: Nếu hai công ty (một Vừa, một Lớn) cùng đặt tại một địa điểm (ví dụ: Mỹ), thì bên nào trả lương cao hơn?
    *   Cung cấp cái nhìn sâu hơn về cấu trúc nhân sự toàn cầu: Liệu các công ty lớn có xu hướng outsourcing nhiều hơn các công ty quy mô vừa hay không.

*   **Đối tượng quan tâm là ai?**
    *   **Người tìm việc:** Giúp họ xây dựng chiến lược ứng tuyển thông minh (không vội bỏ qua các công ty lớn chỉ vì thống kê lương trung bình thấp).
    *   **Nhà quản lý nhân sự::** Hiểu rõ vị thế cạnh tranh của công ty mình trên thị trường để điều chỉnh khung lương phù hợp.

*   **Nó nói lên điều gì về  các vấn đề trong thực tế?**
    *   **Quyết định chọn nơi làm việc:** Giúp ứng viên trả lời câu hỏi: "Nên gia nhập một công ty đang tăng trưởng (Medium) hay một Tập đoàn lớn (Large) để tối ưu thu nhập?".
    *   **Định giá thị trường:** Giúp tránh sai lầm khi so sánh mức lương mà không tính đến yếu tố lạm phát hoặc mức sống tại các quốc gia khác nhau.

## **Câu hỏi 3:**

### **1. Câu hỏi:**

> **Mức lương tăng như thế nào qua từng giai đoạn kinh nghiệm làm việc (EN → MI → SE → EX)?**

Sự khác biệt về mức lương trung bình giữa các nhóm kinh nghiệm (EN, MI, SE, EX) là gì? Mức lương tăng dần như thế nào khi người lao động chuyển từ level thấp lên level cao hơn? Mức độ tăng lương tương ứng với từng giai đoạn kinh nghiệm dựa trên dữ liệu lương thực tế theo năm làm việc là bao nhiêu?

### **2. Động lực & Lợi ích:**
*   **Tại sao đáng điều tra?**
    *   Kinh nghiệm làm việc là yếu tố quan trọng ảnh hưởng đến thu nhập. Tuy nhiên, chỉ nhìn vào mức lương tuyệt đối không cho thấy tốc độ tăng lương hay giá trị từng giai đoạn kinh nghiệm. Phân tích theo các level EN → MI → SE → EX giúp làm rõ lộ trình tăng lương trong suốt quá trình phát triển sự nghiệp.
*   **Lợi ích và thông tin khi trả lời câu hỏi này**
    *   Định lượng mức tăng lương khi chuyển sang giai đoạn kinh nghiệm cao hơn.
    *   So sánh giai đoạn nào mang lại mức tăng lương rõ rệt nhất.
    *   Cung cấp cái nhìn tổng quan về lộ trình thu nhập theo kinh nghiệm trong ngành.
*   **Đối tượng quan tâm là ai?**
    *   Sinh viên và người mới đi làm định hướng nghề nghiệp.
    *   Người lao động đang cân nhắc thăng tiến hoặc chuyển việc.
    *   Nhà quản lý nhân sự và bộ phận xây dựng chính sách lương.
    *   Nhà nghiên cứu thị trường lao động.
*   **Câu hỏi này hỗ trợ quyết định thực tế nào?**
    *   Lập kế hoạch phát triển nghề nghiệp dài hạn.
    *   Đưa ra quyết định đầu tư thời gian, kỹ năng để nâng cao level.
    *   Xây dựng hoặc điều chỉnh thang lương theo kinh nghiệm trong doanh nghiệp.

## **Câu hỏi 4:**

### **1. Câu hỏi:**

> **Quy mô công ty ảnh hưởng như thế nào đến mức độ kinh nghiệm của nhân viên (EN, MI, SE, EX)?**

Phân bố các mức độ kinh nghiệm của nhân viên trong từng nhóm quy mô công ty (S, M, L) như thế nào? Tỷ lệ từng experience level trong mỗi loại quy mô công ty ra sao? Có sự khác biệt về cấu trúc nhân sự theo kinh nghiệm giữa công ty nhỏ, vừa và lớn hay không?

### **2. Động lực & Lợi ích:**
*   **Tại sao đáng điều tra?**
    *   Quy mô công ty thường phản ánh mức độ phức tạp trong tổ chức, nguồn lực tài chính và chiến lược nhân sự. Do đó, cấu trúc kinh nghiệm của nhân viên có thể khác nhau đáng kể giữa công ty nhỏ, vừa và lớn. Phân tích này giúp hiểu rõ cách các công ty ở từng quy mô xây dựng đội ngũ nhân lực.
*   **Lợi ích và thông tin khi trả lời câu hỏi này**
    *   Phát hiện công ty nhỏ có xu hướng tuyển nhiều nhân viên mới (EN) hay không.
    *   Xác định công ty lớn có tập trung nhiều nhân sự giàu kinh nghiệm (SE, EX) hơn hay không.
    *   So sánh mức độ đa dạng về kinh nghiệm giữa các quy mô công ty.
    *   Hỗ trợ diễn giải chiến lược tuyển dụng và phát triển nhân sự theo quy mô tổ chức.
*   **Đối tượng quan tâm là ai?**
    *   Người lao động lựa chọn môi trường làm việc phù hợp với trình độ và mục tiêu nghề nghiệp.
    *   Nhà quản lý và bộ phận nhân sự.
    *   Nhà tuyển dụng xây dựng chiến lược nhân sự.
    *   Nhà nghiên cứu thị trường lao động.
*   **Câu hỏi này hỗ trợ quyết định thực tế nào?**
    *   Lựa chọn quy mô công ty phù hợp với giai đoạn sự nghiệp cá nhân.
    *   Thiết kế chiến lược tuyển dụng theo quy mô doanh nghiệp.
    *   Xây dựng lộ trình phát triển nhân sự phù hợp cho từng loại hình công ty.

## **Câu hỏi 5:**

### **1. Câu hỏi:**

> **Yếu tố nào ảnh hưởng đến mức lương nhiều nhất?**

Yếu tố nào đóng vai trò quan trọng nhất trong việc quyết định mức lương (`adjusted_salary`) của nhân sự ngành Data Science: Kinh nghiệm (`experience_level`), Vị trí địa lý (`employee_residence`), hay Loại hình công việc (`job_category`)? Mức độ ảnh hưởng cụ thể của từng yếu tố là bao nhiêu phần trăm?

### **2. Động lực & Lợi ích:**
* **Tại sao câu hỏi này đáng để điều tra?**
    - Trong cộng đồng Data Science, thường có nhiều tranh luận về việc "Nên ưu tiên học lên Senior hay nên tìm cách làm việc cho công ty nước ngoài?". 
    - Việc định lượng chính xác mức độ ảnh hưởng của từng yếu tố sẽ thay thế những phỏng đoán cảm tính bằng số liệu thống kê tin cậy.
* **Lợi ích và thông tin chi tiết:**
    - Phân tích này giúp xếp hạng các yếu tố theo thứ tự ưu tiên. 
    - Nó chỉ ra đâu là "đòn bẩy" hiệu quả nhất để tăng thu nhập (ví dụ: chuyển đến Mỹ làm việc có thể tăng lương nhanh hơn là thăng chức tại địa phương).
* **Ai quan tâm đến câu trả lời?**
    * **Người tìm việc/Sinh viên:** Để xây dựng lộ trình phát triển sự nghiệp tối ưu.
    * **Nhà quản lý nhân sự (HR):** Để hiểu cấu trúc lương và xây dựng chính sách đãi ngộ cạnh tranh.
* **Vấn đề thực tế:**
    - Giúp giải quyết bài toán ra quyết định cá nhân: "Tôi nên đầu tư thời gian để học kỹ năng mới (đổi Job Category) hay tìm kiếm cơ hội relocate sang thị trường khác (đổi Residence)?"

## **Câu hỏi 6:**

### **1. Câu hỏi:**

> **Có thể xây dựng một mô hình Machine Learning để dự đoán mức lương thực tế (`adjusted_salary`) của một nhân sự dựa trên hồ sơ công việc (Kinh nghiệm, Vị trí, Quy mô công ty...) với độ chính xác bao nhiêu (đo lường bằng $R^2$ và $MAE$)?**

### **2. Động lực & Lợi ích:**
* **Tại sao câu hỏi này đáng để điều tra?**
    - Thị trường lương thưởng ngành công nghệ biến động rất mạnh và thường thiếu minh bạch. 
    - Việc xây dựng được một mô hình dự báo sẽ giúp chuẩn hóa việc định giá sức lao động dựa trên dữ liệu lịch sử thay vì cảm tính.
* **Lợi ích và thông tin chi tiết:**
    - Cung cấp một công cụ tham chiếu/tham khảo lương cho cả ứng viên và nhà tuyển dụng.
    - Nếu mô hình dự đoán chính xác, ta có thể phát hiện các trường hợp bất thường như: những vị trí đang được trả lương quá cao hoặc quá thấp so với mặt bằng chung của thị trường.
* **Ai quan tâm đến câu trả lời?**
    * **Ứng viên:** Biết được "giá trị thị trường" (Fair Market Value) của bản thân để tự tin đàm phán lương.
    * **Nhà tuyển dụng:** Đưa ra mức offer hợp lý, vừa tiết kiệm ngân sách vừa đủ sức thu hút nhân tài.
* **Vấn đề thực tế:**
    - Hỗ trợ giải quyết bài toán đàm phán lương và lập ngân sách tuyển dụng cho các doanh nghiệp.

# **4. Phân tích dữ liệu**

## **Câu hỏi 1:**

### **A. Tiền xử lý**
**Giải thích quy trình:**
Để trả lời câu hỏi này, ta không thể sử dụng cột `job_title` thô (có tới 93 giá trị) hay cột `job_category` đã gom nhóm trước đó (vì thường gộp chung **Management** và **Technical**). Quy trình xử lý như sau:

*   **Bước 1: Feature Engineering:** Tạo một cột mới tên là `career_track` dựa trên việc quét từ khóa (keywords) trong chức danh công việc:
    *   **Technical Expert:** Gom các chức danh chứa từ khóa thể hiện trình độ kỹ thuật cấp cao như *Principal, Staff, Architect*.
    *   **Management:** Gom các chức danh chứa từ khóa quản lý như *Manager, Head, Director, Lead*.
    *   **Individual Contributor (IC):** Các vị trí còn lại (thường là nhân viên kỹ thuật thông thường).
*   **Bước 2: Lọc dữ liệu:**
    *   Chỉ giữ lại các bản ghi thuộc cấp độ thâm niên **Senior (SE)** và **Executive (EX)**.
    *   **Lý do:** Các vị trí như "Principal" hay "Director" hầu như không tồn tại ở cấp độ Entry/Mid. Việc so sánh với các cấp độ thấp sẽ gây nhiễu và thiếu công bằng.
*   **Bước 3: Chọn lọc:** Loại bỏ nhóm **Individual Contributor** khỏi phân tích cuối cùng vì ta chỉ muốn so sánh trực diện giữa hai con đường thăng tiến cao cấp: **Management** vs. **Technical**.


In [None]:
# --- BƯỚC 1: ĐỊNH NGHĨA HÀM PHÂN LOẠI CAREER TRACK ---

def define_career_track(job_title):
    """
    Phân loại chức danh thành 3 nhóm dựa trên từ khóa:
    1. Technical Expert: Các vị trí kỹ thuật đầu ngành.
    2. Management: Các vị trí quản lý con người/chiến lược.
    3. Individual Contributor: Nhân viên kỹ thuật thông thường.
    """
    title = str(job_title).lower()
    
    # Tách nhóm Technical Expert
    tech_keywords = ['principal', 'staff', 'architect']
    if any(k in title for k in tech_keywords):
        return 'Technical Expert'
    
    # Tách nhóm Management
    # Lưu ý: 'Lead' đôi khi nhập nhằng, nhưng ở đây xếp vào nhóm quản lý
    mgmt_keywords = ['manager', 'head', 'director', 'lead']
    if any(k in title for k in mgmt_keywords):
        return 'Management'
        
    # Còn lại là nhóm IC thông thường
    return 'Individual Contributor'

# Áp dụng hàm để tạo cột mới
df['career_track'] = df['job_title'].apply(define_career_track)

# --- BƯỚC 2: LỌC DỮ LIỆU ĐỂ SO SÁNH CÔNG BẰNG ---

# Chỉ lấy cấp độ Senior (SE) và Executive (EX)
# Lý do: Để so sánh ngang hàng về thâm niên, tránh nhiễu từ các vị trí Junior
high_level_df = df[df['experience_level'].isin(['Senior Level', 'Executive Level'])].copy()

# --- BƯỚC 3: CHỌN NHÓM CẦN SO SÁNH ---

# Chỉ giữ lại 2 nhóm đối tượng của câu hỏi nghiên cứu
target_tracks = ['Management', 'Technical Expert']
comparison_df = high_level_df[high_level_df['career_track'].isin(target_tracks)]

# Kiểm tra kết quả sau khi lọc
print("Số lượng mẫu sau khi lọc:")
print(comparison_df['career_track'].value_counts())
print("-" * 30)
print("Phân bố theo cấp độ kinh nghiệm:")
print(comparison_df.groupby(['career_track', 'experience_level']).size())

### **B. Phân tích**
Để trả lời câu hỏi nghiên cứu, ta sử dụng phương pháp thống kê so sánh giữa hai nhóm đối tượng: **Management** và **Technical Expert**.

*   **Phương pháp:**
    *   Sử dụng `groupby` để tính toán các chỉ số thống kê mô tả: Trung vị (Median), Trung bình (Mean) và Độ lệch chuẩn (Std).
    *   Việc tính toán này được thực hiện trên tập dữ liệu đã lọc (chỉ gồm Senior và Executive) để đảm bảo tính công bằng.
*   **Kết quả kỳ vọng:**
    *   Một bảng dữ liệu (`summary_stats`) hiển thị con số cụ thể về mức lương của từng nhóm.
    *   Số liệu này sẽ là đầu vào để vẽ biểu đồ và viết nhận xét ở phần sau.


In [None]:
# 1. Tính toán tổng quan
# Dùng Median làm thước đo chính vì lương thường bị lệch
summary_stats = comparison_df.groupby('career_track')['salary_in_usd'].agg(
    Count='count',
    Median='median',
    Mean='mean',
    Std='std'
).round(0)

# 2. Tính toán chi tiết theo từng cấp độ kinh nghiệm
# Để chuẩn bị dữ liệu cho việc so sánh sâu ở bước Visualizations
detailed_stats = comparison_df.groupby(['career_track', 'experience_level'])['salary_in_usd'].median().unstack()

# Hiển thị kết quả tính toán
print("=== Bảng thống kê tổng quan (USD) ===")
display(summary_stats)

print("\n=== Lương Trung vị theo cấp độ (USD) ===")
display(detailed_stats)

### **C. Kết quả & Diễn giải**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.ticker as ticker

# Thiết lập kích thước khung hình
fig, axes = plt.subplots(1, 2, figsize=(20, 8))

# --- BIỂU ĐỒ 1: BOXPLOT (PHÂN PHỐI LƯƠNG) ---

# Mục đích: So sánh dải lương, độ biến thiên và outliers
sns.boxplot(
    data=comparison_df,
    x='career_track',
    y='salary_in_usd',
    palette='viridis',
    ax=axes[0],
    showmeans=True, # Hiển thị thêm dấu tam giác cho giá trị trung bình
    meanprops={"marker":"^", "markerfacecolor":"white", "markeredgecolor":"black"}
)

# Tính toán trung vị để gán nhãn
medians = comparison_df.groupby(['career_track'])['salary_in_usd'].median()
vertical_offset = comparison_df['salary_in_usd'].median() * 0.05 # Khoảng cách để chữ không đè lên đường kẻ

for xtick in axes[0].get_xticks():
    # Lấy tên nhãn của trục x (Management/Technical)
    cat_name = axes[0].get_xticklabels()[xtick].get_text()
    # Lấy giá trị trung vị tương ứng
    med_val = medians[cat_name]
    
    # Viết số lên biểu đồ
    axes[0].text(
        xtick, 
        med_val + vertical_offset, 
        f'{med_val:,.0f}', # Format số có dấu phẩy: 150,000
        horizontalalignment='center',
        size='small',
        color='black',
        weight='semibold',
        bbox=dict(facecolor='white', alpha=0.8, edgecolor='none', pad=2) # Nền trắng cho dễ đọc
    )

axes[0].set_title('Phân phối lương: Management vs Technical Expert', fontsize=14, fontweight='bold')
axes[0].set_ylabel('Mức lương (USD)', fontsize=12)
axes[0].set_xlabel('Con đường sự nghiệp', fontsize=12)
# Format trục Y sang dạng tiền tệ (150k) cho gọn
axes[0].yaxis.set_major_formatter(ticker.EngFormatter())


# --- BIỂU ĐỒ 2: BARPLOT (SO SÁNH THEO CẤP ĐỘ) ---

# Mục đích: So sánh trực diện tại từng cột mốc sự nghiệp (Senior, Executive)
bar_plot = sns.barplot(
    data=comparison_df,
    x='experience_level',
    y='salary_in_usd',
    hue='career_track',
    estimator='median', # Sử dụng trung vị
    errorbar=None,      # Tắt thanh sai số
    palette='viridis',
    ax=axes[1],
    order=['Senior Level', 'Executive Level']  # Sắp xếp: Senior -> Executive
)

for container in axes[1].containers:
    axes[1].bar_label(
        container, 
        fmt='{:,.0f}', # Format số: 150,000
        padding=3,     # Khoảng cách so với đầu cột
        fontsize=10,
        fontweight='bold'
    )

axes[1].set_title('Lương Trung vị theo Kinh nghiệm (SE vs EX)', fontsize=14, fontweight='bold')
axes[1].set_ylabel('Lương Trung vị (USD)', fontsize=12)
axes[1].set_xlabel('Cấp độ Kinh nghiệm', fontsize=12)
axes[1].legend(title='Career Track', loc='upper left')
# Format trục Y sang dạng tiền tệ
axes[1].yaxis.set_major_formatter(ticker.EngFormatter())

# Tinh chỉnh layout
plt.tight_layout()
plt.show()

*   **Trả lời câu hỏi:**
    Dựa trên dữ liệu, việc chuyển hướng sang con đường Quản lý (**Management**) **KHÔNG ĐẢM BẢO** mức thu nhập cao hơn ngay lập tức so với việc làm Chuyên gia Kỹ thuật (**Technical Expert**).
    Thực tế cho thấy, không tồn tại một "trần thu nhập" tuyệt đối nào cho những người làm kỹ thuật. Thậm chí ở cấp độ Senior, các chuyên gia kỹ thuật còn có mức lương trung vị nhỉnh hơn so với các nhà quản lý cùng cấp. Lợi thế nghiêng về phía Quản lý chỉ thực sự xuất hiện rõ rệt khi bước lên cấp độ điều hành (Executive).

*   **Dẫn chứng số liệu cụ thể :**
    *   **Tại cấp độ Senior (SE):** Đây là phân khúc có lượng dữ liệu dày nhất (72 Tech vs 102 Mgmt). Đây là một phát hiện thú vị khi nhóm **Technical Expert** có mức lương trung vị là **$164,050**, cao hơn khoảng **$8,350** so với nhóm **Management** ($155,700). Điều này cho thấy thị trường đang "khát" nhân lực kỹ thuật chất lượng cao và sẵn sàng trả mức lương Premium (thưởng kỹ năng) cao hơn cả cấp quản lý tầm trung.
    *   **Tại cấp độ Executive (EX):** Gió bắt đầu đổi chiều. Nhóm **Management** vươn lên với mức lương trung vị **$182,160**, cao hơn khoảng **$14,600** so với **Technical Expert** ($167,500). Tuy nhiên, khoảng cách này không quá lớn (chưa đến 10%).
    *   **Về phân phối chung (Boxplot):** Nhóm Technical Expert có mức lương trung vị tổng thể cao hơn ($164,050 so với $160,000 của Management). Đáng chú ý, các giá trị ngoại lai (outliers) của cả hai nhóm đều vươn tới mức rất cao (trên **$400,000**), chứng tỏ cơ hội đạt thu nhập đột biến là ngang nhau ở cả hai con đường.

*   **Ý nghĩa thực tiễn:**
    *   Dữ liệu khẳng định xu hướng các công ty công nghệ hiện đại đang trả lương cho kỹ năng thay vì chỉ trả cho chức danh. Một Principal Engineer/Architect giải quyết các bài toán khó có giá trị ngang bằng (hoặc hơn) một Engineering Manager.
    *   **Lời khuyên cho nhân sự:** Nếu đam mê code và kỹ thuật, ta không cần ép mình làm quản lý vì lý do tài chính. Vị trí *Staff/Principal Engineer* là một mục tiêu tài chính vững chắc.
    *   **Chiến lược giữ chân nhân tài:** Các công ty cần đảm bảo khung lương cho Technical Track phải song song với Management Track để tránh "chảy máu chất xám" khi các kỹ sư giỏi bỏ việc vì nghĩ rằng họ đã chạm trần thu nhập.

*   **Điều bất ngờ:**
    *   Điều bất ngờ nhất là ở cấp độ **Senior**, làm **Manager** lại có lương thấp hơn làm **Principal/Staff**. Điều này đi ngược lại định kiến truyền thống rằng "lên chức quản lý là lên lương". Nó phản ánh thực tế  rằng: một Engineer giỏi code có thể tạo ra giá trị trực tiếp cao hơn một Manager tầm trung chỉ làm công việc điều phối.

*   **Hạn chế:**
    *   **Kích thước mẫu tại cấp độ Executive:** Đây là hạn chế lớn nhất. Nhóm Technical Expert ở cấp độ Executive chỉ có **4 mẫu** (so với 31 mẫu của Management). Do đó, con số trung vị 167,500 USD của nhóm này có độ tin cậy thống kê thấp và không đại diện cho toàn bộ thị trường. Kết luận về việc "Quản lý lương cao hơn ở cấp Executive" cần được nhìn nhận thận trọng.
    *   **Định nghĩa chức danh:** Ranh giới giữa "Lead" (thường xếp vào Management) và "Staff Engineer" (Technical) đôi khi không rõ ràng ở các công ty khác nhau, có thể gây ra sai số nhỏ trong việc phân loại.

## **Câu hỏi 2:**

### **A. Tiền xử lý**

Để kiểm chứng giả thuyết về tác động của địa lý, ta cần thực hiện các bước sau:

*   **Bước 1: Lọc dữ liệu:**
    *   Tạo một tập dữ liệu con chỉ chứa các công ty quy mô **Medium** và **Large**. Loại bỏ quy mô Nhỏ (Small) vì không nằm trong phạm vi câu hỏi nghiên cứu.
*   **Bước 2: Gom nhóm địa lý:**
    *   Dữ liệu gốc có hơn 70 quốc gia, gây khó khăn cho việc so sánh.
    *   Ta sẽ tạo cột mới `location_group` chia thành 2 nhóm:
        *   **"United States"**: Nhóm thị trường chủ đạo (lương cao, số lượng lớn).
        *   **"Non-US"**: Tất cả các quốc gia còn lại (đại diện cho thị trường quốc tế/outsourcing).
    *   **Lý do:** Cách gom nhóm này giúp đơn giản hóa bài toán thành so sánh nhị phân, làm nổi bật sự chênh lệch tỷ trọng nhân sự.

In [None]:
# --- BƯỚC 1: LỌC DỮ LIỆU ---

# Sao chép dữ liệu để tránh ảnh hưởng DataFrame gốc
# Chỉ lấy các dòng có company_size là 'Medium' hoặc 'Large'
df_size_analysis = df[df['company_size'].isin(['Medium', 'Large'])].copy()

# --- BƯỚC 2: TẠO BIẾN ĐỊA LÝ NHỊ PHÂN (US vs NON-US) ---

# Hàm định nghĩa nhóm địa lý
def group_location(country_code):
    if country_code == 'United States':
        return 'United States'
    else:
        return 'Non-US (Rest of World)'

# Áp dụng hàm vào cột company_location
df_size_analysis['location_group'] = df_size_analysis['company_location'].apply(group_location)

# --- HIỂN THỊ KẾT QUẢ TRUNG GIAN ---

# Kiểm tra số lượng mẫu trong từng nhóm để đảm bảo đủ dữ liệu phân tích
print("Số lượng mẫu theo Quy mô và Nhóm địa lý:")
print(df_size_analysis.groupby(['company_size', 'location_group']).size())

### **B. Phân tích**

*   **Phân tích 1: Tỷ trọng Địa lý:**
    *   Sử dụng bảng chéo (`crosstab`) để tính phần trăm (%) nhân sự làm việc tại Mỹ so với Quốc tế cho từng quy mô công ty.
    *   *Mục đích:* Kiểm tra xem có phải công ty **Large** có tỷ lệ nhân sự quốc tế cao hơn công ty **Medium** hay không.
*   **Phân tích 2: So sánh Lương có kiểm soát:**
    *   Tính mức lương trung vị của Medium và Large trong hai trường hợp:
        1.  **Global:** Tính trên toàn bộ dữ liệu (Bị nhiễu).
        2.  **US-Only:** Chỉ tính trên dữ liệu tại Mỹ (Đã loại bỏ biến địa lý).
    *   *Mục đích:* Nếu mức chênh lệch lương thu hẹp đáng kể hoặc biến mất khi xét riêng tại Mỹ, giả thuyết về Simpson's Paradox được chứng minh.

In [None]:
import pandas as pd

# --- PHÂN TÍCH 1: TÍNH TỶ TRỌNG ĐỊA LÝ ---

# normalize='index' giúp chuyển đổi số lượng sang tỷ lệ % (tổng hàng = 100%)
geo_composition = pd.crosstab(
    df_size_analysis['company_size'],
    df_size_analysis['location_group'],
    normalize='index'
) * 100

print("=== Tỷ lệ phân bố nhân sự (%) ===")
display(geo_composition.round(1))

# --- PHÂN TÍCH 2: TÍNH LƯƠNG TRUNG VỊ ---

# Tính lương trung vị cho từng nhóm kết hợp (Size + Location)
controlled_salary = df_size_analysis.groupby(['company_size', 'location_group'])['salary_in_usd'].median().unstack()

# Tính thêm lương trung vị tổng thể (Global) để so sánh đối chứng
global_salary = df_size_analysis.groupby('company_size')['salary_in_usd'].median()

# Gộp kết quả vào một bảng duy nhất
comparison_table = controlled_salary.copy()
comparison_table['Global (All Locations)'] = global_salary

# Sắp xếp lại cột cho logic: Global -> US -> Non-US
comparison_table = comparison_table[['Global (All Locations)', 'United States', 'Non-US (Rest of World)']]

print("\n=== Bảng so sánh Lương Trung vị (USD) ===")
display(comparison_table)

### **C. Kết quả và diễn giải**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.ticker as ticker

# Thiết lập khung hình
fig, axes = plt.subplots(1, 2, figsize=(20, 8))

# --- BIỂU ĐỒ 1: CẤU TRÚC NHÂN SỰ (STACKED BAR) ---

# Mục đích: Chứng minh sự khác biệt về phân bố địa lý
colors = ['#4c72b0', '#55a868'] # Màu xanh dương và xanh lá
geo_composition.plot(
    kind='bar',
    stacked=True,
    color=colors,
    ax=axes[0],
    rot=0
)

# Thêm nhãn % vào giữa các đoạn cột
for c in axes[0].containers:
    axes[0].bar_label(c, fmt='%.1f%%', label_type='center', color='white', fontweight='bold', fontsize=11)

axes[0].set_title('Tỷ trọng nhân sự: US vs Non-US', fontsize=14, fontweight='bold')
axes[0].set_ylabel('Tỷ lệ phần trăm (%)', fontsize=12)
axes[0].set_xlabel('Quy mô công ty', fontsize=12)
axes[0].legend(title='Khu vực', loc='lower right')


# --- BIỂU ĐỒ 2: SO SÁNH LƯƠNG TRƯỚC VÀ SAU KIỂM SOÁT ---

# Mục đích: So sánh lương Global vs lương tại Mỹ để thấy sự thay đổi
# Chuẩn bị dữ liệu vẽ: Chỉ lấy cột Global và US
plot_data = comparison_table[['Global (All Locations)', 'United States']].reset_index().melt(
    id_vars='company_size',
    var_name='Phạm vi so sánh',
    value_name='Median Salary'
)

sns.barplot(
    data=plot_data,
    x='company_size',
    y='Median Salary',
    hue='Phạm vi so sánh',
    palette='viridis',
    ax=axes[1],
    order=['Medium', 'Large'] # Thứ tự: Medium trước, Large sau
)

# Thêm nhãn số tiền lên đầu cột
for container in axes[1].containers:
    axes[1].bar_label(container, fmt='{:,.0f}', padding=3, fontsize=10, fontweight='bold')

axes[1].set_title('Tác động của yếu tố Địa lý lên Lương Trung vị', fontsize=14, fontweight='bold')
axes[1].set_ylabel('Lương Trung vị (USD)', fontsize=12)
axes[1].set_xlabel('Quy mô công ty', fontsize=12)
axes[1].legend(loc='lower center')
axes[1].yaxis.set_major_formatter(ticker.EngFormatter()) # Format trục Y (150k)

plt.tight_layout()
plt.show()

*   **Trả lời câu hỏi:**
    Kết quả phân tích đã **xác nhận mạnh mẽ** giả thuyết ban đầu. Sự chênh lệch lương giữa công ty Vừa (Medium) và công ty Lớn (Large) chính là một ví dụ điển hình của **Nghịch lý Simpson** gây ra bởi yếu tố địa lý.
    Công ty Lớn không trả lương thấp hơn một cách hệ thống; lý do chính khiến mức lương trung bình toàn cầu của họ thấp (`$100k`) là do họ tuyển dụng một tỷ lệ rất lớn nhân sự tại các thị trường quốc tế (Non-US) có chi phí thấp. Khi xét riêng tại thị trường Mỹ, mức đãi ngộ của hai nhóm công ty này trở nên cạnh tranh ngang ngửa nhau.

*   **Dẫn chứng số liệu cụ thể :**
    *   **Về cấu trúc nhân sự (Biểu đồ 1):** Sự khác biệt là cực kỳ rõ rệt.
        *   Các công ty **Medium** tập trung nguồn lực chủ yếu tại Mỹ với tỷ lệ lên tới **81.7%**.
        *   Ngược lại, các công ty **Large** có mức độ toàn cầu hóa cao hơn nhiều, với **46.2%** nhân sự nằm ngoài nước Mỹ (Non-US), so với chỉ 18.3% của công ty Medium.
    *   **Về mức lương (Biểu đồ 2 & Bảng số liệu):**
        *   **Khi nhìn Tổng thể (Global):** Khoảng cách chênh lệch là rất lớn, lên tới hơn **$37,000** (Medium: `$137,068` vs Large: `$100,000`).
        *   **Khi chỉ xét tại Mỹ (United States):** Khoảng cách này bị thu hẹp đáng kể chỉ còn khoảng **$5,200** (Medium: `$147,450` vs Large: `$142,200`). Mức chênh lệch giảm từ ~37% xuống chỉ còn ~3.6%.
        *   **Tại thị trường Quốc tế (Non-US):** Công ty Large có mức lương trung vị thấp hơn hẳn (`$59,888`) so với Medium (`$73,546`), cho thấy các công ty lớn có xu hướng tận dụng nhân lực giá rẻ (outsourcing) triệt để hơn.

*   **Ý nghĩa thực tiễn:**
    *   **Cảnh báo về số liệu thống kê:** Việc so sánh mức lương gộp giữa các công ty đa quốc gia là thiếu chính xác và dễ gây hiểu lầm. Cần luôn luôn xem xét ngữ cảnh địa lý.
    *   Nếu ta đang tìm việc tại Mỹ, đừng e ngại các tập đoàn lớn vì nghĩ họ trả thấp. Mức lương `$142,200` (Large) và `$147,450` (Medium) là rất cạnh tranh với nhau. Sự khác biệt nhỏ này có thể dễ dàng được bù đắp bằng các phúc lợi khác (cổ phiếu, bảo hiểm) mà dữ liệu này chưa ghi nhận hết.

*   **Điều bất ngờ:**
    *   Ngay cả khi đã giới hạn tại thị trường Mỹ, công ty **Medium vẫn trả nhỉnh hơn** công ty Large một chút (`$147k` vs `$142k`). Điều này khá bất ngờ vì thường ta nghĩ Big Tech sẽ trả cao nhất. Có thể thấy các công ty quy mô vừa đang thực hiện chính sách lương rất quyết liệt để cạnh tranh nhân tài với các ông lớn.

*   **Hạn chế :**
    *   **Sự chênh lệch mẫu:** Tại thị trường Mỹ, số lượng mẫu của công ty Medium (`1656`) lớn gấp 7.5 lần so với công ty Large (`220`). Số liệu của công ty Large có thể nhạy cảm hơn với các giá trị ngoại lai.
    *   **Gom nhóm "Non-US":** Ta đang gộp chung các nước lương cao (UK, Canada) và lương thấp (India, Turkey) vào một nhóm "Non-US". Nếu công ty Large tuyển nhiều ở India còn công ty Medium tuyển nhiều ở UK, thì so sánh trong nhóm Non-US vẫn còn độ nhiễu nhất định.

## **Câu hỏi 3:**

### **A. Tiền xử lý**

Để phân tích mối quan hệ giữa **mức lương**, **cấp độ kinh nghiệm** và **thời gian**, ta cần thực hiện các bước tiền xử lý sau:

* **Tổng hợp dữ liệu theo năm và cấp độ kinh nghiệm**
   - Dữ liệu ban đầu bao gồm nhiều quan sát cá nhân.
   - Ta gom nhóm theo `work_year` và `experience_level` để tính **lương trung bình**, đại diện cho mặt bằng thị trường mỗi năm.

* **Chuẩn hóa biến kinh nghiệm**
   - Biến `experience_level` là biến phân loại (categorical), không thể dùng trực tiếp để tính tốc độ tăng.
   - Ta ánh xạ mỗi cấp độ sang **số năm kinh nghiệm ước lượng trung bình**, dựa trên thông lệ thị trường lao động.

    Việc ánh xạ này nhằm cho phép suy luận tốc độ tăng lương theo **đơn vị năm**, thay vì chỉ so sánh mức lương tuyệt đối giữa các cấp độ.

* **Mục tiêu của tiền xử lý**
   - Tạo bảng lương trung bình theo `work_year × experience_level`.
   - Chuẩn bị dữ liệu để suy ra **tốc độ tăng lương hàm ý theo năm kinh nghiệm**.

Sau bước này, dữ liệu đã sẵn sàng cho phân tích định lượng và trực quan hóa.

In [None]:
# Tính lương trung bình theo năm và cấp độ kinh nghiệm
avg_salary_yearly = (
    df.groupby(['work_year', 'experience_level'])['salary_in_usd']
      .mean()
      .unstack()
)

print("Bảng lương trung bình theo năm và cấp độ kinh nghiệm:")
display(avg_salary_yearly)


In [None]:
# Ánh xạ cấp độ kinh nghiệm sang số năm kinh nghiệm (ước lượng)
exp_years = {
    'Entry Level': 1.0,        # Trung bình 0–2 năm
    'Mid Level': 3.5,          # Trung bình 2–5 nămb
    'Senior Level': 7.5,       # Trung bình 5–10 năm
    'Executive Level': 12.0    # Trung bình >10 năm
}

levels = [
    'Entry Level',
    'Mid Level',
    'Senior Level',
    'Executive Level'
]


### **B. Phân tích**

* Phân tích được thực hiện theo hai hướng chính:

    * **So sánh mức lương giữa các cấp độ theo từng năm:**
        - Quan sát xu hướng lương theo thời gian cho từng `experience_level`.
        - Kiểm tra xem thứ bậc lương giữa các cấp độ có ổn định hay không.
        - Phát hiện khả năng xuất hiện nghịch lý thống kê (ví dụ: level thấp có lúc lương cao hơn level cao).
    
    * **Suy ra tốc độ tăng lương hàm ý theo năm kinh nghiệm:**
        - Việc thăng cấp được coi là một **quá trình tăng trưởng lương theo lũy thừa**.
        - Với mỗi cặp cấp độ liên tiếp:
          - Tính **tỷ lệ lương** giữa hai cấp độ.
          - Chia cho **số năm kinh nghiệm tăng thêm**.
          - Suy ra **tốc độ tăng lương trung bình mỗi năm (%/năm)**.

* Cách tiếp cận này giúp trả lời câu hỏi:
> Thị trường lao động trả “bao nhiêu % lương cho mỗi năm kinh nghiệm” ở từng giai đoạn sự nghiệp?

In [None]:
for i in range(len(levels) - 1):
    higher_level = levels[i + 1]
    lower_level = levels[i]

    # Tỷ lệ lương giữa hai cấp độ theo từng năm
    salary_ratio_by_year = (
        avg_salary_yearly[higher_level] /
        avg_salary_yearly[lower_level]
    )

    # Số năm kinh nghiệm tăng thêm
    delta_years = exp_years[higher_level] - exp_years[lower_level]

    # Tốc độ tăng lương trung bình mỗi năm (hàm ý)
    yearly_growth_by_year = salary_ratio_by_year ** (1 / delta_years) - 1

    print(f"\n{lower_level} → {higher_level}")
    display(
        pd.DataFrame({
            'Salary Ratio': salary_ratio_by_year,
            'Implied Annual Growth (%)': yearly_growth_by_year * 100
        })
    )


In [None]:
# Tốc độ tăng lương trung bình trên toàn bộ giai đoạn
print("Tốc độ tăng lương trung bình (across all years):\n")

for i in range(len(levels) - 1):
    higher_level = levels[i + 1]
    lower_level = levels[i]

    avg_salary_ratio = (
        avg_salary_yearly[higher_level].mean() /
        avg_salary_yearly[lower_level].mean()
    )

    delta_years = exp_years[higher_level] - exp_years[lower_level]
    implied_growth = avg_salary_ratio ** (1 / delta_years) - 1
    print(f"{lower_level} → {higher_level}:")
    print(f"  Average Salary Ratio: {avg_salary_ratio:.2f}")
    print(f"  Implied Annual Growth Rate: {implied_growth * 100:.2f}% / year\n")


### **C. Kết quả và Diễn giải**


In [None]:
import matplotlib.pyplot as plt

# Chuẩn bị dữ liệu vẽ
growth_data = {
    'Entry → Mid': [16.70, 17.35, 15.17, 8.95],
    'Mid → Senior': [11.89, 11.35, 10.71, 9.05],
    'Senior → Executive': [9.02, 9.04, 4.95, 5.22]
}

years = [2020, 2021, 2022, 2023]

plt.figure(figsize=(10, 6))

for label, values in growth_data.items():
    plt.plot(years, values, marker='o', label=label)

plt.title(
    'Tốc độ tăng lương hàm ý theo năm và giai đoạn sự nghiệp',
    fontsize=14,
    fontweight='bold'
)
plt.xlabel('Năm', fontsize=12)
plt.ylabel('Tốc độ tăng lương (% / năm)', fontsize=12)
plt.legend(title='Giai đoạn sự nghiệp')
plt.grid(True, alpha=0.3)

plt.show()

# Dữ liệu tăng trưởng trung bình
avg_growth_rates = {
    'Entry → Mid': 13.95,
    'Mid → Senior': 10.64,
    'Senior → Executive': 6.96
}

plt.figure(figsize=(8, 5))

plt.bar(
    avg_growth_rates.keys(),
    avg_growth_rates.values()
)

plt.title(
    'Tốc độ tăng lương trung bình theo giai đoạn sự nghiệp',
    fontsize=14,
    fontweight='bold'
)
plt.ylabel('Tốc độ tăng lương (% / năm)', fontsize=12)
plt.xlabel('Giai đoạn sự nghiệp', fontsize=12)

# Gắn nhãn giá trị lên cột
for i, value in enumerate(avg_growth_rates.values()):
    plt.text(i, value + 0.3, f'{value:.2f}%', ha='center', fontweight='bold')

plt.show()

* **Kết luận chính:**
    Kết quả phân tích cho thấy **tốc độ tăng lương giảm dần rõ rệt theo từng giai đoạn sự nghiệp** và chịu ảnh hưởng mạnh bởi chu kỳ thị trường lao động giai đoạn **2020–2023**. Đây là minh chứng cho **luật lợi suất giảm dần của kinh nghiệm** trong định giá tiền lương.

* **Dẫn chứng số liệu cụ thể:**
    * **Theo giai đoạn sự nghiệp (trung bình toàn giai đoạn):**
        * **Entry → Mid Level:** tốc độ tăng lương khoảng **13.95% / năm** – cao nhất trong toàn bộ lộ trình.
        * **Mid → Senior Level:** tốc độ tăng lương giảm xuống còn **10.64% / năm**, cho thấy đà tăng bắt đầu chậm lại.
        * **Senior → Executive Level:** chỉ còn **6.96% / năm**, thấp nhất trong các giai đoạn.

    * **Theo thời gian (2020–2023):**
        * **Giai đoạn 2020–2021:** tốc độ tăng lương ở mọi cấp độ đều cao; Entry → Mid đạt **16–17% / năm**, Senior → Executive duy trì quanh **~9% / năm**.
        * **Giai đoạn 2022–2023:** tăng trưởng lương suy giảm mạnh và đồng loạt; Entry → Mid giảm xuống **~9% (2023)**, Senior → Executive chỉ còn **~5% / năm**.

* **Ý nghĩa thực tiễn:**
    * Giai đoạn **Entry–Mid** là thời điểm có **ROI kỹ năng cao nhất** trong sự nghiệp.
    * Sau khi đạt **Senior**, việc tích lũy thêm kinh nghiệm thuần túy mang lại hiệu quả tăng lương thấp hơn; để tăng thu nhập đáng kể cần **chuyển vai trò (managerial/leadership)** hoặc **mở rộng phạm vi ảnh hưởng, thị trường hay công ty**.
    * Tiền lương ở các cấp cao phản ánh **giá trị chiến lược và trách nhiệm**, không còn tăng chủ yếu theo thâm niên.

* **Phát hiện đáng chú ý:**
    * Sự suy giảm tốc độ tăng lương giai đoạn **2022–2023** diễn ra đồng thời ở tất cả các cấp độ, cho thấy đây là **hiện tượng vĩ mô của thị trường lao động dữ liệu toàn cầu**, không phải hiện tượng cục bộ theo level.

* **Hạn chế:**
    * Số năm kinh nghiệm được **ước lượng**, không phải dữ liệu cá nhân thực tế.
    * Chưa kiểm soát các yếu tố quan trọng như **địa lý, quy mô công ty và chuyên môn công việc**.
    * Sử dụng **lương trung bình (mean)** nên có thể nhạy cảm với các giá trị ngoại lai.


## **Câu hỏi 4:**

### **A. Tiền xử lý**

Để phân tích mối quan hệ giữa **mức lương**, **cấp độ kinh nghiệm** và **thời gian**, ta cần thực hiện các bước tiền xử lý sau:

1. **Tổng hợp dữ liệu theo năm và cấp độ kinh nghiệm**
   - Dữ liệu ban đầu bao gồm nhiều quan sát cá nhân.
   - Ta gom nhóm theo `work_year` và `experience_level` để tính **lương trung bình**, đại diện cho mặt bằng thị trường mỗi năm.

2. **Chuẩn hóa biến kinh nghiệm**
   - Biến `experience_level` là biến phân loại (categorical), không thể dùng trực tiếp để tính tốc độ tăng.
   - Ta ánh xạ mỗi cấp độ sang **số năm kinh nghiệm ước lượng trung bình**, dựa trên thông lệ thị trường lao động.

3. **Mục tiêu của tiền xử lý**
   - Tạo bảng lương trung bình theo `work_year × experience_level`.
   - Chuẩn bị dữ liệu để suy ra **tốc độ tăng lương hàm ý theo năm kinh nghiệm**.

Sau bước này, dữ liệu đã sẵn sàng cho phân tích định lượng và trực quan hóa.

In [None]:
# Bảng chéo số lượng nhân sự
ct = pd.crosstab(
    df['company_size'],
    df['experience_level']
)

print("Bảng số lượng nhân sự theo quy mô công ty và trình độ:")
display(ct)

# Chuyển sang tỷ lệ phần trăm theo từng quy mô công ty
ct_percent = ct.div(ct.sum(axis=1), axis=0)

print("Bảng tỷ lệ (%) trình độ theo quy mô công ty:")
display(ct_percent)


### **B. Phân tích**

Phân tích tập trung trả lời các câu hỏi:

- Công ty quy mô nhỏ, vừa và lớn có cơ cấu trình độ nhân sự khác nhau hay không?
- Quy mô công ty có liên quan đến việc ưu tiên tuyển dụng nhân sự cấp thấp
  hay cấp cao hay không?
- Có tồn tại xu hướng "chuẩn hóa vai trò" khi công ty mở rộng quy mô không?

Phương pháp phân tích:
- Sử dụng bảng tỷ lệ (%) để so sánh cơ cấu
- Trực quan hóa bằng heatmap để làm nổi bật các khác biệt

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 5))

sns.heatmap(
    ct_percent,
    annot=True,
    fmt=".2f",
    cmap="Blues"
)

plt.title(
    "Tỷ lệ trình độ nhân sự theo quy mô công ty",
    fontsize=14,
    fontweight='bold'
)
plt.xlabel("Experience Level", fontsize=12)
plt.ylabel("Company Size", fontsize=12)

plt.show()


### **C. Kết quả và Diễn giải**

* **Quan sát chính từ bảng số liệu & heatmap:**
    Phân tích bảng số lượng và bảng tỷ lệ cho thấy **cơ cấu trình độ nhân sự khác biệt rõ rệt theo quy mô công ty** (Small, Medium, Large). Sự khác biệt này không chỉ nằm ở số lượng tuyệt đối mà quan trọng hơn là **tỷ trọng các cấp độ kinh nghiệm trong nội bộ từng nhóm công ty**.

* **Diễn giải theo từng quy mô công ty:**
    * **Công ty nhỏ (Small):**
        * Cơ cấu tương đối cân bằng giữa **Entry Level** và **Mid Level** (mỗi nhóm ~33.3%).
        * **Senior Level** chiếm ~29.3%, **Executive Level** rất thấp (4.1%).
        * Phản ánh mô hình tổ chức tinh gọn:
            - Ít tầng quản lý
            - Nhân sự trẻ, đa nhiệm
            - Ưu tiên chi phí và tính linh hoạt
        * Vai trò Executive hạn chế cho thấy quyền quyết định tập trung và phân tầng quản lý chưa rõ nét.

    * **Công ty trung bình (Medium):**
        * **Senior Level chiếm ưu thế áp đảo (~66.3%)**, cao nhất trong ba nhóm.
        * **Entry Level** rất thấp (~6.2%).
        * Cho thấy doanh nghiệp đã qua giai đoạn khởi nghiệp:
            - Ưu tiên nhân sự giàu kinh nghiệm
            - Tập trung ổn định vận hành
            - Hạn chế rủi ro từ nhân sự mới
        * **Executive Level (~3.7%)** tăng nhẹ, phản ánh nhu cầu quản lý khi quy mô mở rộng.

    * **Công ty lớn (Large):**
        * Cơ cấu đa tầng và cân bằng hơn.
        * **Senior Level** vẫn cao nhất (~41.7%) nhưng thấp hơn Medium.
        * **Mid Level (~32.3%)** và **Entry Level (~23.1%)** cho thấy đầu tư dài hạn vào pipeline nhân lực.
        * **Executive Level (~3.0%)** tuy nhỏ nhưng giữ vai trò then chốt trong quản trị chiến lược.
        * Phản ánh mô hình tổ chức trưởng thành, chuẩn hóa và hướng tới phát triển bền vững.

* **Ý nghĩa thực tiễn:**
    * **Đối với người lao động:**
        * Entry Level có nhiều cơ hội hơn tại công ty **Small** và **Large**.
        * Senior Level phù hợp nhất với công ty **Medium**.
        * Executive Level chủ yếu xuất hiện ở **Medium** và **Large**.
    * **Đối với doanh nghiệp:**
        * Cơ cấu nhân sự phản ánh rõ **chiến lược và giai đoạn phát triển**.
        * Tuyển dụng hiệu quả cần phù hợp với quy mô và mục tiêu tăng trưởng.

* **Hạn chế của phân tích:**
    * Dữ liệu mang tính quan sát, **không suy luận nhân quả**.
    * Chưa kiểm soát các yếu tố:
        - Ngành nghề
        - Quốc gia
        - Hình thức làm việc (remote/hybrid/onsite)
    * Kích thước mẫu giữa các nhóm company_size **không cân bằng**.

    Do đó, các kết luận cần được diễn giải trong **bối cảnh dữ liệu hiện có**.


## **Câu hỏi 5:**

### **A. Tiền xử lý**

#### Điều chỉnh lạm phát cho cột lương (`salary_in_usd`)

- Điều chỉnh **lương** (`salary_in_usd`) về giá trị hiện tại (là năm *2023*) dựa trên lạm phát với tỷ lệ như trong bảng sau:
  | Năm  | Lạm phát ở Mỹ | Lạm phát toàn cầu |
  | ---- | ----------- | --------------- |
  | 2020 | 1.23%       | 1.92%           |
  | 2021 | 4.70%       | 3.50%           |
  | 2022 | 6.50%       | 8.80%           |
  | 2023 | 4.14%       | 5.80%           |
- Tỷ lệ lạm phát tham khảo từ dữ liệu kinh tế *US/Global*.
- Giá trị gán vào cột mới `adjusted_salary_usd`.

In [None]:
df = dp.adjust_salary_inflation(df)
print("Đã tạo cột 'adjusted_salary' theo điều chỉnh lạm phát.")

print("\n5 dòng cuối cùng của dữ liệu sau khi điều chỉnh lạm phát:")
df[['work_year', 'salary_in_usd', 'adjusted_salary']].reset_index(drop=True).tail()

In [None]:
# kiểm tra phân phối của cột adjusted_salary
dp.analyze_numerical_column_metrics(df, 'adjusted_salary')
vis.plot_column_distribution(df, 'adjusted_salary')

#### Chuẩn bị dữ liệu cho mô hình

Để xây dựng mô hình dự báo mức lương chính xác, không sử dụng dữ liệu thô mà thực hiện một quy trình xử lý thông qua pipeline `prepare_data_for_model` (được định nghĩa trong module `src.data_processing`).

Các kỹ thuật chính được áp dụng bao gồm:

* **Lọc nhiễu (Outlier Removal):** Sử dụng phương pháp IQR để loại bỏ các giá trị lương quá cao (bất thường) có thể gây sai lệch cho mô hình.
* **Gom nhóm địa lý (Location Grouping):** Thay vì sử dụng hơn 70 quốc gia (gây loãng dữ liệu) => gom nhóm dựa trên mức thu nhập và số lượng mẫu thực tế, gán vào cột mới `company_location_group` và  `employee_residence_group` (thay cho `company_location` và `employee_residence`) với 3 nhóm:
    * `US`: Thị trường Mỹ (lương cao, dữ liệu lớn).
    * `Other_Developed`: Các nước phát triển khác (Canada, UK, Germany...) có mức lương khá.
    * `Rest_of_World`: Các thị trường còn lại (Ấn Độ, Brazil, các nước châu Phi, ... hoặc các nước có ít mẫu).
* **Mã hóa (Encoding):** Chuyển đổi các biến phân loại sang dạng số (Label Encoding) để mô hình có thể xử lý. Cột `remote_ratio` cũng được biến đổi vì bản chất cũng là biến phân loại (0, 50, 100).

In [None]:
# Chạy hàm chuẩn bị
df_model, encoders = dp.prepare_data_for_model(df)

# Tách X, y
X = df_model.drop(columns=['adjusted_salary'])
y = df_model['adjusted_salary'] # mục tiêu dự đoán

Phân phối của mức lương (`adjusted_salary`) bị **lệch phải (right-skewed)** với phần đuôi kéo dài về phía lương cao. Điều này có thể khiến mô hình hồi quy hoạt động kém hiệu quả do bị ảnh hưởng bởi các giá trị lớn.

Giải pháp tối ưu là áp dụng **Log Transformation** cho biến mục tiêu:

$$y_{log} = \ln(y + 1)$$

**Lợi ích:**
1.  Đưa phân phối trở về dạng gần chuẩn (Normal distribution).
2.  Giảm tác động của các giá trị ngoại lai còn sót lại.
3.  Giúp mô hình dự báo tốt hơn ở các khoảng lương phổ biến.

>*Sau khi mô hình dự báo xong, sẽ dùng hàm `exp()` để chuyển đổi kết quả về đơn vị tiền tệ thực tế.*

In [None]:
y_log = np.log1p(y)

Dữ liệu được chia thành 2 tập độc lập để đảm bảo đánh giá khách quan hiệu suất của mô hình:

* **Tập huấn luyện (Training Set - 80%):** Dùng để mô hình "học" các quy luật từ dữ liệu.
* **Tập kiểm tra (Test Set - 20%):** Dùng để "thi". Đây là dữ liệu mà mô hình chưa từng nhìn thấy, giúp đánh giá khả năng tổng quát hóa (generalization) trên dữ liệu thực tế.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train_log, y_test_log = train_test_split(
    X, y_log,
    test_size=0.2,  # kích thước tập Test
    random_state=RANDOM_SEED # đảm bảo kết quả có thể tái lập
)

print(f"Kích thước tập Train: {X_train.shape}")
print(f"Kích thước tập Test: {X_test.shape}")
print("\nTên các cột đặc trưng (features):", end=" ")
for col in X.columns.tolist():
    print(f"{col}, ", end="")
print("\nTên cột mục tiêu (target): adjusted_salary")
print(f"5 dòng đầu tiên của tập Train:")
X_train.reset_index(drop=True).head()

### **B. Phân tích**
1. **Phương pháp phân tích**

   - Để xác định mức độ ảnh hưởng của các biến đầu vào đối với mức lương, chúng tôi sử dụng thuộc tính `feature_importances_` từ mô hình **Random Forest Regressor**.

2. **Tại sao chọn phương pháp này?**

    - **Xử lý phi tuyến tính**: Mối quan hệ giữa lương và các yếu tố như vị trí địa lý hay kinh nghiệm thường không phải là đường thẳng (linear). Random Forest là mô hình cây quyết định tổ hợp (Ensemble), có khả năng bắt được các mẫu phức tạp này tốt hơn Linear Regression.

    - **Khả năng diễn giải (Interpretability)**: Random Forest cung cấp chỉ số *Gini Importance* (hoặc Mean Decrease in Impurity), cho biết mỗi biến giúp mô hình giảm thiểu sai số bao nhiêu phần trăm trong quá trình phân nhánh.

    - **Xử lý biến phân loại**: Mô hình hoạt động tốt với dữ liệu hỗn hợp (vừa có số vừa có phân loại) sau khi đã được mã hóa.
  
3. Thiết lập mô hình

    - **Input**: Sử dụng bộ dữ liệu đã qua tiền xử lý (`adjusted_salary` đã lọc outlier và log-transform).

    - **Mô hình**: `RandomForestRegressor` với tham số `n_estimators=200` (200 cây quyết định) và `max_depth=15` để cân bằng giữa độ chính xác và tránh overfitting.

    - **Đánh giá**: Trích xuất giá trị `feature_importances_`, chuẩn hóa sao cho tổng các giá trị bằng 1 (100%).

#### Triển khai code phân tích & in kết quả

In [None]:
from sklearn.ensemble import RandomForestRegressor
import pandas as pd

# 1. Gọi dữ liệu đã chuẩn bị từ tiền xử lý

# 2. Khởi tạo và Huấn luyện mô hình
rf_model = RandomForestRegressor(n_estimators=200, random_state=RANDOM_SEED, max_depth=15)
rf_model.fit(X_train, y_train_log)

# 3. Trích xuất Feature Importance
importances = rf_model.feature_importances_
feature_names = X.columns

# Tạo DataFrame để dễ quan sát
feature_imp_df = pd.DataFrame({
    'Feature': feature_names,
    'Importance': importances
})

# Sắp xếp theo mức độ quan trọng giảm dần
feature_imp_df = feature_imp_df.sort_values(by='Importance', ascending=False).reset_index(drop=True)

# In ra kết quả dạng bảng
print("Bảng xếp hạng mức độ ảnh hưởng của các yếu tố đến lương:")
feature_imp_df

#### Trực quan hóa

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Thiết lập style
sns.set_style("whitegrid")


# Biểu đồ 1: Feature Importance (Bar Chart)
plt.figure(figsize=(12, 6))
sns.barplot(x='Importance', y='Feature', data=feature_imp_df, palette='viridis', hue='Importance')
plt.title('Yếu tố nào ảnh hưởng mạnh nhất đến Lương Data Science?', fontsize=15)
plt.xlabel('Mức độ quan trọng (Feature Importance)', fontsize=12)
plt.ylabel('Yếu tố', fontsize=12)
plt.show()


# Biểu đồ 2: Minh chứng cho đặc trưng quan trọng nhất
# lấy cột tên yếu tố quan trọng nhất
top_feature = feature_imp_df.loc[0, 'Feature']
print(f"Yếu tố quan trọng nhất: {top_feature}")

# trả về giá trị thật để plot
df_viz = df_model[[top_feature]].copy() # chỉ lấy 2 cột cần thiết
df_viz['adjusted_salary'] = df_model['adjusted_salary']
le = encoders[top_feature]
df_viz[top_feature] = le.inverse_transform(df_viz[top_feature]) # trả về giá trị gốc
order = df_viz[top_feature].unique().tolist()

# So sánh phân phối lương giữa với yếu tố quan trọng nhất
plt.figure(figsize=(12, 6))
sns.boxplot(x='adjusted_salary', y=top_feature, data=df_viz, # Lấy lại lương gốc (chưa log transform)
            order=order, palette='Set2', hue=top_feature)
plt.title(f'Phân phối Lương thực tế theo {top_feature}', fontsize=15),
plt.xlabel('Mức lương (USD)', fontsize=12)
plt.ylabel(top_feature, fontsize=12)
plt.show()

### **C. Nhận xét**
1. **Phân tích kết quả từ mô hình**:
Dựa trên chỉ số *Feature Importance* trích xuất từ mô hình **Random Forest Regressor** và biểu đồ phân phối thực tế, có những phát hiện quan trọng sau về các yếu tố định hình mức lương trong ngành Data Science:
    - **"Nơi bạn sống" là yếu tố quan trọng nhất**
        - Yếu tố `employee_residence_group` (Nhóm khu vực sinh sống của nhân viên) chiếm tỷ trọng áp đảo tuyệt đối với **55.24%**.
        - Kết hợp với `company_location_group` (**8.5%**), yếu tố địa lý đóng góp tổng cộng hơn **63%** vào khả năng dự báo mức lương.
    - Minh chứng từ biểu đồ *Boxplot*: Quan sát biểu đồ phân phối lương theo `employee_residence_group` (Plot 2), ta thấy sự phân hóa giai cấp rõ rệt:
        - **Nhóm US (Mỹ)**: Có mức lương trung vị cao nhất (hộp màu cam), dao động phổ biến từ *120k - 180k USD*.
        - **Nhóm Other_Developed**: Mức lương thấp hơn một bậc (hộp màu tím), tập trung ở khoảng *60k - 120k USD*.
        - **Nhóm Rest_of_World**: Mức lương thấp nhất (hộp màu xanh), phần lớn dưới *60k USD*, mặc dù có một số ngoại lệ (outliers) nhận lương cao.
    - **Kết luận**: Mức lương ngành Data Science không là như nhau trên toàn cầu. Một nhân sự tại Mỹ có mức lương trần cao vượt trội so với các đồng nghiệp ở các khu vực khác, ngay cả khi họ làm cùng một vai trò và có cùng kinh nghiệm.

2. **Kinh nghiệm quan trọng hơn Chức danh**
    - `experience_level` đứng thứ 2 với mức độ ảnh hưởng **14.27%**.
    - Trong khi đó, `job_category` (loại công việc như Data Scientist, ML Engineer, ...) đứng thứ 3 với **11.43%**.
    - **Ý nghĩa**: Sự thăng tiến về cấp bậc (ví dụ: Senior lên Executive) mang lại mức tăng lương tương đối lớn hơn việc chuyển đổi vai trò/công việc. Điều này có thể hiểu rằng tầm quan trọng của việc tích lũy kinh nghiệm và phát triển kỹ năng chuyên môn theo thời gian hơn là việc thay đổi chức danh công việc tốt hơn.

3. Tác động nhỏ của hình thức làm việc `remote_ratio` (Remote vs On-site vs Hybrid)
    - `remote_ratio` (Tỷ lệ làm việc từ xa) chỉ đóng góp một phần nhỏ (**4.7%**) vào mức lương.
    - `employment_type` (Loại hợp đồng) có ảnh hưởng thấp nhất (**3.5%**), do phần lớn dữ liệu là nhân viên toàn thời gian (*Full-time*).
    - **Ý nghĩa**: Ở ngành Data Science, việc bạn làm việc tại nhà hay lên văn phòng không phải là yếu tố chính quyết định thu nhập. Yếu tố cốt lõi vẫn là bạn đang sinh sống và làm việc tại đâu.

## **Câu hỏi 6:**

### **A. Tiền xử lý**
- **Kế thừa dữ liệu**: Sử dụng bộ dữ liệu đã được tiền xử lý ở **Câu hỏi 5** (`X_train`, `X_test`, `y_train_log`, `y_test_log`).
  
- Trạng thái dữ liệu:
    - Biến mục tiêu (`adjusted_salary`) đã được lọc bỏ các giá trị ngoại lai (outliers) bằng phương pháp IQR để tránh làm lệch mô hình.
    - Biến mục tiêu đã được *Log-transformed* để đưa về phân phối chuẩn, giúp mô hình **Random Forest** hoạt động ổn định hơn.
    - Các biến phân loại đã được *Label Encoded*.
    - Đã gom nhóm các quốc gia (`company_location_group`, `employee_residence_group`) để giảm độ phức tạp và tránh loãng dữ liệu.

### **B. Phân tích**
1. **Phương pháp phân tích**
Sử dụng **Random Forest Regressor** làm mô hình chính.
    - Lý do: Đây là thuật toán mạnh mẽ với khả năng chống lại hiện tượng *overfitting* tốt hơn *Decision Tree*. Nó xử lý tốt các biến phân loại dạng số (Label Encoded) và không yêu cầu dữ liệu đầu vào phải được chuẩn hóa (scaling) như các mô hình tuyến tính.

2. **Thiết lập & Đánh giá**
    - **Metric**: Vì mô hình dự đoán trên thang đo Logarit, kết quả dự đoán cần được chuyển đổi ngược lại (`inverse`) về đơn vị USD thực tế trước khi tính toán sai số.
        - **R2 Score**: Đánh giá độ phù hợp tổng thể.
        - **MAE (Mean Absolute Error)**: Sai số tuyệt đối trung bình (USD).
        - **RMSE (Root Mean Squared Error)**: Đánh giá mức độ phạt đối với các sai số lớn.

#### Triển khai mô hình

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import numpy as np
import pandas as pd

# 1. Khởi tạo mô hình (Tối ưu hóa tham số cơ bản)
# n_estimators=200: Đủ lớn để giảm variance
# max_depth=15: Giới hạn độ sâu để tránh học thuộc lòng (overfitting) trên tập train
rf_model_final = RandomForestRegressor(n_estimators=200, max_depth=15, random_state=RANDOM_SEED)

# 2. Huấn luyện mô hình
# Lưu ý: y_train_log là biến mục tiêu đã log-transform
print("Đang huấn luyện mô hình Random Forest...")
rf_model_final.fit(X_train, y_train_log)

# 3. Dự đoán trên tập kiểm tra (Test Set)
y_pred_log = rf_model_final.predict(X_test)

# 4. Chuyển đổi ngược (Inverse Transform) về tiền thực tế (USD)
# Sử dụng np.expm1 để đảo ngược np.log1p
y_test_real = np.expm1(y_test_log)
y_pred_real = np.expm1(y_pred_log)

# 5. Tính toán các chỉ số đánh giá
mae = mean_absolute_error(y_test_real, y_pred_real)
rmse = np.sqrt(mean_squared_error(y_test_real, y_pred_real))
r2 = r2_score(y_test_real, y_pred_real)

In [None]:
# 6. Hiển thị kết quả định lượng
print("\n=== KẾT QUẢ ĐÁNH GIÁ MÔ HÌNH (TRÊN TẬP TEST) ===")
print("-" * 60)
print(f"{'Metric':<10} | {'Giá trị':<15} | {'Ý nghĩa':<30}")
print("-" * 60)
print(f"{'R² Score':<10} | {r2:<15.4f} | {'Giải thích được {:.2f}% biến thiên của lương'.format(r2*100)}")
print(f"{'MAE':<10} | ${mae:,.0f}         | {'Sai số trung bình mỗi dự đoán'}")
print(f"{'RMSE':<10} | ${rmse:,.0f}         | {'Sai số phạt nặng các dự đoán lệch nhiều'}")
print("-" * 60)

# 7. 10 mẫu có sai số lớn nhất (sai số absolute)
results_df = pd.DataFrame({'Thực tế (USD)': y_test_real, 'Dự đoán (USD)': y_pred_real})
results_df['Sai số (Error)'] = results_df['Dự đoán (USD)'] - results_df['Thực tế (USD)']
print("\n--- 10 Mẫu có sai số lớn nhất ---")
abs_results_df = results_df.reindex(results_df['Sai số (Error)'].abs().sort_values(ascending=False).index)
print(abs_results_df.head(10).round(0).reset_index(drop=True))
# mẫu sai số nhỏ nhất
print("\n--- 10 Mẫu có sai số nhỏ nhất ---")
abs_results_df_smallest = results_df.reindex(results_df['Sai số (Error)'].abs().sort_values(ascending=True).index)
print(abs_results_df_smallest.head(10).round(0).reset_index(drop=True))

#### Trực quan hóa

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Thiết lập layout: 2 biểu đồ cạnh nhau
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Biểu đồ 1: Thực tế vs Dự đoán (Actual vs Predicted)
sns.scatterplot(x=y_test_real, y=y_pred_real, alpha=0.6, color='#2b8cbe', ax=axes[0])
# Vẽ đường chéo lý tưởng (Perfect Prediction)
min_val = min(y_test_real.min(), y_pred_real.min())
max_val = max(y_test_real.max(), y_pred_real.max())
axes[0].plot([min_val, max_val], [min_val, max_val], 'r--', linewidth=2, label='Dự đoán hoàn hảo')

axes[0].set_title('Độ chính xác: Lương Thực tế vs Dự đoán', fontsize=14)
axes[0].set_xlabel('Lương Thực tế (USD)', fontsize=12)
axes[0].set_ylabel('Lương Dự đoán (USD)', fontsize=12)
axes[0].legend()
axes[0].grid(True, linestyle='--', alpha=0.5)

# Biểu đồ 2: Phân phối Sai số (Residuals Distribution)
residuals = y_test_real - y_pred_real
sns.histplot(residuals, kde=True, color='#e6550d', ax=axes[1])
# Vẽ đường trung tâm (Zero error)
axes[1].axvline(x=0, color='black', linestyle='--', linewidth=2)

axes[1].set_title('Phân phối Sai số (Residuals)', fontsize=14)
axes[1].set_xlabel('Sai số (Dự đoán - Thực tế)', fontsize=12)
axes[1].set_ylabel('Số lượng mẫu', fontsize=12)
axes[1].grid(True, linestyle='--', alpha=0.5)

plt.tight_layout()
plt.show()

#### **Đánh giá mô hình**

**1. Phân tích định lượng**

Kết quả thực nghiệm trên tập kiểm tra (Test Set) với mô hình cơ sở (**Random Forest** + **Label Encoding**) cho thấy:

* **R² Score (~0.37):** Mô hình giải thích được khoảng **37%** sự biến thiên của mức lương. Đây là mức độ phù hợp **trung bình** đối với dữ liệu thực tế về lương thưởng, vốn chịu ảnh hưởng bởi nhiều yếu tố định tính khó đo lường.
* **MAE (~$40,000):** Sai số tuyệt đối trung bình khoảng **40,000 USD**. Với mức lương trung bình ngành khoảng *130,000 USD*, biên độ sai số này (~%) là chấp nhận được cho mục đích tham khảo xu hướng.

**2. Phân tích sai số thực tế**

Dựa trên biểu đồ trực quan và bảng thống kê sai số chi tiết:

* **Vùng chính xác (Sweet Spot):**
    * Các điểm dữ liệu bám rất sát đường chéo lý tưởng trong khoảng lương từ **$20,000 - $150,000**.
    * *Dẫn chứng:* Trong 10 mẫu dự đoán tốt nhất, sai số chỉ dao động từ **$130 - $1200**. Đây là phân khúc phổ biến nhất của nhân sự ngành Data Science (Mid-level/Senior tại các công ty tiêu chuẩn), cho thấy mô hình hoạt động rất ổn định với đại đa số nhân sự.

* **Hiện tượng "Chặn trần":**
    * Ở phân khúc lương cao (**>$200,000**), biểu đồ Scatter có xu hướng nằm ngang dưới đường màu đỏ, và biểu đồ Residuals có đuôi dài về phía âm.
    * *Dẫn chứng:* Quan sát 10 mẫu sai số lớn nhất, mô hình liên tục dự đoán thấp hơn thực tế nghiêm trọng.
        * Ví dụ: Thực tế **$300,000** nhưng dự đoán chỉ **$127,197** (Lệch 57%).
        * Cá biệt có trường hợp thực tế **$299,4550** nhưng dự đoán chỉ **$34,215** (Lệch -$265,240k).
    * *Nguyên nhân:* Mô hình có xu hướng "an toàn", kéo các mức lương "siêu cao" (Outliers) về mức trung bình của nhóm, dẫn đến việc không bắt được các trường hợp lương cao đột biến (có thể là một nhân sự Executive tại Big Tech).

> **Vấn đề đặt ra:** Liệu việc sử dụng thuật toán mạnh hơn (XGBoost) và cách xử lý dữ liệu tinh vi hơn (Target Encoding) có thể giúp khắc phục hiện tượng "chặn trần" này và giảm sai số chung không?

#### **Cải thiện mô hình**

Để nâng cao độ chính xác so với mô hình cơ sở (Random Forest, R² ~ 0.43), chúng tôi thực hiện các cải tiến nâng cao:

1.  **Nâng cấp Thuật toán (XGBoost):** Sử dụng **eXtreme Gradient Boosting**, thuật toán mạnh mẽ nhất hiện nay cho dữ liệu dạng bảng, giúp mô hình học được các sai số mà Random Forest bỏ qua.
2.  **Target Encoding:** Thay vì gán nhãn số vô nghĩa (0, 1, 2...), chúng tôi thay thế các biến phân loại bằng **giá trị trung bình của biến mục tiêu** (Mean Salary) tương ứng trên tập huấn luyện. Kỹ thuật này giúp mô hình hiểu rõ hơn "giá trị" của từng chức danh hay vị trí địa lý.
3.  **Hyperparameter Tuning:** Sử dụng `RandomizedSearchCV` để tìm ra bộ tham số tối ưu (learning rate, max_depth, n_estimators) thay vì sử dụng tham số mặc định.

In [None]:
import category_encoders as ce
import xgboost as xgb
from sklearn.model_selection import RandomizedSearchCV, train_test_split
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
import numpy as np


# 1. Chuẩn bị dữ liệu
# Sử dụng lại df_model từ bước tiền xử lý tối ưu (đã lọc outlier, gom nhóm Location)
# Lưu ý: Với Target Encoding, ta dùng dữ liệu gốc (chưa Label Encode) để đạt hiệu quả tốt nhất
X_improved = df_model.drop(columns=['adjusted_salary'])
y_improved = np.log1p(df_model['adjusted_salary'])  # Tiếp tục sử dụng Log Transformation

# Chia tập dữ liệu (Train/Test Split)
# Random_state=42 để đảm bảo kết quả đồng nhất với mô hình cơ sở (Baseline)
X_train_imp, X_test_imp, y_train_imp, y_test_imp = train_test_split(
    X_improved, y_improved, test_size=0.2, random_state=RANDOM_SEED
)

# 2. Feature Engineering: Target Encoding
# Kỹ thuật này thay thế giá trị phân loại bằng giá trị trung bình của biến mục tiêu
# Giúp mô hình học được thứ bậc giá trị của từng nhóm (VD: Senior lương cao hơn Junior)
cols_to_encode = [
    'experience_level', 'employment_type', 'job_category',
    'employee_residence_group', 'remote_ratio',
    'company_location_group', 'company_size'
]

# Khởi tạo Encoder với tham số smoothing để tránh Overfitting trên các nhóm nhỏ
encoder = ce.TargetEncoder(cols=cols_to_encode, smoothing=10)

# Fit và Transform trên tập Train
X_train_encoded = encoder.fit_transform(X_train_imp, y_train_imp)

# Transform trên tập Test (sử dụng mapping đã học từ Train để tránh Data Leakage)
X_test_encoded = encoder.transform(X_test_imp)

# 3. Cấu hình mô hình & Tối ưu tham số (Hyperparameter Tuning)
xgb_model = xgb.XGBRegressor(objective='reg:squarederror', random_state=RANDOM_SEED)

# Không gian tham số tìm kiếm
param_grid = {
    'n_estimators': [100, 300, 500],        # Số lượng cây
    'learning_rate': [0.01, 0.05, 0.1],     # Tốc độ học
    'max_depth': [3, 5, 7],                 # Độ sâu tối đa của cây
    'subsample': [0.7, 0.8, 0.9],           # Tỷ lệ mẫu dùng cho mỗi cây
    'colsample_bytree': [0.7, 0.8, 0.9]     # Tỷ lệ features dùng cho mỗi cây
}

print("Đang tiến hành tối ưu hóa tham số cho XGBoost...")
random_search = RandomizedSearchCV(
    estimator=xgb_model,
    param_distributions=param_grid,
    n_iter=20,                          # Số lượng tổ hợp thử nghiệm
    scoring='neg_mean_absolute_error',  # Tối ưu hóa theo MAE
    cv=3,                               # Cross-validation 3 lần
    verbose=1,
    random_state=RANDOM_SEED,
    n_jobs=-1                           # Sử dụng tất cả CPU core
)

# Huấn luyện mô hình
random_search.fit(X_train_encoded, y_train_imp)

# 4. Đánh giá kết quả trên tập Test
best_xgb_model = random_search.best_estimator_

# Dự đoán (kết quả dạng log)
y_pred_log_imp = best_xgb_model.predict(X_test_encoded)

# Chuyển đổi ngược về đơn vị tiền tệ thực tế (USD)
y_pred_real_imp = np.expm1(y_pred_log_imp)
y_test_real_imp = np.expm1(y_test_imp)

# Tính toán các chỉ số
r2_imp = r2_score(y_test_real_imp, y_pred_real_imp)
mae_imp = mean_absolute_error(y_test_real_imp, y_pred_real_imp)
rmse_imp = np.sqrt(mean_squared_error(y_test_real_imp, y_pred_real_imp))

# Hiển thị kết quả
print(f"\n=>Tham số tối ưu: {random_search.best_params_}")
print("\n=== KẾT QUẢ ĐÁNH GIÁ XGBOOST + TARGET ENCODING (TRÊN TẬP TEST) ===")
print("-" * 60)
print(f"{'Metric':<10} | {'Giá trị':<15} | {'Ghi chú'}")
print("-" * 60)
print(f"{'R² Score':<10} | {r2_imp:<15.4f} | {'Độ phù hợp của mô hình nâng cao'}")
print(f"{'MAE':<10} | ${mae_imp:,.0f}         | {'Sai số tuyệt đối trung bình'}")
print(f"{'RMSE':<10} | ${rmse_imp:,.0f}         | {'Sai số bình phương trung bình'}")
print("-" * 60)

### **C. Nhận xét**

Tiến hành so sánh kết quả giữa mô hình baseline và mô hình nâng cao (trên môi trường *CPU*) để kiểm chứng giả thuyết cải thiện:

  | Metric | Mô hình Baseline (Random Forest) | Mô hình Nâng cao (XGBoost + Target Enc) | Mức độ cải thiện |
  | :--- | :--- | :--- | :--- |
  | **R² Score** | 0.3655 | **0.3662** | +0.07% |
  | **MAE** | 40,334 | **40,046** | Giảm $288 |

#### **Thảo luận**

Mặc dù đã áp dụng **XGBoost** (thuật toán tối ưu nhất cho dữ liệu bảng hiện nay) và **Target Encoding** (kỹ thuật feature engineering tiên tiến), hiệu suất mô hình chỉ tăng rất ít (~0.07%). Điều này dẫn đến những kết luận quan trọng về bản chất bài toán:

1.  **Hiện tượng Bão hòa dữ liệu (Data Saturation):**
    Các đặc trưng hiện có trong bộ dữ liệu (*Kinh nghiệm, Vị trí địa lý, Loại công việc...*) chỉ có khả năng giải thích tối đa khoảng **37%** sự chênh lệch về lương. Đây là giới hạn trần của thông tin mà dữ liệu cung cấp. Việc tinh chỉnh thuật toán thêm nữa sẽ không mang lại hiệu quả đáng kể (Diminishing Returns).

2.  **Vai trò của các "Biến ẩn" (Hidden Variables):**
    Hơn **63%** sự biến thiên còn lại của mức lương phụ thuộc vào các yếu tố không được thu thập trong dataset này, ví dụ:
    * **Tech Stack chuyên sâu:** Kỹ sư làm *GenAI/LLM* thường có lương cao hơn *Data Analyst* truyền thống dù cùng cấp bậc.
    * **Phân khúc công ty:** Mức lương tại các công ty Big Tech (Google, Meta) hoặc Hedge Fund luôn là các outlier cao mà mô hình không thể dự đoán chỉ dựa vào biến `company_size`.
    * **Kỹ năng mềm & Đàm phán:** Năng lực và kỹ năng cá nhân của ứng viên cũng đóng một vai trò quan trọng.

#### **Kết luận**
- **CÓ THỂ** dự đoán mức lương ngành Data Science, nhưng chỉ ở mức độ **tham chiếu xu hướng** với sai số trung bình khoảng **±$40,000**.
- Mô hình hiện tại là công cụ tốt để xác định **"Mức lương sàn"** dựa trên vị trí địa lý và kinh nghiệm. Tuy nhiên, để đạt độ chính xác cao hơn (R² > 0.6), giải pháp không nằm ở việc thay đổi thuật toán, mà bắt buộc phải **Làm giàu dữ liệu** với các thông tin chi tiết hơn về kỹ năng chuyên môn và lĩnh vực hoạt động cụ thể của doanh nghiệp.

---

# **5. Tổng kết**

## **Những phát hiện chính**

1. **Kinh nghiệm làm việc là yếu tố ảnh hưởng mạnh nhất đến mức lương**
   Các vị trí có mức kinh nghiệm cao (Senior, Executive) luôn có mức lương trung bình vượt trội so với Entry và Mid-level, cho thấy kinh nghiệm là biến quyết định trong bài toán thu nhập ngành Data Science.

2. **Vị trí địa lý và hình thức làm việc tác động rõ rệt đến lương**
   Mức lương tại các quốc gia phát triển (đặc biệt là Mỹ) cao hơn đáng kể so với các khu vực khác. Bên cạnh đó, các công việc **remote hoặc hybrid** có xu hướng trả lương cao hơn onsite ở nhiều nhóm nghề.

3. **Chức danh công việc có độ đa dạng rất lớn nhưng có thể gom nhóm hiệu quả**
   Dù có nhiều job title khác nhau, phần lớn có thể quy về một số nhóm chính như *Data Scientist, Data Analyst, Data Engineer*, giúp đơn giản hóa phân tích mà vẫn giữ được ý nghĩa.

4. **Quy mô công ty ảnh hưởng đến mức lương nhưng không phải yếu tố quyết định duy nhất**
   Công ty lớn thường trả lương cao hơn trung bình, tuy nhiên vẫn tồn tại nhiều công ty vừa và nhỏ có mức lương cạnh tranh, đặc biệt với các vị trí chuyên môn cao.

5. **Mô hình hồi quy dự đoán lương đạt độ chính xác tương đối tốt**
   Các mô hình học máy (Linear Regression, Random Forest, …) cho thấy khả năng dự đoán xu hướng lương hợp lý, tuy nhiên vẫn còn sai số do lương chịu ảnh hưởng của nhiều yếu tố khó định lượng.

$\Rightarrow$ **Phát hiện thú vị nhất:**
Hình thức làm việc *remote* không chỉ giúp linh hoạt hơn mà trong nhiều trường hợp còn đi kèm **mức lương cao**, cho thấy xu hướng toàn cầu hóa thị trường lao động ngành dữ liệu.

## **Hạn chế**

**1. Hạn chế về dữ liệu**

* Dataset mang tính **tự báo cáo**, có thể tồn tại sai lệch về độ chính xác.
* Phân bố dữ liệu **không đồng đều giữa các quốc gia**, Mỹ chiếm tỷ trọng lớn.
* Thiếu một số yếu tố quan trọng như: kỹ năng cụ thể, số năm kinh nghiệm chính xác, ngành nghề của công ty.

**2. Hạn chế về phương pháp phân tích**

* Phần lớn phân tích mang tính **mô tả và tương quan**, chưa chứng minh quan hệ nhân quả.
* Mô hình dự đoán chưa xử lý triệt để các vấn đề như outlier lương rất cao hoặc rất thấp.
* Chưa đánh giá sâu về feature interaction (tương tác giữa các biến).

**3. Hạn chế về phạm vi**

* Chỉ tập trung vào dữ liệu năm 2023, chưa phân tích xu hướng theo thời gian.
* Chưa đi sâu vào so sánh chi tiết từng vai trò trong từng ngành cụ thể.

## **Hướng phát triển trong tương lai**

* **Khám phá thêm các câu hỏi mới**

  * Lộ trình tăng lương theo thời gian của từng vị trí là như thế nào?
  * Những kỹ năng nào mang lại mức tăng lương lớn nhất?
  * Remote có tác động khác nhau giữa các quốc gia hay không?

* **Phân tích sâu hơn**

  * Áp dụng các mô hình phi tuyến nâng cao như XGBoost, LightGBM.
  * Phân tích SHAP values để giải thích rõ hơn ảnh hưởng của từng đặc trưng.
  * Tách riêng phân tích theo từng khu vực địa lý.

* **Thử nghiệm phương pháp khác**

  * Clustering để phân nhóm các kiểu công việc và mức lương.
  * Time-series analysis nếu có dữ liệu nhiều năm.
  * Causal inference để đánh giá tác động thực sự của remote work.

* **Bổ sung dữ liệu**

  * Thêm dữ liệu về kỹ năng (Python, SQL, ML, Cloud…).
  * Thêm thông tin ngành nghề của công ty.
  * Kết hợp dữ liệu từ nhiều năm để phân tích xu hướng dài hạn.

* **Mở rộng và cải thiện**

  * Xây dựng dashboard tương tác cho người dùng.
  * Triển khai mô hình dự đoán lương thành một ứng dụng web.
  * So sánh dữ liệu lương ngành Data Science với các ngành IT khác.

## **Bài học rút ra**

### **23122011 - Đoàn Hải Nam**
#### **1. Khó khăn và thử thách**

1. Một vấn đề nổi bật trong quá trình phân tích là **sự không đồng đều giữa các nhóm dữ liệu**. Khi so sánh theo quy mô công ty và giai đoạn kinh nghiệm, số lượng quan sát giữa các nhóm chênh lệch đáng kể, khiến một số xu hướng dễ bị chi phối bởi nhóm có kích thước mẫu lớn hơn. Điều này đòi hỏi phải diễn giải kết quả một cách thận trọng, tránh suy rộng cho toàn bộ thị trường.

2. Bên cạnh đó, việc **chuyển đổi kết quả định lượng thành nhận định có ý nghĩa thực tiễn** cũng là một thách thức. Các chỉ số thống kê và biểu đồ cho thấy sự khác biệt rõ ràng giữa các nhóm, nhưng việc liên kết các con số này với hành vi tuyển dụng, chiến lược nhân sự hay giai đoạn phát triển doanh nghiệp không phải lúc nào cũng trực quan và cần dựa trên lập luận hợp lý thay vì chỉ dựa vào số liệu.

#### **2. Bài học rút ra**

1. Từ đồ án, em rút ra rằng **phân tích dữ liệu hiệu quả không nằm ở độ phức tạp của phương pháp**, mà ở khả năng xác định đúng trọng tâm và so sánh đúng đối tượng. Việc lựa chọn cách phân nhóm, thước đo và góc nhìn phân tích có ảnh hưởng trực tiếp đến thông điệp rút ra từ dữ liệu.

2. Ngoài ra, dự án giúp em nhận thức rõ hơn rằng **kết luận từ dữ liệu luôn mang tính tương đối**. Mỗi kết quả chỉ phản ánh dữ liệu trong phạm vi giả định và điều kiện hiện có, do đó cần được trình bày kèm theo giới hạn và bối cảnh áp dụng. Đây là yếu tố quan trọng để đảm bảo tính khách quan và độ tin cậy của một bài phân tích dữ liệu.


### **23122014 – Hoàng Minh Trung**
#### **1. Khó khăn và thử thách**

1. Một trong những khó khăn lớn nhất là việc **tác giả của bộ dữ liệu không mô tả rõ phương pháp thu thập dữ liệu**. Điều này khiến em gặp hạn chế trong việc đánh giá mức độ đại diện, độ tin cậy cũng như khả năng phản ánh đúng thực tế của dữ liệu. Để khắc phục, em đã tham khảo các **phương pháp thu thập dữ liệu phổ biến của những dataset tương tự**, đồng thời sử dụng sự hỗ trợ của AI để đưa ra những phỏng đoán hợp lý về quy trình thu thập dữ liệu của bộ dataset đang sử dụng. Tuy nhiên, đây vẫn chỉ là giả định và không thể thay thế cho thông tin gốc từ tác giả.

2. Bên cạnh đó, em cũng gặp khó khăn trong việc **sử dụng Git cho làm việc nhóm**, đặc biệt khi thao tác với **Jupyter Notebook** thay vì các file code truyền thống. Git không xử lý tốt các conflict trong notebook do cơ chế theo dõi thay đổi dựa trên cell. Trong một số trường hợp, dù hai thành viên chỉnh sửa cùng một cell nhưng nội dung khác nhau, công cụ vẫn không phát hiện được conflict, dẫn đến việc nhóm phải **merge thủ công**. Dù có sự hỗ trợ của **nbdime**, việc quản lý version cho notebook vẫn đòi hỏi sự cẩn trọng và phối hợp chặt chẽ giữa các thành viên.

#### **2. Bài học rút ra**

1. Thông qua đồ án này, bên cạnh việc nắm vững hơn **pipeline phân tích và xử lý dữ liệu** (như làm sạch dữ liệu, khám phá dữ liệu, trực quan hóa và phân tích kết quả), em học được nhiều nhất là **kỹ năng làm việc nhóm với Git** trong môi trường thực tế. Việc sử dụng các công cụ hỗ trợ như nbdime giúp em hiểu rõ hơn về những giới hạn của Git đối với notebook, cũng như tầm quan trọng của việc phân chia nhiệm vụ và thống nhất quy ước làm việc trong nhóm.

2. Một điểm gây ấn tượng với em trong quá trình phân tích dữ liệu là sự xuất hiện của **nghịch lý Simpson**. Khi phân tích từng biến riêng lẻ, dữ liệu dẫn đến một kết luận nhất định, nhưng khi kết hợp các biến lại với nhau thì kết quả lại hoàn toàn trái ngược. Trải nghiệm này giúp em nhận thức rõ hơn rằng **dữ liệu thực tế luôn tiềm ẩn nhiều tầng ý nghĩa**, và việc đưa ra kết luận vội vàng dựa trên phân tích đơn biến có thể dẫn đến những nhận định sai lệch.

3. Dự án này đã giúp em hiểu rõ hơn rằng **Data Science không chỉ là áp dụng các thuật toán hay công cụ kỹ thuật**, mà còn là quá trình đặt câu hỏi đúng, hoài nghi dữ liệu và hiểu bối cảnh mà dữ liệu được tạo ra. Việc thiếu thông tin về nguồn gốc dữ liệu, cũng như sự xuất hiện của những hiện tượng như nghịch lý Simpson, cho em thấy rằng **kết quả phân tích chỉ có ý nghĩa khi được diễn giải một cách cẩn trọng**. Ngoài ra, đồ án cũng giúp em nhận thức rằng Data Science trong thực tế là một **quy trình mang tính cộng tác cao**, nơi kỹ năng làm việc nhóm, quản lý phiên bản và giao tiếp quan trọng không kém so với kỹ năng phân tích. Từ đó, em hiểu rằng một Data Scientist không chỉ cần giỏi về mặt kỹ thuật, mà còn cần có tư duy phản biện, khả năng phối hợp và ý thức về những giới hạn của dữ liệu mình đang làm việc cùng.

### **23122036 - Nguyễn Ngọc Khoa**
1. **Khó khăn & Thử thách**: 

    - **Xử lý dữ liệu phân loại cho Machine Learning**: Dataset chứa nhiều biến phân loại như `job_title` và `company_location` với số lượng giá trị duy nhất lớn. Thử thách lớn nhất là làm sao chuyển đổi chúng để đưa vào mô hình mà không làm bùng nổ số chiều dữ liệu khi dùng One-Hot Encoding, đồng thời vẫn giữ được thông tin quan trọng.
    - **Tinh chỉnh tham số học**: Việc tối ưu hóa mô hình **RandomForest** hay **XGBoost** đòi nhiều thời gian thử nghiệm. Cụ thể, trong việc thiết lập `param_grid` cho `GridSearchCV`: nếu lưới tham số quá rộng thì thời gian chạy quá lâu, nếu quá hẹp thì bỏ lỡ bộ tham số tối ưu. 

2. **Bài học**: 
    - **Tư duy lập trình theo Module**: Thay vì viết tất cả code trong một Jupyter Notebook dài dòng, em tách code xử lý thành các module tái sử dụng (`data_processing.py`, `modeling.py`, `visualization.py`). Điều này không chỉ giúp Notebook gọn gàng, chuyên nghiệp hơn mà còn giúp nhóm dễ dàng debug và phát triển feature khác.
    - **Hiểu sâu về các thuật toán ML**: Hiểu được sự khác biệt giữa các mô hình: **Linear Regression** (tuyến tính, dễ diễn giải) so với các mô hình Ensemble như **Random Forest** hay **XGBoost** (hiệu quả cao với dữ liệu phi tuyến). Em cũng hiểu rõ hơn ý nghĩa của các chỉ số đánh giá như **RMSE** hay **R-squared** thay vì chỉ nhìn vào con số đơn thuần
    - **Kỹ năng kể chuyện với dữ liệu**: Qua việc trả lời câu hỏi 5, em học được rằng Machine Learning không chỉ là dự báo, mà còn là công cụ để giải thích cho các câu hỏi "Tại sao?". Việc visualize được Feature Importance giúp em chuyển đổi những con số khô khan thành insight có giá trị cho người đọc (ví dụ: đã chứng minh kinh nghiệm quan trọng hơn chức danh trong việc định giá lương).