TASK 3 – GROUPBY & TỔNG HỢP

Import & đọc dữ liệu sạch

In [None]:
import pandas as pd

df_candidate = pd.read_csv("../data_clean/candidate_profile_clean.csv")
df_interview = pd.read_csv("../data_clean/interview_score_clean.csv")
df_salary = pd.read_csv("../data_clean/salary_offer_clean.csv")


Tính điểm phỏng vấn trung bình theo vị trí

In [None]:
# Gộp dữ liệu phỏng vấn với thông tin vị trí
interview_position = pd.merge(
    df_interview,
    df_salary[["candidate_id", "position"]],
    on="candidate_id",
    how="left"
)

# Tính điểm trung bình theo vị trí
avg_score_by_position = (
    interview_position
    .groupby("position")["score"]
    .mean()
    .reset_index()
    .rename(columns={"score": "avg_interview_score"})
)

avg_score_by_position


Unnamed: 0,position,avg_interview_score
0,Data Analyst,6.923077
1,Dev,6.8
2,Python Dev,6.875
3,Python Developer,6.625


Nhận xét: Một số vị trí có điểm trung bình cao hơn, cho thấy mức độ cạnh tranh hoặc yêu cầu cao hơn.

Tính mức lương đề nghị trung bình theo vị trí

In [None]:
avg_salary_by_position = (
    df_salary
    .groupby("position")["offer_salary"]
    .mean()
    .reset_index()
    .rename(columns={"offer_salary": "avg_offer_salary"})
)

avg_salary_by_position


Unnamed: 0,position,avg_offer_salary
0,Data Analyst,19230770.0
1,Dev,25000000.0
2,Python Dev,16250000.0
3,Python Developer,17500000.0


Nhận xét:Các vị trí có mức lương trung bình cao thường đi kèm yêu cầu kỹ năng hoặc kinh nghiệm cao.

Xác định ứng viên nổi bật

In [None]:
# Tính điểm trung bình theo ứng viên
avg_score_candidate = (
    df_interview
    .groupby("candidate_id")["score"]
    .mean()
    .reset_index()
    .rename(columns={"score": "avg_score"})
)

# Gộp với thông tin ứng viên
candidate_summary = pd.merge(
    df_candidate,
    avg_score_candidate,
    on="candidate_id",
    how="left"
)

# Lọc ứng viên nổi bật
top_candidates = candidate_summary[
    (candidate_summary["experience_years"] >= 3) &
    (candidate_summary["avg_score"] >= 8)
]

top_candidates


Unnamed: 0,candidate_id,full_name,experience_years,avg_score
0,UV100,Hoang Van E,3.0,9.0


Nhận xét: Đây là nhóm ứng viên có tiềm năng cao, phù hợp để ưu tiên tuyển dụng.

Phân tích tương quan giữa kinh nghiệm và mức lương đề nghị

In [None]:
# Gộp kinh nghiệm và lương
exp_salary = pd.merge(
    df_candidate[["candidate_id", "experience_years"]],
    df_salary[["candidate_id", "offer_salary"]],
    on="candidate_id",
    how="inner"
)

# Tính hệ số tương quan
correlation = exp_salary["experience_years"].corr(exp_salary["offer_salary"])
correlation


np.float64(-0.05782433095829119)

Nhận xét:Hệ số tương quan cho thấy mức độ liên hệ giữa kinh nghiệm và lương đề nghị (không nhất thiết luôn mạnh).

Tổng hợp điểm theo từng ứng viên

In [None]:
candidate_score_summary = (
    df_interview
    .groupby("candidate_id")["score"]
    .agg(["count", "mean", "max"])
    .reset_index()
)

candidate_score_summary


Unnamed: 0,candidate_id,count,mean,max
0,UV100,1,9.0,9.0
1,UV101,3,7.666667,9.0
2,UV102,1,5.0,5.0
3,UV103,2,6.0,6.0
4,UV104,3,6.0,7.0
5,UV105,3,7.333333,9.0
6,UV106,2,5.5,6.0
7,UV107,2,8.0,9.0
8,UV108,2,6.0,7.0
9,UV109,3,8.333333,9.0
