# 01 - EDA & Cleaning

Mục tiêu:
- Khảo sát dữ liệu thô `Data_Jobs.csv`
- Làm sạch và chuẩn hóa dữ liệu
- Ghi lại các quyết định xử lý và ảnh hưởng
- Xuất `Data_Jobs_Clean.csv` để dùng cho phân tích tiếp theo


In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import os

pd.set_option('display.max_columns', None)
sns.set_theme(style="whitegrid")

RAW_PATH = r"D:\Truc_quan\Data_Jobs.csv"
CLEAN_PATH = r"D:\Truc_quan\Data_Jobs_Clean.csv"

# Kiểm tra file tồn tại
assert os.path.exists(RAW_PATH), f"Không tìm thấy file: {RAW_PATH}"

# Đọc dữ liệu thô
raw_df = pd.read_csv(RAW_PATH, encoding="latin1")
raw_df.head()


In [None]:
# Tự động dùng dữ liệu sạch nếu đã có
USE_CLEAN = os.path.exists(CLEAN_PATH)
if USE_CLEAN:
    print("Phát hiện Data_Jobs_Clean.csv. Sử dụng dữ liệu sạch, bỏ qua bước làm sạch.")
    df = pd.read_csv(CLEAN_PATH, encoding='utf-8')
else:
    print("Chưa có dữ liệu sạch. Sẽ tiến hành làm sạch từ dữ liệu thô.")


In [None]:
# Tổng quan dữ liệu
raw_shape = raw_df.shape
raw_info = raw_df.info()
raw_desc = raw_df.describe(include='all')
print("Kích thước dữ liệu thô:", raw_shape)
raw_df.isna().sum().sort_values(ascending=False).head(20)


In [None]:
# Làm sạch dữ liệu (theo logic từ Clean_data.py)
df = raw_df.copy()

# 1) Xóa trùng lặp
subset_cols = [col for col in ["Job_ID", "Job_Title", "JD_Trans"] if col in df.columns]
if subset_cols:
    df = df.drop_duplicates(subset=subset_cols)
print("Sau khi xóa trùng:", df.shape)

# 2) Xử lý thiếu
num_cols = [col for col in ["Min_YOE", "Est_Salary"] if col in df.columns]
for col in num_cols:
    df[col] = df[col].fillna(df[col].median())

text_cols = df.select_dtypes(include="object").columns
df[text_cols] = df[text_cols].fillna("Unknown")

role_cols = ["Data_Engineer","Data_Analyst","Data_Scientist",
             "Business_Analyst","Business_Intelligence",
             "Combined_role","Others"]
for col in role_cols:
    if col not in df.columns:
        df[col] = 0

df[role_cols] = df[role_cols].fillna(0).astype(int)

# 3) Chuẩn hóa
if "Job_Title" in df.columns:
    df["Job_Title"] = df["Job_Title"].str.strip().str.title()

if "Location" in df.columns:
    df["Location"] = df["Location"].str.strip().str.upper()
    location_map = {"HN":"HANOI","HA NOI":"HANOI","HÀ NỘI":"HANOI",
                    "HCM":"HCMC","HO CHI MINH":"HCMC","TPHCM":"HCMC","TP. HCM":"HCMC",
                    "VIETNAM":"VIETNAM","VN":"VIETNAM","VN*":"VIETNAM","VN ( HN":"VIETNAM",
                    "PHILIPINES":"PHILIPPINES","PHILIPPINES":"PHILIPPINES",
                    "REMOTE":"REMOTE","UNKNOWN":"UNKNOWN"}
    df["Location"] = df["Location"].replace(location_map)
    valid_locations = ["HANOI","HCMC","VIETNAM","PHILIPPINES","REMOTE","UNKNOWN"]
    df.loc[~df["Location"].isin(valid_locations), "Location"] = "UNKNOWN"

# Min_YOE
if "Min_YOE" in df.columns:
    df["Min_YOE"] = df["Min_YOE"].round().astype(int)
    df = df[df["Min_YOE"] >= 0]

# Outlier lương bằng z-score
if "Est_Salary" in df.columns:
    z_scores = (df["Est_Salary"] - df["Est_Salary"].mean()) / df["Est_Salary"].std()
    df = df[np.abs(z_scores) <= 3]

# 4) Toàn vẹn
if "Job_Title" in df.columns:
    df.loc[df["Job_Title"].str.contains("Data Engineer", case=False, na=False), "Data_Engineer"] = 1
    df.loc[df["Job_Title"].str.contains("Data Analyst", case=False, na=False), "Data_Analyst"] = 1
    df.loc[df["Job_Title"].str.contains("Data Scientist", case=False, na=False), "Data_Scientist"] = 1
    df.loc[df["Job_Title"].str.contains("Business Analyst", case=False, na=False), "Business_Analyst"] = 1

# Ít nhất một role
df["Role_Sum"] = df[role_cols].sum(axis=1)
df.loc[df["Role_Sum"] == 0, "Others"] = 1
df.drop(columns="Role_Sum", inplace=True)

# Job_ID duy nhất
if "Job_ID" in df.columns:
    df = df.drop_duplicates(subset=["Job_ID"]) 

# 5) Last_Updated
from datetime import date
df["Last_Updated"] = date.today().strftime("%Y-%m-%d")

print("Kích thước sau làm sạch:", df.shape)
df.head()


In [None]:
# Nếu đã có dữ liệu sạch, nạp lại để dùng cho các bước sau
if USE_CLEAN:
    df = pd.read_csv(CLEAN_PATH, encoding='utf-8')
    print("Đã nạp lại dữ liệu sạch để dùng cho các bước sau.")


In [None]:
# So sánh phân bố trước/sau làm sạch
fig, axes = plt.subplots(1, 2, figsize=(12,4))
sns.histplot(raw_df['Est_Salary'], bins=30, kde=True, ax=axes[0], color='salmon')
axes[0].set_title('Est_Salary - Trước làm sạch')
sns.histplot(df['Est_Salary'], bins=30, kde=True, ax=axes[1], color='seagreen')
axes[1].set_title('Est_Salary - Sau làm sạch')
plt.tight_layout()
plt.show()

fig, axes = plt.subplots(1, 2, figsize=(12,4))
sns.countplot(x='Min_YOE', data=raw_df, ax=axes[0])
axes[0].set_title('Min_YOE - Trước làm sạch')
sns.countplot(x='Min_YOE', data=df, ax=axes[1])
axes[1].set_title('Min_YOE - Sau làm sạch')
plt.tight_layout()
plt.show()


In [None]:
# Xuất dữ liệu sạch
(df
 .to_csv(CLEAN_PATH, index=False, encoding='utf-8-sig')
)
print(f"Đã lưu dữ liệu sạch tại: {CLEAN_PATH}")
