In [9]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split

# Đọc dữ liệu từ file Excel (phải có cột Mô tả công việc và cột nhãn cho từng công việc)
df = pd.read_excel('phancum.xlsx')

# In ra tên các cột trong DataFrame để kiểm tra cột cần dùng
print(df.columns)

# Giả sử cột 'Mô tả công việc' là tên cột chứa mô tả công việc
jobs = df['Mô tả công việc'].dropna().tolist()  # Cập nhật tên cột chính xác

# Gán nhãn cho dữ liệu (chúng ta sẽ phân loại theo 9 nhóm đã được cung cấp)
def assign_label(job_description):
    # Các nhóm công việc và các từ khóa đặc trưng cho mỗi nhóm
    keywords = {
        'Quản lý công ty và chiến lược': ['chiến lược', 'quản lý', 'tư vấn', 'phát triển công ty',],
        'Nhóm An ninh và quản lý cơ sở hạ tầng CNTT': ['bảo mật', 'hệ thống mạng', 'server', 'cơ sở hạ tầng'],
        'Nhóm Phân tích, tư vấn và phát triển chiến lược': ['tư vấn', 'phân tích', 'dự án công nghệ', 'hỗ trợ'],
        'Nhóm Phát triển phần mềm và quản lý dự án': ['phần mềm', 'java', 'lập trình', 'dự án phần mềm'],
        'Nhóm Tư vấn, giám sát và đào tạo': ['đào tạo', 'hướng dẫn', 'giám sát', 'quản lý nhân sự'],
        'Nhóm Quản lý và bảo trì hệ thống IT': ['quản lý hệ thống', 'bảo trì', 'máy chủ', 'hạ tầng IT'],
        'Nhóm Hỗ trợ khách hàng và phát triển sản phẩm': ['hỗ trợ khách hàng', 'phát triển sản phẩm', 'dịch vụ khách hàng'],
        'Nhóm Quản lý ngân sách và tài nguyên IT': ['ngân sách', 'chi phí', 'quản lý tài nguyên', 'phân bổ'],
        'Nhóm Quản lý các hệ thống và dịch vụ kỹ thuật': ['quản lý dịch vụ', 'hệ thống kỹ thuật', 'tích hợp', 'API']
    }
    
    # Kiểm tra từ khóa trong mô tả công việc và gán nhãn tương ứng
    for label, words in keywords.items():
        if any(word in job_description.lower() for word in words):
            return label
    return 'Không xác định'  # Trường hợp không gán được nhãn

# Gán nhãn cho từng mô tả công việc
labels = [assign_label(job) for job in jobs]

# Chuyển văn bản thành các đặc trưng số sử dụng CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(jobs)

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.3, random_state=42)

# Huấn luyện mô hình Naive Bayes
model = MultinomialNB()
model.fit(X_train, y_train)

# Dự đoán nhãn cho tập kiểm tra
predictions = model.predict(X_test)

# In ra kết quả dự đoán
print("Predictions:", predictions)

# Đánh giá mô hình (Ví dụ: đánh giá độ chính xác)
from sklearn.metrics import accuracy_score
print("Accuracy:", accuracy_score(y_test, predictions))

# In ra một số dự đoán với mô tả công việc tương ứng
for job, pred in zip(jobs[:10], predictions[:10]):  # In ra 10 ví dụ đầu tiên
    print(f"Job: {job}\nPredicted Category: {pred}\n")


Index(['Tên công việc ', 'Tên công ty', 'Ngày cập nhật', 'Ngành nghề',
       'Lương Min', 'Lương Max', 'Lương cạnh tranh ', 'Kinh nghiệm', 'Cấp bậc',
       'Thành phố', 'Phúc lợi', 'Mô tả công việc', 'Yêu cầu công việc',
       'Bằng cấp', 'Unnamed: 14', 'Unnamed: 15', 'Unnamed: 16', 'Cluster'],
      dtype='object')
Predictions: ['Quản lý công ty và chiến lược' 'Quản lý công ty và chiến lược'
 'Quản lý công ty và chiến lược' 'Quản lý công ty và chiến lược'
 'Nhóm Phân tích, tư vấn và phát triển chiến lược' 'Không xác định'
 'Quản lý công ty và chiến lược' 'Không xác định' 'Không xác định'
 'Quản lý công ty và chiến lược' 'Quản lý công ty và chiến lược'
 'Không xác định' 'Quản lý công ty và chiến lược'
 'Quản lý công ty và chiến lược' 'Không xác định'
 'Quản lý công ty và chiến lược' 'Quản lý công ty và chiến lược'
 'Quản lý công ty và chiến lược' 'Không xác định'
 'Quản lý công ty và chiến lược' 'Quản lý công ty và chiến lược'
 'Quản lý công ty và chiến lược' 'Quản lý công ty và chi