加載資料集

In [1]:
from sklearn.datasets import fetch_20newsgroups

# 加載20 Newsgroups資料集
newsgroups_train = fetch_20newsgroups(subset='train')
newsgroups_test = fetch_20newsgroups(subset='test')


文本預處理：
使用CountVectorizer或TfidfVectorizer來將文本數據轉換為特徵向量。

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words='english')
X_train = vectorizer.fit_transform(newsgroups_train.data)
X_test = vectorizer.transform(newsgroups_test.data)


訓練分類模型：
使用LogisticRegression或其他分類模型進行訓練。

In [3]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression()
clf.fit(X_train, newsgroups_train.target)

# 評估模型
accuracy = clf.score(X_test, newsgroups_test.target)
print(f"Model Accuracy: {accuracy}")


Model Accuracy: 0.8324482209240573


In [12]:
import pandas as pd

# 加載數據集
df = pd.read_csv("C:/Users/WCHuang8/Desktop/HR-Employee-Attrition.csv")
df.head()

Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeNumber,...,RelationshipSatisfaction,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,WorkLifeBalance,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YearsWithCurrManager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,...,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,...,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,...,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,...,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,...,4,80,1,6,3,3,2,2,2,2


In [17]:
# 檢查缺失值
print(df.isnull().sum())

# 將類別變量轉換為數字變量
df['BusinessTravel'] = df['BusinessTravel'].astype('category').cat.codes
df['Department'] = df['Department'].astype('category').cat.codes
df['EducationField'] = df['EducationField'].astype('category').cat.codes
df['Attrition'] = df['Attrition'].map({'Yes': 1, 'No': 0})

# 檢查轉換後的數據
print(df.head())


Age                         0
Attrition                   0
BusinessTravel              0
DailyRate                   0
Department                  0
DistanceFromHome            0
Education                   0
EducationField              0
EmployeeCount               0
EmployeeNumber              0
EnvironmentSatisfaction     0
Gender                      0
HourlyRate                  0
JobInvolvement              0
JobLevel                    0
JobRole                     0
JobSatisfaction             0
MaritalStatus               0
MonthlyIncome               0
MonthlyRate                 0
NumCompaniesWorked          0
Over18                      0
OverTime                    0
PercentSalaryHike           0
PerformanceRating           0
RelationshipSatisfaction    0
StandardHours               0
StockOptionLevel            0
TotalWorkingYears           0
TrainingTimesLastYear       0
WorkLifeBalance             0
YearsAtCompany              0
YearsInCurrentRole          0
YearsSince

In [18]:
# 選擇特徵和目標變量
X = df[['Age', 'BusinessTravel', 'DailyRate', 'Department', 'DistanceFromHome', 'Education', 'EducationField', 'JobSatisfaction', 'TotalWorkingYears', 'TrainingTimesLastYear', 'YearsAtCompany', 'YearsInCurrentRole', 'YearsSinceLastPromotion', 'YearsWithCurrManager']]
y = df['Attrition']  # Attrition 表示員工是否離職，可以用作評估員工對轉型的適應度


In [19]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# 切分數據集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 訓練模型
clf = LogisticRegression(max_iter=10000)
clf.fit(X_train, y_train)

# 預測和評估
y_pred = clf.predict(X_test)
print(f"Model Accuracy: {accuracy_score(y_test, y_pred)}")
print(classification_report(y_test, y_pred))


Model Accuracy: 0.8639455782312925
              precision    recall  f1-score   support

           0       0.87      1.00      0.93       255
           1       0.00      0.00      0.00        39

    accuracy                           0.86       294
   macro avg       0.43      0.50      0.46       294
weighted avg       0.75      0.86      0.80       294



生成式ＡＩ


In [24]:
from openai import OpenAI

# 設置最新的API密鑰
api_key = ''  # 替換為你的最新API密鑰

# 實例化OpenAI客戶端
client = OpenAI(api_key=api_key)

def match_course_to_job(course_description, job_description):
    prompt = (
        f"AI課程描述: {course_description}\n\n"
        f"HR部門工作描述: {job_description}\n\n"
        "請匹配這些描述並提供它們之間的相關性評估，並詳細說明為什麼它們高度相關。"
    )

    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": "你是專業的匹配評估助手。"},
            {"role": "user", "content": prompt}
        ],
        max_tokens=500  # 設置生成的最大token數
    )

    match_result = response.choices[0].message.content.strip()  # 確保這裡正確訪問返回的內容
    return match_result

# 示例數據
course_description = "這是一門關於機器學習基礎的課程，涵蓋監督學習、非監督學習和強化學習等主題。"
job_description = "HR數據分析師需要擅長數據分析，能夠使用機器學習技術來分析員工數據並提供洞見。"

# 匹配課程和工作
match_result = match_course_to_job(course_description, job_description)
print(match_result)


根據描述，我們可以對AI課程和HR數據分析師的要求進行匹配評估。以下是它們之間的相關性及其詳細解釋：

### 相關性評估：高度相關

#### 詳細說明：

1. **課程內容與工作需求的對應性**：
   - **機器學習基礎**：AI課程涵蓋機器學習的基礎，這對於HR數據分析師來說是非常重要的。機器學習技術可以用於分析員工數據，幫助公司理解員工行為模式、預測員工離職率等。

2. **主題匹配**：
   - **監督學習**：HR數據分析師可以使用監督學習技術來進行預測分析，如預測哪些員工可能會在近期離職。監督學習算法（例如回歸、決策樹、隨機森林等）在這些應用中非常有用。
   - **非監督學習**：非監督學習技術（例如聚類分析）可以幫助HR數據分析師對員工群體進行分類，識別員工的不同特徵群體，這有助於制定個性化的人力資源策略。
   - **強化學習**：雖然強化學習在HR數據分析中應用較少，但了解這一技術仍然可能對HR數據分析師有所幫助，特別是在需要模擬和優化人力資源管理策略時。

3. **實際應用技能的培養**：
   - **數據分析**：HR數據分析師的工作要求需要擅長數據分析，而AI課程將教會學生如何使用機器學習技術來處理和分析數據，這能夠幫助他們在實際工作中更好地應用這些技能。

4. **洞見的產出**：
   - **提供洞見**：AI課程將教會學生如何利用所學的機器學習技術從數據中提取有價值的信息和洞見。這與HR數據


In [27]:
import pandas as pd

# 读取用户上传的Excel文件
file_path = "C:/Users/WCHuang8/Desktop/course比對.xlsx"
df = pd.read_excel(file_path)

# 顯示數據框的列名
print(df.columns)


Index(['user_input', 'course_title', 'course_partner', 'course_review',
       'skill_gain', 'course_rating', 'course_detail', 'course_level'],
      dtype='object')


In [35]:
from openai import OpenAI

# 設置最新的API密鑰
api_key = 'sk-proj-WPlcWD0mNjksNLyAcIxQT3BlbkFJe6ECafBr1b8gnTgLuz9H'  # 替換為你的最新API密鑰

# 實例化OpenAI客戶端
client = OpenAI(api_key=api_key)

def evaluate_courses(df, job_description):
    recommendations = []

    for index, row in df.iterrows():
        course_description = f"{row['course_title']} by {row['course_partner']} - {row['course_detail']}. Skills gained: {row['skill_gain']}."
        prompt = (
            f"AI課程描述: {course_description}\n\n"
            f"HR部門工作描述: {job_description}\n\n"
            "請匹配這些描述並提供它們之間的相關性評估，並推薦是否適合這個工作。"
        )

        response = client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": "你是專業的匹配評估助手，但是你話很少，最後只會推薦一門最適合的課程，也就是output出一門課而已，且只會有20字以內的回覆。"},
                {"role": "user", "content": prompt}
            ],
            max_tokens=300  # 設置生成的最大token數
        )

        match_result = response.choices[0].message.content.strip()
        recommendations.append((row['course_title'], match_result))

    return recommendations

# HR數據分析師的工作描述
job_description = "HR數據分析師需要擅長數據分析，能夠使用機器學習技術來分析員工數據並提供洞見。"

# 評估並推薦課程
recommendations = evaluate_courses(df, job_description)

# 打印推薦結果
for course, recommendation in recommendations:
    print(f"課程: {course}\n推薦理由: {recommendation}\n")


課程: Google AI Essentials
推薦理由: 推薦課程：Google AI Essentials

課程: IBM AI Developer
推薦理由: IBM AI Developer by IBM

課程: Introduction to Generative AI Learning Path
推薦理由: 適合。

課程: IBM AI Foundations for Business
推薦理由: 推薦課程: IBM AI Foundations for Business

課程: Generative AI with Large Language Models
推薦理由: 適合。



In [1]:
from openai import OpenAI

# 設置最新的API密鑰
api_key = 'sk-proj-WPlcWD0mNjksNLyAcIxQT3BlbkFJe6ECafBr1b8gnTgLuz9H'  # 替換為你的最新API密鑰

# 實例化OpenAI客戶端
client = OpenAI(api_key=api_key)

def evaluate_courses(df, job_description):
    best_course = None
    best_recommendation = ""
    best_score = 0

    for index, row in df.iterrows():
        course_description = f"{row['course_title']} by {row['course_partner']} - {row['course_detail']}. Skills gained: {row['skill_gain']}."
        prompt = (
            f"AI課程描述: {course_description}\n\n"
            f"HR部門工作描述: {job_description}\n\n"
            "請匹配這些描述並提供它們之間的相關性評估，並推薦是否適合這個工作。"
        )

        response = client.chat.completions.create(
            model="gpt-4",
            messages=[
                {"role": "system", "content": "你是專業的匹配評估助手，但是你話很少，最後只會推薦一門最適合的課程，也就是output出一門課而已，且只會有30字以內的回覆，而且你很固執，對同樣的問題只會有一個最佳解答，此外，如果你認為都不適合就直接回答不適合"},
                {"role": "user", "content": prompt}
            ],
            max_tokens=300,  # 設置生成的最大token數
            temperature=0.1,  # 設置溫度為較低值
            top_p=0.5  # 設置Top P為較低值
        )

        match_result = response.choices[0].message.content.strip()
        
        # 簡單計分邏輯，可以根據需求改進
        score = match_result.count("推薦")  # 假設評估中有 "推薦" 這些詞語表示更高的相關性
        if score > best_score:
            best_course = row['course_title']
            best_recommendation = match_result
            best_score = score

    return best_course, best_recommendation

# HR數據分析師的工作描述
job_description = "HR數據分析師需要擅長數據分析，能夠使用機器學習技術來分析員工數據並提供洞見。"

# 評估並推薦課程
best_course, best_recommendation = evaluate_courses(df, job_description)

# 打印推薦結果
print(f"{best_recommendation}\n")


NameError: name 'df' is not defined

In [78]:
import pandas as pd

# 创建HR职位和职责描述的数据框
hr_positions = {
    "Position": [
        "HR經理",
        "招聘專員",
        "員工關係專員",
        "培訓與發展專員",
        "薪酬與福利專員",
        "HR數據分析師"  # 确保包括需要的职位
    ],
    "Description": [
        "管理和監督公司的招聘過程，確保找到合適的人才。制定和實施人力資源政策和程序。負責員工培訓和發展，確保員工具備所需的技能和知識。管理員工關係，處理員工的投訴和爭議。確保公司遵守所有勞動法規和標準。管理薪酬和福利計劃，確保員工的滿意度。",
        "負責公司內部和外部的招聘流程。撰寫和發布招聘廣告，篩選簡歷並進行初步面試。協調和安排面試，並與部門經理協作確定合適的候選人。管理招聘渠道和招聘平台，確保公司招聘需求得到滿足。進行背景調查和參考檢查，確保候選人背景信息的真實性。",
        "管理和促進員工之間的關係，確保工作環境的和諧。處理員工投訴和爭議，提供解決方案。監控和評估員工滿意度，提出改進建議。制定和實施員工溝通計劃，促進公司內部的信息透明。協助管理層制定和實施員工政策和程序。",
        "評估公司和員工的培訓需求，制定培訓計劃。設計和開發培訓課程和材料，組織內部和外部培訓。監控和評估培訓效果，確保培訓目標的達成。提供員工職業發展建議，幫助員工制定職業發展計劃。協調和安排培訓活動，確保培訓的順利進行。",
        "設計和管理公司的薪酬和福利計劃。分析市場薪酬數據，確保公司薪酬的競爭力。管理員工的薪資結算和福利發放，解答員工的薪酬和福利問題。協助制定和實施薪酬政策和程序。進行薪酬和福利的數據分析，提供決策支持。",
        "HR數據分析師需要擅長數據分析，能夠使用機器學習技術來分析員工數據並提供洞見。"  # 確保包括需要的职位描述
    ]
}

df_hr_positions = pd.DataFrame(hr_positions)

# 将数据框保存到Excel文件
df_hr_positions.to_excel('hr_positions.xlsx', index=False)

print("HR职位描述的Excel文件已成功创建！")


HR职位描述的Excel文件已成功创建！


In [90]:
from openai import OpenAI
import pandas as pd

# 設置最新的API密鑰
api_key = 'sk-proj-WPlcWD0mNjksNLyAcIxQT3BlbkFJe6ECafBr1b8gnTgLuz9H'  # 替換為你的最新API密鑰

# 實例化OpenAI客戶端
client = OpenAI(api_key=api_key)

def evaluate_courses(df_courses, df_hr_positions, job_position):
    best_course = None
    best_recommendation = ""
    best_score = 0

    # 找到對應的HR職位描述
    job_description_row = df_hr_positions.loc[df_hr_positions['Position'] == job_position]

    if job_description_row.empty:
        print(f"找不到職位描述: {job_position}")
        return "無法找到職位描述", "無法進行評估"

    job_description = job_description_row['Description'].values[0]

    for index, row in df_courses.iterrows():
        course_description = f"{row['course_title']} by {row['course_partner']} - {row['course_detail']}. Skills gained: {row['skill_gain']}."
        prompt = (
            f"AI課程描述: {course_description}\n\n"
            f"HR部門工作描述: {job_description}\n\n"
            "請匹配這些描述並提供它們之間的相關性評估，並推薦是否適合這個工作。"
        )

        response = client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": "你是專業的匹配評估助手，但是你話很少，最後只會推薦一門最適合的課程，也就是output出一門課而已，且只會有30字以內的回覆，而且你很固執，對同樣的問題只會有一個最佳解答，此外，如果你認為都不適合就直接回答不適合"},
                {"role": "user", "content": prompt}
            ],
            max_tokens=300,  # 設置生成的最大token數
            temperature=0.1,  # 設置溫度為較低值
            top_p=0.5  # 設置Top P為較低值
        )

        match_result = response.choices[0].message.content.strip()  # 修正此行

        # 簡單計分邏輯，可以根據需求改進
        score = match_result.count("推薦")  # 假設評估中有 "推薦" 這些詞語表示更高的相關性
        if score > best_score:
            best_course = row['course_title']
            best_recommendation = match_result
            best_score = score

    return best_course, best_recommendation

# 讀取用戶上傳的Excel文件
courses_file_path = 'course.xlsx'
hr_positions_file_path = 'hr_positions.xlsx'
df_courses = pd.read_excel(courses_file_path)
df_hr_positions = pd.read_excel(hr_positions_file_path)

# 指定要評估的HR職位
job_position = "HR數據分析師"

# 評估並推薦課程
best_course, best_recommendation = evaluate_courses(df_courses, df_hr_positions, job_position)

# 打印推薦結果
print(f"推薦課程: {best_course}\n推薦理由: {best_recommendation}\n")


推薦課程: None
推薦理由: 



excel

In [91]:
from openai import OpenAI
import pandas as pd

# 設置最新的API密鑰
api_key = 'sk-proj-WPlcWD0mNjksNLyAcIxQT3BlbkFJe6ECafBr1b8gnTgLuz9H'  # 替換為你的最新API密鑰

# 實例化OpenAI客戶端
client = OpenAI(api_key=api_key)

def evaluate_courses(df_courses, job_description):
    best_course = None
    best_recommendation = ""
    best_score = 0

    for index, row in df_courses.iterrows():
        course_description = f"{row['course_title']} by {row['course_partner']} - {row['course_detail']}. Skills gained: {row['skill_gain']}."
        prompt = (
            f"AI課程描述: {course_description}\n\n"
            f"HR部門工作描述: {job_description}\n\n"
            "請匹配這些描述並提供它們之間的相關性評估，並推薦是否適合這個工作。"
        )

        response = client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": "你是專業的匹配評估助手，但是你話很少，最後只會推薦一門最適合的課程，也就是output出一門課而已，且只會有30字以內的回覆，而且你很固執，對同樣的問題只會有一個最佳解答，此外，如果你認為都不適合就直接回答不適合"},
                {"role": "user", "content": prompt}
            ],
            max_tokens=300,  # 設置生成的最大token數
            temperature=0.1,  # 設置溫度為較低值
            top_p=0.5  # 設置Top P為較低值
        )

        match_result = response.choices[0].message.content.strip()

        # 簡單計分邏輯，可以根據需求改進
        score = match_result.count("推薦")  # 假設評估中有 "推薦" 這些詞語表示更高的相關性
        if score > best_score:
            best_course = row['course_title']
            best_recommendation = match_result
            best_score = score

    return best_course, best_recommendation

# 讀取用戶上傳的Excel文件
courses_file_path = 'course.xlsx'
hr_positions_file_path = 'hr_positions.xlsx'
df_courses = pd.read_excel(courses_file_path)
df_hr_positions = pd.read_excel(hr_positions_file_path)

# 存储结果的列表
results = []

# 遍歷所有HR職位
for index, row in df_hr_positions.iterrows():
    job_position = row['Position']
    job_description = row['Description']
    
    # 評估並推薦課程
    best_course, best_recommendation = evaluate_courses(df_courses, job_description)
    
    # 將結果添加到列表中
    results.append({
        "Position": job_position,
        "Best Course": best_course,
        "Recommendation": best_recommendation
    })

# 將結果轉換為DataFrame
df_results = pd.DataFrame(results)

# 將結果保存到Excel文件
df_results.to_excel('recommendations.xlsx', index=False)

print("推薦結果已成功保存到'recommendations.xlsx'文件中。")


推薦結果已成功保存到'recommendations.xlsx'文件中。
