### 全模式
1. 在Jieba模組裡，只要將cut_all 參數設定為True，即為全模式。
2. 全模式可以非常快的把句子中所有可以成為詞的詞語都掃描出來。但缺點是不能解決歧義。

### 精確模式
1. 若將cut_all 參數設定為False的話，即為精確模式 cut(cut_all=False)。精確模式，試圖將句子做最精確地切割斷詞，適合於文本分析。
2. 此外，cut_all這個參數若沒有設定的話，得到的結果會跟精確模式一樣，這種狀況又被稱之為「預設模式」。

### 搜尋引擎模式
搜尋引擎模式，係在精確模式的基礎上，對長詞進行再次切分，目的是要提高召回率。這種模式適合用於搜索引擎分詞。

In [22]:
import jieba


## 全模式
s1_list = jieba.cut('我去華邦電子實習', cut_all =True)
print('模式- 全  ： ', ' | '.join(s1_list))

## 精確模式
s2_list = jieba.cut('我去華邦電子實習', cut_all =False)
print('模式- 精確： ', ' | '.join(s2_list))

## 搜尋引擎模式
s3_list = jieba.cut_for_search('我去華邦電子實習')
print('模式- 搜尋： ', ' | '.join(s3_list))

Building prefix dict from c:\Users\WCHuang8\Desktop\學習推薦系統專案\JIEBA\custom_dict.txt ...
Loading model from cache C:\Users\WCHuang8\AppData\Local\Temp\jieba.uc497d64b5b403a32e6365cd74728a1e1.cache
Loading model cost 0.007 seconds.
Prefix dict has been built successfully.


模式- 全  ：  我 | 去 | 華邦電子 | 實 | 習
模式- 精確：  我 | 去 | 華邦電子 | 實習
模式- 搜尋：  我 | 去 | 華邦電子 | 實習


In [21]:
jieba.set_dictionary('custom_dict.txt')
# jieba.set_dictionary('custom_dict - Copy.txt')

In [None]:
jieba.add_word('華邦電子')

In [5]:
jieba.initialize()

## 網路流行詞彙

In [33]:
import jieba


## 全模式
s1_list = jieba.cut('他很愛講超派對不對', cut_all =True)
print('模式- 全  ： ', ' | '.join(s1_list))

## 精確模式
s2_list = jieba.cut('他很愛講超派對不對', cut_all =False)
print('模式- 精確： ', ' | '.join(s2_list))

## 搜尋引擎模式
s3_list = jieba.cut_for_search('他很愛講超派對不對')
print('模式- 搜尋： ', ' | '.join(s3_list))

模式- 全  ：  他 | 很 | 愛 | 講 | 超派 | 派對 | 不 | 對
模式- 精確：  他 | 很 | 愛講 | 超派 | 對 | 不 | 對
模式- 搜尋：  他 | 很 | 愛講 | 超派 | 對 | 不 | 對


In [32]:
# 添加詞語
# jieba.add_word("超派", freq=None, tag=None)
jieba.add_word("超派", freq=10000, tag=None)

# 刪除詞語
# jieba.del_word("超派")

In [28]:
# 刪除可能干擾的詞語
jieba.del_word("愛講超")

## 長文應用示例

In [46]:
jieba.set_dictionary('dict.txt')

# 停用自定義詞典，恢復預設詞典
# jieba.initialize()

In [10]:
import jieba

# 待分析的文本
sentence = """
蘇貞昌表示，春節期間中國武漢肺炎疫情急遽升高，他在年假第一天就到中央流行疫情指揮中心聽取簡報，
並宣布提升到二級開設。年假期間，衛福部及相關機關幾乎都放棄休假，每天監控及因應各項疫情，
並宣布防疫資源整備情形及最新防疫作為，隨時讓國人瞭解最新疫情發展。因為資訊透明，應變迅速，
讓國人感受到「有政府，可放心」，感謝陳其邁副院長費心督導，對於年假期間各防疫機關人員的堅守崗位，
也表示肯定與感謝。
"""

# 全模式
s1_list = jieba.cut(sentence, cut_all=True)
print('模式- 全  ： ', ' | '.join(s1_list))
  
# 精確模式
s2_list = jieba.cut(sentence, cut_all=False)
print('模式- 精確： ', ' | '.join(s2_list))

# 搜尋引擎模式
s3_list = jieba.cut_for_search(sentence)
print('模式- 搜尋： ', ' | '.join(s3_list))


模式- 全  ：   | 
 |  | 蘇貞昌 | 表示 | ， | 春節 | 期間 | 中國 | 武漢 | 肺炎 | 疫情 | 情急 | 急遽 | 遽升 | 升高 | ， | 他 | 在 | 年假 | 第一天 | 就 | 到 | 中央 | 流行 | 疫情 | 指揮 | 揮中 | 中心 | 聽取 | 簡報 | ， | 
 |  | 並 | 宣布 | 提升 | 提升到 | 升到 | 二級 | 開設 | 。 | 年假 | 假期 | 期間 | ， | 衛福 | 衛福部 | 福部 | 及 | 相關 | 相關機 | 關機 | 機關 | 幾乎 | 都 | 放棄 | 休假 | ， | 每天 | 監控 | 及 | 因應 | 各 | 項 | 疫情 | ， | 
 |  | 並 | 宣布 | 布防 | 防疫 | 資源 | 整備 | 情形 | 及 | 最新 | 防疫 | 作為 | ， | 隨時 | 讓 | 國人 | 瞭解 | 最新 | 疫情 | 發展 | 。 | 因為 | 資訊 | 透明 | ， | 應變 | 迅速 | ， | 
 |  | 讓 | 國人 | 感受 | 感受到 | 受到 | 「 | 有 | 政府 | ， | 可 | 放心 | 」， | 感謝 | 陳其邁 | 副院長 | 院長 | 費心 | 督導 | ， | 對於 | 年假 | 假期 | 期間 | 各 | 防疫 | 機關 | 關人 | 人員 | 的 | 堅守 | 崗位 | ， | 
 |  | 也 | 表示 | 肯定 | 與 | 感謝 | 。 | 
 | 
模式- 精確：  
 | 蘇貞昌 | 表示 | ， | 春節 | 期間 | 中國 | 武漢 | 肺炎 | 疫情 | 急遽 | 升高 | ， | 他 | 在 | 年假 | 第一天 | 就 | 到 | 中央 | 流行 | 疫情 | 指揮 | 中心 | 聽取 | 簡報 | ， | 
 | 並 | 宣布 | 提升到 | 二級 | 開設 | 。 | 年假 | 期間 | ， | 衛福部 | 及 | 相關 | 機關 | 幾乎 | 都 | 放棄 | 休假 | ， | 每天 | 監控 | 及 | 因應 | 各項 | 疫情 | ， | 
 | 並 | 宣布 | 防疫 | 資源 | 整備 | 情形 | 及 | 最 | 新 | 防疫 | 作為 | ， | 隨時 | 讓 | 國人 | 瞭解 | 最

In [11]:
def calculate_accuracy(correct_segmentation, test_segmentation):
    # 將正確斷詞結果和測試斷詞結果轉換為集合
    correct_set = set(correct_segmentation.split(' / '))
    test_set = set(test_segmentation.split(' | '))

    # 計算正確識別的詞語數量
    correct_count = len(correct_set & test_set)

    # 計算正確率
    accuracy = correct_count / len(correct_set)
    return accuracy

# 正確的斷詞結果
correct_segmentation = "蘇貞昌 / 表示 / ， / 春節 / 期間 / 新冠 / 肺炎 / 疫情 / 急遽 / 升高 / ， / 他 / 在 / 年假 / 第一天 / 就 / 到 / 中央 / 流行 / 疫情 / 指揮中心 / 聽取 / 簡報 / ， / 並 / 宣布 / 提升 / 到 / 二級 / 開設 / 。 / 年假 / 期間 / ， / 衛福部 / 及 / 相關 / 機關 / 幾乎 / 都 / 放棄 / 休假 / ， / 每天 / 監控 / 及 / 因應 / 各項 / 疫情 / ， / 並 / 宣布 / 防疫 / 資源 / 整備 / 情形 / 及 / 最新 / 防疫 / 作為 / ， / 隨時 / 讓 / 國人 / 瞭解 / 最新 / 疫情 / 發展 / 。 / 因為 / 資訊 / 透明 / ， / 應變 / 迅速 / ， / 讓 / 國人 / 感受到 / 「 / 有 / 政府 / ， / 可 / 放心 / 」 / ， / 感謝 / 陳其邁 / 副院長 / 費心 / 督導 / ， / 對於 / 年假 / 期間 / 各 / 防疫 / 機關 / 人員 / 的 / 堅守 / 崗位 / ， / 也 / 表示 / 肯定 / 與 / 感謝 / 。"

# 測試的斷詞結果
test_segmentation = "蘇貞昌 | 表示 | ， | 春節 | 期間 | 中國 | 武漢 | 肺炎 | 疫情 | 急遽 | 升高 | ， | 他 | 在 | 年假 | 第一天 | 就 | 到 | 中央 | 流行 | 疫情 | 指揮 | 中心 | 聽取 | 簡報 | ， | 並 | 宣布 | 提升 | 升到 | 提升到 | 二級 | 開設 | 。 | 年假 | 期間 | ， | 衛福 | 福部 | 衛福部 | 及 | 相關 | 機關 | 幾乎 | 都 | 放棄 | 休假 | ， | 每天 | 監控 | 及 | 因應 | 各項 | 疫情 | ，  | 並 | 宣布 | 防疫 | 資源 | 整備 | 情形 | 及 | 最 | 新 | 防疫 | 作為 | ， | 隨時 | 讓 | 國人 | 瞭解 | 最 | 新 | 疫情 | 發展 | 。 | 因為 | 資訊 | 透明 | ， | 應變 | 迅速 | ，  | 讓 | 國人 | 感受 | 受到 | 感受到 | 「 | 有 | 政府 | ， | 可 | 放心 | 」 | ， | 感謝 | 陳其邁 | 院長 | 副院長 | 費心 | 督導 | ， | 對於 | 年假 | 期間 | 各 | 防疫 | 機關 | 人員 | 的 | 堅守 | 崗位 | ，  | 也 | 表示 | 肯定 | 與 | 感謝 | 。"

# 計算正確率
accuracy = calculate_accuracy(correct_segmentation, test_segmentation)
print(f"正確率: {accuracy * 100:.2f}%")


正確率: 96.05%


In [23]:
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

# 週報內容
report = """
一、本週主要活動

1. 招聘活動
   - 舉辦了兩場線上招聘會，共計吸引了120名候選人參加。
   - 參加了當地的大學校園招聘活動，面試了50名畢業生。

2. 候選人篩選
   - 初步篩選了300份簡歷，選出50名合適的候選人進入下一輪面試。
   - 與技術部門協調進行了20場技術面試。

3. 錄用決策
   - 確定了10名候選人進入最終面試階段。
   - 發放了5份正式錄用通知書，並得到了3名候選人的接受回覆。

二、本週進展

1. 招聘流程優化
   - 完成了招聘流程的優化方案，減少了簡歷篩選和面試安排的時間。
   - 實施了新的面試反饋機制，確保所有候選人在面試後能夠及時得到反饋。

2. 員工培訓
   - 安排了3場新員工入職培訓，幫助新員工快速融入公司。
   - 舉辦了2場招聘團隊內部培訓，提升團隊的招聘技能和效率。

三、未來計劃

1. 加強品牌宣傳
   - 計劃在社交媒體平台上進行更多的品牌宣傳活動，吸引更多優秀的候選人。
   - 準備製作新的招聘宣傳視頻，展示公司文化和工作環境。

2. 擴大招聘渠道
   - 計劃與更多的招聘網站和獵頭公司合作，擴大招聘渠道。
   - 設計新的招聘廣告，增加在各大招聘平台上的曝光率。
"""

# 使用jieba進行分詞
words = jieba.lcut(report)

# 將分詞結果合併為文本
processed_text = ' '.join(words)

# 使用TF-IDF提取關鍵字
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform([processed_text])
feature_names = vectorizer.get_feature_names_out()
tfidf_scores = tfidf_matrix.toarray()[0]

# 提取TF-IDF分數最高的前10個關鍵字
top_n = 10
top_keywords = sorted(zip(feature_names, tfidf_scores), key=lambda x: x[1], reverse=True)[:top_n]

# 顯示結果
for keyword, score in top_keywords:
    print(f"Keyword: {keyword}, Score: {score}")



Keyword: 招聘, Score: 0.547996624351191
Keyword: 活動, Score: 0.2191986497404764
Keyword: 選人, Score: 0.2191986497404764
Keyword: 面試, Score: 0.2191986497404764
Keyword: 候選人, Score: 0.1643989873053573
Keyword: 公司, Score: 0.1643989873053573
Keyword: 名候, Score: 0.1643989873053573
Keyword: 計劃, Score: 0.1643989873053573
Keyword: 50, Score: 0.1095993248702382
Keyword: 優化, Score: 0.1095993248702382
