In [None]:
# 基于字典的中文分词

本notebook演示如何使用jieba进行基于字典的中文分词，包括自定义词典的使用。

## 任务目标
1. 加载自定义词典
2. 验证词典效果
3. 对比分词结果


In [None]:
# 导入必要的库
import jieba
import jieba.posseg as pseg

# 检查jieba版本
print(f"jieba版本: {jieba.__version__}")
print("=" * 50)


In [None]:
## 载入词典

使用jieba.load_userdict()方法加载自定义词典，确保Claude等专有名词能被正确识别。


In [None]:
# 测试句子
test_sentence = "Claude即将是自然语言处理方面的高手。"

print("1. 加载自定义词典前的分词结果：")
print("=" * 40)
seg_list_before = jieba.cut(test_sentence, HMM=False)
result_before = "/ ".join(seg_list_before)
print(f"分词结果: {result_before}")

# 检查Claude是否被正确识别
if "Claude" in result_before:
    print("✓ Claude 被正确识别为一个完整词汇")
else:
    print("✗ Claude 未能被正确识别")

print("\n2. 加载自定义词典...")
# 载入自定义词典
jieba.load_userdict('./userdict.txt')
print("自定义词典加载完成！")

print("\n3. 加载自定义词典后的分词结果：")
print("=" * 40)
# 使用jieba.cut方法，设置参数HMM=False，对句子进行分词
seg_list_after = jieba.cut(test_sentence, HMM=False)
result_after = "/ ".join(seg_list_after)
print(f"分词结果: {result_after}")

# 验证Claude是否被正确识别
if "Claude" in result_after:
    print("✓ Claude 被正确识别为一个完整词汇")
else:
    print("✗ Claude 未能被正确识别")

print("\n4. 分词效果对比：")
print("=" * 40)
print(f"加载词典前: {result_before}")
print(f"加载词典后: {result_after}")


In [None]:
# 基于字典的中文分词

本notebook演示如何使用jieba进行基于字典的中文分词，包括自定义词典的使用。

## 任务目标
1. 加载自定义词典
2. 验证词典效果
3. 对比分词结果


In [None]:
# 导入必要的库
import jieba
import jieba.posseg as pseg

# 检查jieba版本
print(f"jieba版本: {jieba.__version__}")
print("=" * 50)


In [None]:
## 载入词典

使用jieba.load_userdict()方法加载自定义词典，确保Claude等专有名词能被正确识别。


In [None]:
# 测试句子
test_sentence = "Claude即将是自然语言处理方面的高手。"

print("1. 加载自定义词典前的分词结果：")
print("=" * 40)
seg_list_before = jieba.cut(test_sentence, HMM=False)
result_before = "/ ".join(seg_list_before)
print(f"分词结果: {result_before}")

# 检查Claude是否被正确识别
if "Claude" in result_before:
    print("✓ Claude 被正确识别为一个完整词汇")
else:
    print("✗ Claude 未能被正确识别")

print("\n2. 加载自定义词典...")
# 载入自定义词典
jieba.load_userdict('./userdict.txt')
print("自定义词典加载完成！")

print("\n3. 加载自定义词典后的分词结果：")
print("=" * 40)
# 使用jieba.cut方法，设置参数HMM=False，对句子进行分词
seg_list_after = jieba.cut(test_sentence, HMM=False)
result_after = "/ ".join(seg_list_after)
print(f"分词结果: {result_after}")

# 验证Claude是否被正确识别
if "Claude" in result_after:
    print("✓ Claude 被正确识别为一个完整词汇")
else:
    print("✗ Claude 未能被正确识别")

print("\n4. 分词效果对比：")
print("=" * 40)
print(f"加载词典前: {result_before}")
print(f"加载词典后: {result_after}")


In [None]:
# 基于字典的中文分词

本notebook演示如何使用jieba进行基于字典的中文分词，包括自定义词典的使用。

## 目录
1. jieba基础分词
2. 自定义词典加载
3. 分词效果对比
4. 词典验证


In [None]:
## 1. jieba基础分词


In [None]:
import jieba
import jieba.posseg as pseg

# 测试句子
test_sentence = "Hello Kitty即将是自然语言处理方面的高手。"

print("基础分词结果（未加载自定义词典）：")
seg_list = jieba.cut(test_sentence, HMM=False)
print("/ ".join(seg_list))

print("\n带词性标注的分词结果：")
words = pseg.cut(test_sentence)
for word, flag in words:
    print(f'{word} {flag}')


In [None]:
## 2. 载入词典

根据README中指定的自定义词典方法，我们创建了userdict.txt文件，按照格式把Hello Kitty等词汇加入词典。

词典格式参考：https://github.com/fxsjy/jieba/blob/master/test/userdict.txt

格式为：`词语 词频 词性`，其中词频和词性可以省略。


In [None]:
# 载入自定义词典，确保文件路径正确
jieba.load_userdict('./userdict.txt')

print("载入自定义词典后的分词结果：")
print("=" * 50)

# 使用jieba.cut方法，设置参数HMM=False，对句子进行分词
seg_list = jieba.cut("Hello Kitty即将是自然语言处理方面的高手。", HMM=False)
result = "/ ".join(seg_list)
print(f"分词结果: {result}")

# 验证Hello Kitty是否被正确切分为一个整词
print(f"\n验证结果:")
if "Hello Kitty" in result:
    print("✓ Hello Kitty 被正确识别为一个完整词汇")
else:
    print("✗ Hello Kitty 未能被正确识别")


In [None]:
# 基于字典的中文分词

本notebook演示如何使用jieba进行基于字典的中文分词，包括自定义词典的使用。

## 目录
1. jieba基础分词
2. 载入自定义词典
3. 分词效果对比
4. 词典验证


In [None]:
## 1. jieba基础分词


In [None]:
import jieba
import jieba.posseg as pseg

# 测试句子
test_sentence = "Hello Kitty即将是自然语言处理方面的高手。"

print("原始分词结果：")
seg_list = jieba.cut(test_sentence, HMM=False)
print("/ ".join(seg_list))

print("\n带词性标注的分词结果：")
words = pseg.cut(test_sentence)
for word, flag in words:
    print(f'{word} {flag}')


In [None]:
## 2. 载入词典

我们创建了userdict.txt文件，包含Hello Kitty相关的词汇。现在载入这个自定义词典。


In [None]:
# 载入自定义词典
jieba.load_userdict('./userdict.txt')

print("载入自定义词典后的分词结果：")
seg_list = jieba.cut(test_sentence, HMM=False)
print("/ ".join(seg_list))

print("\n带词性标注的分词结果：")
words = pseg.cut(test_sentence)
for word, flag in words:
    print(f'{word} {flag}')
