In [2]:
# 导入第三方库
import pkuseg

In [4]:
# 示例1：使用默认模型及默认词典分词
seg = pkuseg.pkuseg()  # 以默认配置加载模型
text = seg.cut('北京大学和清华大学都在北京')  # 进行分词
print(text)

['北京', '大学', '和', '清华', '大学', '都', '在', '北京']


In [5]:
# 示例2：设置用户自定义词典
import pkuseg
myDict = ['北京大学','清华大学']  # 用户自定义的词典中的词在分词的时候不分开
seg = pkuseg.pkuseg(user_dict = myDict)  # 加载模型，并给定用户自定义词典
text = seg.cut('北京大学和清华大学都在北京')
print(text)

['北京大学', '和', '清华大学', '都', '在', '北京']


In [8]:
# 示例3：细领域分词，如果用户明确分词领域，推荐使用细领域模型分词
import pkuseg
seg = pkuseg.pkuseg(model_name='medicine')  # 程序会自动下载所对应的细领域模型
text = seg.cut('北京大学和清华大学都在北京')  # 进行分词
print(text)

Downloading: "https://github.com/lancopku/pkuseg-python/releases/download/v0.0.16/medicine.zip" to C:\Users\lenovo/.pkuseg\medicine.zip
100.0%


['北京大学', '和', '清华大学', '都', '在', '北京']


In [9]:
# 示例4：分词同时进行词性标注
import pkuseg
seg = pkuseg.pkuseg(postag=True)  # 开启词性标注功能
text = seg.cut('北京大学和清华大学都在北京')  # 进行分词和词性标注
print(text)

Downloading: "https://github.com/lancopku/pkuseg-python/releases/download/v0.0.16/postag.zip" to C:\Users\lenovo/.pkuseg\postag.zip
100.0%


[('北京', 'ns'), ('大学', 'n'), ('和', 'c'), ('清华', 'j'), ('大学', 'n'), ('都', 'd'), ('在', 'v'), ('北京', 'ns')]


### 词性表
    n   名词
    t   时间词
    s   处所词
    f   方位词
    m   数词
    q   量词
    b   区别词
    r   代词
    v   动词
    a   形容词
    z   状态词
    d   副词
    p   介词
    c   连词
    u   助词
    y   语气词
    e   叹词
    o   拟声词
    i   成语
    l   习惯用语
    j   简称
    h   前接成分
    k   后接成分
    g   语素
    x   非语素字
    w   标点符号
    nr  人名
    ns  地名
    nt  机构名称
    nx  外文字符
    nz  其它专名
    vd  副动词
    vn  名动词
    vx  形式动词
    ad  副形词
    an  名形词

In [11]:
# 示例5：对文件进行分词
import pkuseg

# 对input.txt的文件分词输出到output.txt中
# 开20个进程
pkuseg.test('NBA.txt', 'output.txt', nthread=20)  

total_time:	45.956


In [13]:
# 示例5：额外使用用户自定义词典
import pkuseg

seg = pkuseg.pkuseg(user_dict='my_dict.txt')  # 给定用户词典为当前目录下的"my_dict.txt"
text = seg.cut('北京大学和清华大学都在北京')                # 进行分词
print(text)

['北京大学', '和', '清华大学', '都在', '北京']


In [21]:
# 示例6：使用自训练模型分词（以CTB8模型为例）
import pkuseg

# seg = pkuseg.pkuseg(model_name='./ctb8')  # 假设用户已经下载好了ctb8的模型并放在了'./ctb8'目录下，通过设置model_name加载该模型
seg = pkuseg.pkuseg(model_name='./msra')
# seg = pkuseg.pkuseg(model_name='./weibo')
text = seg.cut('北京大学和清华大学都在北京')            # 进行分词
print(text)

['北京大学', '和', '清华大学', '都', '在', '北京']


In [22]:
# 示例7：训练新模型（模型随机初始化）
import pkuseg

# 训练文件为'msr_training.utf8'
# 测试文件为'msr_test_gold.utf8'
# 训练好的模型存到'./models'目录下
# 训练模式下会保存最后一轮模型作为最终模型
# 目前仅支持utf-8编码，训练集和测试集要求所有单词以单个或多个空格分开

# pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models')
# 此处就不就训练了

In [23]:
# 示例8：fine-tune训练（从预加载的模型继续训练）
import pkuseg

# 训练文件为'train.txt'
# 测试文件为'test.txt'
# 加载'./pretrained'目录下的模型，训练好的模型保存在'./models'，训练10轮
# pkuseg.train('train.txt', 'test.txt', './models', train_iter=10, init_model='./pretrained')