2-gram中文分词模型（基于统计）

模型精度：

评价标准	结果
准确率	88.283286%
召回率	85.734634%
F-测度值	86.990296%

功能演示

分词

使用方法：

# 训练模型
    dictname = '30wChinsesSeqDic.txt'   # 词典资源
    train = 'train.txt'                 # 训练集
    with open(os.getcwd() + '/' + dictname, encoding='UTF-8-sig') as fp:
        with open(os.getcwd() + '/' + train, encoding='UTF-8-sig') as f:
            model = _NGramModel(cdict=fp, train=f, smooth=1)
# 分词演示
    text = model.split('什么是金融资本呢？金融资本就是在实现剩余商品到货币的转换以后，在如何分配这些货币资本的问题上纠缠不休的资本。也就是说，金融资本是在工业资本完成了由货币到商品（即购买生产资料和雇工）和再由商品到货币（即产品市场出卖）的两个转换以后，在蛋糕造好了以后，就如何分蛋糕的抢夺中，通过贷款利息、股权和期货交易等等手段大显身手的资本。金融资本本身和商品价值的创造毫无关系，因而它是寄生性的。')
    print(text)

被切分文本： 什么是金融资本呢？金融资本就是在实现剩余商品到货币的转换以后，在如何分配这些货币资本的问题上纠缠不休的资本。也就是说，金融资本是在工业资本完成了由货币到商品（即购买生产资料和雇工）和再由商品到货币（即产品市场出卖）的两个转换以后，在蛋糕造好了以后，就如何分蛋糕的抢夺中，通过贷款利息、股权和期货交易等等手段大显身手的资本。金融资本本身和商品价值的创造毫无关系，因而它是寄生性的。
切分结果： 什么/是/金融资本/呢/？/金融资本/就是/在/实现/剩余/商品/到/货币/的/转换/以后/，/在/如何/分配/这些/货币资本/的/问题/上/纠缠/不休/的/资本/。/也就是说/，/金融资本/是在/工业/资本/完成/了/由/货币/到/商品/（/即/购买/生产资料/和/雇工/）/和/再/由/商品/到/货币/（/即/产品市场/出卖/）/的/两个/转换/以后/，/在/蛋糕/造/好/了/以后/，/就/如何/分/蛋糕/的/抢夺/中/，/通过/贷款/利息/、/股权/和/期货/交易/等等/手段/大显身手/的/资本/。/金融资本/本身/和/商品/价值/的/创造/毫/无/关系/，/因而/它/是/寄生性/的/。

未登录词识别

使用方法：

# 未登录词识别
    with open(os.getcwd() + '/COAE2015微博观点句识别语料.txt', encoding='UTF-8-sig') as fp:
        words = model.findwords(fp)
    print('未登录词识别结果：', words)

未登录词识别结果： {'被砸': 210, '爱疯': 162, '四驱': 214, '触屏': 91, '愤青': 101, '秒杀': 130, '跨界': 101, '迈腾': 698, '傻逼': 93, '刘翔': 183, '吐槽': 152, '尊享': 130, '双节': 217, '谷歌': 349, '抱着': 59, '前脸': 217, '爸妈': 71, '脑残': 134, '魅族': 708, '微博': 1538, '杨幂': 117, '触控': 107, '四核': 464, '干嘛': 125, '官网': 227}

运行截图

运行环境
- PyCharm Community Edition 2020.1 x64

更新日志

2020/5/21 -完成了基本的分词功能。
2020/5/25 -对原有代码进行了小幅度的性能优化;
　　　　　 完成了基本的未登录词识别功能。（会尝试在后续的更新中继续对其性能优化）

Name		Name	Last commit message	Last commit date
Latest commit History 40 Commits
Image		Image
.gitignore		.gitignore
30wChinsesSeqDic.txt		30wChinsesSeqDic.txt
Bgram.py		Bgram.py
COAE2015微博观点句识别语料.txt		COAE2015微博观点句识别语料.txt
README.md		README.md
answer.txt		answer.txt
test.txt		test.txt
train.txt		train.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

2-gram中文分词模型（基于统计）

模型精度：

功能演示

分词

未登录词识别

运行截图

更新日志

About

Releases

Packages

Languages

VilTea/2-gram

Folders and files

Latest commit

History

Repository files navigation

2-gram中文分词模型（基于统计）

模型精度：

功能演示

分词

未登录词识别

运行截图

更新日志

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages