# 分词

pyhanlp可以自定义多种分词规则和模型，也可以加入自定义词典，经测试，默认的分词方法效果就不错，而且兼备词性标注以及命名实体识别，可以识别人名、地名、机构名等信息。

In [1]:
#! pip install pyhanlp
from pyhanlp import *
sentence = "下雨天地面积水"

# 返回一个list，每个list是一个分词后的Term对象，可以获取word属性和nature属性，分别对应的是词和词性
terms = HanLP.segment(sentence )  
for term in terms:
	print(term.word,term.nature)

下雨天 n
地面 n
积水 n


# 关键词提取与自动摘要

In [2]:
from pyhanlp import *

document = "水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露，" \
           "根据刚刚完成了水资源管理制度的考核，有部分省接近了红线的指标，" \
           "有部分省超过红线的指标。对一些超过红线的地方，陈明忠表示，对一些取用水项目进行区域的限批，" \
           "严格地进行水资源论证和取水许可的批准。"

# 提取document的两个关键词
print(HanLP.extractKeyword(document, 2))

[水资源, 陈明忠]


# 提取ducument中的3个关键句作为摘要

In [3]:
print(HanLP.extractSummary(document, 3))

[严格地进行水资源论证和取水许可的批准, 水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露, 有部分省超过红线的指标]


# 依存句法分析

In [4]:
from pyhanlp import *
print(HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。"))

1	徐先生	徐先生	nh	nr	_	4	主谓关系	_	_
2	还	还	d	d	_	4	状中结构	_	_
3	具体	具体	a	ad	_	4	状中结构	_	_
4	帮助	帮助	v	v	_	0	核心关系	_	_
5	他	他	r	r	_	4	兼语	_	_
6	确定	确定	v	v	_	4	动宾关系	_	_
7	了	了	u	u	_	6	右附加关系	_	_
8	把	把	p	p	_	15	状中结构	_	_
9	画	画	v	v	_	8	介宾关系	_	_
10	雄鹰	雄鹰	n	n	_	9	动宾关系	_	_
11	、	、	wp	w	_	12	标点符号	_	_
12	松鼠	松鼠	n	n	_	10	并列关系	_	_
13	和	和	c	c	_	14	左附加关系	_	_
14	麻雀	麻雀	n	n	_	10	并列关系	_	_
15	作为	作为	v	v	_	6	动宾关系	_	_
16	主攻	主攻	v	vn	_	17	定中关系	_	_
17	目标	目标	n	n	_	15	动宾关系	_	_
18	。	。	wp	w	_	4	标点符号	_	_



# 共性分析
共性 是指 文本中词语共同出现的情况。
一阶共性分析也就是统计词频，二阶分析和三阶分析主要用来发现短语。
调用hanlp的共性分析模块，可以发现2个词或者3个词的出现次数（tf）、互信息（mi），左熵（le）、右熵（re）以及score。


# 一阶共性分析，也就是词频统计

In [9]:
from pyhanlp import * 
# 共性分析
Occurrence = JClass("com.hankcs.hanlp.corpus.occurrence.Occurrence")
PairFrequency = JClass("com.hankcs.hanlp.corpus.occurrence.PairFrequency")
TermFrequency = JClass("com.hankcs.hanlp.corpus.occurrence.TermFrequency")
TriaFrequency = JClass("com.hankcs.hanlp.corpus.occurrence.TriaFrequency")

occurrence = Occurrence()
occurrence.addAll("在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法")
occurrence.compute()

unigram = occurrence.getUniGram()
for entry in unigram.iterator():
    term_frequency = entry.getValue()
    print(term_frequency)
print()

一阶共性分析，也就是词频统计
信息=1
先进=1
图形图像=1
处理=2
技术=1
方面=1
比较=1
目前=1
算法=2
视频=1
计算机=1
音视频=1



# 三阶共性分析

In [14]:

bigram = occurrence.getBiGram()
for entry in bigram.iterator():
    pair_frequency = entry.getValue()
    if pair_frequency.isRight():
        print(pair_frequency)
print()

二阶共性分析
信息→算法= tf=1 mi=8.856243954648566 le=0.0 re=0.0 score=0.8178260731171406
先进→视频= tf=1 mi=6.594180024229758 le=0.0 re=0.0 score=0.6089367436420529
图形图像→技术= tf=1 mi=20.46090157247892 le=0.0 re=0.0 score=1.8894532344802353
处理→方面= tf=1 mi=4.04319404601706 le=0.0 re=0.0 score=0.37336703081322803
处理→算法= tf=1 mi=9.247593120777918 le=0.0 re=0.0 score=0.8539650450551528
技术→信息= tf=1 mi=4.012478779454232 le=0.0 re=0.0 score=0.3705306426145223
方面→目前= tf=1 mi=12.825210015738996 le=0.0 re=0.0 score=1.184338552301167
比较→先进= tf=1 mi=6.050081533887511 le=0.0 re=0.0 score=0.5586922004672908
目前→比较= tf=1 mi=13.377862072309142 le=0.0 re=0.0 score=1.2353729709033823
算法→处理= tf=1 mi=9.247593120777918 le=0.0 re=0.0 score=0.8539650450551528
视频→处理= tf=1 mi=5.139944592929454 le=0.0 re=0.0 score=0.4746459925902054
计算机→音视频= tf=1 mi=20.46090157247892 le=0.0 re=0.0 score=1.8894532344802353
音视频→图形图像= tf=1 mi=20.46090157247892 le=0.0 re=0.0 score=1.8894532344802353



# '三阶共性分析'

In [11]:
trigram = occurrence.getTriGram()
for entry in trigram.iterator():
    tria_frequency = entry.getValue()
    if tria_frequency.isRight():
        print(tria_frequency)

三阶共性分析
信息→算法→处理= tf=1 mi=0.0 le=0.0 re=0.0
先进→视频→处理= tf=1 mi=0.0 le=0.0 re=0.0
图形图像→技术→信息= tf=1 mi=0.0 le=0.0 re=0.0
处理→方面→目前= tf=1 mi=0.0 le=0.0 re=0.0
技术→信息→算法= tf=1 mi=0.0 le=0.0 re=0.0
方面→目前→比较= tf=1 mi=0.0 le=0.0 re=0.0
比较→先进→视频= tf=1 mi=0.0 le=0.0 re=0.0
目前→比较→先进= tf=1 mi=0.0 le=0.0 re=0.0
算法→处理→方面= tf=1 mi=0.0 le=0.0 re=0.0
视频→处理→算法= tf=1 mi=0.0 le=0.0 re=0.0
计算机→音视频→图形图像= tf=1 mi=0.0 le=0.0 re=0.0
音视频→图形图像→技术= tf=1 mi=0.0 le=0.0 re=0.0


# 短语提取

In [12]:
text = "在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法"
phraseList = HanLP.extractPhrase(text, 10)
print(phraseList);

[图形图像技术, 计算机音视频, 音视频图形图像, 处理算法, 算法处理, 信息算法, 先进视频, 比较先进, 视频处理, 方面比较]


In [15]:
# -*- coding:utf-8 -*-
# Author：hankcs
# Date: 2018-05-23 17:26
import os
from pyhanlp import SafeJClass
from tests.test_utility import ensure_data

NaiveBayesClassifier = SafeJClass('com.hankcs.hanlp.classification.classifiers.NaiveBayesClassifier')
IOUtil = SafeJClass('com.hankcs.hanlp.corpus.io.IOUtil')
sogou_corpus_path = ensure_data('搜狗文本分类语料库迷你版',
                                'http://file.hankcs.com/corpus/sogou-text-classification-corpus-mini.zip')


def train_or_load_classifier():
    model_path = sogou_corpus_path + '.ser'
    if os.path.isfile(model_path):
        return NaiveBayesClassifier(IOUtil.readObjectFrom(model_path))
    classifier = NaiveBayesClassifier()
    classifier.train(sogou_corpus_path)
    model = classifier.getModel()
    IOUtil.saveObjectTo(model, model_path)
    return NaiveBayesClassifier(model)


def predict(classifier, text):
    print("《%16s》\t属于分类\t【%s】" % (text, classifier.classify(text)))
    # 如需获取离散型随机变量的分布，请使用predict接口
    # print("《%16s》\t属于分类\t【%s】" % (text, classifier.predict(text)))


if __name__ == '__main__':
    classifier = train_or_load_classifier()
    predict(classifier, "C罗获2018环球足球奖最佳球员 德尚荣膺最佳教练")
    predict(classifier, "英国造航母耗时8年仍未服役 被中国速度远远甩在身后")
    predict(classifier, "研究生考录模式亟待进一步专业化")
    predict(classifier, "如果真想用食物解压,建议可以食用燕麦")
predict(classifier, "通用及其部分竞争对手目前正在考虑解决库存问题")

ModuleNotFoundError: No module named 'tests.test_utility'