In [1]:
from pyhanlp import HanLP, JClass

In [2]:
sentence="他在浙江金华出生"
conll = HanLP.parseDependency(sentence).__str__()
print(conll)

1	他	他	r	r	_	5	主谓关系	_	_
2	在	在	p	p	_	5	状中结构	_	_
3	浙江	浙江	ns	ns	_	4	定中关系	_	_
4	金华	金华	nh	nr	_	2	介宾关系	_	_
5	出生	出生	v	v	_	0	核心关系	_	_



In [35]:
def describe_rel(word):
    if word.DEPREL=="主谓关系":
        print("\tactor: {}".format(word.LEMMA))
    elif word.DEPREL=="动宾关系":
        print("\tobject: {}".format(word.LEMMA))
    elif word.DEPREL=="标点符号":
        pass
    else:    
        print("\trel.{}({}): {}".format(word.POSTAG, word.DEPREL, word.LEMMA))

In [37]:
sentence="总统普京与特朗普通电话讨论美国太空探索技术公司。"
conll = HanLP.parseDependency(sentence)
coreindex=0
for word in conll.iterator():
    if word.HEAD==CoNLLWord.ROOT:
        coreindex=word.ID
        print("core: {} - {}".format(word.POSTAG, word.LEMMA))
for word in conll.iterator():
    if word.HEAD.ID==coreindex:
        describe_rel(word)

print(NLPTokenizer.analyze(sentence))
print("** "+sentence)

core: vn - 通
	actor: 普京
	rel.b(状中结构): 特朗普
	object: 电话
	rel.v(并列关系): 讨论
总统/n 普京/nr 与/c 特朗普/nr 通/vn 电话/n 讨论/v 美国/ns 太空/s 探索/vn 技术/n 公司/n 。/w
** 总统普京与特朗普通电话讨论美国太空探索技术公司。


In [None]:
## to json

In [30]:
NLPTokenizer = JClass("com.hankcs.hanlp.tokenizer.NLPTokenizer")
print(NLPTokenizer.segment("我新造一个词叫幻想乡你能识别并正确标注词性吗？"))  # “正确”是副形词。
# 注意观察下面两个“希望”的词性、两个“晚霞”的词性
print(NLPTokenizer.analyze("我的希望是希望张晚霞的背影被晚霞映红").translateLabels())
print(NLPTokenizer.analyze("支援臺灣正體香港繁體：微软公司於1975年由比爾·蓋茲和保羅·艾倫創立。"))

[我/r, 新/d, 造/v, 一个/m, 词/n, 叫/v, 幻想乡/ns, 你/r, 能/v, 识别/v, 并/c, 正确/ad, 标注/v, 词性/n, 吗/y, ？/w]
我/代词 的/助词 希望/名词 是/动词 希望/动词 张晚霞/人名 的/助词 背影/名词 被/介词 晚霞/名词 映红/人名
支援/v 臺灣/ns 正體/n 香港/ns 繁體/n ：/v [微软/nt 公司/n]/nt 於/p 1975年/t 由/p 比爾·蓋茲/n 和/c 保羅·艾倫/nr 創立/v 。/w


In [32]:
print(NLPTokenizer.segment("总统普京与特朗普通电话讨论美国太空探索技术公司。"))
print(NLPTokenizer.analyze("总统普京与特朗普通电话讨论美国太空探索技术公司。"))

[总统/n, 普京/nr, 与/c, 特朗普/b, 通/vn, 电话/n, 讨论/v, 美国/ns, 太空/s, 探索/vn, 技术/n, 公司/n, 。/w]
总统/n 普京/nr 与/c 特朗普/nr 通/vn 电话/n 讨论/v 美国/ns 太空/s 探索/vn 技术/n 公司/n 。/w


In [5]:
sentence = HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。")
for word in sentence.iterator():  # 通过dir()可以查看sentence的方法
    print(word.ID)
    print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))
print()

1
徐先生 --(主谓关系)--> 帮助
2
还 --(状中结构)--> 帮助
3
具体 --(状中结构)--> 帮助
4
帮助 --(核心关系)--> ##核心##
5
他 --(兼语)--> 帮助
6
确定 --(动宾关系)--> 帮助
7
了 --(右附加关系)--> 确定
8
把 --(状中结构)--> 作为
9
画 --(介宾关系)--> 把
10
雄鹰 --(动宾关系)--> 画
11
、 --(标点符号)--> 松鼠
12
松鼠 --(并列关系)--> 雄鹰
13
和 --(左附加关系)--> 麻雀
14
麻雀 --(并列关系)--> 雄鹰
15
作为 --(动宾关系)--> 确定
16
主攻 --(定中关系)--> 目标
17
目标 --(动宾关系)--> 作为
18
。 --(标点符号)--> 帮助



In [7]:
# 也可以直接拿到数组，任意顺序或逆序遍历
word_array = sentence.getWordArray()
for word in word_array:
    print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))
print()

# 还可以直接遍历子树，从某棵子树的某个节点一路遍历到虚根
CoNLLWord = JClass("com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord")
head = word_array[12]
while head.HEAD:
    head = head.HEAD
    if (head == CoNLLWord.ROOT):
        print(head.LEMMA)
    else:
        print("%s --(%s)--> " % (head.LEMMA, head.DEPREL))

徐先生 --(主谓关系)--> 帮助
还 --(状中结构)--> 帮助
具体 --(状中结构)--> 帮助
帮助 --(核心关系)--> ##核心##
他 --(兼语)--> 帮助
确定 --(动宾关系)--> 帮助
了 --(右附加关系)--> 确定
把 --(状中结构)--> 作为
画 --(介宾关系)--> 把
雄鹰 --(动宾关系)--> 画
、 --(标点符号)--> 松鼠
松鼠 --(并列关系)--> 雄鹰
和 --(左附加关系)--> 麻雀
麻雀 --(并列关系)--> 雄鹰
作为 --(动宾关系)--> 确定
主攻 --(定中关系)--> 目标
目标 --(动宾关系)--> 作为
。 --(标点符号)--> 帮助

麻雀 --(并列关系)--> 
雄鹰 --(动宾关系)--> 
画 --(介宾关系)--> 
把 --(状中结构)--> 
作为 --(动宾关系)--> 
确定 --(动宾关系)--> 
帮助 --(核心关系)--> 
##核心##


In [3]:
from pyhanlp import *


def demo_custom_dictionary(text):
    """ 演示用户词典的动态增删
    TO-DO:
    DoubleArrayTrie分词
    首字哈希之后二分的trie树分词

    >>> text = "攻城狮逆袭单身狗，迎娶白富美，走上人生巅峰"  # 怎么可能噗哈哈！
    >>> demo_custom_dictionary(text)
    [攻城/vi, 狮/ng, 逆袭/nz, 单身/n, 狗/n, ，/w, 迎娶/v, 白富美/nr, ，/w, 走上/v, 人生/n, 巅峰/n]
    [攻城狮/nz, 逆袭/nz, 单身狗/nz, ，/w, 迎娶/v, 白富美/nz, ，/w, 走上/v, 人生/n, 巅峰/n]
    """
    print(HanLP.segment(text))

    CustomDictionary = JClass("com.hankcs.hanlp.dictionary.CustomDictionary")
    CustomDictionary.add("攻城狮")  # 动态增加
    CustomDictionary.insert("白富美", "nz 1024")  # 强行插入
    #CustomDictionary.remove("攻城狮"); # 删除词语（注释掉试试）
    CustomDictionary.add("单身狗", "nz 1024 n 1")
    #print(CustomDictionary.get("单身狗"))

    print(HanLP.segment(text))

In [4]:
text = "攻城狮逆袭单身狗，迎娶白富美，走上人生巅峰"  # 怎么可能噗哈哈！
demo_custom_dictionary(text)

[攻城/vi, 狮/ng, 逆袭/nz, 单身/n, 狗/n, ，/w, 迎娶/v, 白富美/nr, ，/w, 走上/v, 人生/n, 巅峰/n]
[攻城狮/nz, 逆袭/nz, 单身狗/nz, ，/w, 迎娶/v, 白富美/nz, ，/w, 走上/v, 人生/n, 巅峰/n]


In [5]:
def demo_custom_nature():
    """ 演示自定义词性,以及往词典中插入自定义词性的词语
        !!!由于采用了反射技术,用户需对本地环境的兼容性和稳定性负责!!!

    TO-DO
    如果使用了动态词性之后任何类使用了switch(nature)语句,必须注册每个类

    >>> demo_custom_nature()
    n
    None
    电脑品牌
    [苹果电脑/电脑品牌, 可以/v, 运行/vn, 开源/v, 阿尔法/nrf, 狗/n, 代码/n, 吗/y]
    找到了 [电脑品牌] : 苹果电脑
    <BLANKLINE>
    [苹果电脑/电脑品牌, 可以/v, 运行/vn, 开源/v, 阿尔法狗/科技名词, 代码/n, 吗/y]
    """
    # 对于系统中已有的词性,可以直接获取
    Nature = JClass("com.hankcs.hanlp.corpus.tag.Nature")
    pc_nature = Nature.fromString("n")
    print(pc_nature)
    # 此时系统中没有"电脑品牌"这个词性
    pc_nature = Nature.fromString("电脑品牌")
    print(pc_nature)
    # 我们可以动态添加一个
    pc_nature = Nature.create("电脑品牌");
    print(pc_nature)
    # 可以将它赋予到某个词语
    LexiconUtility = JClass("com.hankcs.hanlp.utility.LexiconUtility")
    LexiconUtility.setAttribute("苹果电脑", pc_nature)
    # 或者
    LexiconUtility.setAttribute("苹果电脑", "电脑品牌 1000")
    # 它们将在分词结果中生效
    term_list = HanLP.segment("苹果电脑可以运行开源阿尔法狗代码吗")
    print(term_list)
    for term in term_list:
        if term.nature == pc_nature:
            print("找到了 [{}] : {}\n".format(pc_nature, term.word))

    # 还可以直接插入到用户词典
    CustomDictionary = JClass("com.hankcs.hanlp.dictionary.CustomDictionary")
    CustomDictionary.insert("阿尔法狗", "科技名词 1024")
    StandardTokenizer = JClass("com.hankcs.hanlp.tokenizer.StandardTokenizer")
    StandardTokenizer.SEGMENT.enablePartOfSpeechTagging(True)  # 依然支持隐马词性标注
    term_list = HanLP.segment("苹果电脑可以运行开源阿尔法狗代码吗")
    print(term_list)

In [6]:
demo_custom_nature()

n
None
电脑品牌
[苹果电脑/电脑品牌, 可以/v, 运行/vn, 开源/v, 阿尔法/nrf, 狗/n, 代码/n, 吗/y]
找到了 [电脑品牌] : 苹果电脑

[苹果电脑/电脑品牌, 可以/v, 运行/vn, 开源/v, 阿尔法狗/科技名词, 代码/n, 吗/y]


In [7]:
def demo_dependency_parser():
    """ 依存句法分析（CRF句法模型需要-Xms512m -Xmx512m -Xmn256m，
        MaxEnt和神经网络句法模型需要-Xms1g -Xmx1g -Xmn512m）

    >>> demo_dependency_parser()
    徐先生 --(主谓关系)--> 帮助
    还 --(状中结构)--> 帮助
    具体 --(状中结构)--> 帮助
    帮助 --(核心关系)--> ##核心##
    他 --(兼语)--> 帮助
    确定 --(动宾关系)--> 帮助
    了 --(右附加关系)--> 确定
    把 --(状中结构)--> 作为
    画 --(介宾关系)--> 把
    雄鹰 --(动宾关系)--> 画
    、 --(标点符号)--> 松鼠
    松鼠 --(并列关系)--> 雄鹰
    和 --(左附加关系)--> 麻雀
    麻雀 --(并列关系)--> 雄鹰
    作为 --(动宾关系)--> 确定
    主攻 --(定中关系)--> 目标
    目标 --(动宾关系)--> 作为
    。 --(标点符号)--> 帮助
    <BLANKLINE>
    徐先生 --(主谓关系)--> 帮助
    还 --(状中结构)--> 帮助
    具体 --(状中结构)--> 帮助
    帮助 --(核心关系)--> ##核心##
    他 --(兼语)--> 帮助
    确定 --(动宾关系)--> 帮助
    了 --(右附加关系)--> 确定
    把 --(状中结构)--> 作为
    画 --(介宾关系)--> 把
    雄鹰 --(动宾关系)--> 画
    、 --(标点符号)--> 松鼠
    松鼠 --(并列关系)--> 雄鹰
    和 --(左附加关系)--> 麻雀
    麻雀 --(并列关系)--> 雄鹰
    作为 --(动宾关系)--> 确定
    主攻 --(定中关系)--> 目标
    目标 --(动宾关系)--> 作为
    。 --(标点符号)--> 帮助
    <BLANKLINE>
    麻雀 --(并列关系)-->
    雄鹰 --(动宾关系)-->
    画 --(介宾关系)-->
    把 --(状中结构)-->
    作为 --(动宾关系)-->
    确定 --(动宾关系)-->
    帮助 --(核心关系)-->
    ##核心##
    """
    sentence = HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。")
    for word in sentence.iterator():  # 通过dir()可以查看sentence的方法
        print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))
    print()

    # 也可以直接拿到数组，任意顺序或逆序遍历
    word_array = sentence.getWordArray()
    for word in word_array:
        print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))
    print()

    # 还可以直接遍历子树，从某棵子树的某个节点一路遍历到虚根
    CoNLLWord = JClass("com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord")
    head = word_array[12]
    while head.HEAD:
        head = head.HEAD
        if (head == CoNLLWord.ROOT):
            print(head.LEMMA)
        else:
            print("%s --(%s)--> " % (head.LEMMA, head.DEPREL))

In [8]:
demo_dependency_parser()

徐先生 --(主谓关系)--> 帮助
还 --(状中结构)--> 帮助
具体 --(状中结构)--> 帮助
帮助 --(核心关系)--> ##核心##
他 --(兼语)--> 帮助
确定 --(动宾关系)--> 帮助
了 --(右附加关系)--> 确定
把 --(状中结构)--> 作为
画 --(介宾关系)--> 把
雄鹰 --(动宾关系)--> 画
、 --(标点符号)--> 松鼠
松鼠 --(并列关系)--> 雄鹰
和 --(左附加关系)--> 麻雀
麻雀 --(并列关系)--> 雄鹰
作为 --(动宾关系)--> 确定
主攻 --(定中关系)--> 目标
目标 --(动宾关系)--> 作为
。 --(标点符号)--> 帮助

徐先生 --(主谓关系)--> 帮助
还 --(状中结构)--> 帮助
具体 --(状中结构)--> 帮助
帮助 --(核心关系)--> ##核心##
他 --(兼语)--> 帮助
确定 --(动宾关系)--> 帮助
了 --(右附加关系)--> 确定
把 --(状中结构)--> 作为
画 --(介宾关系)--> 把
雄鹰 --(动宾关系)--> 画
、 --(标点符号)--> 松鼠
松鼠 --(并列关系)--> 雄鹰
和 --(左附加关系)--> 麻雀
麻雀 --(并列关系)--> 雄鹰
作为 --(动宾关系)--> 确定
主攻 --(定中关系)--> 目标
目标 --(动宾关系)--> 作为
。 --(标点符号)--> 帮助

麻雀 --(并列关系)--> 
雄鹰 --(动宾关系)--> 
画 --(介宾关系)--> 
把 --(状中结构)--> 
作为 --(动宾关系)--> 
确定 --(动宾关系)--> 
帮助 --(核心关系)--> 
##核心##


In [11]:
import time
def demo_high_speed_segment():
    """ 演示极速分词，基于DoubleArrayTrie实现的词典正向最长分词，适用于“高吞吐量”“精度一般”的场合

    >>> demo_high_speed_segment()
    [江西, 鄱阳湖, 干枯, ，, 中国, 最大, 淡水湖, 变成, 大草原]
    SpeedTokenizer分词速度：1253607.32字每秒
    """
    SpeedTokenizer = JClass("com.hankcs.hanlp.tokenizer.SpeedTokenizer")
    text = "江西鄱阳湖干枯，中国最大淡水湖变成大草原"
    JClass("com.hankcs.hanlp.HanLP$Config").ShowTermNature = False
    print(SpeedTokenizer.segment(text))

    start = time.time()
    pressure = 1000000
    for i in range(pressure):
        SpeedTokenizer.segment(text)
    cost_time = time.time() - start
    print("SpeedTokenizer分词速度：%.2f字每秒" % (len(text) * pressure / cost_time))


In [12]:
demo_high_speed_segment()

[江西, 鄱阳湖, 干枯, ，, 中国, 最大, 淡水湖, 变成, 大草原]
SpeedTokenizer分词速度：1228942.75字每秒


In [13]:
def demo_keyword(content):
    """ 关键词提取

    >>> content = (
    ...    "程序员(英文Programmer)是从事程序开发、维护的专业人员。"
    ...    "一般将程序员分为程序设计人员和程序编码人员，"
    ...    "但两者的界限并不非常清楚，特别是在中国。"
    ...    "软件从业人员分为初级程序员、高级程序员、系统"
    ...    "分析员和项目经理四大类。")
    >>> demo_keyword(content)
    [程序员, 程序, 分为, 人员, 软件]
    """
    TextRankKeyword = JClass("com.hankcs.hanlp.summary.TextRankKeyword")
    keyword_list = HanLP.extractKeyword(content, 5)
    print(keyword_list)


In [14]:
content = (
   "程序员(英文Programmer)是从事程序开发、维护的专业人员。"
   "一般将程序员分为程序设计人员和程序编码人员，"
   "但两者的界限并不非常清楚，特别是在中国。"
   "软件从业人员分为初级程序员、高级程序员、系统"
   "分析员和项目经理四大类。")
demo_keyword(content)

[程序员, 人员, 程序, 分为, 开发]


In [15]:
def demo_NLP_segment():
    """ NLP分词，更精准的中文分词、词性标注与命名实体识别
        标注集请查阅 https://github.com/hankcs/HanLP/blob/master/data/dictionary/other/TagPKU98.csv
        或者干脆调用 Sentence#translateLabels() 转为中文

    >>> demo_NLP_segment()
    [我/r, 新造/v, 一个/m, 词/n, 叫/v, 幻想乡/ns, 你/r, 能/v, 识别/v, 并/c, 正确/ad, 标注/v, 词性/n, 吗/y, ？/w]
    我/代词 的/助词 希望/名词 是/动词 希望/动词 张晚霞/人名 的/助词 背影/名词 被/介词 晚霞/名词 映/动词 红/形容词
    支援/v 臺灣/ns 正體/n 香港/ns 繁體/n ：/w [微软/nt 公司/n]/nt 於/p 1975年/t 由/p 比爾·蓋茲/n 和/c 保羅·艾倫/nr 創立/v 。/w
    """
    NLPTokenizer = JClass("com.hankcs.hanlp.tokenizer.NLPTokenizer")
    print(NLPTokenizer.segment("我新造一个词叫幻想乡你能识别并正确标注词性吗？"))  # “正确”是副形词。
    # 注意观察下面两个“希望”的词性、两个“晚霞”的词性
    print(NLPTokenizer.analyze("我的希望是希望张晚霞的背影被晚霞映红").translateLabels())
    print(NLPTokenizer.analyze("支援臺灣正體香港繁體：微软公司於1975年由比爾·蓋茲和保羅·艾倫創立。"))



In [16]:
demo_NLP_segment()

[我, 新, 造, 一个, 词, 叫, 幻想乡, 你, 能, 识别, 并, 正确, 标注, 词性, 吗, ？]
我/代词 的/助词 希望/名词 是/动词 希望/动词 张晚霞/人名 的/助词 背影/名词 被/介词 晚霞/名词 映红/人名
支援/v 臺灣/ns 正體/n 香港/ns 繁體/n ：/v [微软/nt 公司/n]/nt 於/p 1975年/t 由/p 比爾·蓋茲/n 和/c 保羅·艾倫/nr 創立/v 。/w


In [17]:
def demo_normalization():
    """ 演示正规化字符配置项的效果（繁体->简体，全角->半角，大写->小写）。
        该配置项位于hanlp.properties中，通过Normalization=true来开启
        切换配置后必须删除CustomDictionary.txt.bin缓存，否则只影响动态插入的新词。

    >>> demo_normalization()
    [爱听4g/nz]
    [爱听4g/nz]
    [爱听4g/nz]
    [爱听4g/nz]
    [爱听4g/nz]
    """
    CustomDictionary =JClass("com.hankcs.hanlp.dictionary.CustomDictionary")
    Config = JClass("com.hankcs.hanlp.HanLP$Config")

    Config.Normalization = True
    CustomDictionary.insert("爱听4G", "nz 1000")
    print(HanLP.segment("爱听4g"))
    print(HanLP.segment("爱听4G"))
    print(HanLP.segment("爱听４G"))
    print(HanLP.segment("爱听４Ｇ"))
    print(HanLP.segment("愛聽４Ｇ"))

In [18]:
demo_normalization()

[爱听4g]
[爱听4g]
[爱听4g]
[爱听4g]
[爱听4g]


In [22]:
def demo_number_and_quantifier_recognition(sentences):
    """ 演示数词和数量词识别

    >>> sentences = [
    ...    "十九元套餐包括什么",
    ...    "九千九百九十九朵玫瑰",
    ...    "壹佰块都不给我",
    ...    "９０１２３４５６７８只蚂蚁",
    ...    "牛奶三〇〇克*2",
    ...    "ChinaJoy“扫黄”细则露胸超2厘米罚款",
    ... ]
    >>> demo_number_and_quantifier_recognition(sentences)
    [十九元/mq, 套餐/n, 包括/v, 什么/ry]
    [九千九百九十九朵/mq, 玫瑰/n]
    [壹佰块/mq, 都/d, 不/d, 给/p, 我/rr]
    [９０１２３４５６７８只/mq, 蚂蚁/n]
    [牛奶/nf, 三〇〇克/mq, */w, 2/m]
    [ChinaJoy/nx, “/w, 扫黄/vi, ”/w, 细则/n, 露/v, 胸/ng, 超/v, 2厘米/mq, 罚款/vi]
    """
    StandardTokenizer = JClass("com.hankcs.hanlp.tokenizer.StandardTokenizer")

    StandardTokenizer.SEGMENT.enableNumberQuantifierRecognize(True)
    for sentence in sentences:
        print(StandardTokenizer.segment(sentence))

In [23]:
sentences = [
   "十九元套餐包括什么",
   "九千九百九十九朵玫瑰",
   "壹佰块都不给我",
   "９０１２３４５６７８只蚂蚁",
   "牛奶三〇〇克*2",
   "ChinaJoy“扫黄”细则露胸超2厘米罚款",
]
demo_number_and_quantifier_recognition(sentences)

[十九元, 套餐, 包括, 什么]
[九千九百九十九朵, 玫瑰]
[壹佰块, 都, 不, 给, 我]
[9012345678只, 蚂蚁]
[牛奶, 三〇〇克, *, 2]
[chinajoy, ", 扫黄, ", 细则, 露, 胸, 超, 2厘米, 罚款]


In [24]:
def demo_organization_recognition(sentences):
    """ 机构名识别

    >>> sentences = [
    ...    "我在上海林原科技有限公司兼职工作，",
    ...    "我经常在台川喜宴餐厅吃饭，",
    ...    "偶尔去开元地中海影城看电影。",
    ... ]
    >>> demo_organization_recognition(sentences)
    [我/rr, 在/p, 上海/ns, 林原科技有限公司/nt, 兼职/vn, 工作/vn, ，/w]
    [我/rr, 经常/d, 在/p, 台川喜宴餐厅/nt, 吃饭/vi, ，/w]
    [偶尔/d, 去/vf, 开元地中海影城/nt, 看/v, 电影/n, 。/w]
    """
    Segment = JClass("com.hankcs.hanlp.seg.Segment")
    Term = JClass("com.hankcs.hanlp.seg.common.Term")

    segment = HanLP.newSegment().enableOrganizationRecognize(True)
    for sentence in sentences:
        term_list = segment.seg(sentence)
        print(term_list)

sentences = [
   "我在上海林原科技有限公司兼职工作，",
   "我经常在台川喜宴餐厅吃饭，",
   "偶尔去开元地中海影城看电影。",
]
demo_organization_recognition(sentences)

[我, 在, 上海, 林原科技有限公司, 兼职, 工作, ,]
[我, 经常, 在, 台川喜宴餐厅, 吃饭, ,]
[偶尔, 去, 开元地中海影城, 看, 电影, 。]


In [25]:
def demo_pos_tagging():
    """ 词性标注

    >>> demo_pos_tagging()
    未标注： [教授/nnt, 正在/d, 教授/nnt, 自然语言处理/nz, 课程/n]
    标注后： [教授/nnt, 正在/d, 教授/v, 自然语言处理/nz, 课程/n]
    """
    Segment = JClass("com.hankcs.hanlp.seg.Segment")
    text = "教授正在教授自然语言处理课程"
    segment = HanLP.newSegment()

    print("未标注：", segment.seg(text))
    segment.enablePartOfSpeechTagging(True)
    print("标注后：", segment.seg(text))

demo_pos_tagging()

未标注： [教授, 正在, 教授, 自然语言处理, 课程]
标注后： [教授, 正在, 教授, 自然语言处理, 课程]


In [27]:
import zipfile
import os

from pyhanlp.static import download, remove_file, HANLP_DATA_PATH


def test_data_path():
    """
    获取测试数据路径，位于$root/data/test，根目录由配置文件指定。
    :return:
    """
    data_path = os.path.join(HANLP_DATA_PATH, 'test')
    if not os.path.isdir(data_path):
        os.mkdir(data_path)
    return data_path


def ensure_data(data_name, data_url):
    root_path = test_data_path()
    dest_path = os.path.join(root_path, data_name)
    if os.path.exists(dest_path):
        return dest_path
    if data_url.endswith('.zip'):
        dest_path += '.zip'
    download(data_url, dest_path)
    if data_url.endswith('.zip'):
        with zipfile.ZipFile(dest_path, "r") as archive:
            archive.extractall(root_path)
        remove_file(dest_path)
        dest_path = dest_path[:-len('.zip')]
    return dest_path


In [28]:
import os

from pyhanlp import SafeJClass
# from tests.test_utility import ensure_data

NaiveBayesClassifier = SafeJClass('com.hankcs.hanlp.classification.classifiers.NaiveBayesClassifier')
IOUtil = SafeJClass('com.hankcs.hanlp.corpus.io.IOUtil')
sogou_corpus_path = ensure_data('搜狗文本分类语料库迷你版',
                                'http://hanlp.linrunsoft.com/release/corpus/sogou-text-classification-corpus-mini.zip')


def train_or_load_classifier():
    model_path = sogou_corpus_path + '.ser'
    if os.path.isfile(model_path):
        return NaiveBayesClassifier(IOUtil.readObjectFrom(model_path))
    classifier = NaiveBayesClassifier()
    classifier.train(sogou_corpus_path)
    model = classifier.getModel()
    IOUtil.saveObjectTo(model, model_path)
    return NaiveBayesClassifier(model)


def predict(classifier, text):
    print("《%16s》\t属于分类\t【%s】" % (text, classifier.classify(text)))
    # 如需获取离散型随机变量的分布，请使用predict接口
    # print("《%16s》\t属于分类\t【%s】" % (text, classifier.predict(text)))


Downloading http://hanlp.linrunsoft.com/release/corpus/sogou-text-classification-corpus-mini.zip to /Users/xiaofeiwu/miniconda3/envs/bigdata/lib/python3.6/site-packages/pyhanlp/static/data/test/搜狗文本分类语料库迷你版.zip
100.00%, 9 MB, 2052 KB/s, ETA 0 min 0 s


In [30]:
classifier = train_or_load_classifier()
predict(classifier, "C罗压梅西内马尔蝉联金球奖 2017=C罗年")
predict(classifier, "英国造航母耗时8年仍未服役 被中国速度远远甩在身后")
predict(classifier, "研究生考录模式亟待进一步专业化")
predict(classifier, "如果真想用食物解压,建议可以食用燕麦")
predict(classifier, "通用及其部分竞争对手目前正在考虑解决库存问题")

《C罗压梅西内马尔蝉联金球奖 2017=C罗年》	属于分类	【汽车】
《英国造航母耗时8年仍未服役 被中国速度远远甩在身后》	属于分类	【军事】
《 研究生考录模式亟待进一步专业化》	属于分类	【教育】
《如果真想用食物解压,建议可以食用燕麦》	属于分类	【健康】
《通用及其部分竞争对手目前正在考虑解决库存问题》	属于分类	【汽车】


In [31]:

def demo_pinyin():
    """ 汉字转拼音

    >>> demo_pinyin()
    原文， 重载不是重任！
    拼音（数字音调）， [chong2, zai3, bu2, shi4, zhong4, ren4, none5]
    拼音（符号音调）， chóng, zǎi, bú, shì, zhòng, rèn, none,
    拼音（无音调）， chong, zai, bu, shi, zhong, ren, none,
    声调， 2, 3, 2, 4, 4, 4, 5,
    声母， ch, z, b, sh, zh, r, none,
    韵母， ong, ai, u, i, ong, en, none,
    输入法头， ch, z, b, sh, zh, r, none,
    jie zhi none none none none nian none
    jie zhi 2 0 1 2 nian ，
    """
    Pinyin = JClass("com.hankcs.hanlp.dictionary.py.Pinyin")
    text = "重载不是重任！"
    pinyin_list = HanLP.convertToPinyinList(text)

    print("原文，", end=" ")
    print(text)
    print("拼音（数字音调），", end=" ")
    print(pinyin_list)
    print("拼音（符号音调），", end=" ")
    for pinyin in pinyin_list:
        print("%s," % pinyin.getPinyinWithToneMark(), end=" ")
    print("\n拼音（无音调），", end=" ")
    for pinyin in pinyin_list:
        print("%s," % pinyin.getPinyinWithoutTone(), end=" ")
    print("\n声调，", end=" ")
    for pinyin in pinyin_list:
        print("%s," % pinyin.getTone(), end=" ")
    print("\n声母，", end=" ")
    for pinyin in pinyin_list:
        print("%s," % pinyin.getShengmu(), end=" ")
    print("\n韵母，", end=" ")
    for pinyin in pinyin_list:
        print("%s," % pinyin.getYunmu(), end=" ")
    print("\n输入法头，", end=" ")
    for pinyin in pinyin_list:
        print("%s," % pinyin.getHead(), end=" ")

    print()
    # 拼音转换可选保留无拼音的原字符
    print(HanLP.convertToPinyinString("截至2012年，", " ", True))
    print(HanLP.convertToPinyinString("截至2012年，", " ", False))
    
demo_pinyin()    

原文， 重载不是重任！
拼音（数字音调）， [chong2, zai3, bu2, shi4, zhong4, ren4, none5]
拼音（符号音调）， chóng, zǎi, bú, shì, zhòng, rèn, none, 
拼音（无音调）， chong, zai, bu, shi, zhong, ren, none, 
声调， 2, 3, 2, 4, 4, 4, 5, 
声母， ch, z, b, sh, zh, r, none, 
韵母， ong, ai, u, i, ong, en, none, 
输入法头， ch, z, b, sh, zh, r, none, 
jie zhi none none none none nian none
jie zhi 2 0 1 2 nian ，


In [41]:
sentence="重载不是重任"
Pinyin = JClass("com.hankcs.hanlp.dictionary.py.Pinyin")
pinyin_list = HanLP.convertToPinyinList(sentence)
l=[]
for pinyin in pinyin_list:
    l.append("%s" % pinyin.getPinyinWithToneMark())
print(" ".join(l))

chóng zǎi bú shì zhòng rèn


In [34]:
def demo_pinyin_to_chinese():
    """ HanLP中的数据结构和接口是灵活的，组合这些接口，可以自己创造新功能

    >>> demo_pinyin_to_chinese()
    [renmenrenweiyalujiangbujian/null, lvse/[滤色, 绿色]]
    """
    AhoCorasickDoubleArrayTrie = JClass(
        "com.hankcs.hanlp.collection.AhoCorasick.AhoCorasickDoubleArrayTrie")
    StringDictionary = JClass(
        "com.hankcs.hanlp.corpus.dictionary.StringDictionary")
    CommonAhoCorasickDoubleArrayTrieSegment = JClass(
        "com.hankcs.hanlp.seg.Other.CommonAhoCorasickDoubleArrayTrieSegment")
    CommonAhoCorasickSegmentUtil = JClass(
        "com.hankcs.hanlp.seg.Other.CommonAhoCorasickSegmentUtil")
    Config = JClass("com.hankcs.hanlp.HanLP$Config")

    TreeMap = JClass("java.util.TreeMap")
    TreeSet = JClass("java.util.TreeSet")

    dictionary = StringDictionary()
    dictionary.load(Config.PinyinDictionaryPath)
    entry = {}
    m_map = TreeMap()
    for entry in dictionary.entrySet():
        pinyins = entry.getValue().replace("[\\d,]", "")
        words = m_map.get(pinyins)
        if words is None:
            words = TreeSet()
            m_map.put(pinyins, words)
        words.add(entry.getKey())
    words = TreeSet()
    words.add("绿色")
    words.add("滤色")
    m_map.put("lvse", words)

    segment = CommonAhoCorasickDoubleArrayTrieSegment(m_map)
    print(segment.segment("renmenrenweiyalujiangbujianlvse"))



In [35]:
demo_pinyin_to_chinese()

[renmenrenweiyalujiangbujian/null, lvse/[滤色, 绿色]]


In [36]:
def demo_URL_recognition(text):
    """ 演示URL识别

    >>> text = '''HanLP的项目地址是https://github.com/hankcs/HanLP，
    ... 发布地址是https://github.com/hankcs/HanLP/releases，
    ... 我有时候会在www.hankcs.com上面发布一些消息，
    ... 我的微博是http://weibo.com/hankcs/，会同步推送hankcs.com的新闻。
    ... 听说.中国域名开放申请了,但我并没有申请hankcs.中国,因为穷……
    ... '''
    >>> demo_URL_recognition(text)
    [HanLP/nx, 的/ude1, 项目/n, 地址/n, 是/vshi, https://github.com/hankcs/HanLP/xu, ，/w,
    /w, 发布/v, 地址/n, 是/vshi, https://github.com/hankcs/HanLP/releases/xu, ，/w,
    /w, 我/rr, 有时候/d, 会/v, 在/p, www.hankcs.com/xu, 上面/f, 发布/v, 一些/m, 消息/n, ，/w,
    /w, 我/rr, 的/ude1, 微博/n, 是/vshi, http://weibo.com/hankcs//xu, ，/w, 会/v,
        同步/vd, 推送/nz, hankcs.com/xu, 的/ude1, 新闻/n, 。/w,
    /w, 听说/v, ./w, 中国/ns, 域名/n, 开放/v, 申请/v, 了/ule, ,/w, 但/c, 我/rr, 并/cc,
        没有/v, 申请/v, hankcs.中国/xu, ,/w, 因为/c, 穷/a, ……/w,
    /w]
    https://github.com/hankcs/HanLP
    https://github.com/hankcs/HanLP/releases
    www.hankcs.com
    http://weibo.com/hankcs/
    hankcs.com
    hankcs.中国
    """
    Nature = JClass("com.hankcs.hanlp.corpus.tag.Nature")
    Term = JClass("com.hankcs.hanlp.seg.common.Term")
    URLTokenizer = JClass("com.hankcs.hanlp.tokenizer.URLTokenizer")

    term_list = URLTokenizer.segment(text)
    print(term_list)
    for term in term_list:
        if term.nature == Nature.xu:
            print(term.word)
            
text = '''HanLP的项目地址是https://github.com/hankcs/HanLP，
发布地址是https://github.com/hankcs/HanLP/releases，
我有时候会在www.hankcs.com上面发布一些消息，
我的微博是http://weibo.com/hankcs/，会同步推送hankcs.com的新闻。
听说.中国域名开放申请了,但我并没有申请hankcs.中国,因为穷……
'''
demo_URL_recognition(text)            

[hanlp, 的, 项目, 地址, 是, https://github.com/hankcs/HanLP, ,,  , 发布, 地址, 是, https://github.com/hankcs/HanLP/releases, ,,  , 我, 有时候, 会, 在, www.hankcs.com, 上面, 发布, 一些, 消息, ,,  , 我, 的, 微博, 是, http://weibo.com/hankcs/, ,, 会, 同步, 推送, hankcs.com, 的, 新闻, 。,  , 听说, ., 中国, 域名, 开放, 申请, 了, ,, 但, 我, 并, 没有, 申请, hankcs.中国, ,, 因为, 穷, ……,  ]
https://github.com/hankcs/HanLP
https://github.com/hankcs/HanLP/releases
www.hankcs.com
http://weibo.com/hankcs/
hankcs.com
hankcs.中国


In [37]:
def demo_japanese_name_recognition(sentences):
    """ 日本人名识别

    >>> sentences =[
    ...    "北川景子参演了林诣彬导演的《速度与激情3》",
    ...    "林志玲亮相网友:确定不是波多野结衣？",
    ...    "龟山千广和近藤公园在龟山公园里喝酒赏花",
    ... ]
    >>> demo_japanese_name_recognition(sentences)
    [北川景子/nrj, 参演/v, 了/ule, 林诣彬/nr, 导演/nnt, 的/ude1, 《/w, 速度/n, 与/cc, 激情/n, 3/m, 》/w]
    [林志玲/nr, 亮相/vi, 网友/n, :/w, 确定/v, 不是/c, 波多野结衣/nrj, ？/w]
    [龟山千广/nrj, 和/cc, 近藤公园/nrj, 在/p, 龟山/nz, 公园/n, 里/f, 喝酒/vi, 赏花/nz]
    """
    Segment = JClass("com.hankcs.hanlp.seg.Segment")
    Term = JClass("com.hankcs.hanlp.seg.common.Term")

    segment = HanLP.newSegment().enableJapaneseNameRecognize(True)
    for sentence in sentences:
        term_list = segment.seg(sentence)
        print(term_list)
        
sentences =[
   "北川景子参演了林诣彬导演的《速度与激情3》",
   "林志玲亮相网友:确定不是波多野结衣？",
   "龟山千广和近藤公园在龟山公园里喝酒赏花",
]
demo_japanese_name_recognition(sentences)        

[北川景子, 参演, 了, 林诣彬, 导演, 的, 《, 速度, 与, 激情, 3, 》]
[林志玲, 亮相, 网友, :, 确定, 不是, 波多野结衣, ?]
[龟山千广, 和, 近藤公园, 在, 龟山, 公园, 里, 喝酒, 赏花]


In [38]:
def demo_suggester():
    """ 文本推荐(句子级别，从一系列句子中挑出与输入句子最相似的那一个)

    >>> demo_suggester()
    [威廉王子发表演说 呼吁保护野生动物, 英报告说空气污染带来“公共健康危机”]
    [英报告说空气污染带来“公共健康危机”]
    [《时代》年度人物最终入围名单出炉 普京马云入选]
    [魅惑天后许佳慧不爱“预谋” 独唱《许某某》]
    """
    Suggester = JClass("com.hankcs.hanlp.suggest.Suggester")
    suggester = Suggester()
    title_array = [
        "威廉王子发表演说 呼吁保护野生动物",
        "魅惑天后许佳慧不爱“预谋” 独唱《许某某》",
        "《时代》年度人物最终入围名单出炉 普京马云入选",
        "“黑格比”横扫菲：菲吸取“海燕”经验及早疏散",
        "日本保密法将正式生效 日媒指其损害国民知情权",
        "英报告说空气污染带来“公共健康危机”"
    ]
    for title in title_array:
        suggester.addSentence(title)

    print(suggester.suggest("陈述", 2))      # 语义
    print(suggester.suggest("危机公关", 1))  # 字符
    print(suggester.suggest("mayun", 1))   # 拼音
    print(suggester.suggest("徐家汇", 1)) # 拼音

demo_suggester()

[威廉王子发表演说 呼吁保护野生动物, 英报告说空气污染带来“公共健康危机”]
[英报告说空气污染带来“公共健康危机”]
[《时代》年度人物最终入围名单出炉 普京马云入选]
[魅惑天后许佳慧不爱“预谋” 独唱《许某某》]


In [42]:
def demo_traditional_chinese2simplified_chinese():
    """ 将简繁转换做到极致

    >>> demo_traditional_chinese2simplified_chinese()
    「以後等你當上皇后，就能買草莓慶祝了」。發現一根白頭髮
    凭借笔记本电脑写程序HanLP
    hankcs在臺灣寫程式碼
    hankcs在台湾写代码
    hankcs在香港寫代碼
    hankcs在香港写代码
    hankcs在臺灣寫程式碼
    hankcs在香港寫代碼
    hankcs在臺灣寫程式碼
    hankcs在台灣寫代碼
    hankcs在臺灣寫代碼
    hankcs在臺灣寫代碼
    """
    print(HanLP.convertToTraditionalChinese("“以后等你当上皇后，就能买草莓庆祝了”。发现一根白头发"))
    print(HanLP.convertToSimplifiedChinese("憑藉筆記簿型電腦寫程式HanLP"))
    # 简体转台湾繁体
    print(HanLP.s2tw("hankcs在台湾写代码"))
    # 台湾繁体转简体
    print(HanLP.tw2s("hankcs在臺灣寫程式碼"))
    # 简体转香港繁体
    print(HanLP.s2hk("hankcs在香港写代码"))
    # 香港繁体转简体
    print(HanLP.hk2s("hankcs在香港寫代碼"))
    # 香港繁体转台湾繁体
    print(HanLP.hk2tw("hankcs在臺灣寫代碼"))
    # 台湾繁体转香港繁体
    print(HanLP.tw2hk("hankcs在香港寫程式碼"))

    # 香港/台湾繁体和HanLP标准繁体的互转
    print(HanLP.t2tw("hankcs在臺灣寫代碼"))
    print(HanLP.t2hk("hankcs在臺灣寫代碼"))

    print(HanLP.tw2t("hankcs在臺灣寫程式碼"))
    print(HanLP.hk2t("hankcs在台灣寫代碼"))

demo_traditional_chinese2simplified_chinese()    

「以後等你當上皇后，就能買草莓慶祝了」。發現一根白頭髮
凭借笔记本电脑写程序HanLP
hankcs在臺灣寫程式碼
hankcs在台湾写代码
hankcs在香港寫代碼
hankcs在香港写代码
hankcs在臺灣寫程式碼
hankcs在香港寫代碼
hankcs在臺灣寫程式碼
hankcs在台灣寫代碼
hankcs在臺灣寫代碼
hankcs在臺灣寫代碼
