In [1]:
from pyhanlp import *


In [2]:
text = 'This is a wonderful day '
phraseList = HanLP.extractKeyword(text, 3)
print(phraseList)

[This, wonderful, a]


In [3]:
for term in HanLP.segment('陈明忠下雨天地面积水'):
    print('{}\t{}'.format(term.word, term.nature)) # 获取单词与词性


陈明忠	nr
下雨天	n
地面	n
积水	n


# convertToTraditionalChinese

In [4]:
print(HanLP.convertToTraditionalChinese("用笔记本电脑写程序"));
print(HanLP.convertToSimplifiedChinese("「以後等妳當上皇后，就能買士多啤梨慶祝了」"));

用筆記本電腦寫程序
“以后等你当上皇后，就能买草莓庆祝了”


# segment

In [5]:
testCases = [
    "商品和服务",
    "结婚的和尚未结婚的确实在干扰分词啊",
    "买水果然后来世博园最后去世博会",
    "中国的首都是北京",
    "欢迎新老师生前来就餐",
    "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作",
    "随着页游兴起到现在的页游繁盛，依赖于存档进行逻辑判断的设计减少了，但这块也不能完全忽略掉。"]
for sentence in testCases: 
    print(HanLP.segment(sentence))

[商品/n, 和/cc, 服务/vn]
[结婚/vi, 的/ude1, 和/cc, 尚未/d, 结婚/vi, 的/ude1, 确实/ad, 在/p, 干扰/vn, 分词/n, 啊/y]
[买/v, 水果/n, 然后/c, 来/vf, 世博园/n, 最后/f, 去/vf, 世博会/n]
[中国/ns, 的/ude1, 首都/n, 是/vshi, 北京/ns]
[欢迎/v, 新/a, 老/a, 师生/n, 前来/vi, 就餐/vi]
[工信处/n, 女干事/n, 每月/t, 经过/p, 下属/v, 科室/n, 都/d, 要/v, 亲口/d, 交代/v, 24/m, 口/n, 交换机/n, 等/udeng, 技术性/n, 器件/n, 的/ude1, 安装/v, 工作/vn]
[随着/p, 页游/nz, 兴起/v, 到/v, 现在/t, 的/ude1, 页游/nz, 繁盛/a, ，/w, 依赖于/v, 存档/vi, 进行/vn, 逻辑/n, 判断/v, 的/ude1, 设计/vn, 减少/v, 了/ule, ，/w, 但/c, 这/rzv, 块/q, 也/d, 不能/v, 完全/ad, 忽略/v, 掉/v, 。/w]


In [6]:
sentence = [
        "签约仪式前，秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。",
        "王国强、高峰、汪洋、张朝阳光着头、韩寒、小四",
        "张浩和胡健康复员回家了",
        "王总和小丽结婚了",
        "编剧邵钧林和稽道青说",
        "这里有关天培的有关事迹",
        "龚学平等领导,邓颖超生前"]

segment = HanLP.newSegment().enableNameRecognize(True);
for ss in sentence:
    print(segment.seg(ss))

[签约/vi, 仪式/n, 前/f, ，/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/udeng, 一同/d, 会见/v, 了/ule, 参加/v, 签约/vi, 的/ude1, 企业家/nnt, 。/w]
[王国强/nr, 、/w, 高峰/n, 、/w, 汪洋/n, 、/w, 张朝阳/nr, 光着头/l, 、/w, 韩寒/nr, 、/w, 小/a, 四/m]
[张浩/nr, 和/cc, 胡健康/nr, 复员/v, 回家/vi, 了/ule]
[王总/nr, 和/cc, 小丽/nr, 结婚/vi, 了/ule]
[编剧/nnt, 邵钧林/nr, 和/cc, 稽道青/nr, 说/v]
[这里/rzs, 有/vyou, 关天培/nr, 的/ude1, 有关/vn, 事迹/n]
[龚学平/nr, 等/udeng, 领导/n, ,/w, 邓颖超/nr, 生前/t]


In [7]:
print(HanLP.segment("王国强、汪峰、汪洋、张朝阳光着头、韩寒、小四"))

[王国强/nr, 、/w, 汪峰/nr, 、/w, 汪洋/n, 、/w, 张朝阳/nr, 光着头/l, 、/w, 韩寒/nr, 、/w, 小/a, 四/m]


In [26]:
text = "新北市是台灣的直轄市，也是台灣人口最多的城市。台北市位於台灣北部，包括台灣北部海岸線的大部分延伸，並環繞台北盆地，使其成為僅次於高雄市的第二大直轄市"
print(HanLP.segment(text))

[新北市/ns, 是/vshi, 台湾/ns, 的/ude1, 直辖市/n, ,/w, 也/d, 是/vshi, 台湾/ns, 人口/n, 最多/ad, 的/ude1, 城市/n, 。/w, 台北市/ns, 位于/v, 台湾/ns, 北部/f, ,/w, 包括/v, 台湾/ns, 北部/f, 海岸线/n, 的/ude1, 大部分/n, 延伸/v, ,/w, 并/cc, 环绕/v, 台北盆地/nz, ,/w, 使/v, 其/rz, 成为/v, 仅次于/v, 高雄/ns, 市/n, 的/ude1, 第二/mq, 大/a, 直辖市/n]


In [45]:
text = "张晚霞教授正在教授自然语言处理课程"
print(HanLP.segment(text))


[张晚霞/nr, 教授/nnt, 正在/d, 教授/nnt, 自然语言处理/nz, 课程/n]
[我/rr, 在/p, 渣打/nz, 国际/n, 商业银行/nis, 工作/vn]


# 数词和数量词识别

In [37]:
def demo_number_and_quantifier_recognition(sentences):
    """ 演示数词和数量词识别
    >>> sentences = [
    ...    "十九元套餐包括什么",
    ...    "九千九百九十九朵玫瑰",
    ...    "壹佰块都不给我",
    ...    "９０１２３４５６７８只蚂蚁",
    ...    "牛奶三〇〇克*2",
    ...    "ChinaJoy“扫黄”细则露胸超2厘米罚款",
    ... ]
    >>> demo_number_and_quantifier_recognition(sentences)
    [十九元/mq, 套餐/n, 包括/v, 什么/ry]
    [九千九百九十九朵/mq, 玫瑰/n]
    [壹佰块/mq, 都/d, 不/d, 给/p, 我/rr]
    [９０１２３４５６７８只/mq, 蚂蚁/n]
    [牛奶/nf, 三〇〇克/mq, */w, 2/m]
    [ChinaJoy/nx, “/w, 扫黄/vi, ”/w, 细则/n, 露/v, 胸/ng, 超/v, 2厘米/mq, 罚款/vi]
    """
    StandardTokenizer = JClass("com.hankcs.hanlp.tokenizer.StandardTokenizer")

    StandardTokenizer.SEGMENT.enableNumberQuantifierRecognize(True)
    for sentence in sentences:
        print(StandardTokenizer.segment(sentence))
        
demo_number_and_quantifier_recognition(["牛台川喜宴餐厅"])
text = "牛奶三〇〇克*2"
print(HanLP.segment(text))

[张晚霞/nr, 教授/nnt, 正在/d, 教授/nnt, 自然语言处理/nz, 123台/mq, 川/b, 喜宴/n, 餐厅/nis, 课程/n]
[牛奶/nf, 三〇〇克/mq, */w, 2/m]


In [36]:
def demo_NLP_segment(text):
    """ NLP分词，更精准的中文分词、词性标注与命名实体识别
        标注集请查阅 https://github.com/hankcs/HanLP/blob/master/data/dictionary/other/TagPKU98.csv
        或者干脆调用 Sentence#translateLabels() 转为中文
    >>> demo_NLP_segment()
    [我/r, 新造/v, 一个/m, 词/n, 叫/v, 幻想乡/ns, 你/r, 能/v, 识别/v, 并/c, 正确/ad, 标注/v, 词性/n, 吗/y, ？/w]
    我/代词 的/助词 希望/名词 是/动词 希望/动词 张晚霞/人名 的/助词 背影/名词 被/介词 晚霞/名词 映/动词 红/形容词
    支援/v 臺灣/ns 正體/n 香港/ns 繁體/n ：/w [微软/nt 公司/n]/nt 於/p 1975年/t 由/p 比爾·蓋茲/n 和/c 保羅·艾倫/nr 創立/v 。/w
    """
    NLPTokenizer = JClass("com.hankcs.hanlp.tokenizer.NLPTokenizer")
    print(NLPTokenizer.segment(text))  # “正确”是副形词。
    print('----')
    # 注意观察下面两个“希望”的词性、两个“晚霞”的词性
    print(NLPTokenizer.analyze(text).translateLabels())
    print('----')
    print(NLPTokenizer.analyze(text))

# text = "攻城狮逆袭单身狗，迎娶白富美，走上人生巅峰"
text = "张晚霞教授正在教授自然语言处理123台川喜宴餐厅课程"
demo_NLP_segment(text)

[张晚霞/nr, 教授/n, 正在/d, 教授/v, 自然语言处理/nz, 123/m, 台/q, 川/Ng, 喜宴/n, 餐厅/n, 课程/n]
----
张晚霞/人名 教授/名词 正在/副词 教授/动词 自然语言处理/其他专名 123/数词 台/量词 川/名语素 喜宴/名词 餐厅/名词 课程/名词
----
张晚霞/nr 教授/n 正在/d 教授/v 自然语言处理/nz 123/m 台/q 川/Ng 喜宴/n 餐厅/n 课程/n


# 机构名识别

In [46]:
def demo_organization_recognition(sentences):
    """ 机构名识别
    >>> sentences = [
    ...    "我在上海林原科技有限公司兼职工作，",
    ...    "我经常在台川喜宴餐厅吃饭，",
    ...    "偶尔去开元地中海影城看电影。",
    ... ]
    >>> demo_organization_recognition(sentences)
    [我/rr, 在/p, 上海/ns, 林原科技有限公司/nt, 兼职/vn, 工作/vn, ，/w]
    [我/rr, 经常/d, 在/p, 台川喜宴餐厅/nt, 吃饭/vi, ，/w]
    [偶尔/d, 去/vf, 开元地中海影城/nt, 看/v, 电影/n, 。/w]
    """
    Segment = JClass("com.hankcs.hanlp.seg.Segment")
    Term = JClass("com.hankcs.hanlp.seg.common.Term")

    segment = HanLP.newSegment().enableOrganizationRecognize(True)
    for sentence in sentences:
        term_list = segment.seg(sentence)
        print(term_list)

text = "我在渣打國際商業銀行工作"
print(HanLP.segment(text))
demo_organization_recognition(["我在渣打國際商業銀行工作"])

[我/rr, 在/p, 渣打/nz, 国际/n, 商业银行/nis, 工作/vn]
[我/rr, 在/p, 渣打国际商业银行/nt, 工作/vn]


In [69]:
# 词性标注
def demo_pos_tagging():
    """ 词性标注
    >>> demo_pos_tagging()
    未标注： [教授/nnt, 正在/d, 教授/nnt, 自然语言处理/nz, 课程/n]
    标注后： [教授/nnt, 正在/d, 教授/v, 自然语言处理/nz, 课程/n]
    """
    Segment = JClass("com.hankcs.hanlp.seg.Segment")
    text = "教授正在教授自然语言处理课程"
    segment = HanLP.newSegment()

    print("未标注：", segment.seg(text))
    segment.enablePartOfSpeechTagging(True)
    print("标注后：", segment.seg(text))

demo_pos_tagging()

未标注： [教授/nnt, 正在/d, 教授/nnt, 自然语言处理/nz, 课程/n]
标注后： [教授/nnt, 正在/d, 教授/v, 自然语言处理/nz, 课程/n]


# CustomDictionary - dictionary  have to add every time

In [11]:
text = "攻城狮逆袭单身狗，迎娶白富美，走上人生巅峰"  # 怎么可能噗哈哈！

print(HanLP.segment(text))

CustomDictionary = JClass("com.hankcs.hanlp.dictionary.CustomDictionary")
CustomDictionary.add("攻城狮")  # 动态增加
# CustomDictionary.insert("白富美", "nz 1024")  # 强行插入
# CustomDictionary.remove("攻城狮"); # 删除词语（注释掉试试）
# CustomDictionary.add("单身狗", "nz 1024 n 1")
# #print(CustomDictionary.get("单身狗"))

print(HanLP.segment(text))

[攻城/vi, 狮/ng, 逆袭/nz, 单身/n, 狗/n, ，/w, 迎娶/v, 白富美/nr, ，/w, 走上/v, 人生/n, 巅峰/n]
[攻城狮/nz, 逆袭/nz, 单身/n, 狗/n, ，/w, 迎娶/v, 白富美/nr, ，/w, 走上/v, 人生/n, 巅峰/n]


# 短语提取 & 自动摘要

In [38]:
# 关键词提取
document = """英國強烈譴責「港版國安法」，首相強生（Borris Johnson）1日也宣布援助港人措施，將允許300萬名持有英國海外國民護照（BNO）之香港公民申請入籍。BBC分析指出，此舉除反映英國政府對香港密切關注、與中關係僵化，也突顯移民政策的矛盾之處。
BBC政治編輯庫恩斯伯格（Laura Kuenssberg）2日發表評論肯定，英國向300萬香港人開啟大門，邁出了一大步，「西敏市今晚沒有任何人預料到，會有這麼多人搬到這裡來，以躲避香港日益令人擔憂的現實。但這項決定很重要，且不僅瑾是對那些英國可能提供庇護的人。」
她指出，此舉反映英國政府密切關注香港這個動盪的島嶼，也受到過去殖民香港的影響。香港1997年回歸中國時，便有呼籲政府給予港人英國公民身份的呼聲，但當時沒有達成。
「請記得，權力交接是在尊重香港部分民主及市場經濟的基礎上完成，但近年來逐漸被削弱」，庫恩斯伯格說明，「值得注意的是，下議院沒有任何一名議員反對英國與香港的故事邁入下一階段。政府的決策依然受到幾十年前作出的選擇影響。」
此外，英國此舉也突顯與中國關係惡化。庫恩斯伯格提到，「不久之前，前首相卡麥隆（David Cameron）不僅鋪紅地毯，還乘坐女王的金色馬車歡迎中國總理。」時任英國財政大臣奧斯本（George Osborne）訪中時，也罕見地對貿易的好處讚不絕口。
當時的英國政府在貿易與中國危害人權之間兩難，再加上一群保守黨議員反對與中國建立密切關係，也認為不該讓中國電信巨擘華為（HUAWEI）參與5G網路建設。其中也有人士暗示，必須迫使政府對香港採取行動。
中國是個不容忽視的經濟大國，也是英國官員熱衷的貿易、氣候領域合作對象。強生日前被問及此事才提到，「我的立場非常非常簡單。我不會陷入反華情緒，因為我不是個恐華者」，但中英關係確實已經產生變化。一名政府消息人士認為，英國政府態度並沒有轉硬，但「中國愈發咄咄逼人的傾向已經暴露。」
然而，庫恩斯伯格指出，政府承諾援助港人之際，英國移民政策也面臨關鍵時期，「直到昨天為止，國會議員還在支持終結移民自由的移民法案，代表減少移民數量。而政府卻向可能到來的數百萬（香港）人發出這項訊息，這難道不矛盾嗎？」
另一方面，根據《天空新聞》報導，英國外交部常任副部長麥唐納（Simon McDonald）1日召見中國駐英大使劉曉明，批評北京違反《中英聯合聲明》承諾，是英國自1984年來第二次針對香港事務召見中國大使。劉曉明則反批英國干涉內政，雙方氣氛緊張。"""
phraseList = HanLP.extractPhrase(document, 10);
for pp in phraseList:
    print(pp)
# 关键词提取
print(HanLP.extractKeyword(document, 10))
# 自动摘要
print(HanLP.extractSummary(document, 5))

關係
貿易
英國政府
議反
援助港人
密切關注
萬香港
移民政策
政府香港
影響
[英國, 香港, 中國, 政府, 反, 時, 為, 恩斯伯格, 沒有, 來]
[當時的英國政府在貿易與中國危害人權之間兩難, 此舉除反映英國政府對香港密切關注、與中關係僵化, 是英國自1984年來第二次針對香港事務召見中國大使, 此舉反映英國政府密切關注香港這個動盪的島嶼, 英國此舉也突顯與中國關係惡化]


In [7]:
# 关键词提取
document = "水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露，" \
           "根据刚刚完成了水资源管理制度的考核，有部分省接近了红线的指标，" \
           "有部分省超过红线的指标。对一些超过红线的地方，陈明忠表示，对一些取用水项目进行区域的限批，" \
           "严格地进行水资源论证和取水许可的批准。"
print(HanLP.extractKeyword(document, 2))
# 自动摘要
print(HanLP.extractSummary(document, 3))
# 依存句法分析
# print(HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。"))

[水资源, 陈明忠]
[严格地进行水资源论证和取水许可的批准, 水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露, 有部分省超过红线的指标]
1	徐先生	徐先生	nh	nr	_	4	主谓关系	_	_
2	还	还	d	d	_	4	状中结构	_	_
3	具体	具体	a	ad	_	4	状中结构	_	_
4	帮助	帮助	v	v	_	0	核心关系	_	_
5	他	他	r	r	_	4	兼语	_	_
6	确定	确定	v	v	_	4	动宾关系	_	_
7	了	了	u	u	_	6	右附加关系	_	_
8	把	把	p	p	_	15	状中结构	_	_
9	画	画	v	v	_	8	介宾关系	_	_
10	雄鹰	雄鹰	n	n	_	9	动宾关系	_	_
11	、	、	wp	w	_	12	标点符号	_	_
12	松鼠	松鼠	n	n	_	10	并列关系	_	_
13	和	和	c	c	_	14	左附加关系	_	_
14	麻雀	麻雀	n	n	_	10	并列关系	_	_
15	作为	作为	v	v	_	6	动宾关系	_	_
16	主攻	主攻	v	vn	_	17	定中关系	_	_
17	目标	目标	n	n	_	15	动宾关系	_	_
18	。	。	wp	w	_	4	标点符号	_	_



# 拼音

In [54]:
text = "新北市是台灣的直轄市"
pinyinList = HanLP.convertToPinyinList(text)
for pp in pinyinList:
    print(pp) #拼音（数字音调
print('-------------------------')
for pp in pinyinList:
    print(pp.getTone())
print('-------------------------')
for pp in pinyinList:
    print(pp.getPinyinWithoutTone())
    
# getPinyinWithToneMark 拼音（符号音调）
# getPinyinWithoutTone 拼音（无音调）
# getTone 声调
# getShengmu 声母
# getYunmu 韵母
# getHead 输入法头
    

xin1
bei3
shi4
shi4
tai2
wan1
de5
zhi2
xia2
shi4
-------------------------
1
3
4
4
2
1
5
2
2
4
-------------------------
xin
bei
shi
shi
tai
wan
de
zhi
xia
shi


# 改写

In [56]:
CoreSynonymDictionary = JClass("com.hankcs.hanlp.dictionary.CoreSynonymDictionary")
text = "这个方法可以利用同义词词典将一段文本改写成意思相似的另一段文本，而且差不多符合语法"
print(CoreSynonymDictionary.rewrite(text))

夫措施可以动用同义词词典将同段落文本改写成意思相似的外一样段落文本，而且大多符合语法


# 文本推荐(句子级别，从一系列句子中挑出与输入句子最相似的那一个)

In [58]:
def demo_suggester():
    """ 文本推荐(句子级别，从一系列句子中挑出与输入句子最相似的那一个)
    >>> demo_suggester()
    [威廉王子发表演说 呼吁保护野生动物, 英报告说空气污染带来“公共健康危机”]
    [英报告说空气污染带来“公共健康危机”]
    [《时代》年度人物最终入围名单出炉 普京马云入选]
    [魅惑天后许佳慧不爱“预谋” 独唱《许某某》]
    """
    Suggester = JClass("com.hankcs.hanlp.suggest.Suggester")
    suggester = Suggester()
    title_array = [
        "威廉王子发表演说 呼吁保护野生动物",
        "魅惑天后许佳慧不爱“预谋” 独唱《许某某》",
        "《时代》年度人物最终入围名单出炉 普京马云入选",
        "“黑格比”横扫菲：菲吸取“海燕”经验及早疏散",
        "日本保密法将正式生效 日媒指其损害国民知情权",
        "英报告说空气污染带来“公共健康危机”"
    ]
    for title in title_array:
        suggester.addSentence(title)

    print(suggester.suggest("陈述", 2))      # 语义
    print(suggester.suggest("危机公关", 1))  # 字符
    print(suggester.suggest("mayun", 1))   # 拼音
    print(suggester.suggest("徐家汇", 1)) # 拼音
        
demo_suggester()

[威廉王子发表演说 呼吁保护野生动物, 英报告说空气污染带来“公共健康危机”]
[英报告说空气污染带来“公共健康危机”]
[《时代》年度人物最终入围名单出炉 普京马云入选]
[魅惑天后许佳慧不爱“预谋” 独唱《许某某》]


# 语义相似度

In [62]:
CoreSynonymDictionary = JClass("com.hankcs.hanlp.dictionary.CoreSynonymDictionary")

word_array = [
    "香蕉",
    "苹果",
    "水果",
    "蔬菜",
    "自行车",
    "公交车",
]
print("%-5s\t%-5s\t%-10s\t%-5s\n" % ("词A", "词B", "语义距离", "语义相似度"))
for a in word_array:
    for b in word_array:
        print("%-5s\t%-5s\t%-15d\t%-5.10f" % (a, b, CoreSynonymDictionary.distance(a, b),
            CoreSynonymDictionary.similarity(a, b)))


词A   	词B   	语义距离      	语义相似度

香蕉   	香蕉   	0              	1.0000000000
香蕉   	苹果   	19980          	0.9999997311
香蕉   	水果   	32967          	0.9999995563
香蕉   	蔬菜   	2630367        	0.9999645975
香蕉   	自行车  	1854515628     	0.9750398066
香蕉   	公交车  	1854535619     	0.9750395376
苹果   	香蕉   	19980          	0.9999997311
苹果   	苹果   	0              	1.0000000000
苹果   	水果   	12987          	0.9999998252
苹果   	蔬菜   	2610387        	0.9999648664
苹果   	自行车  	1854535608     	0.9750395377
苹果   	公交车  	1854555599     	0.9750392686
水果   	香蕉   	32967          	0.9999995563
水果   	苹果   	12987          	0.9999998252
水果   	水果   	0              	1.0000000000
水果   	蔬菜   	2597400        	0.9999650412
水果   	自行车  	1854548595     	0.9750393629
水果   	公交车  	1854568586     	0.9750390939
蔬菜   	香蕉   	2630367        	0.9999645975
蔬菜   	苹果   	2610387        	0.9999648664
蔬菜   	水果   	2597400        	0.9999650412
蔬菜   	蔬菜   	0              	1.0000000000
蔬菜   	自行车  	1857145995     	0.9750044041
蔬菜   	公交车  	1857165986     

# 聚类

In [64]:
ClusterAnalyzer = JClass('com.hankcs.hanlp.mining.cluster.ClusterAnalyzer')
analyzer = ClusterAnalyzer()
analyzer.addDocument("赵一", "流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 蓝调, 蓝调, 蓝调, 蓝调, 蓝调, 蓝调, 摇滚, 摇滚, 摇滚, 摇滚")
analyzer.addDocument("钱二", "爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲")
analyzer.addDocument("张三", "古典, 古典, 古典, 古典, 民谣, 民谣, 民谣, 民谣")
analyzer.addDocument("李四", "爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 金属, 金属, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲")
analyzer.addDocument("王五", "流行, 流行, 流行, 流行, 摇滚, 摇滚, 摇滚, 嘻哈, 嘻哈, 嘻哈")
analyzer.addDocument("马六", "古典, 古典, 古典, 古典, 古典, 古典, 古典, 古典, 摇滚")
print(analyzer.kmeans(3))
print(analyzer.repeatedBisection(3))
print(analyzer.repeatedBisection(1.0))  # 自动判断聚类数量k

[[张三, 马六], [李四, 钱二], [王五, 赵一]]
[[李四, 钱二], [王五, 赵一], [张三, 马六]]
[[李四, 钱二], [王五, 赵一], [张三, 马六]]


# url recognition

In [90]:
def demo_URL_recognition(text):
    """ 演示URL识别
    >>> text = '''HanLP的项目地址是https://github.com/hankcs/HanLP，
    ... 发布地址是https://github.com/hankcs/HanLP/releases，
    ... 我有时候会在www.hankcs.com上面发布一些消息，
    ... 我的微博是http://weibo.com/hankcs/，会同步推送hankcs.com的新闻。
    ... 听说.中国域名开放申请了,但我并没有申请hankcs.中国,因为穷……
    ... '''
    >>> demo_URL_recognition(text)
    [HanLP/nx, 的/ude1, 项目/n, 地址/n, 是/vshi, https://github.com/hankcs/HanLP/xu, ，/w,
    /w, 发布/v, 地址/n, 是/vshi, https://github.com/hankcs/HanLP/releases/xu, ，/w,
    /w, 我/rr, 有时候/d, 会/v, 在/p, www.hankcs.com/xu, 上面/f, 发布/v, 一些/m, 消息/n, ，/w,
    /w, 我/rr, 的/ude1, 微博/n, 是/vshi, http://weibo.com/hankcs//xu, ，/w, 会/v,
        同步/vd, 推送/nz, hankcs.com/xu, 的/ude1, 新闻/n, 。/w,
    /w, 听说/v, ./w, 中国/ns, 域名/n, 开放/v, 申请/v, 了/ule, ,/w, 但/c, 我/rr, 并/cc,
        没有/v, 申请/v, hankcs.中国/xu, ,/w, 因为/c, 穷/a, ……/w,
    /w]
    https://github.com/hankcs/HanLP
    https://github.com/hankcs/HanLP/releases
    www.hankcs.com
    http://weibo.com/hankcs/
    hankcs.com
    hankcs.中国
    """
    Nature = JClass("com.hankcs.hanlp.corpus.tag.Nature")
    Term = JClass("com.hankcs.hanlp.seg.common.Term")
    URLTokenizer = JClass("com.hankcs.hanlp.tokenizer.URLTokenizer")

    term_list = URLTokenizer.segment(text)
    print(term_list)
    for term in term_list:
        if term.nature == Nature.xu:
            print(term.word)

text = '''HanLP的项目地址是https://github.com/hankcs/HanLP，
    ... 发布地址是https://github.com/hankcs/HanLP/releases，
    ... 我有时候会在www.hankcs.com上面发布一些消息，
    ... 我的微博是http://weibo.com/hankcs/，会同步推送hankcs.com的新闻。
    ... 听说.中国域名开放申请了,但我并没有申请hankcs.中国,因为穷……
    ... '''
demo_URL_recognition(text)

[HanLP/nx, 的/ude1, 项目/n, 地址/n, 是/vshi, https://github.com/hankcs/HanLP/xu, ，/w, 
    /w, .../w,  /w, 发布/v, 地址/n, 是/vshi, https://github.com/hankcs/HanLP/releases/xu, ，/w, 
    /w, .../w,  /w, 我/rr, 有时候/d, 会/v, 在/p, www/nx, ./w, hankcs/nrf, ./w, com/nx, 上面/f, 发布/v, 一些/m, 消息/n, ，/w, 
    /w, .../w,  /w, 我/rr, 的/ude1, 微博/n, 是/vshi, http://weibo.com/hankcs/xu, //w, ，/w, 会/v, 同步/vd, 推送/nz, hankcs/nrf, ./w, com/nx, 的/ude1, 新闻/n, 。/w, 
    /w, .../w,  /w, 听说/v, ./w, 中国/ns, 域名/n, 开放/v, 申请/v, 了/ule, ,/w, 但/c, 我/rr, 并/cc, 没有/v, 申请/v, hankcs/nrf, ./w, 中国/ns, ,/w, 因为/c, 穷/a, ……/w, 
    /w, .../w,  /w]
https://github.com/hankcs/HanLP
https://github.com/hankcs/HanLP/releases
http://weibo.com/hankcs


# stopwprd

In [23]:
def demo_notional_tokenizer():
    """ 演示自动去除停用词、自动断句的分词器
    >>> demo_notional_tokenizer()
    [小区/n, 居民/n, 反对/v, 喂养/v, 流浪猫/nz, 居民/n, 赞成/v, 喂养/v, 小宝贝/nz]
    [小区/n, 居民/n, 反对/v, 喂养/v, 流浪猫/nz]
    [居民/n, 赞成/v, 喂养/v, 小宝贝/nz]
    """
    Term =JClass("com.hankcs.hanlp.seg.common.Term")
    NotionalTokenizer = JClass("com.hankcs.hanlp.tokenizer.NotionalTokenizer")

    text = "小区居民有的反对喂养流浪猫，而有的居民却赞成喂养这些小宝贝"
    print(NotionalTokenizer.segment(text))
    for sentence in NotionalTokenizer.seg2sentence(text):
        print(sentence)
        
demo_notional_tokenizer()

[小区/n, 居民/n, 反对/v, 喂养/v, 流浪猫/nz, 居民/n, 赞成/v, 喂养/v, 小宝贝/nz]
[小区/n, 居民/n, 反对/v, 喂养/v, 流浪猫/nz]
[居民/n, 赞成/v, 喂养/v, 小宝贝/nz]


# 正规化

In [16]:
def demo_normalization():
    """ 演示正规化字符配置项的效果（繁体->简体，全角->半角，大写->小写）。
        该配置项位于hanlp.properties中，通过Normalization=true来开启
        切换配置后必须删除CustomDictionary.txt.bin缓存，否则只影响动态插入的新词。
    >>> demo_normalization()
    [爱听4g/nz]
    [爱听4g/nz]
    [爱听4g/nz]
    [爱听4g/nz]
    [爱听4g/nz]
    """
    CustomDictionary =JClass("com.hankcs.hanlp.dictionary.CustomDictionary")
    Config = JClass("com.hankcs.hanlp.HanLP$Config")

    Config.Normalization = True
    CustomDictionary.insert("爱听4G", "nz 1000")
    print(HanLP.segment("爱听4g"))
    print(HanLP.segment("爱听4G"))
    print(HanLP.segment("爱听４G"))
    print(HanLP.segment("爱听４Ｇ"))
    print(HanLP.segment("愛聽４Ｇ"))
    CustomDictionary.remove("爱听4G")
    
demo_normalization()

[爱听4g/nz]
[爱听4g/nz]
[爱听4g/nz]
[爱听4g/nz]
[爱听4g/nz]


In [12]:
def demo_dependency_parser():
    """ 依存句法分析（CRF句法模型需要-Xms512m -Xmx512m -Xmn256m，
        MaxEnt和神经网络句法模型需要-Xms1g -Xmx1g -Xmn512m）
    >>> demo_dependency_parser()
    徐先生 --(主谓关系)--> 帮助
    还 --(状中结构)--> 帮助
    具体 --(状中结构)--> 帮助
    帮助 --(核心关系)--> ##核心##
    他 --(兼语)--> 帮助
    确定 --(动宾关系)--> 帮助
    了 --(右附加关系)--> 确定
    把 --(状中结构)--> 作为
    画 --(介宾关系)--> 把
    雄鹰 --(动宾关系)--> 画
    、 --(标点符号)--> 松鼠
    松鼠 --(并列关系)--> 雄鹰
    和 --(左附加关系)--> 麻雀
    麻雀 --(并列关系)--> 雄鹰
    作为 --(动宾关系)--> 确定
    主攻 --(定中关系)--> 目标
    目标 --(动宾关系)--> 作为
    。 --(标点符号)--> 帮助
    <BLANKLINE>
    徐先生 --(主谓关系)--> 帮助
    还 --(状中结构)--> 帮助
    具体 --(状中结构)--> 帮助
    帮助 --(核心关系)--> ##核心##
    他 --(兼语)--> 帮助
    确定 --(动宾关系)--> 帮助
    了 --(右附加关系)--> 确定
    把 --(状中结构)--> 作为
    画 --(介宾关系)--> 把
    雄鹰 --(动宾关系)--> 画
    、 --(标点符号)--> 松鼠
    松鼠 --(并列关系)--> 雄鹰
    和 --(左附加关系)--> 麻雀
    麻雀 --(并列关系)--> 雄鹰
    作为 --(动宾关系)--> 确定
    主攻 --(定中关系)--> 目标
    目标 --(动宾关系)--> 作为
    。 --(标点符号)--> 帮助
    <BLANKLINE>
    麻雀 --(并列关系)-->
    雄鹰 --(动宾关系)-->
    画 --(介宾关系)-->
    把 --(状中结构)-->
    作为 --(动宾关系)-->
    确定 --(动宾关系)-->
    帮助 --(核心关系)-->
    ##核心##
    """
    sentence = HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。")
    for word in sentence.iterator():  # 通过dir()可以查看sentence的方法
        print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))
    print()

    # 也可以直接拿到数组，任意顺序或逆序遍历
    word_array = sentence.getWordArray()
    for word in word_array:
        print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA))
    print()

    # 还可以直接遍历子树，从某棵子树的某个节点一路遍历到虚根
    CoNLLWord = JClass("com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord")
    head = word_array[12]
    while head.HEAD:
        head = head.HEAD
        if (head == CoNLLWord.ROOT):
            print(head.LEMMA)
        else:
            print("%s --(%s)--> " % (head.LEMMA, head.DEPREL))
            
demo_dependency_parser()

徐先生 --(主谓关系)--> 帮助
还 --(状中结构)--> 帮助
具体 --(状中结构)--> 帮助
帮助 --(核心关系)--> ##核心##
他 --(兼语)--> 帮助
确定 --(动宾关系)--> 帮助
了 --(右附加关系)--> 确定
把 --(状中结构)--> 作为
画 --(介宾关系)--> 把
雄鹰 --(动宾关系)--> 画
、 --(标点符号)--> 松鼠
松鼠 --(并列关系)--> 雄鹰
和 --(左附加关系)--> 麻雀
麻雀 --(并列关系)--> 雄鹰
作为 --(动宾关系)--> 确定
主攻 --(定中关系)--> 目标
目标 --(动宾关系)--> 作为
。 --(标点符号)--> 帮助

徐先生 --(主谓关系)--> 帮助
还 --(状中结构)--> 帮助
具体 --(状中结构)--> 帮助
帮助 --(核心关系)--> ##核心##
他 --(兼语)--> 帮助
确定 --(动宾关系)--> 帮助
了 --(右附加关系)--> 确定
把 --(状中结构)--> 作为
画 --(介宾关系)--> 把
雄鹰 --(动宾关系)--> 画
、 --(标点符号)--> 松鼠
松鼠 --(并列关系)--> 雄鹰
和 --(左附加关系)--> 麻雀
麻雀 --(并列关系)--> 雄鹰
作为 --(动宾关系)--> 确定
主攻 --(定中关系)--> 目标
目标 --(动宾关系)--> 作为
。 --(标点符号)--> 帮助

麻雀 --(并列关系)--> 
雄鹰 --(动宾关系)--> 
画 --(介宾关系)--> 
把 --(状中结构)--> 
作为 --(动宾关系)--> 
确定 --(动宾关系)--> 
帮助 --(核心关系)--> 
##核心##
