In [1]:
from pyhanlp import *

In [2]:
# 中文分词
print(HanLP.segment('你好，欢迎在Python中调用HanLP的API'))
for term in HanLP.segment('下雨天地面积水'):
    print('{}\t{}'.format(term.word, term.nature))  # 获取单词与词性
testCases = [
    "商品和服务",
    "结婚的和尚未结婚的确实在干扰分词啊",
    "买水果然后来世博园最后去世博会",
    "中国的首都是北京",
    "欢迎新老师生前来就餐",
    "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作",
    "随着页游兴起到现在的页游繁盛，依赖于存档进行逻辑判断的设计减少了，但这块也不能完全忽略掉。"
]
for sentence in testCases:
    print(HanLP.segment(sentence))

[你好/vl, ，/w, 欢迎/v, 在/p, Python/nx, 中/f, 调用/v, HanLP/nx, 的/ude1, API/nx]
下雨天	n
地面	n
积水	n
[商品/n, 和/cc, 服务/vn]
[结婚/vi, 的/ude1, 和/cc, 尚未/d, 结婚/vi, 的/ude1, 确实/ad, 在/p, 干扰/vn, 分词/n, 啊/y]
[买/v, 水果/n, 然后/c, 来/vf, 世博园/n, 最后/f, 去/vf, 世博会/n]
[中国/ns, 的/ude1, 首都/n, 是/vshi, 北京/ns]
[欢迎/v, 新/a, 老/a, 师生/n, 前来/vi, 就餐/vi]
[工信处/n, 女/b, 干事/nnt, 每月/t, 经过/p, 下属/v, 科室/n, 都/d, 要/v, 亲口/d, 交代/v, 24/m, 口/n, 交换机/n, 等/udeng, 技术性/n, 器件/n, 的/ude1, 安装/v, 工作/vn]
[随着/p, 页游/nz, 兴起/v, 到/v, 现在/t, 的/ude1, 页游/nz, 繁盛/a, ，/w, 依赖于/v, 存档/vi, 进行/vn, 逻辑/n, 判断/v, 的/ude1, 设计/vn, 减少/v, 了/ule, ，/w, 但/c, 这/rzv, 块/q, 也/d, 不能/v, 完全/ad, 忽略/v, 掉/v, 。/w]


In [3]:
document = "水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露，" \
           "根据刚刚完成了水资源管理制度的考核，有部分省接近了红线的指标，" \
           "有部分省超过红线的指标。对一些超过红线的地方，陈明忠表示，对一些取用水项目进行区域的限批，" \
           "严格地进行水资源论证和取水许可的批准。"
# 关键词提取
print(HanLP.extractKeyword(document, 2))
# 自动摘要
print(HanLP.extractSummary(document, 3))

[水资源, 陈明忠]
[严格地进行水资源论证和取水许可的批准, 有部分省超过红线的指标, 水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露]


In [4]:
# 依存句法分析
sentence = "徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。"
print(HanLP.parseDependency(sentence))

1	徐先生	徐先生	nh	nr	_	4	主谓关系	_	_
2	还	还	d	d	_	4	状中结构	_	_
3	具体	具体	a	ad	_	4	状中结构	_	_
4	帮助	帮助	v	v	_	0	核心关系	_	_
5	他	他	r	r	_	4	兼语	_	_
6	确定	确定	v	v	_	4	动宾关系	_	_
7	了	了	u	u	_	6	右附加关系	_	_
8	把	把	p	p	_	15	状中结构	_	_
9	画	画	v	v	_	8	介宾关系	_	_
10	雄鹰	雄鹰	n	n	_	9	动宾关系	_	_
11	、	、	wp	w	_	12	标点符号	_	_
12	松鼠	松鼠	n	n	_	10	并列关系	_	_
13	和	和	c	c	_	14	左附加关系	_	_
14	麻雀	麻雀	n	n	_	10	并列关系	_	_
15	作为	作为	v	v	_	6	动宾关系	_	_
16	主攻	主攻	v	vn	_	17	定中关系	_	_
17	目标	目标	n	n	_	15	动宾关系	_	_
18	。	。	wp	w	_	4	标点符号	_	_



In [5]:
# 感知机词法分析器
analyzer = PerceptronLexicalAnalyzer()
print(analyzer.analyze("上海华安工业（集团）公司董事长谭旭光和秘书胡花蕊来到美国纽约现代艺术博物馆参观"))

# 任何模型总会有失误，特别是98年这种陈旧的语料库
print(analyzer.analyze("总统普京与特朗普通电话讨论太空探索技术公司"))
# 支持在线学习
analyzer.learn("与/c 特朗普/nr 通/v 电话/n 讨论/v [太空/s 探索/vn 技术/n 公司/n]/nt")
# 学习到新知识
print(analyzer.analyze("总统普京与特朗普通电话讨论太空探索技术公司"))
# 还可以举一反三
print(analyzer.analyze("主席与特朗普通电话"))
print(analyzer.analyze("主席和特朗普通电话"))

# 知识的泛化不是死板的规则，而是比较灵活的统计信息
print(analyzer.analyze("我在浙江金华出生"))
analyzer.learn("在/p 浙江/ns 金华/ns 出生/v")
print(analyzer.analyze("我在四川金华出生"))
print(analyzer.analyze("我的名字叫金华"))

[上海/ns 华安/nz 工业/n （/w 集团/n ）/w 公司/n]/nt 董事长/n 谭旭光/nr 和/c 秘书/n 胡花蕊/nr 来到/v [美国/ns 纽约/ns 现代/t 艺术/n 博物馆/n]/ns 参观/v
总统/n 普京/nr 与/c 特朗普/nrf 通/vn 电话/n 讨论/v 太空/s 探索/vn 技术/n 公司/n
总统/n 普京/nr 与/c 特朗普/nrf 通/v 电话/n 讨论/v [太空/s 探索/vn 技术/n 公司/n]/nt
主席/n 与/c 特朗普/nrf 通/v 电话/n
主席/n 和/c 特朗/b 普通/a 电话/n
我/r 在/p 浙江/ns 金华/nr 出生/v
我/r 在/p 四川/ns 金华/ns 出生/v
我/r 的/u 名字/n 叫/v 金华/nr


In [6]:
# CustomDictionary.remove("攻城狮")
# CustomDictionary.remove("白富美")
# CustomDictionary.remove("单身狗")
# 动态增加
text = "攻城狮逆袭单身狗，迎娶白富美，走上人生巅峰"  # 怎么可能噗哈哈！
print(HanLP.segment(text))

# 强行插入
CustomDictionary.add("攻城狮")
CustomDictionary.insert("白富美", "nz 1024")
CustomDictionary.add("单身狗", "nz 1024 n 1")
CustomDictionary.get("单身狗")
text = "攻城狮逆袭单身狗，迎娶白富美，走上人生巅峰"  # 怎么可能噗哈哈！
print(HanLP.segment(text))

[攻城/vi, 狮/ng, 逆袭/nz, 单身/n, 狗/n, ，/w, 迎娶/v, 白富美/nr, ，/w, 走上/v, 人生/n, 巅峰/n]
[攻城狮/nz, 逆袭/nz, 单身狗/nz, ，/w, 迎娶/v, 白富美/nz, ，/w, 走上/v, 人生/n, 巅峰/n]


In [7]:
segment = HanLP.newSegment('viterbi')
CustomDictionary.insert('川普', 'nr 1')
print(segment.seg('四川普通人与川普通电话'))
segment.enableCustomDictionaryForcing(True)
print(segment.seg('四川普通人与川普通电话'))

[四川/ns, 普通人/n, 与/cc, 川/b, 普通/a, 电话/n]
[四川/ns, 普通人/n, 与/cc, 川普/nr, 通电话/vi]


In [8]:
import zipfile
import os
from pyhanlp.static import download, remove_file, HANLP_DATA_PATH


def test_data_path():
    """
    获取测试数据路径，位于$root/data/test，根目录由配置文件指定。
    :return:
    """
    data_path = os.path.join(HANLP_DATA_PATH, 'test')
    print(data_path)
    if not os.path.isdir(data_path):
        os.mkdir(data_path)
    return data_path


def ensure_data(data_name, data_url):
    root_path = test_data_path()
    dest_path = os.path.join(root_path, data_name)
    print(dest_path)
    if os.path.exists(dest_path):
        return dest_path
    if data_url.endswith('.zip'):
        dest_path += '.zip'
    download(data_url, dest_path)
    if data_url.endswith('.zip'):
        with zipfile.ZipFile(dest_path, "r") as archive:
            archive.extractall(root_path)
        remove_file(dest_path)
        dest_path = dest_path[:-len('.zip')]
    return dest_path

In [9]:
WordVectorModel = JClass('com.hankcs.hanlp.mining.word2vec.WordVectorModel')
DocVectorModel = JClass('com.hankcs.hanlp.mining.word2vec.DocVectorModel')
model_path = os.path.join(
    ensure_data('hanlp-wiki-vec-zh',
                'http://hanlp.linrunsoft.com/release/model/hanlp-wiki-vec-zh.zip'),
    'hanlp-wiki-vec-zh.txt')

word2vec = WordVectorModel(model_path)
print(word2vec.nearest('语言'))

doc2vec = DocVectorModel(word2vec)
docs = ["山东苹果丰收", "农民在江苏种水稻", "奥运会女排夺冠", "世界锦标赛胜出", "中国足球失败"]
for idx, doc in enumerate(docs):
    doc2vec.addDocument(idx, doc)
for res in doc2vec.nearest('我要看比赛'):
    print('%s = %.2f' %
          (docs[res.getKey().intValue()], res.getValue().floatValue()))

d:/users/jacen/anaconda3/lib/site-packages/pyhanlp/static\data\test
d:/users/jacen/anaconda3/lib/site-packages/pyhanlp/static\data\test\hanlp-wiki-vec-zh
[语法=0.68476176, 方言=0.6454435, 词汇=0.6102719, 文字=0.60930157, 语系=0.6036772, 口语=0.59481555, 汉语=0.58868086, 语言学=0.57250684, 母语=0.56637216, 语族=0.56171715]
奥运会女排夺冠 = 0.55
世界锦标赛胜出 = 0.53
中国足球失败 = 0.13
山东苹果丰收 = -0.05
农民在江苏种水稻 = -0.07


In [10]:
import threading
import time
from pyhanlp import HanLP


class MyThread(threading.Thread):
    def __init__(self, thread_id, name, counter, lock):
        threading.Thread.__init__(self)
        self.threadID = thread_id
        self.name = name
        self.counter = counter
        self.lock = lock

    def run(self):
        print("Starting " + self.name)
        # self.lock.acquire()
        print_time(self.name, self.counter, 10)
        # Free lock to release next thread
        # self.lock.release()


def print_time(thread_name, delay, counter):
    while counter:
        time.sleep(delay)
        print("%s: %s, seg: %s" % (thread_name, time.ctime(time.time()), HanLP.segment("攻城狮逆袭单身狗，迎娶白富美，走上人生巅峰")))
        counter -= 1

In [11]:
threadLock = threading.Lock()

thread1 = MyThread(1, "Thread-1", 1, threadLock)
thread2 = MyThread(2, "Thread-2", 2, threadLock)

thread1.start()
thread2.start()

print('waiting to finish the thread')

thread1.join()
thread2.join()

print("Exiting Main Thread")

Starting Thread-1
Starting Thread-2waiting to finish the thread

Thread-1: Thu Aug 30 20:42:42 2018, seg: [攻城狮/nz, 逆袭/nz, 单身狗/nz, ，/w, 迎娶/v, 白富美/nz, ，/w, 走上/v, 人生/n, 巅峰/n]
Thread-1: Thu Aug 30 20:42:43 2018, seg: [攻城狮/nz, 逆袭/nz, 单身狗/nz, ，/w, 迎娶/v, 白富美/nz, ，/w, 走上/v, 人生/n, 巅峰/n]
Thread-2: Thu Aug 30 20:42:43 2018, seg: [攻城狮/nz, 逆袭/nz, 单身狗/nz, ，/w, 迎娶/v, 白富美/nz, ，/w, 走上/v, 人生/n, 巅峰/n]
Thread-1: Thu Aug 30 20:42:44 2018, seg: [攻城狮/nz, 逆袭/nz, 单身狗/nz, ，/w, 迎娶/v, 白富美/nz, ，/w, 走上/v, 人生/n, 巅峰/n]
Thread-1: Thu Aug 30 20:42:45 2018, seg: [攻城狮/nz, 逆袭/nz, 单身狗/nz, ，/w, 迎娶/v, 白富美/nz, ，/w, 走上/v, 人生/n, 巅峰/n]
Thread-2: Thu Aug 30 20:42:45 2018, seg: [攻城狮/nz, 逆袭/nz, 单身狗/nz, ，/w, 迎娶/v, 白富美/nz, ，/w, 走上/v, 人生/n, 巅峰/n]
Thread-1: Thu Aug 30 20:42:46 2018, seg: [攻城狮/nz, 逆袭/nz, 单身狗/nz, ，/w, 迎娶/v, 白富美/nz, ，/w, 走上/v, 人生/n, 巅峰/n]
Thread-1: Thu Aug 30 20:42:47 2018, seg: [攻城狮/nz, 逆袭/nz, 单身狗/nz, ，/w, 迎娶/v, 白富美/nz, ，/w, 走上/v, 人生/n, 巅峰/n]
Thread-2: Thu Aug 30 20:42:47 2018, seg: [攻城狮/nz, 逆袭/nz, 单身狗/nz, ，/w, 迎娶/v, 白富美