In [1]:
import os
from pyhanlp import HanLP
import json

In [2]:
def hanlp_parse(text):
    parsed = HanLP.parseDependency(text).toString()
    lines = parsed.strip().split('\n')
    tokens = []
    for line in lines:
        parts = line.strip().split('\t')
        tokens.append({
            'id': int(parts[0]),
            'form': parts[1],
            'lemma': parts[2],
            'cpos': parts[3],
            'pos': parts[4],
            'feats': parts[5],
            'head': int(parts[6]),
            'deprel': parts[7],
            'phead': parts[8],
            'pdeprel': parts[9]
        })
    return tokens


text_list = ['我喜欢看电影，尤其是科幻电影。', 
             '她买了一本新书，但还没有开始看。', 
             '他们昨天去了北京，参观了故宫和长城。', 
             '这个问题很难，我需要更多的时间来思考。', 
             '你喜欢吃什么样的食物？', '父母总是希望自己的孩子能够好好学习。', 
             '我们的公司正在开发一个新产品，预计明年上市。', '这张照片太模糊了，你能再拍一张清晰的吗？', 
             '虽然他很忙，但他还是抽出时间来参加了聚会。', '她对这个问题非常感兴趣，经常做一些相关的研究。', 
             '他认为这个计划不太现实，提出了自己的想法。', '我们需要进一步了解客户的需求，才能设计出更好的产品。', 
             '他的英语水平非常高，经常去国外出差。', '我们不应该只看表面现象，而应该深入思考问题的本质。', 
             '这个城市的交通非常便利，地铁和公交车都很方便。', '他每天都会花很多时间在学习上，非常努力。', 
             '我们应该珍惜时间，把握每一分每一秒。', '我们应该鼓励孩子多读书，开阔视野。', 
             '这个音乐会非常精彩，我非常喜欢。', 
             '据主人说，这里环境幽静，客房又便宜，能住六七个人的房间，一周才用３７００多挪威克朗（合人民币６５００多元），因而来往客人很多，好多会议都在这里开。', 
             '连日来，省市主要领导纷纷下到困难企业慰问职工。', 
             '这项工程建成后将大大削减郑州市的污染负荷。', '总的说，我们的绝大多数干部能够正确对待个人的进退留转问题。', 
             '本报讯我国首张采用多媒体技术制作的《中国医药企业名典》光盘，近日驶上国际信息高速公路。', 
             '德国共花１·６亿马克购买的迎新烟花绝大部分从中国进口。', 
             '５月１５日，北京海关调查局根据举报线索，费尽周折陆续找到了１０５辆海马轿车。', 
             '我们认为，对伊拉克的制裁不能长期进行下去。', 
             '现实生活中，只有职业的不同，没有人的贵贱。', 
             '从跨出校门那天，你就向往着踏上南极。', 
             '另一方面，雅古布也向总理内塔尼亚胡摊牌，坚持紧缩开支，反对降低税收，以尽量减少政府的财政赤字，声称只要内塔尼亚胡屈从利维的意见，他也将辞职。'
            ]


In [3]:
with open("hanlp_result.json", 'w', encoding='utf-8') as fout:
    for text in text_list:
        print(f'Text: {text}')
        print(f'Text: {text}',file=fout)
        print('HanLP:')
        print('HanLP:',file=fout)
        hanlp_result = hanlp_parse(text)
        print(json.dumps(hanlp_result, ensure_ascii=False, indent=4))
        json.dump(hanlp_result, fout, ensure_ascii=False, indent=2)

Text: 我喜欢看电影，尤其是科幻电影。
HanLP:
[
    {
        "id": 1,
        "form": "我",
        "lemma": "我",
        "cpos": "r",
        "pos": "r",
        "feats": "_",
        "head": 2,
        "deprel": "主谓关系",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 2,
        "form": "喜欢",
        "lemma": "喜欢",
        "cpos": "v",
        "pos": "v",
        "feats": "_",
        "head": 0,
        "deprel": "核心关系",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 3,
        "form": "看",
        "lemma": "看",
        "cpos": "v",
        "pos": "v",
        "feats": "_",
        "head": 2,
        "deprel": "动宾关系",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 4,
        "form": "电影",
        "lemma": "电影",
        "cpos": "n",
        "pos": "n",
        "feats": "_",
        "head": 3,
        "deprel": "动宾关系",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 5,
        "form": "，",
        "lemma": 

[
    {
        "id": 1,
        "form": "他",
        "lemma": "他",
        "cpos": "r",
        "pos": "r",
        "feats": "_",
        "head": 2,
        "deprel": "主谓关系",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 2,
        "form": "认为",
        "lemma": "认为",
        "cpos": "v",
        "pos": "v",
        "feats": "_",
        "head": 0,
        "deprel": "核心关系",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 3,
        "form": "这个",
        "lemma": "这个",
        "cpos": "r",
        "pos": "r",
        "feats": "_",
        "head": 4,
        "deprel": "定中关系",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 4,
        "form": "计划",
        "lemma": "计划",
        "cpos": "n",
        "pos": "n",
        "feats": "_",
        "head": 7,
        "deprel": "主谓关系",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 5,
        "form": "不",
        "lemma": "不",
        "cpos": "d",
 

[
    {
        "id": 1,
        "form": "据",
        "lemma": "据",
        "cpos": "p",
        "pos": "p",
        "feats": "_",
        "head": 7,
        "deprel": "状中结构",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 2,
        "form": "主人",
        "lemma": "主人",
        "cpos": "n",
        "pos": "n",
        "feats": "_",
        "head": 3,
        "deprel": "主谓关系",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 3,
        "form": "说",
        "lemma": "说",
        "cpos": "v",
        "pos": "v",
        "feats": "_",
        "head": 1,
        "deprel": "介宾关系",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 4,
        "form": "，",
        "lemma": "，",
        "cpos": "wp",
        "pos": "w",
        "feats": "_",
        "head": 1,
        "deprel": "标点符号",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 5,
        "form": "这里",
        "lemma": "这里",
        "cpos": "r",
  

[
    {
        "id": 1,
        "form": "５月",
        "lemma": "５月",
        "cpos": "nt",
        "pos": "t",
        "feats": "_",
        "head": 2,
        "deprel": "定中关系",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 2,
        "form": "１５日",
        "lemma": "１５日",
        "cpos": "nt",
        "pos": "t",
        "feats": "_",
        "head": 6,
        "deprel": "状中结构",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 3,
        "form": "，",
        "lemma": "，",
        "cpos": "wp",
        "pos": "w",
        "feats": "_",
        "head": 2,
        "deprel": "标点符号",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 4,
        "form": "北京海关",
        "lemma": "北京海关",
        "cpos": "ni",
        "pos": "nto",
        "feats": "_",
        "head": 5,
        "deprel": "定中关系",
        "phead": "_",
        "pdeprel": "_"
    },
    {
        "id": 5,
        "form": "调查局",
        "lemma": "调查局",
      