In [1]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader('./091无核沃柑种植技术0629.pdf')
splitter = RecursiveCharacterTextSplitter()
chunks = splitter.split_documents(loader.lazy_load())

In [2]:
import pandas as pd
df_chunks = pd.DataFrame({
  'text': [chunk.page_content for chunk in chunks],
  'source': [chunk.metadata['source'] for chunk in chunks],
  'page': [chunk.metadata['page'] for chunk in chunks]
})
df_chunks.to_csv('chunks.csv', sep="|", errors='ignore')

In [3]:
df_chunks = pd.read_csv('chunks.csv', sep="|", index_col=0)
df_chunks

Unnamed: 0,text,source,page
0,1月：冬季清园期 \n1月份是沃柑的采收期，花芽形态分化期，冬梢萌发期。在这期间需要做好采...,./091无核沃柑种植技术0629.pdf,0
1,2月：春芽萌动期 ： \n2月份立春，气温逐渐回升，此时是沃柑花芽 形态分化期、春梢萌发期 ...,./091无核沃柑种植技术0629.pdf,1
2,堪倍盛 -海藻高磷液 1000倍（叶面喷施：兑水 800-1200倍叶片正反面喷施均匀。 根...,./091无核沃柑种植技术0629.pdf,2
3,嘧霉胺 2000倍。 \n另外，如果采摘后未见花蕾大量抽生，可用矿物油进行清园处理，青苔严重...,./091无核沃柑种植技术0629.pdf,3
4,3月：春梢萌发生长期 ： \n3月正处于春稍生长期、花蕾现蕾期、初花期和盛花期 。由于海拔和...,./091无核沃柑种植技术0629.pdf,4
5,病虫防治： \n3月气温回暖，病虫害开始频发， 大部分春梢叶片也已展开 ，及时防治木虱、分...,./091无核沃柑种植技术0629.pdf,5
6,4月：春梢生长期、夏梢萌发期 \n \n树体管理： \n摘顶修剪：对即将老熟春梢进行摘顶...,./091无核沃柑种植技术0629.pdf,6
7,病虫防治： \n4月主要防治花蕾蛆、柑橘木虱、红蜘蛛、潜叶蛾、介壳虫、蚜虫、粉虱等，预防灰...,./091无核沃柑种植技术0629.pdf,7
8,5月：夏梢生长期 \n \n树体管理： \n整形抹梢：对密集夏梢进行抹除，去弱留强，每枝...,./091无核沃柑种植技术0629.pdf,8
9,病虫防治： \n5月中旬大部分春梢叶片已展开、叶片转绿前时喷一次，杀灭柑橘木虱、潜叶蛾、蚧...,./091无核沃柑种植技术0629.pdf,9


In [4]:
from zhipuai import ZhipuAI
client = ZhipuAI(api_key='57d70e621ad1b471776291b62d9d0190.OLXwozfKyX1NRtcn')

In [6]:
SYSTEM_PROMPT_SUBG = """
你是一个知识图谱构建专家，用户会给你一段文本，你的任务是准确地从这段文本里提取出实体和它们之间的关系，
重点考虑与沃柑生产技术相关的知识，比如种植、施肥、剪枝、病虫害防治、物候期等等。

你可以按下面步骤进行：
1. 实体可能是人、物体、时间、地点、组织等，尽可能保证实体的原子性和多样性。
2. 一个实体可能与多个实体有关系，尽可能多地提取出关系。
3. 将提取出的实体和关系按照如下三元组格式输出，只需要输出结果，不需要解释思路。
   足球|属于|球类运动
   人|踢|足球
   疫苗|预防|疾病
"""
def subg(text: str):
  res = client.chat.completions.create(
    model="glm-4-air",
    messages=[
      {"role": "system", "content": SYSTEM_PROMPT_SUBG},
      {"role": "user", "content": text},
    ]
  )
  return res.choices[0].message

In [7]:
from tqdm import tqdm

with open("edges-0-149.2.csv", "w+") as f:
  for i, row in tqdm(df_chunks.iterrows()):
    if 0 <= i < 150:
      content = subg(row["text"]).content
      lines = content.split("\n")
      for line in lines:
        f.write(f"{line}|{i}\n")
      f.flush()

21it [05:06, 14.61s/it]


In [8]:
with open('edges.csv', 'w') as w:
    with open('edges-0-149.2.csv') as r:
        for line in r:
            cells = line.split("|")
            if len(cells) != 4:
                continue
            w.write(line)

In [9]:
df_all = pd.read_csv("edges.csv", sep="|", names=["u", "e", "v", "d"]).dropna()
df_all

Unnamed: 0,u,e,v,d
0,沃柑,处于,冬季清园期,0
1,1月份,是,沃柑的采收期,0
2,1月份,是,花芽形态分化期,0
3,1月份,是,冬梢萌发期,0
4,冬季清园期,需要,采摘,0
...,...,...,...,...
751,药剂,使用时机,雨后,20
752,药剂,组合,吡唑醚菌酯 +苯醚甲环唑,20
753,药剂,组合,吡唑醚菌酯 +代森锰锌,20
754,烂果,处理措施,摘除,20


In [10]:
nodes: set[str] = set()
links: dict[str, int] = dict()
for i, row in df_all.iterrows():
    u = row["u"]
    v = row["v"]
    e = row["e"]
    d = row["d"]
    nodes.add(u)
    nodes.add(v)
    k = f'{u}|{v}|{e}'
    if k not in links:
        links[k] = 0
    links[k] += 1

In [11]:
len(nodes)

880

In [12]:
import random

data = {
    'nodes': [],
    'links': []
}
for node in list(nodes):
    data['nodes'].append({
        'id': node,
        'group': random.choice([0,1,2,3,4]),
    })
for k, w in links.items():
    u, v, e = k.split('|')
    data['links'].append({
        'source': u,
        'target': v,
        'value': w,
        'label': e,
    })
data

{'nodes': [{'id': '顶部扫把枝', 'group': 1},
  {'id': '高温干旱', 'group': 4},
  {'id': '果实中后期膨大', 'group': 3},
  {'id': '乙螨唑', 'group': 2},
  {'id': '铲除青苔、煤烟', 'group': 0},
  {'id': '及时浇灌', 'group': 4},
  {'id': '树冠扩大', 'group': 3},
  {'id': '果皮强度', 'group': 3},
  {'id': '时间', 'group': 0},
  {'id': '无具体日期', 'group': 4},
  {'id': '疏剪', 'group': 0},
  {'id': '叶果比失调', 'group': 2},
  {'id': '300-500倍', 'group': 1},
  {'id': '树形', 'group': 4},
  {'id': '沃柑果实', 'group': 3},
  {'id': '王铜可湿性粉剂', 'group': 2},
  {'id': '木虱', 'group': 0},
  {'id': '高温多雨', 'group': 1},
  {'id': '花芽形态分化期', 'group': 1},
  {'id': '营养物质', 'group': 2},
  {'id': '适量疏除顶部小果', 'group': 1},
  {'id': '贝乐霸', 'group': 4},
  {'id': '病害', 'group': 2},
  {'id': '碧绿泰', 'group': 4},
  {'id': '速效肥', 'group': 4},
  {'id': '离地过近枝条', 'group': 1},
  {'id': '久旱', 'group': 3},
  {'id': '霜降', 'group': 3},
  {'id': '修剪对象', 'group': 2},
  {'id': '病虫害药剂', 'group': 1},
  {'id': '2月', 'group': 4},
  {'id': '石灰', 'group': 0},
  {'id': '弱树/中庸树', 'group':

In [13]:
import json

with open('g.json', 'w') as w:
    json.dump(data, w, ensure_ascii=False)