In [9]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader('./草莓种植知识汇总版.pdf')
splitter = RecursiveCharacterTextSplitter()
chunks = splitter.split_documents(loader.lazy_load())

In [10]:
import pandas as pd
df_chunks = pd.DataFrame({
  'text': [chunk.page_content for chunk in chunks],
  'source': [chunk.metadata['source'] for chunk in chunks],
  'page': [chunk.metadata['page'] for chunk in chunks]
})
df_chunks.to_csv('chunks.csv', sep="|", errors='ignore')

In [11]:
df_chunks = pd.read_csv('chunks.csv', sep="|", index_col=0)
df_chunks

Unnamed: 0,text,source,page
0,一、草莓生产 基础概论 \n草莓 (strawberry) ，又叫洋莓、地莓、地果、红莓等...,./草莓种植知识汇总版.pdf,0
1,时开始生长， -7℃低温时遭受冻害， -10℃以下时植株会冻死。 \n根系生长的最适宜温度...,./草莓种植知识汇总版.pdf,1
2,1.6种植的温度管理 \n适时保温是促成栽培的关键措施。根据天气情况，夜间气温降到 5-8...,./草莓种植知识汇总版.pdf,2
3,判断是否该浇水应观察早晨叶面水分，如果叶面边缘有水滴，即出现吐水\n现象，可以认为水分充足，...,./草莓种植知识汇总版.pdf,3
4,二、草莓的生物学特性 \n（一）草莓的形态特征和生长结果习性 \n草莓是蔷薇科、草莓属多...,./草莓种植知识汇总版.pdf,4
5,2现蕾期：当地上部生长一个月左右，在新茎展开 3片叶，花序开始显露，\n现蕾期约持续 15天...,./草莓种植知识汇总版.pdf,5
6,其次，在成熟期间低光照、氮肥过量以及果实含糖量低是引起白果病（浆\n果成熟期不能正常着色）的...,./草莓种植知识汇总版.pdf,6
7,的最适温度为 17-25℃；座果的最适温度为 25-27℃；果实发育适温为 18～22℃。 ...,./草莓种植知识汇总版.pdf,7
8,三、草莓的繁殖方式 \n草莓的繁殖方式有匍匐茎繁殖、分株繁殖、组织培养繁殖和种子繁殖 4种...,./草莓种植知识汇总版.pdf,8
9,四、草莓生长环境 \n草莓需要种植在阳光充足，温暖的环境中。另外土壤的疏水性要好。如果\n...,./草莓种植知识汇总版.pdf,9


In [12]:
from zhipuai import ZhipuAI
client = ZhipuAI(api_key='57d70e621ad1b471776291b62d9d0190.OLXwozfKyX1NRtcn')

In [13]:
SYSTEM_PROMPT_SUBG = """
你是一个知识图谱构建专家，用户会给你一段文本，你的任务是准确地从这段文本里提取出实体和它们之间的关系，
重点考虑与草莓生产技术相关的知识，比如种植、施肥、剪枝、病虫害防治、物候期等等。

你可以按下面步骤进行：
1. 实体可能是人、物体、时间、地点、组织等，尽可能保证实体的原子性和多样性。
2. 一个实体可能与多个实体有关系，尽可能多地提取出关系。
3. 将提取出的实体和关系按照如下三元组格式输出，只需要输出结果，不需要解释思路。
   足球|属于|球类运动
   人|踢|足球
   疫苗|预防|疾病
"""
def subg(text: str):
  res = client.chat.completions.create(
    model="glm-4-air",
    messages=[
      {"role": "system", "content": SYSTEM_PROMPT_SUBG},
      {"role": "user", "content": text},
    ]
  )
  return res.choices[0].message

In [14]:
from tqdm import tqdm

with open("edges-0-149.2.csv", "w+") as f:
  for i, row in tqdm(df_chunks.iterrows()):
    if 0 <= i < 150:
      content = subg(row["text"]).content
      lines = content.split("\n")
      for line in lines:
        f.write(f"{line}|{i}\n")
      f.flush()

33it [04:22,  7.96s/it]


In [15]:
with open('edges.csv', 'w') as w:
    with open('edges-0-149.2.csv') as r:
        for line in r:
            cells = line.split("|")
            if len(cells) != 4:
                continue
            w.write(line)

In [17]:
df_all = pd.read_csv("edges.csv", sep="|", names=["u", "e", "v", "d"]).dropna()
df_all

Unnamed: 0,u,e,v,d
0,草莓,属于,浆果类果树,0
1,洋莓,别称,草莓,0
2,地莓,别称,草莓,0
3,地果,别称,草莓,0
4,红莓,别称,草莓,0
...,...,...,...,...
969,开花后约30-40天,采收,草莓,32
970,12月,花开时期,第二期花开,32
971,1月,花开时期,第三期花开,32
972,2月,花开时期,第四期花开,32


In [18]:
nodes: set[str] = set()
links: dict[str, int] = dict()
for i, row in df_all.iterrows():
    u = row["u"]
    v = row["v"]
    e = row["e"]
    d = row["d"]
    nodes.add(u)
    nodes.add(v)
    k = f'{u}|{v}|{e}'
    if k not in links:
        links[k] = 0
    links[k] += 1

In [19]:
len(nodes)

1145

In [20]:
import random

data = {
    'nodes': [],
    'links': []
}
for node in list(nodes):
    data['nodes'].append({
        'id': node,
        'group': random.choice([0,1,2,3,4]),
    })
for k, w in links.items():
    u, v, e = k.split('|')
    data['links'].append({
        'source': u,
        'target': v,
        'value': w,
        'label': e,
    })
data

{'nodes': [{'id': '多施充分腐熟的优质有机肥', 'group': 1},
  {'id': '15℃以上', 'group': 2},
  {'id': '定植方法', 'group': 2},
  {'id': '50%抗蚜威可湿性粉剂', 'group': 2},
  {'id': '草莓促成栽培', 'group': 2},
  {'id': '叶片灼伤', 'group': 4},
  {'id': '病斑边缘棕褐色', 'group': 1},
  {'id': '薄肥勤施', 'group': 0},
  {'id': '温度20-25℃', 'group': 4},
  {'id': '50%的辟蚜雾', 'group': 4},
  {'id': '采摘草莓', 'group': 4},
  {'id': '干草或垫子', 'group': 0},
  {'id': '硫悬浮剂', 'group': 0},
  {'id': '早丰收', 'group': 2},
  {'id': '清除  ', 'group': 4},
  {'id': '18英寸', 'group': 2},
  {'id': '草莓根系', 'group': 2},
  {'id': '女峰', 'group': 0},
  {'id': '野草生长', 'group': 0},
  {'id': '沙壤土', 'group': 0},
  {'id': '长叶片', 'group': 4},
  {'id': '每亩', 'group': 1},
  {'id': '蛴螬', 'group': 0},
  {'id': '大果', 'group': 4},
  {'id': '赤毒素溶液', 'group': 4},
  {'id': '草莓定植时间  ', 'group': 2},
  {'id': '草莓栽种', 'group': 0},
  {'id': '缺磷症', 'group': 1},
  {'id': '开花结果旺盛', 'group': 3},
  {'id': '果实感病轻', 'group': 2},
  {'id': '提高产量', 'group': 0},
  {'id': '喷施', 'group': 1},
  {'id':

In [21]:
import json

with open('g.json', 'w') as w:
    json.dump(data, w, ensure_ascii=False)