In [16]:
from OpenAI_LLM import OpenAI_LLM
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number
import tiktoken
import json
enc = tiktoken.get_encoding("cl100k_base")

In [19]:
schema = Object(
    id="script",
    description="Adapted from the novel into script",
    attributes=[
        Text(
            id="role",
            description="The character who is speaking",
        ),
        Text(
            id="dialogue",
            description="The dialogue spoken by the characters in the sentence",
        )
    ],
    examples=[
        (
            '''
            他下意识放轻了脚步，不制造出明显的噪音。
            刚登上二楼，他看见盥洗室的门突然打开，穿着旧布长裙的梅丽莎一副睡眼惺忪的模样出来。
            “你回来了……”梅丽莎还有些迷糊地揉了揉眼睛。
            克莱恩掩住嘴巴，打了个哈欠道：
            “是的，我需要一个美好的梦境，午餐之前都不要叫醒我。”
            梅丽莎“嗯”了一声，忽然想起什么似地说道：
            “我和班森上午要去圣赛琳娜教堂做祈祷，参与弥撒，午餐可能会迟一点。”
            ''',
            [
                {"role": "梅丽莎", "dialogue": "你回来了……"},
                {"role": "克莱恩", "dialogue": "是的，我需要一个美好的梦境，午餐之前都不要叫醒我。"},
                {"role": "梅丽莎", "dialogue":"我和班森上午要去圣赛琳娜教堂做祈祷，参与弥撒，午餐可能会迟一点。"}
            ],
        ),
        (
            '''
            “太感谢您了！‘愚者’先生您真是太慷慨了！”奥黛丽欣喜地回应道。
            她为自己刚才想用金钱购买消息的庸俗忏悔了三秒。
            克莱恩停止手指的敲动，语气平淡地描述道：
            “第一个常识，非凡特性不灭定律，非凡特性不会毁灭，不会减少，只是从一个事物转移到另一个事物。”
            我不知不觉竟然用上了队长的口吻……克莱恩的嘴角下意识就翘了起来。
            ''',
            [
                {"role": "奥黛丽", "dialogue": "太感谢您了！‘愚者’先生您真是太慷慨了！"},
                {"role": "克莱恩", "dialogue": "第一个常识，非凡特性不灭定律，非凡特性不会毁灭，不会减少，只是从一个事物转移到另一个事物。"},
            ],
        )
    ],
    many=True,
)


In [20]:
text = """
    坐在他们后面那个沙发区域的几位会员则在一位疑似股票经纪人的男士引导下，讨论着最新的西部铁路股票和东拜朗种植园股票。

    对克莱恩的回答，塔利姆没有任何怀疑，呵呵笑道：

    “这果然是大侦探忙碌的事情。”

    寒暄了几句后，他逐渐进入了一种若有所思的状态。

    就在克莱恩打算告辞去地下靶场时，塔利姆突然望向他道：

    “莫里亚蒂先生，我能请教一个问题吗？”

    “嗯，你可以收咨询费。”

    “这单免费，还有，叫我夏洛克就行了。”克莱恩哈哈一笑道。

    塔利姆轻轻点了下头，犹豫着说道：

    “我有个朋友，爱上了不该爱的人，这种情况该怎么处理？”

    虽然我一直认为，询问类似的问题时，“我有个朋友”就等于“我自己”，但塔利姆的情绪颜色说明不是他本人，他很为难，但却看不见丝毫的痛苦……开启了灵视的克莱恩往后微靠，双手交握道：

    “很抱歉，我不是心理医生，也不是报纸杂志上那些擅于解决情感问题的专家。”

    “我唯一的建议是，不要犯法。”
"""

In [21]:
llm = OpenAI_LLM()
chain = create_extraction_chain(llm, schema)

In [22]:
print(chain.prompt.format_prompt(text="[user input]").to_string())

Your goal is to extract structured information from the user's input that matches the form described below. When extracting information please make sure it matches the type information exactly. Do not add any attributes that do not appear in the schema shown below.

```TypeScript

script: Array<{ // Adapted from the novel into script
 role: string // The character who is speaking
 dialogue: string // The dialogue spoken by the characters in the sentence
}>
```


Please output the extracted information in CSV format in Excel dialect. Please use a | as the delimiter. 
 Do NOT add any clarifying information. Output MUST follow the schema above. Do NOT add any additional columns that do not appear in the schema.



Input: 
            他下意识放轻了脚步，不制造出明显的噪音。
            刚登上二楼，他看见盥洗室的门突然打开，穿着旧布长裙的梅丽莎一副睡眼惺忪的模样出来。
            “你回来了……”梅丽莎还有些迷糊地揉了揉眼睛。
            克莱恩掩住嘴巴，打了个哈欠道：
            “是的，我需要一个美好的梦境，午餐之前都不要叫醒我。”
            梅丽莎“嗯”了一声，忽然想起什么似地说道：
            “我和班森上午要去圣赛琳娜教堂做祈祷，参与弥撒，午餐可能会迟一点。”