In [6]:
import pymupdf 
import re

# 章节标题检测模式：匹配中文"第x章"或英文"Chapter x"格式
CHAPTER_PATTERN = r'^(第[\d一二三四五六七八九十]+章|Chapter\s+\d+)'

def detect_chapter(text):
    """
    检测文本是否为章节标题
    :param text: 待检测文本字符串
    :return: bool类型检测结果
    """
    if not text:  # 处理空输入
        return False
        
    # 使用正则表达式进行精确匹配
    return re.match(CHAPTER_PATTERN, text.strip()) is not None

def save_text_by_chapter(pdf_path, output_dir):
    # 打开 PDF 文件
    doc = pymupdf.open(pdf_path)
    chapter_text = ""
    chapter_count = 0
    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        text = page.get_text("text")
        #print(text)
        # 假设每章以 第x章 开头
        
        if detect_chapter(text):
            chapter_count += 1
            chapter_text = text
        else:
            chapter_text += text
        
        # 保存章节文本到 txt 文件
        if chapter_count > 0:
            with open(f"{output_dir}/chapter_{chapter_count}.txt", "w", encoding="utf-8") as f:
                f.write(chapter_text)

# 使用示例
pdf_path = "knowledge/buffet.pdf"
output_dir = "knowledge/output"
save_text_by_chapter(pdf_path, output_dir)

In [2]:
from meta_strategy import meta_strategy_prompt
from meta_think import meta_think_prompt

In [3]:
print(meta_think_prompt+meta_strategy_prompt)


你是一名元认知科学家，按照如下的结构进行元认知分析：
<struct>
    1. 元认知知识: 你对自己和他人在思考、解决问题和学习过程方面的了解。包括陈述性知识，程序性知识、条件性知识。
        1. 陈述性知识：关于自己和任务的事实，不包含任务本身的事实
        2. 程序性知识：知道如何执行策略
        3. 条件性知识：知道何时及为何使用策略
    2. 元认知调节: 你用来控制思维的活动和策略。包括规划、监控和评估。
        1. 规划：在开始任务前制定目标和选择策略。例如，决定在阅读前先浏览标题和问题以了解重点。
        2. 监控：在任务进行中检查进展和理解程度。例如，边读边问自己“我明白了吗？” 
        3. 评估：任务完成后反思结果和策略的有效性。例如，考试后回顾哪些复习方法最有用。
    3. 元认知体验: 学习新知识或尝试解决问题时产生的想法和感受。以下是其主要类型：
        1. 知道感（Feeling of Knowing, FOK）  
            定义：在回忆信息前，觉得自己知道答案的一种感觉。  
            示例：考试时，看到问题后觉得答案就在嘴边，但尚未完全回忆起来。  
            作用：这种感觉可以指导是否继续努力回忆或转向其他策略。
        2. 舌尖现象（Tip-of-the-Tongue Experience, TOT）  
            定义：知道某事但暂时无法回忆起来的感觉，通常伴随部分相关信息的激活。  
            示例：试图回忆演员的名字，但只记得他们的电影角色。  
            作用：这种体验提示记忆检索的接近性，可能促使个体通过提示或上下文辅助回忆。
        3. 信心判断（Confidence Judgments）  
            定义：对自己答案或决定的确定程度评估。  
            示例：在选择题中，感觉某个选项非常正确，决定不更改。  
            作用：影响决策，如是否坚持答案或重新检查。
        4. 难度评估（Difficulty Assessments）  
            定义：感知任务

In [None]:
import os
import ollama
from pydantic import BaseModel
import json

class MetaKnolege(BaseModel):
    Declarative_Knowledge: list[str]
    Procedural_Knowledge: list[str]
    Conditional_Knowledge: list[str]
    
class MetaRegulation(BaseModel):
    Planning: list[str]
    Monitoring: list[str]
    Evaluating: list[str]
    
class MetaExperience(BaseModel):
    Positive: list[str]
    Negative: list[str]
    Neutral: list[str]
    
class MetaStrategy(BaseModel):
    SelfQuestion: str
    Reflection: str
    GoalSetting: str
    Modeling: str
    Scaffolding: str

class MetaThink(BaseModel):
    MetaStrategy: MetaStrategy
    MetaKnolege: MetaKnolege
    MetaRegulation: MetaRegulation
    MetaExperience: MetaExperience

class InvestmentBackground(BaseModel):
    ObjectToBeInvested: str
    Time: str
    BackgroundInfo: str

class InvestmentDecision(BaseModel):
    Time: str
    Investor: str
    Amount: str
    Object: str
    
class InvestProblem(BaseModel):
    MetaThink: MetaThink
    InvestmentBackground: InvestmentBackground
    InvestmentDecision: InvestmentDecision
    InvestmentReturn: str
    
def process_text_with_prompt(system_prompt, user_prompt):
    """使用ollama处理文本，支持system prompt和用户prompt的组合"""
    # 构造ollama需要的消息格式
    messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt},
    ]
    
    # 调用ollama的chat接口
    response = ollama.chat(
        model='qwq',  # 根据实际模型调整，如'mistral'
        messages=messages,
        format=InvestProblem.model_json_schema(),
        options={"num_ctx":7000}
    )
    return response['message']['content']

def process_file_with_ollama(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
        
        # 定义提示词
        system_prompt = meta_think_prompt+meta_strategy_prompt
        user_prompt = f"""
        从下面案例中抽取出
            1. 投资的元认知：元认知知识、元认知调节、元认知体验、元认知策略。
            1. 投资的思考过程：
            1. 最终投资决策：不要超过150字，包括时间、投资人、投资金额，投资对象。
        <case>
            {content}
        </case>
        """
        #print(f"user_prompt: {user_prompt}")
        # 调用处理函数
        result = process_text_with_prompt(
            system_prompt=system_prompt,
            user_prompt=user_prompt
        )
        result = json.loads(result)
        result["think"] = content
        return result

# 遍历output目录里面的每一个文件
output_dir = "knowledge/output"
results = []
for filename in os.listdir(output_dir):
    file_path = os.path.join(output_dir, filename)
    if os.path.isfile(file_path):
        result = process_file_with_ollama(file_path)
        print(f"Processed {filename}: {result}")
        results.append(result)
    #break

# 将结果写入文件
output_file = "corpus/output.json"
with open(output_file, "w+", encoding='utf-8') as f:
    for result in results:
        # format json string to one line
        result = json.dumps(result, ensure_ascii=False)
        f.write(f"{result}\n")

Processed chapter_6.txt: {'MetaThink': {'MetaStrategy': {'SelfQuestion': '在决定收购国民保险公司时，巴菲特是否充分考虑了其财务稳定性、管理团队的能力以及市场定位的可持续性？', 'Reflection': '巴菲特通过反思过去的决策经验，在此次收购中调整了报价策略，主动提高出价至高于自己估值的价格以促成交易。', 'GoalSetting': '巴菲特的目标是优化伯克希尔的现金流和投资回报率，选择国民保险符合其寻找高盈利、稳健企业的要求。', 'Modeling': '模仿格雷厄姆的价值投资原则，通过低估买入获得安全边际。', 'Scaffolding': '利用已有的合伙企业资源进行财务分析，并依赖瑞沃茨的管理能力减少初期干预需求。'}, 'MetaKnolege': {'Declarative_Knowledge': ['保险公司的核心价值在于承保利润和浮存金管理', '收购未上市公司的难点在于获取详细财务数据'], 'Procedural_Knowledge': ['通过会晤与尽职调查评估企业真实价值', '利用市盈率计算判断估值合理性'], 'Conditional_Knowledge': ['当目标公司具有持续盈利和独特管理哲学时，可支付溢价促成收购', '在浮存金规模超过购买价时优先考虑保险类资产']}, 'MetaRegulation': {'Planning': ['分析国民保险的承保记录与财务健康度', '评估瑞沃茨管理团队的持续经营意愿', '计算收购后整合到伯克希尔的现金流影响'], 'Monitoring': ['跟踪谈判过程中的价格博弈动态', '验证保费收入增长是否可持续', '监控浮存金投资组合的表现'], 'Evaluating': ['对比实际支付价（50美元/股）与估值（35美元/股）的风险收益比', '评估收购对伯克希尔整体投资组合的优化效果']}, 'MetaExperience': {'Positive': ['知道感：对瑞沃茨经营哲学的信任带来决策信心', '监控理解：通过财务数据增长确认成长性'], 'Negative': ['舌尖现象：初期无法获取完整财务信息时的不确定性', '难度评估：判断浮存金长期价值时的认知复杂度'], 'Neutral'

KeyboardInterrupt: 

In [10]:
print(json.loads(result))

{"MetaThink": {"MetaStrategy": {"SelfQuestion": "在收购国民保险公司时，巴菲特考虑了哪些关键因素？如何评估公司的真实价值？浮存金的作用是什么？", "Reflection": "收购后通过优化投资组合使资产增值，验证了浮存金策略的有效性。需持续关注保险业务的承保质量和浮存金增长潜力。", "GoalSetting": "目标是将伯克希尔现金流投入高收益稳健企业，要求收购价格显著低于内在价值，确保年化收益率超过20%。", "Modeling": "模仿格雷厄姆的价值投资方法，寻找被低估且有安全边际的公司。", "Scaffolding": "初期借助瑞沃茨管理团队经验，后续逐步介入浮存金投资策略优化。"}, "MetaKnolege": {"Declarative_Knowledge": ["国民保险公司的业务范围和经营哲学","保险浮存金的操作原理","巴菲特的价值投资理念"], "Procedural_Knowledge": ["分析财务数据（已赚保费、净利润）","评估市盈率合理性","测算浮存金可投资规模"], "Conditional_Knowledge": ["当发现承保利润稳定时采用低估值收购策略","当获得保险浮存金时优先用于复利投资"]}, "MetaRegulation": {"Planning": ["分析瑞沃茨的经营状况和出售意愿","计算公司内在价值与报价差异","评估浮存金潜力"], "Monitoring": ["跟踪收购后的财务表现","观察承保利润波动情况","监控浮存金投资回报"], "Evaluating": ["验证收购价格是否安全边际充足","确认浮存金策略有效性","总结保险业务整合经验"]}, "MetaExperience": {"Positive": ["对瑞沃茨管理能力的信心增强购买决心","浮存金规模超预期带来惊喜感"],"Negative":["对承保风险波动的担忧影响报价策略","短期现金流压力下的决策焦虑"], "Neutral": ["客观评估财务数据支撑决策","冷静应对市场噪音干扰"]}}, "InvestmentBackground": {"ObjectToBeInvested": "国民保险公司（National Indemnity Company）