In [2]:
import my_ast
my_ast.process_prompt('./prompt-base.md', """
You play the role of a software architect, AI expert, and telecommunications expert to answer questions for me.
如何使用golang从一个句子中提取出所有的地名，区分国家城市和省份
会使用到哪些库和NLP技术
""")


```thinking
让我从软件架构师和AI专家的角度来思考这个问题...

首先这是一个典型的命名实体识别(NER)任务,需要从非结构化文本中识别出地理位置实体。对于中文文本处理会有一些特殊的考虑...

hmm,从技术选型上来看,有几个可能的方案:

1. 最简单的是使用现成的中文NLP库,像是go-nlp或者调用一些云服务API。但这种方式可能不够灵活,而且依赖第三方。

2. 另一个方向是自己实现基于规则的方法,使用地名词典匹配。这种方式实现简单,但准确率可能不够高,而且需要维护词典。

3. 更好的方案是使用机器学习模型,特别是预训练的中文语言模型。但golang在深度学习方面的生态还不够成熟...

让我想想具体的实现细节...

对于数据预处理,肯定需要先进行分词。这里可以用jieba分词的golang实现。

然后是实体识别的核心部分。考虑到实际应用场景,我觉得可以采用混合方案:
- 基础层使用预定义的地名词典快速匹配
- 结合一些启发式规则,比如"省"、"市"等关键词
- 可选地调用预训练模型做进一步识别

还需要考虑地名的层级关系。比如"北京市海淀区"这样的嵌套地名,需要正确解析出层级。可以构建一个树形结构来表示。

具体到golang库的选择:
- 分词可以用github.com/yanyiwu/gojieba
- 正则表达式标准库regexp
- 可以用gorm操作地名数据库
- 如果要用深度学习,可以考虑调用Python服务

性能方面需要注意的点:
- 大规模词典匹配要用高效的数据结构,比如Trie树
- 考虑使用goroutine并行处理
- 结果缓存机制

代码架构上应该遵循Clean Architecture:
- 领域层定义地理实体模型
- 应用层处理业务逻辑
- 基础设施层处理具体的NLP操作

嗯,这样的方案应该是比较完整和可行的。让我整理一下回复...
```

基于以上分析,我建议采用以下方案来实现中文地名提取:

1. 核心依赖库:
- github.com/yanyiwu/gojieba - 中文分词
- github.com/go-gorm/gorm - 数据库操作
- 标准库 regexp - 正则匹配

2. 主要技术方案:
- 采用分层的混合识别策略:
  * 基于词典的快速匹配
  * 规则识别(关键词、正

In [1]:
from dotenv import load_dotenv, find_dotenv
import os
load_dotenv(find_dotenv(),override=True)
api_key=os.getenv("ONEAPI_API_KEY", "")
base_url=os.getenv("ONEAPI_BASE_URL", "")


from langchain_openai import ChatOpenAI
llm = ChatOpenAI(api_key=api_key, base_url=base_url, model="claude-3-5-sonnet")
response = llm.stream("你是哪个版本的模型")
for chunk in response:
    print(chunk.content, end="")

我是 Claude，一个由 Anthropic 开发的 AI 助手。我会努力用专业、诚实和有帮助的方式来回答你的问题。

In [4]:
import datetime
prompt = open('prompt-base.md', 'r', encoding='utf-8').read()
prompt = prompt + """
把下面的代码进行函数和类抽取重构，使之更简洁，易扩展，易维护，代码不需要注释
新代码应该支持修改模型名称，是否使用流式
```python
from dotenv import load_dotenv, find_dotenv
import os
import datetime

load_dotenv(find_dotenv(),override=True)
api_key=os.getenv("ONEAPI_API_KEY", "")
base_url=os.getenv("ONEAPI_BASE_URL", "")
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(api_key=api_key, base_url=base_url, model="claude-3-5-sonnet")

prompt = open('prompt-base.md', 'r', encoding='utf-8').read()
prompt = prompt + "1.8 和 1.11 谁大"
response = llm.stream(prompt)
timestamp = datetime.datetime.now().strftime("%Y%m%d%H%M%S")
file_path = f'sessions/temp-{timestamp}.md'

with open(file_path, 'w', encoding='utf-8') as file:
    for chunk in response:
        print(chunk.content, end="")
        file.write(chunk.content)
```
"""
response = llm.stream(prompt)
# 获取当前时间戳
timestamp = datetime.datetime.now().strftime("%Y%m%d%H%M%S")
# 定义文件路径
file_path = f'sessions/temp-{timestamp}.md'

# 将内容写入文件
with open(file_path, 'w', encoding='utf-8') as file:
    for chunk in response:
        # print(chunk.content, end="")
        file.write(chunk.content)