In [1]:
from langchain.document_loaders import PyPDFLoader
from langchain_chroma import Chroma
from langchain_core.prompts import PromptTemplate
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from demo1 import get_embedding,get_model
loader = PyPDFLoader("./2025.5.23.pdf")
# 创建文档列表
document = loader.load_and_split()
# 分割文档
# text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
# document = text_splitter.split_documents(document)

# 创建向量数据库
vec_store = Chroma.from_documents(
    document,
    embedding=get_embedding())

query = "这个周报的内容是什么"
# 创建检索器
retriever = vec_store.as_retriever()

# 构建RAG检索链
model = get_model()
prompt = PromptTemplate.from_template(
    "Answer the question based only on the following context: {context}\nQuestion: {question}"
)
str_output_parser = StrOutputParser()
rag_chain = {"context":retriever, 
             "question":RunnablePassthrough()} | prompt | model | str_output_parser

for chunk in rag_chain.stream(query):
    print(chunk, end="")


Number of requested results 4 is greater than number of elements in index 3, updating n_results = 3


根据提供的文档内容，这份周报主要包含以下两部分内容：

---

### **1. 开放式创新（OIPs）研究进展**
- **研究方法**：  
  基于无监督学习技术（如NLP和LDA），从公司的OIPs中提取信息，创建初始关键词篮（Keyword Basket），以量化和分析开放式创新实践。
- **核心发现**：  
  - 公司整体开放水平与财务表现呈正相关。  
  - 部分特定OIPs与财务表现呈现**倒U型关系**，部分支持了先前研究中提到的“开放性悖论”（过度开放可能带来负面影响）。  
  - 内部R&D与个体OIPs的互补性因具体实践方式而异，且OIPs的影响因行业不同而存在差异。  
- **结论**：  
  开放式创新对业务的影响复杂，不存在普适的最佳实践，需结合企业自身和行业特点进行调整。

- **技术细节**：  
  通过**主题建模（Topic Modeling）** 来衡量和分类开放式创新实践，可能是论文研究的核心方法。

---

### **2. 机器翻译模型调试与优化**
- **问题与解决方案**：  
  - **网络下载错误**：重新下载tokenizer解决了相关问题。  
  - **预测机制改进**：  
    - 采用**自回归机制**和**位移操作（Shift Operation）**，在解码器输入（decoder-input）的首个位置添加`bos_token`（开始标记），逐步预测后续词直到`eos_token`（结束标记）。  
    - 原先未使用位移机制导致预测逻辑错误，现已修正。  
- **模型现状**：  
  - 训练epoch较少，模型对语义层面的翻译能力有限，但能理解基础单词对应关系。  
  - 预测结果已通过图表展示（如图所示，日期为2025年5月23日）。

---

### **总结**
这份周报同时汇报了两个研究/工作的进展：  
1. **学术研究**：利用无监督学习分析开放式创新对公司财务表现的影响，强调其复杂性和行业差异性。  
2. **技术实践**：机器翻译模型的调试与优化，解决了预测机制和tokenizer相关问题，但模型仍需更多训练以提升语义理解能力。