# 语义块切饭
语义块切分是根据句子之间的内容相似性来分割文本。主要方法：
- Percentile（百分位）
- Standard Deviation（标准差）
- Interquartile Range(IQR)（四分位距）

In [1]:
import fitz
import os
import numpy as np
import google.generativeai as genai
from dotenv import load_dotenv
import json

try:
    load_dotenv()
    print("环境已配置")
except:
    print("检查环境文件是否已配置")

环境已配置


In [2]:
def extra_text_from_pdf(pdf_path):
    mypdf = fitz.open(pdf_path)
    all_text = ""

    for page in mypdf:
        all_text += page.get_text("text") + " "

    return all_text.strip()

pdf_path = "../data/AI_Information.en.zh-CN.pdf"
extra_text = extra_text_from_pdf(pdf_path)
print(extra_text[:500])

理解⼈⼯智能
第⼀章：⼈⼯智能简介
⼈⼯智能 (AI) 是指数字计算机或计算机控制的机器⼈执⾏通常与智能⽣物相关的任务的能⼒。该术
语通常⽤于开发具有⼈类特有的智⼒过程的系统，例如推理、发现意义、概括或从过往经验中学习
的能⼒。在过去的⼏⼗年中，计算能⼒和数据可⽤性的进步显著加速了⼈⼯智能的开发和部署。
历史背景
⼈⼯智能的概念已存在数个世纪，经常出现在神话和⼩说中。然⽽，⼈⼯智能研究的正式领域始于
20世纪中叶。1956年的达特茅斯研讨会被⼴泛认为是⼈⼯智能的发源地。早期的⼈⼯智能研究侧
重于问题解决和符号⽅法。20世纪80年代专家系统兴起，⽽20世纪90年代和21世纪初，机器学习
和神经⽹络取得了进步。深度学习的最新突破彻底改变了这⼀领域。
现代观察
现代⼈⼯智能系统在⽇常⽣活中⽇益普及。从 Siri 和 Alexa 等虚拟助⼿，到流媒体服务和社交媒体
上的推荐算法，⼈⼯智能正在影响我们的⽣活、⼯作和互动⽅式。⾃动驾驶汽⻋、先进的医疗诊断
技术以及复杂的⾦融建模⼯具的发展，彰显了⼈⼯智能应⽤的⼴泛性和持续增⻓。此外，⼈们对其
伦理影响、偏⻅和失业的担忧也⽇益凸显。
第⼆章：⼈⼯智能


# 设置Gemmni api

In [3]:
genai.configure(
    api_key = os.getenv("API_KEY"),
    transport="rest"
)

# 创建句子级嵌入（Sentence-Level Embedding)

In [4]:
def get_embedding(text):
    response = genai.embed_content(
        model = os.getenv("EMBEDDING_MODEL"),
        content = text,
        task_type = "RETRIEVAL_DOCUMENT"
    )
    return response

In [5]:
sentences = extra_text.split("。")
print(len(sentences), sentences[:2])

257 ['理解⼈⼯智能\n第⼀章：⼈⼯智能简介\n⼈⼯智能 (AI) 是指数字计算机或计算机控制的机器⼈执⾏通常与智能⽣物相关的任务的能⼒', '该术\n语通常⽤于开发具有⼈类特有的智⼒过程的系统，例如推理、发现意义、概括或从过往经验中学习\n的能⼒']


In [6]:
embeddings = [get_embedding(sentence) for sentence in sentences[:20] if sentence]
print(f"Generated {len(embeddings)} sentence embeddings.")

Generated 20 sentence embeddings.


In [7]:
len(embeddings)

20

# 计算余弦相似度

In [8]:
def cos_similarity(v1, v2):
    return np.dot(v1, v2) / np.linalg.norm(v1) * np.linalg.norm(v2)

# Compute similarity between consecutive sentences
similarities = [cos_similarity(embeddings[i]['embedding'], embeddings[i + 1]['embedding']) for i in range(len(embeddings) - 1)]

In [9]:
similarities

[0.8537336709762419,
 0.8117430345883291,
 0.8599623392611758,
 0.8891511768311577,
 0.8810268695699652,
 0.8345889282207661,
 0.8154700167682083,
 0.8079127557363369,
 0.7976620636076998,
 0.8783191418069344,
 0.8624126468885402,
 0.8497721810076119,
 0.796888802916086,
 0.9038442821227666,
 0.8950166054312217,
 0.8852573132794186,
 0.8007919029181108,
 0.822717782821589,
 0.8533289217947478]

In [21]:
def compute_breakpoints(similarities, method="percentile", threshold=2):
    """
    根据相似度下降计算分块的断点。

    Args:
        similarities (List[float]): 句子之间的相似度分数列表。
        method (str): 'percentile'（百分位）、'standard_deviation'（标准差）或 'interquartile'（四分位距）。
        threshold (float): 阈值（对于 'percentile' 是百分位数，对于 'standard_deviation' 是标准差倍数）。

    Returns:
        List[int]: 分块的索引列表。
    """
    # 根据选定的方法确定阈值
    if method == "percentile":
        # 计算相似度分数的第 X 百分位数
        threshold_value = np.percentile(similarities, threshold)
    elif method == "standard_deviation":
        # 计算相似度分数的均值和标准差。
        mean = np.mean(similarities)
        std_dev = np.std(similarities)
        # 将阈值设置为均值减去 X 倍的标准差
        threshold_value = mean - (threshold * std_dev)
    elif method == "interquartile":
        # 计算第一和第三四分位数（Q1 和 Q3）。
        q1, q3 = np.percentile(similarities, [50, 75])
        # print(q1, q3)
        # 使用 IQR 规则（四分位距规则）设置阈值
        threshold_value = q1 - 1.5 * (q3 - q1)
        print(threshold_value)
    else:
        # 如果提供了无效的方法，则抛出异常
        raise ValueError("Invalid method. Choose 'percentile', 'standard_deviation', or 'interquartile'.")

    # 找出相似度低于阈值的索引
    return [i for i, sim in enumerate(similarities) if sim < threshold_value]

# 使用百分位法计算断点，阈值为90
breakpoints = compute_breakpoints(similarities, method="interquartile", threshold=90)
breakpoints

0.8138127959541948


[1, 7, 8, 12, 16]

In [33]:
def split_into_chunks(sentences, breakpoints):
    """
    将句子分割为语义块

    Args:
    sentences (List[str]): 句子列表
    breakpoints (List[int]): 进行分块的索引位置

    Returns:
    List[str]: 文本块列表
    """
    chunks = []  # Initialize an empty list to store the chunks
    start = 0  # Initialize the start index

    # 遍历每个断点以创建块
    for bp in breakpoints:
        # 将从起始位置到当前断点的句子块追加到列表中
        chunks.append("。".join(sentences[start:bp]) + "。")
        start = bp + 1  # 将起始索引更新为断点后的下一个句子

    # 将剩余的句子作为最后一个块追加
    # chunks.append("。".join(sentences[bp:]))  
    print(bp)
    # print((sentences))
    return chunks  # Return the list of chunks

# split_into_chunks 函数创建文本块
text_chunks = split_into_chunks(sentences, breakpoints)

# Print the number of chunks created
print(f"Number of semantic chunks: {len(text_chunks)}")

# Print the first chunk to verify the result
print("\nFirst text chunk:")
print(text_chunks[1]), len(text_chunks)

16
Number of semantic chunks: 5

First text chunk:
理解⼈⼯智能
第⼀章：⼈⼯智能简介
⼈⼯智能 (AI) 是指数字计算机或计算机控制的机器⼈执⾏通常与智能⽣物相关的任务的能⼒。该术
语通常⽤于开发具有⼈类特有的智⼒过程的系统，例如推理、发现意义、概括或从过往经验中学习
的能⼒。在过去的⼏⼗年中，计算能⼒和数据可⽤性的进步显著加速了⼈⼯智能的开发和部署。
历史背景
⼈⼯智能的概念已存在数个世纪，经常出现在神话和⼩说中。然⽽，⼈⼯智能研究的正式领域始于
20世纪中叶。1956年的达特茅斯研讨会被⼴泛认为是⼈⼯智能的发源地。早期的⼈⼯智能研究侧
重于问题解决和符号⽅法。


(None, 5)

In [34]:
def create_embeddings(text_chunks):
    """
    Creates embeddings for each text chunk.

    Args:
    text_chunks (List[str]): List of text chunks.

    Returns:
    List[np.ndarray]: List of embedding vectors.
    """
    # Generate embeddings for each text chunk using the get_embedding function
    return [get_embedding(chunk) for chunk in text_chunks]

# Create chunk embeddings using the create_embeddings function
chunk_embeddings = create_embeddings(text_chunks)

In [35]:
# chunk_embeddings

# 语义检索

In [36]:
def semantic_search(query, text_chunks, chunk_embeddings, k=5):
    """
    查询找到最相关的文本块

    Args:
    query (str): Search query.
    text_chunks (List[str]): List of text chunks.
    chunk_embeddings (List[np.ndarray]): List of chunk embeddings.
    k (int): Number of top results to return.

    Returns:
    List[str]: Top-k relevant chunks.
    """
    # 为查询生成嵌入
    query_embedding = get_embedding(query)

    # 计算查询嵌入与每个块嵌入之间的余弦相似度
    similarities = [cos_similarity(query_embedding['embedding'], emb['embedding']) for emb in chunk_embeddings]

    # 获取最相似的 k 个块的索引
    top_indices = np.argsort(similarities)[-k:][::-1]

    # 返回最相关的 k 个文本块
    return [text_chunks[i] for i in top_indices]

In [37]:
# Load the validation data from a JSON file
with open('../data/val.json', encoding="utf-8") as f:
    data = json.load(f)

# Extract the first query from the validation data
query = data[0]['question']

# Get top 2 relevant chunks
top_chunks = semantic_search(query, text_chunks, chunk_embeddings, k=2)

# Print the query
print(f"Query: {query}")

# Print the top 2 most relevant text chunks
for i, chunk in enumerate(top_chunks):
    print(f"Context {i+1}:\n{chunk}\n{'='*40}")

Query: 什么是‘可解释人工智能’，为什么它被认为很重要？
Context 1:
理解⼈⼯智能
第⼀章：⼈⼯智能简介
⼈⼯智能 (AI) 是指数字计算机或计算机控制的机器⼈执⾏通常与智能⽣物相关的任务的能⼒。
Context 2:
理解⼈⼯智能
第⼀章：⼈⼯智能简介
⼈⼯智能 (AI) 是指数字计算机或计算机控制的机器⼈执⾏通常与智能⽣物相关的任务的能⼒。该术
语通常⽤于开发具有⼈类特有的智⼒过程的系统，例如推理、发现意义、概括或从过往经验中学习
的能⼒。在过去的⼏⼗年中，计算能⼒和数据可⽤性的进步显著加速了⼈⼯智能的开发和部署。
历史背景
⼈⼯智能的概念已存在数个世纪，经常出现在神话和⼩说中。然⽽，⼈⼯智能研究的正式领域始于
20世纪中叶。1956年的达特茅斯研讨会被⼴泛认为是⼈⼯智能的发源地。早期的⼈⼯智能研究侧
重于问题解决和符号⽅法。20世纪80年代专家系统兴起，⽽20世纪90年代和21世纪初，机器学习
和神经⽹络取得了进步。


# 基于检索的片段生成响应

In [45]:
# Define the system prompt for the AI assistant
system_prompt = "你是一个AI助手，严格根据给定的上下文进行回答。如果无法直接从提供的上下文中得出答案，请回复：'我没有足够的信息来回答这个问题。'"

def generate_response(system_prompt, user_message):
    """
    Generates a response from the AI model based on the system prompt and user message.

    Args:
    system_prompt (str): The system prompt to guide the AI's behavior.
    user_message (str): The user's message or query.

    Returns:
    dict: The response from the AI model.
    """
    full_prompt = f"""系统指令:
        {system_prompt}
        上下文信息:
        {user_message}
        请根据以上上下文信息回答问题。"""
    model = genai.GenerativeModel(os.getenv("LLM_MODEL_ID"))
    response = model.generate_content(
            contents=full_prompt,
            generation_config={
                    "temperature": 0.1,
                    "top_p": 0.8,
                    "max_output_tokens": 4096,
                }
        )
    return response.text

# Create the user prompt based on the top chunks
query = "人工智能的历史背景"
user_prompt = "\n".join([f"上下文内容 {i + 1}:\n{chunk}\n=====================================\n" for i, chunk in enumerate(top_chunks)])
user_prompt = f"{user_prompt}\n问题: {query}"
print(user_prompt)

# Generate AI response
ai_response = generate_response(system_prompt, user_prompt)
print(ai_response)

上下文内容 1:
理解⼈⼯智能
第⼀章：⼈⼯智能简介
⼈⼯智能 (AI) 是指数字计算机或计算机控制的机器⼈执⾏通常与智能⽣物相关的任务的能⼒。

上下文内容 2:
理解⼈⼯智能
第⼀章：⼈⼯智能简介
⼈⼯智能 (AI) 是指数字计算机或计算机控制的机器⼈执⾏通常与智能⽣物相关的任务的能⼒。该术
语通常⽤于开发具有⼈类特有的智⼒过程的系统，例如推理、发现意义、概括或从过往经验中学习
的能⼒。在过去的⼏⼗年中，计算能⼒和数据可⽤性的进步显著加速了⼈⼯智能的开发和部署。
历史背景
⼈⼯智能的概念已存在数个世纪，经常出现在神话和⼩说中。然⽽，⼈⼯智能研究的正式领域始于
20世纪中叶。1956年的达特茅斯研讨会被⼴泛认为是⼈⼯智能的发源地。早期的⼈⼯智能研究侧
重于问题解决和符号⽅法。20世纪80年代专家系统兴起，⽽20世纪90年代和21世纪初，机器学习
和神经⽹络取得了进步。

问题: 人工智能的历史背景
人工智能的概念已存在数个世纪，经常出现在神话和小小说中。然而，人工智能研究的正式领域始于20世纪中叶。1956年的达特茅斯研讨会被广泛认为是人工智能的发源地。早期的AI研究侧重于问题解决和符号方法。20世纪80年代专家系统兴起，而20世纪90年代和21世纪初，机器学习和神经网络取得了进步。


In [47]:
# Define the system prompt for the evaluation system
evaluate_system_prompt = "你是一个智能评估系统，负责评估AI助手的回答。如果AI助手的回答与真实答案非常接近，则评分为1。如果回答错误或与真实答案不符，则评分为0。如果回答部分符合真实答案，则评分为0.5。请给出详细的打分逻辑"

# Create the evaluation prompt by combining the user query, AI response, true response, and evaluation system prompt
evaluation_prompt = f"用户问题: {query}\nAI回答:\n{ai_response}\nTrue Response: {data[0]['ideal_answer']}\n{evaluate_system_prompt}"

# Generate the evaluation response using the evaluation system prompt and evaluation prompt
evaluation_response = generate_response(evaluate_system_prompt, evaluation_prompt)
print(evaluation_response)

**打分逻辑：**

1.  **识别用户问题和AI回答的核心内容：**
    *   用户问题是关于“人工智能的历史背景”。
    *   AI回答讨论了人工智能概念的早期出现、正式研究的开端（达特茅斯研讨会）、早期研究方向（问题解决和符号方法）、以及后续发展（专家系统、机器学习、神经网络）。

2.  **识别“真实答案”的内容：**
    *   “真实答案”讨论的是“可解释人工智能（XAI）”的概念、目标（透明、易于理解、提供决策见解）以及重要性（建立信任、问责制、确保公平性）。

3.  **对比AI回答与“真实答案”的相关性：**
    *   AI回答的主题是“人工智能的历史背景”。
    *   “真实答案”的主题是“可解释人工智能（XAI）”。
    *   这两个主题之间**没有直接的关联性**。AI回答的内容与“真实答案”所描述的XAI完全无关。

4.  **评估AI回答的准确性：**
    *   AI回答本身关于人工智能历史的陈述（达特茅斯研讨会、专家系统等）是**基本准确的**，它确实在描述人工智能的历史背景。
    *   然而，AI回答**完全没有触及**“真实答案”所提供的关于XAI的信息。

5.  **根据评分标准进行评分：**
    *   **评分标准：**
        *   非常接近真实答案：1分
        *   错误或不符：0分
        *   部分符合：0.5分
    *   **分析：** AI回答的内容（人工智能的历史背景）与“真实答案”的内容（可解释人工智能）是**完全不符**的。AI回答并没有尝试去解释XAI，也没有讨论XAI的历史背景。虽然AI回答本身关于历史的陈述是正确的，但它没有回答“真实答案”所代表的那个特定信息点。因此，AI回答与“真实答案”的**内容不符**。

**最终评分：0**

**详细打分逻辑说明：**

AI助手被要求提供“人工智能的历史背景”。AI助手给出的回答内容是关于人工智能概念的起源、正式研究的开端（1956年达特茅斯研讨会）、以及后续发展阶段（专家系统、机器学习、神经网络）。这些信息确实构成了人工智能历史背景的一部分，并且在内容上是基本准确的。

然而，系统提供的“真实答案”内容是关于“可解释人工智能（XAI）”的概念、目标和重要性。

## 小结
本次实验主要对语义分割进行了测试，首先对文本进行句号分块，对各句子嵌入后进行相似度计算，得到相近的句子，采用百分位、标准差以及四分位划分方法，舍去
相关度较小的句子并再次对合并后的句子进行嵌入，完成初步语义分割。后续再对问题编码后进行相似度计算，得到相关的语义分块，结合llm得到最终的结果。
- 问题：目前genai的api似乎有额度限制，无法实现全部的句子嵌入，本次采用小批量，对前20个句子进行了划分。
- 改进：需修正api问题