# Part4: 多种形式的信息检索

## 任务目标
实现多种形式的信息检索系统，包括布尔检索和向量空间模型，并进行性能分析。

## 核心功能
- ✅ 布尔检索：支持复杂布尔表达式查询
- ✅ 短语检索：基于位置信息的精确匹配
- ✅ 向量空间模型：TF-IDF计算和余弦相似度
- ✅ 性能分析：查询优化、压缩效果、跳表指针影响
- ✅ 查询设计：3种复杂布尔查询条件

## 工作流程

### A. 布尔检索
1. **查询设计**：设计3种布尔表达式查询条件
2. **处理顺序分析**：分析不同处理顺序对时间开支的影响
3. **压缩效果比较**：比较索引压缩前后的检索效率
4. **短语检索**：实现基于位置信息的短语匹配
5. **跳表指针分析**：分析不同步长对性能的影响

### B. 向量空间模型
1. **TF-IDF计算**：计算词项频率和逆文档频率
2. **向量构建**：构建查询向量和文档向量
3. **相似度计算**：使用余弦相似度进行文档排序
4. **检索实践**：实现基于向量空间的文档检索


In [None]:
# 环境准备和导入
import json
import math
import time
from typing import List, Dict, Set, Tuple, Any
from collections import defaultdict, Counter
import numpy as np

# 导入信息检索系统
exec(open('Part4_Information_Retrieval.py').read())


In [None]:
# 初始化信息检索系统
print("=" * 80)
print("初始化信息检索系统")
print("=" * 80)

retrieval_system = InformationRetrievalSystem(
    "enhanced_inverted_index.json",
    "normalized_tokens.json"
)


In [None]:
# A. 布尔检索 - 复杂查询设计
print("\n" + "=" * 60)
print("A. 布尔检索 - 复杂查询设计")
print("=" * 60)

# 设计3种复杂查询条件
boolean_queries = [
    "web & development",  # 查询1: 简单AND查询
    "machine | learning",  # 查询2: 简单OR查询  
    "tech & (enthusiasts | conference)",  # 查询3: 复杂组合查询
]

print("设计的3种复杂布尔查询条件:")
for i, query in enumerate(boolean_queries, 1):
    print(f"  查询{i}: {query}")

# 执行布尔检索
print("\n执行布尔检索:")
for i, query in enumerate(boolean_queries, 1):
    print(f"\n查询 {i}: {query}")
    result = retrieval_system.boolean_retrieval(query)
    print(f"  结果文档: {sorted(result)}")
    print(f"  匹配文档数: {len(result)}")


In [None]:
#  布尔检索 - 处理顺序分析
print("\n" + "=" * 60)
print("A. 布尔检索 - 处理顺序分析")
print("=" * 60)

print("分析不同处理顺序对时间开支的影响:")

for i, query in enumerate(boolean_queries, 1):
    print(f"\n查询 {i}: {query}")
    timing_results = retrieval_system.analyze_query_processing_order(query)
    
    # 计算性能提升
    if timing_results['优化顺序'] > 0:
        improvement = (timing_results['原始顺序'] - timing_results['优化顺序']) / timing_results['原始顺序'] * 100
        print(f"  性能提升: {improvement:.2f}%")


In [None]:
#  布尔检索 - 压缩效果比较
print("\n" + "=" * 60)
print("A. 布尔检索 - 压缩效果比较")
print("=" * 60)

print("比较索引压缩前后的检索效率:")

for i, query in enumerate(boolean_queries, 1):
    print(f"\n查询 {i}: {query}")
    compression_results = retrieval_system.compare_compression_efficiency(query)
    
    print(f"  压缩效果分析:")
    print(f"    原始索引: {compression_results['original_time']:.6f}秒")
    print(f"    压缩索引: {compression_results['compressed_time']:.6f}秒")
    print(f"    加速比: {compression_results['speedup']:.2f}x")
    print(f"    结果一致性: {compression_results['result_consistency']}")


In [None]:
#  布尔检索 - 短语检索
print("\n" + "=" * 60)
print("A. 布尔检索 - 短语检索")
print("=" * 60)

print("基于位置信息的短语检索:")

# 设计短语查询
phrase_queries = [
    ["web", "development"],
    ["machine", "learning"], 
    ["ai", "conference"],
    ["tech", "enthusiasts"]
]

for phrase in phrase_queries:
    print(f"\n短语查询: {' '.join(phrase)}")
    result = retrieval_system.phrase_retrieval(phrase)
    print(f"  匹配文档: {sorted(result)}")
    print(f"  匹配数量: {len(result)}")
    
    # 分析位置信息的效果
    if result:
        print(f"  位置信息效果: 成功匹配到 {len(result)} 个文档")
    else:
        print(f"  位置信息效果: 未找到匹配的短语")


In [None]:
#  布尔检索 - 跳表指针分析
print("\n" + "=" * 60)
print("A. 布尔检索 - 跳表指针分析")
print("=" * 60)

print("分析不同跳表指针步长对性能的影响:")

# 测试不同跳表指针步长
skip_steps = [1, 2, 4, 8]
test_query = boolean_queries[0]  # 使用第一个查询进行测试

print(f"测试查询: {test_query}")
skip_results = retrieval_system.analyze_skip_pointer_impact(test_query, skip_steps)

# 分析结果
print(f"\n跳表指针步长分析结果:")
best_step = min(skip_results.keys(), key=lambda x: skip_results[x])
worst_step = max(skip_results.keys(), key=lambda x: skip_results[x])

print(f"  最佳步长: {best_step} (耗时: {skip_results[best_step]:.6f}秒)")
print(f"  最差步长: {worst_step} (耗时: {skip_results[worst_step]:.6f}秒)")

if skip_results[worst_step] > 0:
    improvement = (skip_results[worst_step] - skip_results[best_step]) / skip_results[worst_step] * 100
    print(f"  性能提升: {improvement:.2f}%")


In [None]:
#  向量空间模型 - TF-IDF计算
print("\n" + "=" * 60)
print("B. 向量空间模型 - TF-IDF计算")
print("=" * 60)

print("计算TF-IDF值:")

# 选择一些词项进行TF-IDF计算演示
sample_terms = ["web", "development", "machine", "learning", "ai"]
sample_docs = list(retrieval_system.normalized_tokens.keys())

print(f"词项TF-IDF值计算 (文档: {sample_docs[0]}):")
for term in sample_terms:
    tf_idf = retrieval_system.calculate_tf_idf(sample_docs[0], term)
    print(f"  {term}: {tf_idf:.4f}")

print(f"\nIDF值计算:")
for term in sample_terms:
    term_id = retrieval_system.get_term_id(term)
    if term_id != -1:
        idf = retrieval_system.idf.get(str(term_id), 0)
        print(f"  {term}: {idf:.4f}")
    else:
        print(f"  {term}: 未找到")


In [None]:
#  向量空间模型 - 向量检索实践
print("\n" + "=" * 60)
print("B. 向量空间模型 - 向量检索实践")
print("=" * 60)

print("基于向量空间模型的文档检索:")

# 设计向量查询
vector_queries = [
    ["web", "development", "technology"],
    ["machine", "learning", "ai"],
    ["data", "science", "analysis"],
    ["tech", "enthusiasts", "conference"]
]

for i, query_terms in enumerate(vector_queries, 1):
    print(f"\n向量查询 {i}: {' '.join(query_terms)}")
    results = retrieval_system.vector_space_retrieval(query_terms, top_k=3)
    
    if results:
        print(f"  检索结果 (Top-3):")
        for j, (doc_id, score) in enumerate(results, 1):
            print(f"    {j}. 文档 {doc_id}: 相似度 {score:.4f}")
    else:
        print(f"  未找到相关文档")


In [None]:
# 综合性能分析
print("\n" + "=" * 60)
print("综合性能分析")
print("=" * 60)

print("信息检索系统性能总结:")

# 统计各种检索方法的效果
print(f"\n1. 布尔检索效果:")
for i, query in enumerate(boolean_queries, 1):
    result = retrieval_system.boolean_retrieval(query)
    print(f"   查询{i} '{query}': {len(result)} 个文档")

print(f"\n2. 短语检索效果:")
for phrase in phrase_queries:
    result = retrieval_system.phrase_retrieval(phrase)
    print(f"   短语 '{' '.join(phrase)}': {len(result)} 个文档")

print(f"\n3. 向量空间检索效果:")
for i, query_terms in enumerate(vector_queries, 1):
    results = retrieval_system.vector_space_retrieval(query_terms, top_k=3)
    print(f"   查询{i} '{' '.join(query_terms)}': {len(results)} 个相关文档")

print(f"\n4. 系统特点:")
print(f"   - 支持复杂布尔表达式查询")
print(f"   - 基于位置信息的精确短语匹配")
print(f"   - TF-IDF加权的向量空间模型")
print(f"   - 多种性能优化策略")
print(f"   - 综合检索效果良好")
