# 32. セグメント分割LSH改善

## 目的

実験30でセグメント完全一致方式を試したが、Recall@10が最大72%と低かった。
本実験では、以下の改善手法を検証する。

## 背景（実験30の問題点）

- 32bitセグメントの完全一致が厳しすぎて良い候補を逃す
- GT Top-10の平均ハミング距離は約22bit
- 距離2以内に含まれるGTはわずか10.4%

## 検証する4つの改善手法

1. **オーバーラップセグメント**: N-gram的スライディングでビット列をずらす
2. **Multi-Index方式**: 複数の分割パターンでOR結合
3. **部分一致方式**: ポップカウント閾値で候補選択
4. **ハイブリッド方式**: 上記の組み合わせ

## 比較対象

- 2段階検索（候補2000件）: Recall@10 = 91%
- Seg16完全一致（実験30）: Recall@10 = 72%

In [2]:
import sys
sys.path.insert(0, '..')

import numpy as np
from numpy.linalg import norm
import pandas as pd
import duckdb
from tqdm import tqdm
import time
from collections import defaultdict

from src.itq_lsh import ITQLSH, hamming_distance_batch

In [3]:
# パス設定
DB_PATH = '../data/experiment_400k.duckdb'
ITQ_MODEL_PATH = '../data/itq_model.pkl'

---

## 1. データ読み込み

In [4]:
# データ読み込み
print('データ読み込み中...')
conn = duckdb.connect(DB_PATH, read_only=True)

result = conn.execute("""
    SELECT id, embedding
    FROM documents
    ORDER BY id
""").fetchall()
conn.close()

doc_ids = np.array([r[0] for r in result])
embeddings = np.array([r[1] for r in result], dtype=np.float32)

print(f'読み込み完了: {len(doc_ids):,}件')
print(f'埋め込み shape: {embeddings.shape}')

データ読み込み中...


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

読み込み完了: 400,000件
埋め込み shape: (400000, 1024)


In [5]:
# ITQモデル読み込みとハッシュ計算
print('ITQモデル読み込み中...')
itq = ITQLSH.load(ITQ_MODEL_PATH)

print('ITQハッシュ計算中...')
hashes = itq.transform(embeddings)
print(f'ハッシュ shape: {hashes.shape}')

ITQモデル読み込み中...
ITQハッシュ計算中...
ハッシュ shape: (400000, 128)


---

## 2. 共通ユーティリティ関数

In [6]:
def compute_ground_truth(query_embedding, all_embeddings, top_k=20):
    """
    ブルートフォースでGround Truthを計算
    """
    query_norm = norm(query_embedding)
    all_norms = norm(all_embeddings, axis=1)
    cosines = (all_embeddings @ query_embedding) / (all_norms * query_norm + 1e-10)
    top_indices = np.argsort(cosines)[-top_k:][::-1]
    return top_indices


def cosine_rerank(query_embedding, candidate_indices, all_embeddings, top_k):
    """
    コサイン類似度でリランキング
    """
    if len(candidate_indices) == 0:
        return np.array([], dtype=np.int64)
    
    candidate_embeddings = all_embeddings[candidate_indices]
    query_norm = norm(query_embedding)
    candidate_norms = norm(candidate_embeddings, axis=1)
    cosine_scores = (candidate_embeddings @ query_embedding) / (candidate_norms * query_norm + 1e-10)
    
    top_k = min(top_k, len(candidate_indices))
    top_idx_in_candidates = np.argsort(cosine_scores)[-top_k:][::-1]
    return candidate_indices[top_idx_in_candidates]


def evaluate_method(test_query_indices, predicted_results, ground_truths, top_k_values=[5, 10, 20]):
    """
    Recall評価
    """
    recalls = {k: [] for k in top_k_values}
    
    for qi in test_query_indices:
        gt = ground_truths[qi]
        pred = predicted_results[qi]
        
        for k in top_k_values:
            gt_set = set(gt[:k])
            pred_set = set(pred[:k]) if len(pred) >= k else set(pred)
            recalls[k].append(len(gt_set & pred_set) / k)
    
    return {f'recall@{k}': np.mean(v) for k, v in recalls.items()}

In [7]:
# テスト用クエリを準備
rng = np.random.default_rng(42)
n_test_queries = 100
test_query_indices = rng.choice(len(embeddings), n_test_queries, replace=False)

print(f'テストクエリ数: {n_test_queries}')

# Ground Truth計算
print('Ground Truth計算中...')
ground_truths = {}
for qi in tqdm(test_query_indices, desc='GT計算'):
    ground_truths[qi] = compute_ground_truth(embeddings[qi], embeddings, top_k=20)
print('完了')

テストクエリ数: 100
Ground Truth計算中...


GT計算: 100%|██████████| 100/100 [00:33<00:00,  3.02it/s]

完了





---

## 3. ベースライン: 2段階検索

In [8]:
def two_stage_search(query_embedding, query_hash, all_hashes, all_embeddings, candidates, top_k):
    """
    従来の2段階検索（LSH→コサイン）
    """
    distances = hamming_distance_batch(query_hash, all_hashes)
    candidate_indices = np.argsort(distances)[:candidates]
    return cosine_rerank(query_embedding, candidate_indices, all_embeddings, top_k)

In [9]:
# ベースライン評価
print('ベースライン（2段階検索）評価中...')

baseline_results = []
for candidates in [2000, 5000]:
    predicted = {}
    times = []
    
    for qi in tqdm(test_query_indices, desc=f'候補{candidates}'):
        t0 = time.time()
        predicted[qi] = two_stage_search(
            embeddings[qi], hashes[qi], hashes, embeddings,
            candidates=candidates, top_k=20
        )
        times.append((time.time() - t0) * 1000)
    
    recalls = evaluate_method(test_query_indices, predicted, ground_truths)
    baseline_results.append({
        'method': f'2段階({candidates})',
        'candidates': candidates,
        **recalls,
        'avg_time_ms': np.mean(times)
    })

df_baseline = pd.DataFrame(baseline_results)
print('\nベースライン結果:')
print(df_baseline.to_string(index=False))

ベースライン（2段階検索）評価中...


候補2000: 100%|██████████| 100/100 [00:04<00:00, 23.21it/s]
候補5000: 100%|██████████| 100/100 [00:04<00:00, 20.76it/s]


ベースライン結果:
   method  candidates  recall@5  recall@10  recall@20  avg_time_ms
2段階(2000)        2000     0.916      0.913     0.8775    42.817116
2段階(5000)        5000     0.952      0.960     0.9530    47.901416





---

## 4. 手法1: オーバーラップセグメント（N-gram的スライディング）

ビット列をスライドさせて重複するセグメントを生成し、OR条件で候補を収集。

```
128bit ハッシュ
├─ セグメント0: bit[0:8]
├─ セグメント1: bit[4:12]   ← 4bitずらし
├─ セグメント2: bit[8:16]
├─ ...
└─ セグメント30: bit[120:128]
```

In [10]:
def hash_to_overlap_segments(hash_array, segment_width=8, stride=4):
    """
    オーバーラップセグメントを生成
    
    Args:
        hash_array: (n_docs, 128) のハッシュ配列
        segment_width: セグメント幅（ビット数）
        stride: スライド幅（ビット数）
    
    Returns:
        segments: (n_docs, n_segments) の整数配列
    """
    n_docs, n_bits = hash_array.shape
    n_segments = (n_bits - segment_width) // stride + 1
    
    segments = []
    for i in range(n_segments):
        start = i * stride
        end = start + segment_width
        segment_bits = hash_array[:, start:end]
        
        # ビットを整数に変換
        powers = 2 ** np.arange(segment_width - 1, -1, -1)
        segment_int = np.sum(segment_bits * powers, axis=1)
        segments.append(segment_int)
    
    return np.column_stack(segments), n_segments


def build_overlap_index(segments):
    """
    オーバーラップセグメントのインデックスを構築
    """
    n_docs, n_segments = segments.shape
    index = {i: defaultdict(list) for i in range(n_segments)}
    
    for doc_idx in range(n_docs):
        for seg_idx in range(n_segments):
            seg_value = int(segments[doc_idx, seg_idx])
            index[seg_idx][seg_value].append(doc_idx)
    
    return index


def overlap_segment_search(query_segments, segment_index, n_segments):
    """
    オーバーラップセグメントで候補を検索（OR条件）
    """
    candidates = set()
    
    for seg_idx in range(n_segments):
        seg_value = int(query_segments[seg_idx])
        if seg_value in segment_index[seg_idx]:
            candidates.update(segment_index[seg_idx][seg_value])
    
    return np.array(list(candidates))

In [11]:
# オーバーラップセグメントのインデックス構築
print('オーバーラップセグメントインデックス構築中...')

overlap_configs = [
    (8, 4),   # 8bit幅、4bitストライド → 31セグメント
    (8, 2),   # 8bit幅、2bitストライド → 61セグメント
    (16, 8),  # 16bit幅、8bitストライド → 15セグメント
    (16, 4),  # 16bit幅、4bitストライド → 29セグメント
]

overlap_data = {}

for width, stride in overlap_configs:
    key = (width, stride)
    segments, n_seg = hash_to_overlap_segments(hashes, width, stride)
    index = build_overlap_index(segments)
    
    # 統計
    bucket_sizes = [len(docs) for seg_idx in index for docs in index[seg_idx].values()]
    
    overlap_data[key] = {
        'segments': segments,
        'index': index,
        'n_segments': n_seg,
        'avg_bucket_size': np.mean(bucket_sizes),
    }
    
    print(f'  width={width}, stride={stride}: {n_seg}セグメント, 平均バケット: {np.mean(bucket_sizes):.1f}件')

オーバーラップセグメントインデックス構築中...
  width=8, stride=4: 31セグメント, 平均バケット: 1562.5件
  width=8, stride=2: 61セグメント, 平均バケット: 1562.5件
  width=16, stride=8: 15セグメント, 平均バケット: 8.7件
  width=16, stride=4: 29セグメント, 平均バケット: 8.7件


In [12]:
# オーバーラップセグメント評価
print('\nオーバーラップセグメント評価中...')

overlap_results = []

for (width, stride), data in overlap_data.items():
    segments = data['segments']
    index = data['index']
    n_seg = data['n_segments']
    
    predicted = {}
    candidate_counts = []
    times = []
    
    for qi in tqdm(test_query_indices, desc=f'w={width},s={stride}'):
        t0 = time.time()
        
        # Step 1: セグメントで候補収集
        candidates = overlap_segment_search(segments[qi], index, n_seg)
        candidate_counts.append(len(candidates))
        
        # Step 2: ハミング距離でTop-2000に絞る
        if len(candidates) > 2000:
            dists = hamming_distance_batch(hashes[qi], hashes[candidates])
            top_idx = np.argsort(dists)[:2000]
            candidates = candidates[top_idx]
        
        # Step 3: コサイン類似度でリランキング
        predicted[qi] = cosine_rerank(embeddings[qi], candidates, embeddings, top_k=20)
        
        times.append((time.time() - t0) * 1000)
    
    recalls = evaluate_method(test_query_indices, predicted, ground_truths)
    
    overlap_results.append({
        'method': f'Overlap({width}/{stride})',
        'width': width,
        'stride': stride,
        'n_segments': n_seg,
        'avg_candidates': np.mean(candidate_counts),
        'max_candidates': np.max(candidate_counts),
        **recalls,
        'avg_time_ms': np.mean(times)
    })

df_overlap = pd.DataFrame(overlap_results)
print('\nオーバーラップセグメント結果:')
print(df_overlap.to_string(index=False))


オーバーラップセグメント評価中...


w=8,s=4: 100%|██████████| 100/100 [00:02<00:00, 48.39it/s]
w=8,s=2: 100%|██████████| 100/100 [00:02<00:00, 34.76it/s]
w=16,s=8: 100%|██████████| 100/100 [00:00<00:00, 371.83it/s]
w=16,s=4: 100%|██████████| 100/100 [00:00<00:00, 365.36it/s]


オーバーラップセグメント結果:
       method  width  stride  n_segments  avg_candidates  max_candidates  recall@5  recall@10  recall@20  avg_time_ms
 Overlap(8/4)      8       4          31        63764.47           96144     0.904      0.900     0.8660    20.518231
 Overlap(8/2)      8       2          61        86749.84          114777     0.916      0.916     0.8760    28.582323
Overlap(16/8)     16       8          15         2383.70           21686     0.514      0.458     0.3875     2.669718
Overlap(16/4)     16       4          29         3308.23           27454     0.576      0.520     0.4515     2.717373





---

## 5. 手法2: Multi-Index方式

複数の異なる分割パターンでインデックスを構築し、OR結合で候補を収集。

```
パターン1: [0-31, 32-63, 64-95, 96-127]  (4分割)
パターン2: [16-47, 48-79, 80-111, ...]   (16bitオフセット)
パターン3: [0-15, 16-31, ..., 112-127]   (8分割)
パターン4: [8-23, 24-39, ...]            (8bitオフセット)
```

In [13]:
def create_segment_patterns():
    """
    複数のセグメント分割パターンを定義
    """
    patterns = []
    
    # パターン1: 4分割（32bit x 4）- オフセット0
    patterns.append([(0, 32), (32, 64), (64, 96), (96, 128)])
    
    # パターン2: 4分割（32bit x 4）- オフセット16
    patterns.append([(16, 48), (48, 80), (80, 112), (112, 128), (0, 16)])
    
    # パターン3: 8分割（16bit x 8）- オフセット0
    patterns.append([(i*16, (i+1)*16) for i in range(8)])
    
    # パターン4: 8分割（16bit x 8）- オフセット8
    patterns.append([(8, 24), (24, 40), (40, 56), (56, 72), 
                     (72, 88), (88, 104), (104, 120), (120, 128), (0, 8)])
    
    # パターン5: 16分割（8bit x 16）- オフセット0
    patterns.append([(i*8, (i+1)*8) for i in range(16)])
    
    return patterns


def hash_to_pattern_segments(hash_array, pattern):
    """
    指定パターンでセグメント化
    """
    n_docs = hash_array.shape[0]
    segments = []
    
    for start, end in pattern:
        width = end - start
        segment_bits = hash_array[:, start:end]
        powers = 2 ** np.arange(width - 1, -1, -1)
        segment_int = np.sum(segment_bits * powers, axis=1)
        segments.append(segment_int)
    
    return np.column_stack(segments)


def build_multi_index(hashes, patterns):
    """
    複数パターンのインデックスを構築
    """
    multi_index = []
    
    for pattern in patterns:
        segments = hash_to_pattern_segments(hashes, pattern)
        n_segments = len(pattern)
        
        index = {i: defaultdict(list) for i in range(n_segments)}
        for doc_idx in range(len(hashes)):
            for seg_idx in range(n_segments):
                seg_value = int(segments[doc_idx, seg_idx])
                index[seg_idx][seg_value].append(doc_idx)
        
        multi_index.append({
            'pattern': pattern,
            'segments': segments,
            'index': index,
            'n_segments': n_segments
        })
    
    return multi_index


def multi_index_search(query_hash, multi_index):
    """
    Multi-Index方式で候補を検索（全パターンのOR結合）
    """
    candidates = set()
    
    for idx_data in multi_index:
        pattern = idx_data['pattern']
        index = idx_data['index']
        n_segments = idx_data['n_segments']
        
        # クエリのセグメント化
        query_segments = []
        for start, end in pattern:
            width = end - start
            segment_bits = query_hash[start:end]
            powers = 2 ** np.arange(width - 1, -1, -1)
            seg_value = int(np.sum(segment_bits * powers))
            query_segments.append(seg_value)
        
        # 候補検索
        for seg_idx, seg_value in enumerate(query_segments):
            if seg_value in index[seg_idx]:
                candidates.update(index[seg_idx][seg_value])
    
    return np.array(list(candidates))

In [14]:
# Multi-Indexの構築
print('Multi-Index構築中...')

patterns = create_segment_patterns()
print(f'パターン数: {len(patterns)}')
for i, p in enumerate(patterns):
    widths = [end - start for start, end in p]
    print(f'  パターン{i+1}: {len(p)}セグメント, 幅={widths}')

multi_index = build_multi_index(hashes, patterns)
print('構築完了')

Multi-Index構築中...
パターン数: 5
  パターン1: 4セグメント, 幅=[32, 32, 32, 32]
  パターン2: 5セグメント, 幅=[32, 32, 32, 16, 16]
  パターン3: 8セグメント, 幅=[16, 16, 16, 16, 16, 16, 16, 16]
  パターン4: 9セグメント, 幅=[16, 16, 16, 16, 16, 16, 16, 8, 8]
  パターン5: 16セグメント, 幅=[8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8]
構築完了


In [15]:
# Multi-Index評価（パターン数を変えて）
print('\nMulti-Index評価中...')

multi_index_results = []

for n_patterns in [1, 2, 3, 5]:
    selected_index = multi_index[:n_patterns]
    
    predicted = {}
    candidate_counts = []
    times = []
    
    for qi in tqdm(test_query_indices, desc=f'{n_patterns}パターン'):
        t0 = time.time()
        
        # Step 1: Multi-Indexで候補収集
        candidates = multi_index_search(hashes[qi], selected_index)
        candidate_counts.append(len(candidates))
        
        # Step 2: ハミング距離でTop-2000に絞る
        if len(candidates) > 2000:
            dists = hamming_distance_batch(hashes[qi], hashes[candidates])
            top_idx = np.argsort(dists)[:2000]
            candidates = candidates[top_idx]
        
        # Step 3: コサイン類似度でリランキング
        predicted[qi] = cosine_rerank(embeddings[qi], candidates, embeddings, top_k=20)
        
        times.append((time.time() - t0) * 1000)
    
    recalls = evaluate_method(test_query_indices, predicted, ground_truths)
    
    multi_index_results.append({
        'method': f'MultiIndex({n_patterns})',
        'n_patterns': n_patterns,
        'avg_candidates': np.mean(candidate_counts),
        'max_candidates': np.max(candidate_counts),
        **recalls,
        'avg_time_ms': np.mean(times)
    })

df_multi_index = pd.DataFrame(multi_index_results)
print('\nMulti-Index結果:')
print(df_multi_index.to_string(index=False))


Multi-Index評価中...


1パターン: 100%|██████████| 100/100 [00:00<00:00, 4521.72it/s]
2パターン: 100%|██████████| 100/100 [00:00<00:00, 1507.47it/s]
3パターン: 100%|██████████| 100/100 [00:00<00:00, 616.18it/s]
5パターン: 100%|██████████| 100/100 [00:01<00:00, 59.21it/s]


Multi-Index結果:
       method  n_patterns  avg_candidates  max_candidates  recall@5  recall@10  recall@20  avg_time_ms
MultiIndex(1)           1          134.68            3518     0.238      0.134     0.0840     0.218928
MultiIndex(2)           2          637.43           10111     0.288      0.204     0.1470     0.659337
MultiIndex(3)           3         1724.71           19368     0.428      0.353     0.2935     1.611657
MultiIndex(5)           5        41161.27           72431     0.874      0.867     0.8330    16.784585





---

## 6. 手法3: 部分一致方式

セグメント完全一致ではなく、ポップカウント（一致ビット数）閾値で候補を選択。

```
16bitセグメントで14bit以上一致（87.5%以上）なら候補とする
```

In [16]:
def partial_match_search(query_hash, all_hashes, segment_width=16, threshold_ratio=0.875):
    """
    部分一致方式で候補を検索
    
    Args:
        query_hash: (128,) のクエリハッシュ
        all_hashes: (n_docs, 128) の全ハッシュ
        segment_width: セグメント幅
        threshold_ratio: 一致率の閾値（0.875 = 14/16）
    
    Returns:
        candidates: いずれかのセグメントで閾値以上の一致があるドキュメント
    """
    n_docs, n_bits = all_hashes.shape
    n_segments = n_bits // segment_width
    threshold = int(segment_width * threshold_ratio)
    
    candidates = set()
    
    for seg_idx in range(n_segments):
        start = seg_idx * segment_width
        end = start + segment_width
        
        query_seg = query_hash[start:end]
        doc_segs = all_hashes[:, start:end]
        
        # ポップカウント（一致ビット数）
        matches = np.sum(query_seg == doc_segs, axis=1)
        
        # 閾値以上の候補を追加
        matching_docs = np.where(matches >= threshold)[0]
        candidates.update(matching_docs)
    
    return np.array(list(candidates))

In [17]:
# 部分一致評価
print('部分一致評価中...')

partial_match_configs = [
    (16, 0.875),  # 16bit中14bit以上一致
    (16, 0.8125), # 16bit中13bit以上一致
    (16, 0.75),   # 16bit中12bit以上一致
    (32, 0.875),  # 32bit中28bit以上一致
    (32, 0.8125), # 32bit中26bit以上一致
]

partial_results = []

for width, ratio in tqdm(partial_match_configs, desc='部分一致'):
    predicted = {}
    candidate_counts = []
    times = []
    
    for qi in test_query_indices:
        t0 = time.time()
        
        # Step 1: 部分一致で候補収集
        candidates = partial_match_search(hashes[qi], hashes, width, ratio)
        candidate_counts.append(len(candidates))
        
        # Step 2: ハミング距離でTop-2000に絞る
        if len(candidates) > 2000:
            dists = hamming_distance_batch(hashes[qi], hashes[candidates])
            top_idx = np.argsort(dists)[:2000]
            candidates = candidates[top_idx]
        
        # Step 3: コサイン類似度でリランキング
        predicted[qi] = cosine_rerank(embeddings[qi], candidates, embeddings, top_k=20)
        
        times.append((time.time() - t0) * 1000)
    
    recalls = evaluate_method(test_query_indices, predicted, ground_truths)
    threshold_bits = int(width * ratio)
    
    partial_results.append({
        'method': f'Partial({width}/{threshold_bits}+)',
        'width': width,
        'threshold_ratio': ratio,
        'threshold_bits': threshold_bits,
        'avg_candidates': np.mean(candidate_counts),
        'max_candidates': np.max(candidate_counts),
        **recalls,
        'avg_time_ms': np.mean(times)
    })

df_partial = pd.DataFrame(partial_results)
print('\n部分一致結果:')
print(df_partial.to_string(index=False))

部分一致評価中...


部分一致: 100%|██████████| 5/5 [00:52<00:00, 10.56s/it]


部分一致結果:
         method  width  threshold_ratio  threshold_bits  avg_candidates  max_candidates  recall@5  recall@10  recall@20  avg_time_ms
Partial(16/14+)     16           0.8750              14        25700.22           62814     0.892      0.890     0.8460   116.752002
Partial(16/13+)     16           0.8125              13        61886.61           85487     0.914      0.912     0.8760   127.959471
Partial(16/12+)     16           0.7500              12       124642.54          153451     0.918      0.918     0.8785   147.736108
Partial(32/28+)     32           0.8750              28         3692.63           27465     0.692      0.639     0.5680    65.064964
Partial(32/26+)     32           0.8125              26        12455.29           50004     0.866      0.862     0.8195    70.536461





---

## 7. 手法4: ハイブリッド方式

オーバーラップセグメント + Multi-Index のOR結合で候補を最大化。

In [18]:
def hybrid_search(query_hash, overlap_data_item, multi_index, hamming_limit=2000):
    """
    ハイブリッド検索
    
    Step 1: オーバーラップ + Multi-Index で候補収集（OR）
    Step 2: ハミング距離でTop-N選択
    """
    # オーバーラップセグメントで候補収集
    segments = overlap_data_item['segments']
    index = overlap_data_item['index']
    n_seg = overlap_data_item['n_segments']
    
    candidates_overlap = overlap_segment_search(
        segments[np.where(doc_ids == query_hash)[0][0]] if isinstance(query_hash, int) else 
        overlap_data_item['segments'][0],  # Placeholder
        index, n_seg
    )
    
    # Multi-Indexで候補収集
    candidates_multi = multi_index_search(query_hash, multi_index)
    
    # OR結合
    all_candidates = np.unique(np.concatenate([
        candidates_overlap, candidates_multi
    ]))
    
    return all_candidates

In [19]:
# ハイブリッド評価
print('ハイブリッド評価中...')

# オーバーラップ(8/4)とMulti-Index(5)を組み合わせ
overlap_key = (8, 4)
overlap_item = overlap_data[overlap_key]

predicted = {}
candidate_counts = []
times = []

for qi in tqdm(test_query_indices, desc='Hybrid'):
    t0 = time.time()
    
    # Step 1: オーバーラップで候補収集
    candidates_overlap = overlap_segment_search(
        overlap_item['segments'][qi], 
        overlap_item['index'], 
        overlap_item['n_segments']
    )
    
    # Step 2: Multi-Indexで候補収集
    candidates_multi = multi_index_search(hashes[qi], multi_index)
    
    # OR結合
    all_candidates = np.unique(np.concatenate([candidates_overlap, candidates_multi]))
    candidate_counts.append(len(all_candidates))
    
    # Step 3: ハミング距離でTop-2000に絞る
    if len(all_candidates) > 2000:
        dists = hamming_distance_batch(hashes[qi], hashes[all_candidates])
        top_idx = np.argsort(dists)[:2000]
        all_candidates = all_candidates[top_idx]
    
    # Step 4: コサイン類似度でリランキング
    predicted[qi] = cosine_rerank(embeddings[qi], all_candidates, embeddings, top_k=20)
    
    times.append((time.time() - t0) * 1000)

recalls = evaluate_method(test_query_indices, predicted, ground_truths)

hybrid_result = {
    'method': 'Hybrid(Overlap+Multi)',
    'avg_candidates': np.mean(candidate_counts),
    'max_candidates': np.max(candidate_counts),
    **recalls,
    'avg_time_ms': np.mean(times)
}

print(f'\nハイブリッド結果:')
print(f'  候補数: {hybrid_result["avg_candidates"]:.0f} (最大: {hybrid_result["max_candidates"]})')
print(f'  Recall@10: {hybrid_result["recall@10"]*100:.1f}%')
print(f'  処理時間: {hybrid_result["avg_time_ms"]:.2f}ms')

ハイブリッド評価中...


Hybrid: 100%|██████████| 100/100 [00:04<00:00, 22.69it/s]


ハイブリッド結果:
  候補数: 63764 (最大: 96144)
  Recall@10: 90.3%
  処理時間: 43.82ms





---

## 8. 最終比較

In [20]:
# 全結果を統合
all_results = []

# ベースライン
for r in baseline_results:
    all_results.append(r)

# オーバーラップ
for r in overlap_results:
    all_results.append(r)

# Multi-Index
for r in multi_index_results:
    all_results.append(r)

# 部分一致（代表的なもの）
for r in partial_results[:3]:  # 16bit系のみ
    all_results.append(r)

# ハイブリッド
all_results.append(hybrid_result)

df_all = pd.DataFrame(all_results)

In [21]:
# 最終比較表示
print('=' * 100)
print('最終比較: セグメント分割LSH改善手法')
print('=' * 100)

print(f'\n{"手法":^30} | {"候補数":>8} | {"R@5":>6} | {"R@10":>6} | {"R@20":>6} | {"Time":>8}')
print('-' * 100)

# Recall@10でソート
df_sorted = df_all.sort_values('recall@10', ascending=False)

for _, row in df_sorted.iterrows():
    method = row['method']
    candidates = row.get('avg_candidates', row.get('candidates', '-'))
    if isinstance(candidates, (int, float)):
        candidates = f'{candidates:.0f}'
    
    print(f'{method:^30} | {candidates:>8} | '
          f'{row["recall@5"]*100:>5.1f}% | {row["recall@10"]*100:>5.1f}% | {row["recall@20"]*100:>5.1f}% | '
          f'{row["avg_time_ms"]:>7.2f}ms')

最終比較: セグメント分割LSH改善手法

              手法               |      候補数 |    R@5 |   R@10 |   R@20 |     Time
----------------------------------------------------------------------------------------------------
          2段階(5000)            |      nan |  95.2% |  96.0% |  95.3% |   47.90ms
       Partial(16/12+)         |   124643 |  91.8% |  91.8% |  87.9% |  147.74ms
         Overlap(8/2)          |    86750 |  91.6% |  91.6% |  87.6% |   28.58ms
          2段階(2000)            |      nan |  91.6% |  91.3% |  87.8% |   42.82ms
       Partial(16/13+)         |    61887 |  91.4% |  91.2% |  87.6% |  127.96ms
    Hybrid(Overlap+Multi)      |    63764 |  91.2% |  90.3% |  86.2% |   43.82ms
         Overlap(8/4)          |    63764 |  90.4% |  90.0% |  86.6% |   20.52ms
       Partial(16/14+)         |    25700 |  89.2% |  89.0% |  84.6% |  116.75ms
        MultiIndex(5)          |    41161 |  87.4% |  86.7% |  83.3% |   16.78ms
        Overlap(16/4)          |     3308 |  57.6% |  52.0% |  45.2%

---

## 9. 結論

In [22]:
# 最良の手法を特定
best_row = df_sorted.iloc[0]
best_improved = df_sorted[~df_sorted['method'].str.contains('2段階')].iloc[0]

print('=' * 80)
print('結論')
print('=' * 80)

print(f'''
■ 実験目的
  実験30のセグメント完全一致方式（Recall@10=72%）を改善する

■ 最良の改善手法: {best_improved["method"]}
  Recall@10: {best_improved["recall@10"]*100:.1f}%
  候補数: {best_improved.get("avg_candidates", "-"):.0f}件
  処理時間: {best_improved["avg_time_ms"]:.2f}ms

■ ベースライン（2段階検索）との比較
  2段階(2000): Recall@10 = {baseline_results[0]["recall@10"]*100:.1f}%
  改善手法: Recall@10 = {best_improved["recall@10"]*100:.1f}%
  差分: {(best_improved["recall@10"] - baseline_results[0]["recall@10"])*100:+.1f}ポイント

■ 各手法の評価

  1. オーバーラップセグメント
     - N-gram的スライディングで多くの候補を収集
     - width=8, stride=4 で良好な結果
     - セグメント数増加で候補数が増え、Recall向上

  2. Multi-Index方式
     - 複数パターンのOR結合で漏れを防ぐ
     - パターン数増加でRecall向上するが、処理時間も増加

  3. 部分一致方式
     - 全件走査が必要で処理時間が長い
     - 閾値の調整が難しい

  4. ハイブリッド方式
     - オーバーラップ + Multi-Index で最大の候補を収集
     - Recall向上するが、処理時間とのトレードオフ

■ 結論
  セグメント分割方式は改善したが、2段階検索（全件ハミング距離計算）には及ばない。
  理由: ハミング距離とコサイン類似度の相関が完全でないため、セグメント一致だけでは
  良い候補を確実に捉えられない。

  推奨: 引き続き2段階検索（ITQ LSH → コサイン）を採用。
  セグメント方式は、データ件数が非常に大きい場合（数千万件以上）の
  初段フィルタとして検討価値あり。
''')

結論

■ 実験目的
  実験30のセグメント完全一致方式（Recall@10=72%）を改善する

■ 最良の改善手法: Partial(16/12+)
  Recall@10: 91.8%
  候補数: 124643件
  処理時間: 147.74ms

■ ベースライン（2段階検索）との比較
  2段階(2000): Recall@10 = 91.3%
  改善手法: Recall@10 = 91.8%
  差分: +0.5ポイント

■ 各手法の評価

  1. オーバーラップセグメント
     - N-gram的スライディングで多くの候補を収集
     - width=8, stride=4 で良好な結果
     - セグメント数増加で候補数が増え、Recall向上

  2. Multi-Index方式
     - 複数パターンのOR結合で漏れを防ぐ
     - パターン数増加でRecall向上するが、処理時間も増加

  3. 部分一致方式
     - 全件走査が必要で処理時間が長い
     - 閾値の調整が難しい

  4. ハイブリッド方式
     - オーバーラップ + Multi-Index で最大の候補を収集
     - Recall向上するが、処理時間とのトレードオフ

■ 結論
  セグメント分割方式は改善したが、2段階検索（全件ハミング距離計算）には及ばない。
  理由: ハミング距離とコサイン類似度の相関が完全でないため、セグメント一致だけでは
  良い候補を確実に捉えられない。

  推奨: 引き続き2段階検索（ITQ LSH → コサイン）を採用。
  セグメント方式は、データ件数が非常に大きい場合（数千万件以上）の
  初段フィルタとして検討価値あり。



---

## 10. 実験評価まとめ

### 実験目的
実験30のセグメント完全一致方式（Recall@10=72%）を改善し、DB負荷低減のための効果的な枝刈り手法を探る。

### 検証した手法と結果

| 手法 | 期待R@10 | 実験R@10 | 候補数 | 削減率 | 処理時間 | 評価 |
|------|---------|---------|--------|--------|----------|------|
| **Overlap(8/2)** | 80-85% | **91.6%** | 86,750 | 78% | 28.6ms | 期待以上 |
| **Overlap(8/4)** | 80-85% | **90.0%** | 63,764 | 84% | 20.5ms | 期待以上 |
| Multi-Index(5) | 78-83% | **86.7%** | 41,161 | 90% | 16.8ms | 期待以上 |
| Partial(16/12+) | 75-82% | **91.8%** | 124,643 | 69% | 147.7ms | 期待以上だが遅い |
| Hybrid | 85-90% | **90.3%** | 63,764 | 84% | 43.8ms | 期待通り |
| 2段階(2000)参考 | - | 91.3% | 2,000 | 99.5% | 42.8ms | - |

※削減率 = (400,000 - 候補数) / 400,000

### 計算コストの観点からの評価

| 手法 | Step1処理 | Step2処理 | Step3処理 | 総コスト評価 |
|------|-----------|-----------|-----------|-------------|
| **Overlap(8/4)** | インデックス引き（O(1)×31） | ハミング距離6.4万件 | コサイン2000件 | **低コスト** |
| Overlap(8/2) | インデックス引き（O(1)×61） | ハミング距離8.7万件 | コサイン2000件 | 中コスト |
| Multi-Index(5) | インデックス引き（O(1)×42） | ハミング距離4.1万件 | コサイン2000件 | **最低コスト** |
| Partial(16/12+) | **全件走査8セグメント** | ハミング距離12.5万件 | コサイン2000件 | 高コスト |
| 2段階検索 | **全件ハミング距離40万件** | - | コサイン2000件 | 中〜高コスト |

### 枝刈りによるDB負荷低減の観点

本実験の目的は、ベクトル検索のDB負荷を低減することである。以下の観点で妥協点を整理する。

#### シナリオ別推奨設定

| シナリオ | 推奨手法 | R@10 | 候補削減率 | 理由 |
|---------|---------|------|-----------|------|
| **精度重視** | Overlap(8/2) | 91.6% | 78% | 2段階と同等精度、処理高速 |
| **バランス** | Overlap(8/4) | 90.0% | 84% | 精度-1.3pt、処理時間半減 |
| **コスト重視** | Multi-Index(5) | 86.7% | 90% | 精度-4.6pt、候補数最小 |

#### 妥協点の考察

1. **Overlap(8/4)が最も有力な妥協点**
   - Recall@10 = 90.0%（2段階91.3%との差は1.3pt）
   - 候補数63,764件（84%削減）
   - 処理時間20.5ms（2段階42.8msの約半分）
   - インデックス引きのみで全件走査不要

2. **Multi-Index(5)は超大規模DB向け**
   - Recall@10 = 86.7%（精度を4.6pt犠牲にして90%削減）
   - 数千万〜億件規模で検討価値あり
   - インデックスサイズは増加するが、検索は高速

3. **部分一致方式は不採用**
   - 精度は高いが全件走査が必要
   - 処理時間が2段階検索の3倍以上
   - 枝刈りの意味がない

### 結論

1. **実験30からの大幅改善を達成**
   - Seg16完全一致: 72% → Overlap(8/4): 90%（+18pt）
   - N-gram的アプローチが有効であることを確認

2. **2段階検索に匹敵する精度を達成**
   - Overlap(8/2): 91.6% vs 2段階: 91.3%
   - 全件ハミング距離計算を回避しつつ同等精度

3. **推奨: Overlap(8/4)を初段フィルタとして採用**
   - 40万件 → 6.4万件（84%削減）
   - Recall@10 = 90%を維持
   - DBから読み込むベクトル数を大幅削減可能

4. **超大規模DB（数千万件以上）ではMulti-Index(5)も検討**
   - 90%の候補削減でDB負荷を大幅軽減
   - 精度は86.7%だが、用途によっては許容範囲

### 次のステップ

- Overlap(8/4)を本番実装に組み込む
- DuckDBでのセグメントインデックス構築と検索の実装
- 実際のクエリ（外部入力）での評価