#### Packages installation

In [1]:
!pip install "git+https://github.com/panalexeu/horchunk.git"
!pip install "git+https://github.com/brandonstarxel/chunking_evaluation.git"
!pip install numpy
!pip install rich

Collecting git+https://github.com/panalexeu/horchunk.git
  Cloning https://github.com/panalexeu/horchunk.git to /tmp/pip-req-build-y_zdcmhn
  Running command git clone --filter=blob:none --quiet https://github.com/panalexeu/horchunk.git /tmp/pip-req-build-y_zdcmhn
  Resolved https://github.com/panalexeu/horchunk.git to commit 4fd7e6936057689b3677d92f7a1be398cbf388fd
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Collecting git+https://github.com/panalexeu/horchunk.git
  Cloning https://github.com/panalexeu/horchunk.git to /tmp/pip-req-build-h51ibryo
  Running command git clone --filter=blob:none --quiet https://github.com/p

#### Define chunker wrapper to evaluate over chunking_evaluation framework

In [2]:
from horchunk.chunkers import WindowChunker 
from horchunk.splitters import SentenceSplitter 
from chromadb.utils import embedding_functions
from chunking_evaluation.chunking.base_chunker import BaseChunker

ef = embedding_functions.SentenceTransformerEmbeddingFunction(model_name="all-MiniLM-L6-v2", device='cuda')

class WinChunkerWrapper(BaseChunker):    
    def __init__(self, thresh: float, max_chunk_size: int):
        self.thresh = thresh
        self.max_chunk_size = max_chunk_size
        
    def split_text(self, text: str) -> list[str]:
        chunker = WindowChunker(
            ef,
            thresh=self.thresh,
            max_chunk_size=self.max_chunk_size
        )
        splits = SentenceSplitter(text).__call__()
        chunks = chunker.__call__(splits)

        return [chunk.join() for chunk in chunks]

  from .autonotebook import tqdm as notebook_tqdm


#### Start evaluation

In [3]:
def parse_res(res: dict) -> dict:
    return dict(
        iou_mean=res['iou_mean'],
        iou_std=res['iou_std'],
        recall_mean=res['recall_mean'],
        recall_std=res['recall_std'],
        precision_omeaga_mean=res['precision_omega_mean'],
        precision_omeaga_std=res['precision_omega_std'],
        precision_mean=res['precision_mean'], 
        precision_std=res['precision_std']
    )

In [4]:
from chunking_evaluation import GeneralEvaluation
from rich import print

chunker = WinChunkerWrapper(thresh=0.72, max_chunk_size=3)
res = GeneralEvaluation().run(chunker, ef)
print(parse_res(res))

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 658/658 [00:04<00:00, 140.96it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1090/1090 [00:07<00:00, 145.67it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6320/6320 [00:51<00:00, 122.13it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 257/257 [00:02<00:00, 119.23it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4458/4458 [00:35<00:00, 124.22it/s]
⚠️ It looks like you upgraded from a version below 0.6 and could benefit from vacuuming your database. Run chromadb utils vacuum --help for more information.


In [5]:
from chunking_evaluation import GeneralEvaluation
from rich import print

chunker = WinChunkerWrapper(thresh=0.72, max_chunk_size=6)
res = GeneralEvaluation().run(chunker, ef)
print(parse_res(res))

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 658/658 [00:05<00:00, 124.42it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1090/1090 [00:09<00:00, 114.61it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6320/6320 [00:52<00:00, 119.53it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 257/257 [00:02<00:00, 102.76it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4458/4458 [00:40<00:00, 109.52it/s]
