#### Packages installation

In [1]:
!pip install -q "git+https://github.com/panalexeu/horchunk.git"
!pip install -q "git+https://github.com/brandonstarxel/chunking_evaluation.git"
!pip install -q numpy
!pip install -q rich

#### Define chunker wrapper to evaluate over chunking_evaluation framework

In [2]:
from horchunk.chunkers import WindowChunker 
from horchunk.splitters import SentenceSplitter 
from chromadb.utils import embedding_functions
from chunking_evaluation.chunking.base_chunker import BaseChunker

ef = embedding_functions.SentenceTransformerEmbeddingFunction(model_name="all-MiniLM-L6-v2", device='cuda')

class WinChunkerWrapper(BaseChunker):    
    def __init__(self, thresh: float, max_chunk_size: int):
        self.thresh = thresh
        self.max_chunk_size = max_chunk_size
        
    def split_text(self, text: str) -> list[str]:
        chunker = WindowChunker(
            ef,
            thresh=self.thresh,
            max_chunk_size=self.max_chunk_size
        )
        splits = SentenceSplitter(text).__call__()
        chunks = chunker.__call__(splits)

        return [chunk.join() for chunk in chunks]

#### Start evaluation

In [3]:
def parse_res(res: dict) -> dict:
    return dict(
        iou_mean=res['iou_mean'],
        iou_std=res['iou_std'],
        recall_mean=res['recall_mean'],
        recall_std=res['recall_std'],
        precision_omeaga_mean=res['precision_omega_mean'],
        precision_omeaga_std=res['precision_omega_std'],
        precision_mean=res['precision_mean'], 
        precision_std=res['precision_std']
    )

In [4]:
from chunking_evaluation import GeneralEvaluation
from rich import print

chunker = WinChunkerWrapper(thresh=0.72, max_chunk_size=3)
res = GeneralEvaluation().run(chunker, ef)
print(parse_res(res))

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 658/658 [00:05<00:00, 122.41it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1090/1090 [00:09<00:00, 117.73it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6320/6320 [01:12<00:00, 87.71it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 257/257 [00:02<00:00, 101.07it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4458/4458 [00:40<00:00, 110.85it/s]
⚠️ It looks like you upgraded from a version below 0.6 and could benefit from vacuuming your database. Run chromadb utils vacuum --help for more information.


In [5]:
from chunking_evaluation import GeneralEvaluation
from rich import print

chunker = WinChunkerWrapper(thresh=0.72, max_chunk_size=6)
res = GeneralEvaluation().run(chunker, ef)
print(parse_res(res))

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 658/658 [00:05<00:00, 130.67it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1090/1090 [00:08<00:00, 126.01it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6320/6320 [00:50<00:00, 124.19it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 257/257 [00:02<00:00, 114.19it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4458/4458 [00:35<00:00, 125.15it/s]
