In [1]:
from model import WhisperSegmenter, WhisperSegmenterFast
import librosa
import pandas as pd
import numpy as np
from tqdm import tqdm
from copy import deepcopy
from train import validate
from datautils import get_audio_and_label_paths
import os

In [2]:
segmenter = WhisperSegmenter(  model_path = "nccratliri/whisperseg-zebra-finch", 
                        device = "cuda")

In [3]:
fname_list = sorted( [fname for fname in os.listdir("data/dataset/zebseg/") if fname != "all_birds"] )

In [4]:
for fname in fname_list:
    audio_paths, label_paths = get_audio_and_label_paths("data/dataset/zebseg/%s/test/"%(fname))

    audio_list, label_list = [], []
    for audio_path, label_path in zip(audio_paths, label_paths):
        audio, _ = librosa.load( audio_path, sr = 16000 )
        label_df = pd.read_csv( label_path )
        label = {
            "onset":list(label_df["onset"]),
            "offset":list(label_df["offset"]),
            "cluster":list(label_df["cluster"]) 
        }
        audio_list.append(audio)
        label_list.append(label)
    
    
    res = validate( audio_list, label_list, segmenter, sr = 16000, tolerance = 0.02, num_trials = 3 , min_segment_length = 0.02,
              voting_time_step = 1.0, voting_precision = 0.001, batch_size = 8, max_length = 400, target_cluster = None )
    print(fname+":\t", res)
    

100%|██████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.09s/it]


R3406_035:	 (1.0, 1.0, 1.0, 17, 17, 17)


100%|██████████████████████████████████████████████████████████| 5/5 [00:07<00:00,  1.40s/it]


R3406_045:	 (1.0, 1.0, 1.0, 4, 4, 4)


100%|████████████████████████████████████████████████████████| 19/19 [00:29<00:00,  1.56s/it]


R3406_055:	 (0.9583333333333334, 1.0, 0.978723404255319, 23, 24, 23)


100%|██████████████████████████████████████████████████████████| 4/4 [00:11<00:00,  2.87s/it]


R3428_039:	 (0.9605263157894737, 0.9605263157894737, 0.9605263157894738, 73, 76, 76)


100%|██████████████████████████████████████████████████████████| 3/3 [00:14<00:00,  4.96s/it]


R3428_049:	 (0.968, 0.9918032786885246, 0.9797570850202428, 121, 125, 122)


100%|████████████████████████████████████████████████████████| 28/28 [00:56<00:00,  2.01s/it]


R3428_059:	 (0.9790209790209791, 0.9722222222222222, 0.9756097560975611, 280, 286, 288)


100%|██████████████████████████████████████████████████████████| 5/5 [00:06<00:00,  1.25s/it]


R3549_043:	 (0.8333333333333334, 0.7894736842105263, 0.8108108108108107, 15, 18, 19)


100%|██████████████████████████████████████████████████████████| 4/4 [00:10<00:00,  2.64s/it]


R3549_053:	 (0.9753086419753086, 0.9875, 0.9813664596273293, 79, 81, 80)


100%|██████████████████████████████████████████████████████████| 7/7 [00:17<00:00,  2.56s/it]


R3549_063:	 (0.972972972972973, 0.9391304347826087, 0.9557522123893806, 108, 111, 115)


100%|██████████████████████████████████████████████████████████| 5/5 [00:22<00:00,  4.57s/it]


R3625_045:	 (0.9942528735632183, 0.9885714285714285, 0.9914040114613178, 173, 174, 175)


100%|██████████████████████████████████████████████████████████| 2/2 [00:05<00:00,  2.66s/it]


R3625_055:	 (1.0, 0.98, 0.98989898989899, 49, 49, 50)


100%|██████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.85s/it]


R3625_065:	 (1.0, 0.9090909090909091, 0.9523809523809523, 10, 10, 11)


100%|████████████████████████████████████████████████████████| 99/99 [02:21<00:00,  1.43s/it]


g17y2:	 (0.9980334316617503, 0.9980334316617503, 0.9980334316617503, 1015, 1017, 1017)


100%|██████████████████████████████████████████████████████████| 8/8 [00:19<00:00,  2.44s/it]


g19o10:	 (1.0, 1.0, 1.0, 194, 194, 194)


100%|████████████████████████████████████████████████████████| 10/10 [00:21<00:00,  2.16s/it]


g19o3:	 (1.0, 1.0, 1.0, 215, 215, 215)


100%|████████████████████████████████████████████████████████| 82/82 [03:53<00:00,  2.84s/it]

g4p5:	 (0.9987903225806452, 0.9975835682641966, 0.998186580697159, 2477, 2480, 2483)



