In [1]:
from multiprocess import Pool
import itertools

def chunks(l, n):
    for i in range(0, len(l), n):
        yield (l[i: i + n], i // n)

def multiprocessing(strings, function, cores=6, returned=True):
    df_split = chunks(strings, len(strings) // cores)
    pool = Pool(cores)
    pooled = pool.map(function, df_split)
    pool.close()
    pool.join()

    if returned:
        return list(itertools.chain(*pooled))

In [2]:
from datasets import load_dataset
ds = load_dataset("diarizers-community/ami", "sdm")

print(ds)

Resolving data files:   0%|          | 0/19 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/19 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['audio', 'timestamps_start', 'timestamps_end', 'speakers'],
        num_rows: 134
    })
    validation: Dataset({
        features: ['audio', 'timestamps_start', 'timestamps_end', 'speakers'],
        num_rows: 18
    })
    test: Dataset({
        features: ['audio', 'timestamps_start', 'timestamps_end', 'speakers'],
        num_rows: 16
    })
})




In [3]:
import string
import soundfile as sf
import numpy as np
from collections import defaultdict

def convert_rttm(chunk, filename = 'audio'):
    rttm = []
    for start, end, speaker in chunk:
        duration = end - start
        rttm.append(f"SPEAKER {filename} 1 {start:.4f} {duration:.4f} <NA> <NA> <NA> <NA> {speaker}")
    return '\n'.join(rttm)

def convert_textgrid(segments):
    tiers = defaultdict(list)
    for start, end, speaker in segments:
        tiers[speaker].append((start, end))

    min_time = min(start for start, _, _ in segments)
    max_time = max(end for _, end, _ in segments)

    textgrid = []
    textgrid.append("File type = \"ooTextFile\"")
    textgrid.append("Object class = \"TextGrid\"")
    textgrid.append("")
    textgrid.append(f"xmin = {min_time:.2f}")
    textgrid.append(f"xmax = {max_time:.2f}")
    textgrid.append("tiers? <exists>")
    textgrid.append(f"size = {len(tiers)}")
    textgrid.append("item []:")

    for i, (speaker, intervals) in enumerate(tiers.items(), start=1):
        textgrid.append(f"    item [{i}]:")
        textgrid.append("        class = \"IntervalTier\"")
        textgrid.append(f"        name = \"{speaker}\"")
        textgrid.append(f"        xmin = {min_time:.2f}")
        textgrid.append(f"        xmax = {max_time:.2f}")
        textgrid.append(f"        intervals: size = {len(intervals)}")

        for j, (start, end) in enumerate(intervals, start=1):
            textgrid.append(f"        intervals [{j}]:")
            textgrid.append(f"            xmin = {start:.2f}")
            textgrid.append(f"            xmax = {end:.2f}")
            textgrid.append(f"            text = \"{speaker}\"")
            
    return '\n'.join(textgrid)

timestamps = [i * 0.02 for i in range(1500 + 1)]

In [4]:
# !rm -rf ami-sdm
# !mkdir ami-sdm

In [8]:
from tqdm import tqdm
import os

def loop(indices):
    indices, _ = indices
    ds = load_dataset("diarizers-community/ami", "sdm")
    data = []
    for k, key in tqdm(indices):
        row = ds[key][k]
        audio = row['audio']['array']
        chunks, temp = [], []
        argsort = np.argsort(row['timestamps_start'])
        timestamps_start = [row['timestamps_start'][i] for i in argsort]
        timestamps_end = [row['timestamps_end'][i] for i in argsort]
        speakers = [row['speakers'][i] for i in argsort]
        start = timestamps_start[0]
        max_len = 30
        for i in range(len(timestamps_start)):
            l = timestamps_end[i] - start
            if l >= max_len:
                chunks.append(temp)
                temp = [[timestamps_start[i], timestamps_end[i], speakers[i]]]
                start = timestamps_start[i]
                continue
            else:
                temp.append([timestamps_start[i], timestamps_end[i], speakers[i]])

        if len(temp):
            chunks.append(temp)

        for no, chunk in enumerate(chunks):
            speakers = []
            for i in range(len(chunk)):
                if chunk[i][-1] not in speakers:
                    speakers.append(chunk[i][-1])
            
            try:          
                start_time = chunk[0][0]
                end_time = max([c[1] for c in chunk])
            except Exception as e:
                continue
                
            if round(end_time - start_time, 2) > max_len:
                continue
            
            y = audio[int(16000 * start_time): int(16000 * end_time)]
            audio_filename = f'ami-sdm/{key}-{k}-{no}.mp3'
            if not os.path.exists(audio_filename):
                sf.write(audio_filename, y, 16000)
            
            ts = []
            for i in range(len(chunk)):
                index = speakers.index(chunk[i][-1])
                start = min(timestamps, key=lambda t: abs(t - (chunk[i][0] - start_time)))
                end = min(timestamps, key=lambda t: abs(t - (chunk[i][1] - start_time)))
                speaker_name = f'speaker {string.ascii_uppercase[index]}'
                chunk[i][-1] = speaker_name
                chunk[i][0] = start
                chunk[i][1] = end
                t = f"<|{start:.2f}|> {speaker_name}<|{end:.2f}|>"
                ts.append(t)
                
            ts = ''.join(ts)
            rttm = convert_rttm(chunk)
            textgrid = convert_textgrid(chunk)
            
            data.append({
                'question': 'diarize the audio using whisper format',
                'answer': ts,
                'audio_filename': audio_filename,
            })
            data.append({
                'question': 'diarize the audio using rttm format',
                'answer': rttm,
                'audio_filename': audio_filename,
            })
            data.append({
                'question': 'diarize the audio using textgrid format',
                'answer': textgrid,
                'audio_filename': audio_filename,
            })
    return data

In [9]:
indices = list(range(len(ds['train'])))
indices = [(i, 'train') for i in indices]

In [10]:
prepared = multiprocessing(indices, loop, cores = 20)

100%|█████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:02<00:00,  2.35it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.85it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.91it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:02<00:00,  2.30it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.88it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.80it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:03<00:00,  1.68it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:04<00:00,  1.46it/s]


Resolving data files:   0%|          | 0/19 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/19 [00:00<?, ?it/s]

100%|█████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:04<00:00,  1.37it/s]


Resolving data files:   0%|          | 0/19 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/19 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/19 [00:00<?, ?it/s]

 17%|██████████████▊                                                                          | 1/6 [00:00<00:00,  6.64it/s]

Resolving data files:   0%|          | 0/19 [00:00<?, ?it/s]

100%|█████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00,  2.87it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:01<00:00,  3.49it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:02<00:00,  2.84it/s]


In [11]:
indices = list(range(len(ds['validation'])))
indices = [(i, 'validation') for i in indices]
prepared_validation = multiprocessing(indices, loop, cores = min(len(indices), 20))

100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.45s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.49s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.54s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.43s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.60s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.80s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.46s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.58s/it]


In [12]:
indices = list(range(len(ds['test'])))
indices = [(i, 'test') for i in indices]
prepared_test = multiprocessing(indices, loop, cores = min(len(indices), 20))

100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.59s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.72s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.57s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.56s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.49s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.21s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.32s/it]
100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.50s/it]


In [13]:
len(prepared), len(prepared_validation), len(prepared_test)

(29202, 3525, 3384)

In [14]:
import pandas as pd

pd.DataFrame(prepared).to_parquet('ami-sdm-train.parquet')
pd.DataFrame(prepared_validation).to_parquet('ami-sdm-validation.parquet')
pd.DataFrame(prepared_test).to_parquet('ami-sdm-test.parquet')

In [15]:
!huggingface-cli upload mesolitica/Speaker-Diarization-Instructions \
ami-sdm-train.parquet /data/ami_sdm_train-00000-of-00001.parquet \
--repo-type=dataset

Uploading files using Xet Storage..
Uploading...: 100%|█████████████████████████| 3.46M/3.46M [00:06<00:00, 518kB/s]
https://huggingface.co/datasets/mesolitica/Speaker-Diarization-Instructions/blob/main//data/ami_sdm_train-00000-of-00001.parquet


In [16]:
!huggingface-cli upload mesolitica/Speaker-Diarization-Instructions \
ami-sdm-validation.parquet /data/ami_sdm_validation-00000-of-00001.parquet \
--repo-type=dataset

Uploading files using Xet Storage..
Uploading...: 100%|███████████████████████████| 470k/470k [00:02<00:00, 203kB/s]
https://huggingface.co/datasets/mesolitica/Speaker-Diarization-Instructions/blob/main//data/ami_sdm_validation-00000-of-00001.parquet


In [17]:
!huggingface-cli upload mesolitica/Speaker-Diarization-Instructions \
ami-sdm-test.parquet /data/ami_sdm_test-00000-of-00001.parquet \
--repo-type=dataset

Uploading files using Xet Storage..
Uploading...: 100%|███████████████████████████| 404k/404k [00:02<00:00, 170kB/s]
https://huggingface.co/datasets/mesolitica/Speaker-Diarization-Instructions/blob/main//data/ami_sdm_test-00000-of-00001.parquet
