In [1]:
import pickle
from glob import glob

files = sorted(glob('/home/husein/ssd2/processed-youtube-asr-whisper-large-v3/*.pkl'))
len(files)

9956

In [2]:
from datetime import datetime, timedelta
import pathlib

atleast = datetime(2023, 6, 10)

filtered = []
for f in files:
    fname = pathlib.Path(f)
    if datetime.fromtimestamp(fname.stat().st_mtime) > atleast:
        filtered.append(f)
        
files = sorted(filtered)

In [3]:
from datasets import Audio
from tqdm import tqdm
import numpy as np
import IPython.display as ipd

In [4]:
sr = 16000
reader = Audio(sampling_rate = sr)

In [5]:
with open(files[0], 'rb') as fopen:
    data = pickle.load(fopen)

In [6]:
max(data[0]['asr_model'][0], key=data[0]['asr_model'][0].get)

'ms'

In [7]:
data[0]

{'wav_data': '/home/husein/ssd2/processed-youtube-asr-whisper-large-v3/#AWANIByte_:_Lebuhraya_DASH_-_Laluan_Alternatif_Elakkan_Kesesakkan_[qtWV1Q-7RzU]/0.mp3',
 'start': 0.0,
 'asr_model': ({'ar': 0.0002820058725774288,
   'sq': 1.6484786101500504e-05,
   'tr': 0.0009716476779431105,
   'lv': 1.2892178347101435e-05,
   'pl': 3.6917819670634344e-05,
   'eu': 1.4504192222375423e-05,
   'yi': 5.956028871878516e-06,
   'ru': 0.0002895639627240598,
   'la': 0.010719397105276585,
   'nn': 0.007512533105909824,
   'no': 1.5133452507143375e-05,
   'mg': 3.358373987794039e-07,
   'kk': 1.390142733725952e-05,
   'yo': 0.0011710386024788022,
   'mi': 0.0003330048930365592,
   'fo': 4.8620710003888234e-05,
   'ca': 1.7724236158755957e-06,
   'af': 3.4661305107874796e-05,
   'lt': 8.882307156454772e-06,
   'bo': 0.00010008837125496939,
   'es': 2.7303754905005917e-05,
   'sw': 0.000652390590403229,
   'lo': 0.00010405211651232094,
   'bg': 5.460414831759408e-05,
   'gl': 1.590410761309613e-06,
   '

In [8]:
ms_score = [s['avg_logprob'] for s in data[0]['asr_model'][1]['segments']]
en_score = [s['avg_logprob'] for s in data[0]['asr_model'][2]['segments']]

if np.mean(ms_score) > np.mean(en_score):
    selected = data[0]['asr_model'][1]['segments']
else:
    selected = data[0]['asr_model'][2]['segments']

In [9]:
i = 0

s = selected[i]['start']
e = selected[i]['end']
t = selected[i]['text']
s, e, t

(30.0, 40.0, ' ♪♪')

In [10]:
f = data[0]['wav_data']
audio = reader.decode_example(reader.encode_example(f))['array']
y = audio[int(s * sr): int(e * sr)]

In [11]:
ipd.Audio(y, rate = sr)

In [12]:
import malaya_speech

`pyaudio` is not available, `malaya_speech.streaming.pyaudio` is not able to use.


In [13]:
vad = malaya_speech.vad.webrtc()

In [14]:
y_int = malaya_speech.astype.float_to_int(y)
frames_int = list(malaya_speech.utils.generator.frames(y_int, 30, sr))
np.mean([vad(frame) for frame in frames_int])

0.9760479041916168

In [15]:
import malaya
from malaya.text.normalization import cardinal

tokenizer = malaya.tokenizer.Tokenizer(hypen = False, parliament = False, time = False, time_pukul = False,
                                      temperature = False, distance = False, volume = False, duration = False,
                                      weight = False, date = False, money = False)

In [16]:
import unicodedata
import re
import itertools

vocabs = [" ", "a", "e", "n", "i", "t", "o", "u", "s", "k", "r", "l", "h", "d", "m", "g", "y", "b", "p", "w", "c", "f", "j", "v", "z", "0", "1", "x", "2", "q", "5", "3", "4", "6", "9", "8", "7"]

def preprocessing_text(string):
    
    tokenized = tokenizer.tokenize(string)
    string = ' '.join(tokenized)
    string = unicodedata.normalize('NFC', string.lower())
    string = ''.join([c if c in vocabs else ' ' for c in string])
    string = re.sub(r'[ ]+', ' ', string).strip()
    string = (
        ''.join(''.join(s)[:2] for _, s in itertools.groupby(string))
    )
    return string

In [17]:
directory = '/home/husein/ssd3/stt/whisper-v5'

In [19]:
# !rm -rf {directory}
!mkdir {directory}

mkdir: cannot create directory ‘/home/husein/ssd3/stt/whisper-v5’: File exists


In [20]:
import torchaudio
import torch
import os

In [21]:
dataset = []
index = 0
for no, f in enumerate(files):
    
    with open(f, 'rb') as fopen:
        data = pickle.load(fopen)
    
    for i in tqdm(range(len(data))):
        lang = max(data[i]['asr_model'][0], key=data[i]['asr_model'][0].get)
        if lang not in {'ms', 'en'}:
            continue
        
        ms_score = [s['avg_logprob'] for s in data[i]['asr_model'][1]['segments']]
        en_score = [s['avg_logprob'] for s in data[i]['asr_model'][2]['segments']]

        if np.mean(ms_score) > np.mean(en_score):
            selected = data[i]['asr_model'][1]['segments']
        else:
            selected = data[i]['asr_model'][2]['segments']
            
        audio = reader.decode_example(reader.encode_example(data[i]['wav_data']))['array']
        for k in range(len(selected)):
            s = selected[k]['start']
            e = selected[k]['end'] + 0.1
            t = selected[k]['text']
            cleaned_t = preprocessing_text(t)
            if not len(cleaned_t):
                continue
                
            audio_path = os.path.join(directory, f'{index}.mp3')
            a = audio[int(s * sr): int(e * sr)]
            torchaudio.save(audio_path, 
                            torch.tensor(a.astype('float32')).unsqueeze(0), 
                            16000, format='mp3')
            try:
                y_int = malaya_speech.astype.float_to_int(a)
                frames_int = list(malaya_speech.utils.generator.frames(y_int, 30, sr, append_ending_trail = False))

                dataset.append(
                    {
                        'file': audio_path,
                        'text': t,
                        'cleaned': cleaned_t,
                        'no': no,
                        'i': i,
                        'k': k,
                        'avg_logprob': selected[k]['avg_logprob'],
                        'no_speech_prob': selected[k]['no_speech_prob'],
                        'vad': float(np.mean([vad(frame) for frame in frames_int])),
                    }
                )
            except:
                pass
            index += 1

100%|█████████████████████████████████████████████| 2/2 [00:00<00:00, 42.00it/s]
100%|███████████████████████████████████████████| 49/49 [00:09<00:00,  5.06it/s]
100%|███████████████████████████████████████████| 27/27 [00:05<00:00,  5.23it/s]
100%|███████████████████████████████████████████| 28/28 [00:04<00:00,  6.60it/s]
100%|███████████████████████████████████████████| 26/26 [00:04<00:00,  5.31it/s]
100%|███████████████████████████████████████████| 33/33 [00:05<00:00,  6.33it/s]
100%|███████████████████████████████████████████| 30/30 [00:04<00:00,  6.22it/s]
100%|███████████████████████████████████████████| 29/29 [00:04<00:00,  5.90it/s]
100%|███████████████████████████████████████████| 35/35 [00:05<00:00,  6.26it/s]
100%|███████████████████████████████████████████| 32/32 [00:05<00:00,  6.01it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  7.62it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  7.33it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 19/19 [00:04<00:00,  4.56it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  5.04it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.77it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  5.76it/s]
100%|███████████████████████████████████████████| 11/11 [00:02<00:00,  5.40it/s]
100%|███████████████████████████████████████████| 14/14 [00:02<00:00,  5.51it/s]
100%|███████████████████████████████████████████| 19/19 [00:03<00:00,  5.00it/s]
100%|███████████████████████████████████████████| 28/28 [00:05<00:00,  5.23it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  6.30it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  6.08it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  4.70it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  6.77it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 2/2 [00:00<00:00, 12.48it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.67it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.40it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.65it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00, 10.54it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  6.51it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.59it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.94it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  6.21it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.79it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  8.86it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.61it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.29it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  6.24it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  7.72it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.34it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.91it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.48it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.29it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.52it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  6.53it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  8.04it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.80it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.95it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 22/22 [00:04<00:00,  5.25it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  6.10it/s]
100%|███████████████████████████████████████████| 12/12 [00:02<00:00,  5.51it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  6.10it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  6.00it/s]
100%|███████████████████████████████████████████| 16/16 [00:02<00:00,  5.62it/s]
100%|███████████████████████████████████████████| 20/20 [00:03<00:00,  5.95it/s]
100%|███████████████████████████████████████████| 20/20 [00:03<00:00,  5.61it/s]
100%|███████████████████████████████████████████| 15/15 [00:02<00:00,  5.81it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.53it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.90it/s]
100%|█████████████████████████████████████████████| 6/6 [00:01<00:00,  5.35it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 11/11 [00:01<00:00,  5.82it/s]
100%|███████████████████████████████████████████| 11/11 [00:01<00:00,  5.79it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  6.00it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  6.35it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  7.72it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  6.12it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  6.42it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  5.72it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  7.02it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  6.22it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.88it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  5.65it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 14/14 [00:02<00:00,  5.32it/s]
100%|█████████████████████████████████████████████| 6/6 [00:01<00:00,  5.90it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.46it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.65it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  5.28it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.62it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  5.88it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  6.53it/s]
100%|███████████████████████████████████████████| 26/26 [00:05<00:00,  5.10it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.03it/s]
100%|█████████████████████████████████████████████| 6/6 [00:01<00:00,  5.31it/s]
100%|███████████████████████████████████████████| 61/61 [00:08<00:00,  7.27it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 60/60 [00:08<00:00,  6.76it/s]
100%|███████████████████████████████████████████| 14/14 [00:03<00:00,  4.28it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.62it/s]
100%|███████████████████████████████████████████| 13/13 [00:03<00:00,  3.60it/s]
100%|███████████████████████████████████████████| 24/24 [00:03<00:00,  7.23it/s]
100%|███████████████████████████████████████████| 66/66 [00:07<00:00,  8.58it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  8.32it/s]
100%|███████████████████████████████████████████| 28/28 [00:05<00:00,  5.24it/s]
100%|███████████████████████████████████████████| 19/19 [00:04<00:00,  4.30it/s]
100%|███████████████████████████████████████████| 13/13 [00:02<00:00,  5.01it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.41it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.35it/s]
100%|███████████████████████

100%|█████████████████████████████████████████| 115/115 [00:18<00:00,  6.19it/s]
100%|█████████████████████████████████████████| 118/118 [00:16<00:00,  7.01it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00, 10.79it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  4.87it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  6.16it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  7.16it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  8.51it/s]
100%|███████████████████████████████████████████| 61/61 [00:08<00:00,  6.92it/s]
100%|███████████████████████████████████████████| 76/76 [00:09<00:00,  7.66it/s]
100%|███████████████████████████████████████████| 31/31 [00:06<00:00,  4.66it/s]
100%|███████████████████████████████████████████| 13/13 [00:01<00:00,  7.31it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  6.54it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  5.82it/s]
100%|███████████████████████████████████████████| 15/15 [00:02<00:00,  6.00it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.27it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  8.16it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  6.31it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  6.20it/s]
100%|█████████████████████████████████████████████| 6/6 [00:01<00:00,  5.54it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.45it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  5.53it/s]
100%|█████████████████████████████████████████████| 1/1 [00:00<00:00,  6.89it/s]
100%|█████████████████████████████████████████████| 7/7 [00:00<00:00,  8.77it/s]
100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 13.36it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 58/58 [00:08<00:00,  6.92it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  7.27it/s]
100%|███████████████████████████████████████████| 31/31 [00:05<00:00,  5.83it/s]
100%|███████████████████████████████████████████| 15/15 [00:02<00:00,  5.56it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  6.11it/s]
100%|███████████████████████████████████████████| 20/20 [00:03<00:00,  6.29it/s]
100%|███████████████████████████████████████████| 27/27 [00:03<00:00,  7.31it/s]
100%|███████████████████████████████████████████| 19/19 [00:03<00:00,  5.10it/s]
100%|███████████████████████████████████████████| 46/46 [00:07<00:00,  6.39it/s]
100%|███████████████████████████████████████████| 19/19 [00:03<00:00,  5.22it/s]
100%|███████████████████████████████████████████| 19/19 [00:03<00:00,  5.63it/s]
100%|███████████████████████████████████████████| 12/12 [00:00<00:00, 40.82it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 11/11 [00:01<00:00,  5.88it/s]
100%|███████████████████████████████████████████| 13/13 [00:02<00:00,  5.64it/s]
100%|███████████████████████████████████████████| 12/12 [00:01<00:00,  6.76it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.32it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.60it/s]
100%|█████████████████████████████████████████████| 6/6 [00:00<00:00,  6.13it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.23it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.88it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.48it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.75it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.56it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.57it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.68it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  6.11it/s]
100%|█████████████████████████████████████████████| 6/6 [00:01<00:00,  5.48it/s]
100%|███████████████████████████████████████████| 10/10 [00:04<00:00,  2.30it/s]
100%|███████████████████████████████████████████| 22/22 [00:04<00:00,  4.80it/s]
100%|███████████████████████████████████████████| 11/11 [00:01<00:00,  6.43it/s]
100%|███████████████████████████████████████████| 21/21 [00:04<00:00,  4.52it/s]
100%|███████████████████████████████████████████| 21/21 [00:03<00:00,  5.26it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.99it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.30it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.59it/s]
100%|█████████████████████████████████████████████| 6/6 [00:00<00:00,  8.26it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  6.37it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00, 10.93it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  7.12it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  5.44it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.93it/s]
100%|███████████████████████████████████████████| 12/12 [00:01<00:00,  6.26it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  6.77it/s]
100%|███████████████████████████████████████████| 12/12 [00:02<00:00,  5.15it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.80it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  5.69it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00, 14.02it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  6.47it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 24/24 [00:04<00:00,  4.81it/s]
100%|███████████████████████████████████████████| 25/25 [00:04<00:00,  5.51it/s]
100%|███████████████████████████████████████████| 16/16 [00:02<00:00,  5.41it/s]
100%|███████████████████████████████████████████| 36/36 [00:07<00:00,  4.94it/s]
100%|███████████████████████████████████████████| 35/35 [00:07<00:00,  4.92it/s]
100%|███████████████████████████████████████████| 21/21 [00:03<00:00,  5.74it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.18it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  5.23it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.52it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  6.85it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  7.34it/s]
100%|█████████████████████████████████████████████| 7/7 [00:00<00:00,  7.13it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 14/14 [00:02<00:00,  5.17it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  5.15it/s]
100%|███████████████████████████████████████████| 11/11 [00:01<00:00,  5.59it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  5.01it/s]
100%|███████████████████████████████████████████| 11/11 [00:02<00:00,  5.46it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.49it/s]
100%|███████████████████████████████████████████| 12/12 [00:02<00:00,  5.12it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  5.55it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  6.23it/s]
100%|█████████████████████████████████████████████| 6/6 [00:01<00:00,  5.87it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  5.08it/s]
100%|███████████████████████████████████████████| 12/12 [00:02<00:00,  5.19it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 97/97 [00:12<00:00,  8.02it/s]
100%|███████████████████████████████████████████| 83/83 [00:11<00:00,  7.05it/s]
100%|███████████████████████████████████████████| 81/81 [00:12<00:00,  6.35it/s]
100%|███████████████████████████████████████████| 80/80 [00:12<00:00,  6.42it/s]
100%|███████████████████████████████████████████| 82/82 [00:11<00:00,  6.91it/s]
100%|███████████████████████████████████████████| 80/80 [00:12<00:00,  6.16it/s]
100%|███████████████████████████████████████████| 82/82 [00:12<00:00,  6.37it/s]
100%|███████████████████████████████████████████| 86/86 [00:13<00:00,  6.59it/s]
100%|███████████████████████████████████████████| 86/86 [00:13<00:00,  6.40it/s]
100%|███████████████████████████████████████████| 88/88 [00:12<00:00,  6.88it/s]
100%|███████████████████████████████████████████| 98/98 [00:14<00:00,  6.98it/s]
100%|███████████████████████████████████████████| 80/80 [00:12<00:00,  6.19it/s]
100%|███████████████████████

In [24]:
len(dataset)

367026

In [23]:
import json

with open('dataset-whisper-stt-2023-06-19.json', 'w') as fopen:
    json.dump(dataset, fopen)