In [1]:
import pickle
from glob import glob

files = sorted(glob('/home/husein/ssd2/processed-youtube-asr-whisper-large-v3/*.pkl'))
len(files)

13418

In [2]:
from datetime import datetime, timedelta
import pathlib

atleast = datetime(2023, 6, 10)

filtered = []
for f in files:
    fname = pathlib.Path(f)
    if datetime.fromtimestamp(fname.stat().st_mtime) > atleast:
        filtered.append(f)
        
files = sorted(filtered)
len(files)

5795

In [3]:
from datasets import Audio
from tqdm import tqdm
import numpy as np
import IPython.display as ipd

In [4]:
sr = 16000
reader = Audio(sampling_rate = sr)

In [5]:
with open(files[0], 'rb') as fopen:
    data = pickle.load(fopen)

In [6]:
max(data[0]['asr_model'][0], key=data[0]['asr_model'][0].get)

'ms'

In [7]:
data[0]

{'wav_data': '/home/husein/ssd2/processed-youtube-asr-whisper-large-v3/"Ada_harta_baru_betul_duda_hot"_-_Hasnol_takut_digelar_dayus,_sedia_kembali_kepada_bekas_isteri_[3TYBFOpIHbc]/0.mp3',
 'start': 0.0,
 'asr_model': ({'sl': 2.1883515728404745e-05,
   'hr': 7.0581018007942475e-06,
   'bn': 5.781698928331025e-05,
   'et': 4.332884600444231e-06,
   'yo': 0.0011710386024788022,
   'kn': 2.853538899216801e-05,
   'mr': 3.670094156404957e-05,
   'pt': 6.328371091512963e-05,
   'ms': 0.945112407207489,
   'sd': 0.00011648763029370457,
   'da': 0.00022656652436126024,
   'ja': 0.00048791812150739133,
   'oc': 0.00013697757094632834,
   'de': 0.0015614362200722098,
   'sw': 0.000652390590403229,
   'sq': 1.6484786101500504e-05,
   'yi': 5.956028871878516e-06,
   'fi': 2.3270855308510363e-05,
   'ml': 2.6278255973011255e-05,
   'ru': 0.0002895639627240598,
   'lt': 8.882307156454772e-06,
   'si': 0.00020464169210754335,
   'te': 2.0325713194324635e-05,
   'th': 0.0002541006251703948,
   'sr': 

In [8]:
ms_score = [s['avg_logprob'] for s in data[0]['asr_model'][1]['segments']]
en_score = [s['avg_logprob'] for s in data[0]['asr_model'][2]['segments']]

if np.mean(ms_score) > np.mean(en_score):
    selected = data[0]['asr_model'][1]['segments']
else:
    selected = data[0]['asr_model'][2]['segments']

In [9]:
i = 0

s = selected[i]['start']
e = selected[i]['end']
t = selected[i]['text']
s, e, t

(0.0, 2.5, ' Bercinta tu senang, kahwin pun senang')

In [10]:
f = data[0]['wav_data']
audio = reader.decode_example(reader.encode_example(f))['array']
y = audio[int(s * sr): int(e * sr)]

In [11]:
ipd.Audio(y, rate = sr)

In [12]:
import malaya_speech

`pyaudio` is not available, `malaya_speech.streaming.pyaudio` is not able to use.


In [13]:
vad = malaya_speech.vad.webrtc()

In [14]:
y_int = malaya_speech.astype.float_to_int(y)
frames_int = list(malaya_speech.utils.generator.frames(y_int, 30, sr))
np.mean([vad(frame) for frame in frames_int])

0.9761904761904762

In [15]:
import malaya
from malaya.text.normalization import cardinal

tokenizer = malaya.tokenizer.Tokenizer(hypen = False, parliament = False, time = False, time_pukul = False,
                                      temperature = False, distance = False, volume = False, duration = False,
                                      weight = False, date = False, money = False)

In [16]:
import unicodedata
import re
import itertools

vocabs = [" ", "a", "e", "n", "i", "t", "o", "u", "s", "k", "r", "l", "h", "d", "m", "g", "y", "b", "p", "w", "c", "f", "j", "v", "z", "0", "1", "x", "2", "q", "5", "3", "4", "6", "9", "8", "7"]

def preprocessing_text(string):
    
    tokenized = tokenizer.tokenize(string)
    string = ' '.join(tokenized)
    string = unicodedata.normalize('NFC', string.lower())
    string = ''.join([c if c in vocabs else ' ' for c in string])
    string = re.sub(r'[ ]+', ' ', string).strip()
    string = (
        ''.join(''.join(s)[:2] for _, s in itertools.groupby(string))
    )
    return string

In [17]:
directory = '/home/husein/ssd3/stt/whisper-v5'

In [18]:
# !rm -rf {directory}
!mkdir {directory}

mkdir: cannot create directory ‘/home/husein/ssd3/stt/whisper-v5’: File exists


In [19]:
import torchaudio
import torch
import os

In [20]:
dataset = []
index = 0
for no, f in enumerate(files):
    
    with open(f, 'rb') as fopen:
        data = pickle.load(fopen)
    
    for i in tqdm(range(len(data))):
        lang = max(data[i]['asr_model'][0], key=data[i]['asr_model'][0].get)
        if lang not in {'ms', 'en'}:
            continue
        
        ms_score = [s['avg_logprob'] for s in data[i]['asr_model'][1]['segments']]
        en_score = [s['avg_logprob'] for s in data[i]['asr_model'][2]['segments']]

        if np.mean(ms_score) > np.mean(en_score):
            selected = data[i]['asr_model'][1]['segments']
        else:
            selected = data[i]['asr_model'][2]['segments']
            
        audio = reader.decode_example(reader.encode_example(data[i]['wav_data']))['array']
        for k in range(len(selected)):
            s = selected[k]['start']
            e = selected[k]['end'] + 0.1
            t = selected[k]['text']
            cleaned_t = preprocessing_text(t)
            if not len(cleaned_t):
                continue
                
            audio_path = os.path.join(directory, f'{index}.mp3')
            a = audio[int(s * sr): int(e * sr)]
            torchaudio.save(audio_path, 
                            torch.tensor(a.astype('float32')).unsqueeze(0), 
                            16000, format='mp3')
            try:
                y_int = malaya_speech.astype.float_to_int(a)
                frames_int = list(malaya_speech.utils.generator.frames(y_int, 30, sr, append_ending_trail = False))

                dataset.append(
                    {
                        'file': audio_path,
                        'text': t,
                        'cleaned': cleaned_t,
                        'no': no,
                        'i': i,
                        'k': k,
                        'avg_logprob': selected[k]['avg_logprob'],
                        'no_speech_prob': selected[k]['no_speech_prob'],
                        'vad': float(np.mean([vad(frame) for frame in frames_int])),
                    }
                )
            except:
                pass
            index += 1

100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.27it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.83it/s]
100%|█████████████████████████████████████████████| 6/6 [00:01<00:00,  5.53it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.36it/s]
100%|█████████████████████████████████████████| 127/127 [00:18<00:00,  6.98it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  5.69it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.70it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.83it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  5.54it/s]
100%|█████████████████████████████████████████| 118/118 [00:15<00:00,  7.47it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  5.51it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.53it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.71it/s]
100%|███████████████████████████████████████████| 10/10 [00:02<00:00,  4.56it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.19it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.46it/s]
100%|███████████████████████████████████████████| 12/12 [00:02<00:00,  5.29it/s]
100%|███████████████████████████████████████████| 64/64 [00:09<00:00,  6.73it/s]
100%|███████████████████████████████████████████| 10/10 [00:02<00:00,  4.88it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.38it/s]
100%|███████████████████████████████████████████| 12/12 [00:02<00:00,  5.20it/s]
100%|███████████████████████████████████████████| 11/11 [00:02<00:00,  5.31it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00, 48.14it/s]
100%|███████████████████████████████████████████| 49/49 [00:10<00:00,  4.90it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  5.96it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  5.60it/s]
100%|███████████████████████████████████████████| 59/59 [00:08<00:00,  7.05it/s]
100%|███████████████████████████████████████████| 24/24 [00:05<00:00,  4.59it/s]
100%|███████████████████████████████████████████| 21/21 [00:04<00:00,  4.92it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  5.36it/s]
100%|███████████████████████████████████████████| 27/27 [00:05<00:00,  5.38it/s]
100%|███████████████████████████████████████████| 23/23 [00:04<00:00,  4.97it/s]
100%|███████████████████████████████████████████| 25/25 [00:05<00:00,  4.99it/s]
100%|███████████████████████████████████████████| 23/23 [00:04<00:00,  5.09it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  5.56it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  6.00it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  7.35it/s]
100%|███████████████████████████████████████████| 18/18 [00:03<00:00,  5.62it/s]
100%|███████████████████████████████████████████| 11/11 [00:02<00:00,  5.13it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  7.04it/s]
100%|█████████████████████████████████████████████| 6/6 [00:01<00:00,  5.73it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  6.94it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.77it/s]
100%|███████████████████████████████████████████| 33/33 [00:07<00:00,  4.54it/s]
100%|███████████████████████████████████████████| 12/12 [00:02<00:00,  5.44it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.77it/s]
100%|███████████████████████████████████████████| 11/11 [00:02<00:00,  5.46it/s]
100%|███████████████████████████████████████████| 24/24 [00:03<00:00,  6.86it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 7/7 [00:00<00:00, 10.60it/s]
100%|███████████████████████████████████████████| 12/12 [00:02<00:00,  5.30it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.65it/s]
100%|███████████████████████████████████████████| 60/60 [00:08<00:00,  7.19it/s]
100%|███████████████████████████████████████████| 29/29 [00:05<00:00,  4.95it/s]
100%|███████████████████████████████████████████| 12/12 [00:01<00:00,  6.63it/s]
100%|█████████████████████████████████████████████| 6/6 [00:01<00:00,  4.38it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  5.82it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  7.15it/s]
100%|███████████████████████████████████████████| 11/11 [00:01<00:00,  5.70it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  7.79it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  6.35it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  6.07it/s]
100%|█████████████████████████████████████████| 124/124 [00:14<00:00,  8.85it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.53it/s]
100%|███████████████████████████████████████████| 57/57 [00:08<00:00,  6.76it/s]
100%|███████████████████████████████████████████| 97/97 [00:17<00:00,  5.43it/s]
100%|███████████████████████████████████████████| 24/24 [00:04<00:00,  5.38it/s]
100%|███████████████████████████████████████████| 38/38 [00:08<00:00,  4.74it/s]
100%|█████████████████████████████████████████████| 6/6 [00:00<00:00,  6.35it/s]
100%|███████████████████████████████████████████| 63/63 [00:08<00:00,  7.48it/s]
100%|███████████████████████████████████████████| 58/58 [00:08<00:00,  6.45it/s]
100%|███████████████████████████████████████████| 55/55 [00:07<00:00,  7.01it/s]
100%|███████████████████████████████████████████| 19/19 [00:03<00:00,  4.97it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  5.69it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  6.64it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.32it/s]
100%|███████████████████████████████████████████| 19/19 [00:03<00:00,  5.32it/s]
100%|███████████████████████████████████████████| 18/18 [00:02<00:00,  6.14it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  6.19it/s]
100%|███████████████████████████████████████████| 48/48 [00:03<00:00, 14.64it/s]
100%|█████████████████████████████████████████████| 7/7 [00:00<00:00,  7.91it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  9.29it/s]
100%|███████████████████████████████████████████| 36/36 [00:04<00:00,  8.58it/s]
100%|███████████████████████████████████████████| 65/65 [00:08<00:00,  7.38it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  6.07it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 12/12 [00:02<00:00,  5.81it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.94it/s]
100%|█████████████████████████████████████████| 172/172 [00:32<00:00,  5.23it/s]
100%|███████████████████████████████████████████| 15/15 [00:02<00:00,  6.24it/s]
100%|███████████████████████████████████████████| 26/26 [00:05<00:00,  4.70it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  8.00it/s]
100%|███████████████████████████████████████████| 11/11 [00:01<00:00,  6.50it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  7.84it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  9.65it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.12it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  5.76it/s]
100%|███████████████████████████████████████████| 11/11 [00:01<00:00,  6.04it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.43it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  6.47it/s]
100%|███████████████████████████████████████████| 60/60 [00:08<00:00,  6.97it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  6.48it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  5.54it/s]
100%|███████████████████████████████████████████| 17/17 [00:03<00:00,  5.42it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.23it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  8.90it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.16it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  6.81it/s]
100%|███████████████████████████████████████████| 12/12 [00:02<00:00,  5.80it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.42it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 2/2 [00:00<00:00, 23.31it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  9.58it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  8.63it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  7.91it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  8.51it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00, 10.50it/s]
100%|█████████████████████████████████████████████| 1/1 [00:00<00:00,  6.38it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00, 10.49it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  8.53it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  8.78it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00, 28.42it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00, 30.18it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  6.30it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  8.22it/s]
100%|█████████████████████████████████████████████| 6/6 [00:00<00:00,  6.06it/s]
100%|███████████████████████████████████████████| 59/59 [00:08<00:00,  6.74it/s]
100%|███████████████████████████████████████████| 12/12 [00:02<00:00,  5.24it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  6.23it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.59it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  8.85it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.68it/s]
100%|███████████████████████████████████████████| 11/11 [00:02<00:00,  5.42it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  5.66it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.61it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  6.83it/s]
100%|███████████████████████████████████████████| 13/13 [00:02<00:00,  6.19it/s]
100%|███████████████████████████████████████████| 19/19 [00:02<00:00,  7.00it/s]
100%|███████████████████████████████████████████| 16/16 [00:02<00:00,  5.42it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  6.78it/s]
100%|███████████████████████████████████████████| 16/16 [00:04<00:00,  3.62it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  6.97it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  5.20it/s]
100%|███████████████████████████████████████████| 19/19 [00:03<00:00,  5.01it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  7.05it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  5.05it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.54it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  4.03it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  6.98it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00,  6.39it/s]
100%|███████████████████████████████████████████| 18/18 [00:03<00:00,  5.80it/s]
100%|█████████████████████████████████████████████| 8/8 [00:00<00:00,  9.28it/s]
100%|█████████████████████████████████████████████| 8/8 [00:00<00:00,  8.57it/s]
100%|███████████████████████████████████████████| 13/13 [00:02<00:00,  5.42it/s]
100%|███████████████████████████████████████████| 11/11 [00:02<00:00,  4.32it/s]
100%|███████████████████████████████████████████| 10/10 [00:02<00:00,  4.47it/s]
100%|█████████████████████████████████████████████| 5/5 [00:01<00:00,  4.98it/s]
100%|█████████████████████████████████████████████| 6/6 [00:01<00:00,  5.63it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.34it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  6.04it/s]
100%|███████████████████████████████████████████| 33/33 [00:04<00:00,  6.77it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.05it/s]
100%|█████████████████████████████████████████████| 6/6 [00:01<00:00,  4.36it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  5.34it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  5.49it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  4.98it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  7.91it/s]
100%|███████████████████████████████████████████| 10/10 [00:01<00:00,  6.56it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00, 14.60it/s]
100%|███████████████████████████████████████████| 24/24 [00:04<00:00,  4.83it/s]
100%|███████████████████████████████████████████| 18/18 [00:03<00:00,  4.89it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.03it/s]
100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 12.85it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  6.68it/s]
100%|███████████████████████████████████████████| 16/16 [00:03<00:00,  5.19it/s]
100%|███████████████████████████████████████████| 60/60 [00:09<00:00,  6.39it/s]
100%|███████████████████████████████████████████| 61/61 [00:10<00:00,  5.77it/s]
100%|███████████████████████████████████████████| 18/18 [00:03<00:00,  4.63it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  5.18it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  4.99it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  5.35it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.06it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  5.84it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 7/7 [00:00<00:00,  8.60it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  7.88it/s]
100%|█████████████████████████████████████████████| 2/2 [00:00<00:00, 48.66it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  8.81it/s]
100%|█████████████████████████████████████████████| 6/6 [00:00<00:00,  6.36it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.66it/s]
100%|█████████████████████████████████████████████| 4/4 [00:00<00:00,  6.11it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  6.43it/s]
100%|███████████████████████████████████████████| 30/30 [00:06<00:00,  4.33it/s]
100%|███████████████████████████████████████████| 27/27 [00:05<00:00,  5.06it/s]
100%|███████████████████████████████████████████| 27/27 [00:05<00:00,  4.84it/s]
100%|███████████████████████████████████████████| 17/17 [00:03<00:00,  5.09it/s]
100%|███████████████████████

100%|█████████████████████████████████████████████| 5/5 [00:00<00:00,  7.63it/s]
100%|█████████████████████████████████████████████| 7/7 [00:01<00:00,  5.33it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.66it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.20it/s]
100%|█████████████████████████████████████████████| 3/3 [00:00<00:00,  5.18it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  4.71it/s]
100%|███████████████████████████████████████████| 10/10 [00:02<00:00,  4.84it/s]
100%|███████████████████████████████████████████| 14/14 [00:02<00:00,  5.48it/s]
100%|███████████████████████████████████████████| 10/10 [00:02<00:00,  5.00it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  5.65it/s]
100%|█████████████████████████████████████████████| 8/8 [00:01<00:00,  5.27it/s]
100%|█████████████████████████████████████████████| 1/1 [00:00<00:00,  7.74it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 35/35 [00:08<00:00,  4.31it/s]
100%|███████████████████████████████████████████| 35/35 [00:06<00:00,  5.23it/s]
100%|███████████████████████████████████████████| 31/31 [00:06<00:00,  4.50it/s]
100%|███████████████████████████████████████████| 32/32 [00:06<00:00,  5.24it/s]
100%|███████████████████████████████████████████| 63/63 [00:15<00:00,  4.05it/s]
100%|███████████████████████████████████████████| 66/66 [00:15<00:00,  4.15it/s]
100%|███████████████████████████████████████████| 63/63 [00:14<00:00,  4.43it/s]
100%|███████████████████████████████████████████| 55/55 [00:12<00:00,  4.39it/s]
100%|█████████████████████████████████████████| 287/287 [01:06<00:00,  4.29it/s]
100%|█████████████████████████████████████████| 160/160 [00:40<00:00,  3.96it/s]
100%|█████████████████████████████████████████| 180/180 [00:40<00:00,  4.43it/s]
100%|█████████████████████████████████████████| 155/155 [00:18<00:00,  8.41it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 34/34 [00:06<00:00,  5.29it/s]
100%|███████████████████████████████████████████| 43/43 [00:07<00:00,  6.02it/s]
100%|███████████████████████████████████████████| 36/36 [00:07<00:00,  5.03it/s]
100%|███████████████████████████████████████████| 33/33 [00:06<00:00,  4.92it/s]
100%|███████████████████████████████████████████| 32/32 [00:06<00:00,  5.03it/s]
100%|███████████████████████████████████████████| 33/33 [00:06<00:00,  5.10it/s]
100%|███████████████████████████████████████████| 34/34 [00:09<00:00,  3.65it/s]
100%|███████████████████████████████████████████| 59/59 [00:06<00:00,  8.73it/s]
100%|███████████████████████████████████████████| 36/36 [00:06<00:00,  5.78it/s]
100%|███████████████████████████████████████████| 33/33 [00:08<00:00,  3.82it/s]
100%|███████████████████████████████████████████| 37/37 [00:06<00:00,  5.69it/s]
100%|███████████████████████████████████████████| 35/35 [00:07<00:00,  4.90it/s]
100%|███████████████████████

100%|█████████████████████████████████████████| 784/784 [00:45<00:00, 17.04it/s]
100%|███████████████████████████████████████████| 60/60 [00:11<00:00,  5.21it/s]
100%|███████████████████████████████████████| 1244/1244 [02:14<00:00,  9.24it/s]
100%|█████████████████████████████████████████| 223/223 [01:00<00:00,  3.67it/s]
100%|███████████████████████████████████████████| 21/21 [00:05<00:00,  4.12it/s]
100%|███████████████████████████████████████████| 74/74 [00:19<00:00,  3.77it/s]
100%|█████████████████████████████████████████| 236/236 [00:52<00:00,  4.51it/s]
100%|█████████████████████████████████████████| 107/107 [00:29<00:00,  3.62it/s]
100%|█████████████████████████████████████████| 271/271 [00:23<00:00, 11.74it/s]
100%|█████████████████████████████████████████| 208/208 [00:49<00:00,  4.22it/s]
100%|█████████████████████████████████████████| 150/150 [00:24<00:00,  6.10it/s]
100%|█████████████████████████████████████████| 239/239 [01:03<00:00,  3.79it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 61/61 [00:16<00:00,  3.74it/s]
100%|███████████████████████████████████████████| 63/63 [00:13<00:00,  4.55it/s]
100%|███████████████████████████████████████████| 43/43 [00:09<00:00,  4.30it/s]
100%|███████████████████████████████████████████| 65/65 [00:15<00:00,  4.27it/s]
100%|█████████████████████████████████████████| 195/195 [00:50<00:00,  3.86it/s]
100%|█████████████████████████████████████████| 340/340 [01:17<00:00,  4.38it/s]
100%|███████████████████████████████████████████| 60/60 [00:11<00:00,  5.03it/s]
100%|███████████████████████████████████████████| 62/62 [00:13<00:00,  4.46it/s]
100%|█████████████████████████████████████████| 181/181 [00:38<00:00,  4.75it/s]
100%|███████████████████████████████████████████| 29/29 [00:06<00:00,  4.30it/s]
100%|███████████████████████████████████████████| 53/53 [00:09<00:00,  5.51it/s]
100%|█████████████████████████████████████████| 741/741 [02:32<00:00,  4.85it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 57/57 [00:13<00:00,  4.19it/s]
100%|███████████████████████████████████████████| 65/65 [00:13<00:00,  4.84it/s]
100%|███████████████████████████████████████████| 66/66 [00:13<00:00,  4.81it/s]
100%|█████████████████████████████████████████| 123/123 [00:29<00:00,  4.12it/s]
100%|███████████████████████████████████████████| 64/64 [00:12<00:00,  4.94it/s]
100%|███████████████████████████████████████████| 62/62 [00:13<00:00,  4.74it/s]
100%|███████████████████████████████████████████| 75/75 [00:12<00:00,  5.84it/s]
100%|███████████████████████████████████████████| 65/65 [00:15<00:00,  4.22it/s]
100%|█████████████████████████████████████████| 124/124 [00:27<00:00,  4.50it/s]
100%|███████████████████████████████████████████| 17/17 [00:00<00:00, 54.71it/s]
100%|███████████████████████████████████████████| 69/69 [00:14<00:00,  4.91it/s]
100%|█████████████████████████████████████████| 362/362 [01:26<00:00,  4.17it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 63/63 [00:12<00:00,  5.10it/s]
100%|███████████████████████████████████████████| 57/57 [00:12<00:00,  4.59it/s]
100%|███████████████████████████████████████████| 69/69 [00:16<00:00,  4.29it/s]
100%|███████████████████████████████████████████| 64/64 [00:16<00:00,  3.98it/s]
100%|███████████████████████████████████████████| 62/62 [00:14<00:00,  4.32it/s]
100%|███████████████████████████████████████████| 64/64 [00:13<00:00,  4.81it/s]
100%|███████████████████████████████████████████| 58/58 [00:15<00:00,  3.70it/s]
100%|███████████████████████████████████████████| 67/67 [00:16<00:00,  4.02it/s]
100%|███████████████████████████████████████████| 59/59 [00:15<00:00,  3.93it/s]
100%|███████████████████████████████████████████| 53/53 [00:12<00:00,  4.34it/s]
100%|███████████████████████████████████████████| 61/61 [00:14<00:00,  4.07it/s]
100%|███████████████████████████████████████████| 62/62 [00:13<00:00,  4.68it/s]
100%|███████████████████████

100%|█████████████████████████████████████████| 370/370 [01:03<00:00,  5.83it/s]
100%|█████████████████████████████████████████| 359/359 [01:07<00:00,  5.31it/s]
100%|█████████████████████████████████████████| 692/692 [02:19<00:00,  4.95it/s]
100%|█████████████████████████████████████████| 390/390 [00:59<00:00,  6.57it/s]
100%|█████████████████████████████████████████| 446/446 [01:24<00:00,  5.26it/s]
100%|█████████████████████████████████████████| 372/372 [01:12<00:00,  5.11it/s]
100%|█████████████████████████████████████████| 621/621 [01:49<00:00,  5.67it/s]
100%|█████████████████████████████████████████| 408/408 [01:07<00:00,  6.02it/s]
100%|█████████████████████████████████████████| 622/622 [02:08<00:00,  4.83it/s]
100%|█████████████████████████████████████████| 373/373 [01:13<00:00,  5.06it/s]
100%|█████████████████████████████████████████| 734/734 [02:18<00:00,  5.30it/s]
100%|█████████████████████████████████████████| 181/181 [00:31<00:00,  5.67it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 38/38 [00:07<00:00,  5.34it/s]
100%|███████████████████████████████████████████| 57/57 [00:06<00:00,  8.17it/s]
100%|█████████████████████████████████████████| 125/125 [00:12<00:00,  9.63it/s]
100%|█████████████████████████████████████████| 104/104 [00:14<00:00,  7.01it/s]
100%|███████████████████████████████████████████| 25/25 [00:03<00:00,  8.20it/s]
100%|█████████████████████████████████████████| 142/142 [00:21<00:00,  6.76it/s]
100%|█████████████████████████████████████████████| 1/1 [00:00<00:00, 65.19it/s]
100%|███████████████████████████████████████████| 68/68 [00:09<00:00,  7.32it/s]
100%|███████████████████████████████████████████| 66/66 [00:11<00:00,  5.89it/s]
100%|███████████████████████████████████████████| 37/37 [00:06<00:00,  6.03it/s]
100%|███████████████████████████████████████████| 29/29 [00:03<00:00,  9.22it/s]
100%|███████████████████████████████████████████| 24/24 [00:03<00:00,  7.21it/s]
100%|███████████████████████

100%|███████████████████████████████████████████| 68/68 [00:11<00:00,  6.04it/s]
100%|███████████████████████████████████████████| 54/54 [00:07<00:00,  6.75it/s]
100%|█████████████████████████████████████████████| 8/8 [00:00<00:00, 27.20it/s]
100%|███████████████████████████████████████████| 96/96 [00:16<00:00,  5.84it/s]
100%|█████████████████████████████████████████████| 9/9 [00:01<00:00,  8.18it/s]
100%|███████████████████████████████████████████| 28/28 [00:04<00:00,  5.83it/s]
100%|███████████████████████████████████████████| 63/63 [00:11<00:00,  5.66it/s]
100%|███████████████████████████████████████████| 24/24 [00:03<00:00,  6.35it/s]
100%|█████████████████████████████████████████████| 5/5 [00:00<00:00, 53.22it/s]
100%|███████████████████████████████████████████| 25/25 [00:03<00:00,  6.72it/s]
100%|███████████████████████████████████████████| 56/56 [00:08<00:00,  6.82it/s]
100%|███████████████████████████████████████████| 59/59 [00:09<00:00,  6.38it/s]
100%|███████████████████████

100%|█████████████████████████████████████████| 630/630 [02:28<00:00,  4.24it/s]
100%|█████████████████████████████████████████| 801/801 [02:54<00:00,  4.59it/s]
100%|█████████████████████████████████████████| 183/183 [00:29<00:00,  6.14it/s]
100%|█████████████████████████████████████████| 362/362 [01:23<00:00,  4.35it/s]
100%|█████████████████████████████████████████| 368/368 [01:33<00:00,  3.95it/s]
100%|█████████████████████████████████████████| 392/392 [01:29<00:00,  4.38it/s]
100%|█████████████████████████████████████████| 381/381 [01:07<00:00,  5.62it/s]
100%|█████████████████████████████████████████| 364/364 [01:25<00:00,  4.28it/s]
100%|█████████████████████████████████████████| 360/360 [01:22<00:00,  4.37it/s]
100%|█████████████████████████████████████████| 392/392 [01:21<00:00,  4.84it/s]
100%|███████████████████████████████████████| 1357/1357 [05:24<00:00,  4.19it/s]
100%|███████████████████████████████████████| 1238/1238 [04:24<00:00,  4.69it/s]
100%|███████████████████████

In [22]:
len(dataset)

2040228

In [24]:
import json

with open('dataset-whisper-stt-2023-06-19.json', 'w') as fopen:
    json.dump(dataset, fopen)

In [25]:
!ls -lh dataset-whisper-stt-2023-06-19.json

-rw-r--r-- 1 husein husein 592M Jul   2 23:59 dataset-whisper-stt-2023-06-19.json
