In [1]:
import pickle
from glob import glob

files = sorted(glob('/home/husein/ssd2/processed-youtube-asr-whisper-large-v3/*.pkl'))
files = files[:len(files) // 2]
len(files)

3811

In [2]:
from datasets import Audio
from tqdm import tqdm
import numpy as np
import IPython.display as ipd

In [3]:
sr = 16000
reader = Audio(sampling_rate = sr)

In [4]:
with open(files[0], 'rb') as fopen:
    data = pickle.load(fopen)

In [5]:
max(data[0]['asr_model'][0], key=data[0]['asr_model'][0].get)

'ms'

In [6]:
data[0]

{'wav_data': '/home/husein/ssd2/processed-youtube-asr-whisper-large-v3/#100_WE_FREAKING_HIT_OUR_100TH_EPISODE!__[0Q-Pv3I62x0]/0.mp3',
 'start': 0.0,
 'asr_model': ({'ur': 0.0005483672139234841,
   'ca': 1.7724236158755957e-06,
   'uz': 4.492047196436033e-07,
   'sl': 2.1883515728404745e-05,
   'is': 1.9146273189107887e-06,
   'eu': 1.4504192222375423e-05,
   'lb': 5.434219474409474e-06,
   'tl': 0.0020482514519244432,
   'tk': 1.9805905804304302e-09,
   'ht': 0.0037412315141409636,
   'hr': 7.0581018007942475e-06,
   'uk': 0.0001976174971787259,
   'sq': 1.6484786101500504e-05,
   'tg': 9.537151527183596e-06,
   'he': 0.0001810295070754364,
   'gu': 1.6431578842457384e-05,
   'yi': 5.956028871878516e-06,
   'so': 2.8468155051086796e-06,
   'es': 2.7303754905005917e-05,
   'zh': 0.00011494937643874437,
   'sv': 4.879304105998017e-05,
   'en': 0.005382561590522528,
   'su': 0.00011364376405254006,
   'hy': 3.873963942169212e-05,
   'my': 0.00022876419825479388,
   'de': 0.001561436220072

In [7]:
ms_score = [s['avg_logprob'] for s in data[0]['asr_model'][1]['segments']]
en_score = [s['avg_logprob'] for s in data[0]['asr_model'][2]['segments']]

if np.mean(ms_score) > np.mean(en_score):
    selected = data[0]['asr_model'][1]['segments']
else:
    selected = data[0]['asr_model'][2]['segments']

In [8]:
i = 0

s = selected[i]['start']
e = selected[i]['end']
t = selected[i]['text']
s, e, t

(0.0, 5.0, ' Oh yeah!')

In [9]:
f = data[0]['wav_data']
audio = reader.decode_example(reader.encode_example(f))['array']
y = audio[int(s * sr): int(e * sr)]

In [10]:
ipd.Audio(y, rate = sr)

In [11]:
import malaya_speech

`pyaudio` is not available, `malaya_speech.streaming.pyaudio` is not able to use.


In [12]:
vad = malaya_speech.vad.webrtc()

In [13]:
y_int = malaya_speech.astype.float_to_int(y)
frames_int = list(malaya_speech.utils.generator.frames(y_int, 30, sr))
np.mean([vad(frame) for frame in frames_int])

0.9221556886227545

In [14]:
import malaya
from malaya.text.normalization import cardinal

tokenizer = malaya.tokenizer.Tokenizer(hypen = False, parliament = False, time = False, time_pukul = False,
                                      temperature = False, distance = False, volume = False, duration = False,
                                      weight = False, date = False, money = False)

In [15]:
import unicodedata
import re
import itertools

vocabs = [" ", "a", "e", "n", "i", "t", "o", "u", "s", "k", "r", "l", "h", "d", "m", "g", "y", "b", "p", "w", "c", "f", "j", "v", "z", "0", "1", "x", "2", "q", "5", "3", "4", "6", "9", "8", "7"]

def preprocessing_text(string):
    
    tokenized = tokenizer.tokenize(string)
    string = ' '.join(tokenized)
    string = unicodedata.normalize('NFC', string.lower())
    string = ''.join([c if c in vocabs else ' ' for c in string])
    string = re.sub(r'[ ]+', ' ', string).strip()
    string = (
        ''.join(''.join(s)[:2] for _, s in itertools.groupby(string))
    )
    return string

In [16]:
directory = '/home/husein/ssd3/stt/whisper-v3'

In [17]:
!mkdir {directory}

mkdir: cannot create directory ‘/home/husein/ssd3/stt/whisper-v3’: File exists


In [18]:
import torchaudio
import torch
import os

In [19]:
dataset = []
index = 0
for no, f in enumerate(files):
    
    with open(f, 'rb') as fopen:
        data = pickle.load(fopen)
    
    for i in tqdm(range(len(data))):
        lang = max(data[i]['asr_model'][0], key=data[i]['asr_model'][0].get)
        if lang not in {'ms', 'en'}:
            continue
        
        ms_score = [s['avg_logprob'] for s in data[i]['asr_model'][1]['segments']]
        en_score = [s['avg_logprob'] for s in data[i]['asr_model'][2]['segments']]

        if np.mean(ms_score) > np.mean(en_score):
            selected = data[i]['asr_model'][1]['segments']
        else:
            selected = data[i]['asr_model'][2]['segments']
            
        audio = reader.decode_example(reader.encode_example(data[i]['wav_data']))['array']
        for k in range(len(selected)):
            s = selected[k]['start']
            e = selected[k]['end'] + 0.1
            t = selected[k]['text']
            cleaned_t = preprocessing_text(t)
            if not len(cleaned_t):
                continue
                
            audio_path = os.path.join(directory, f'{index}.mp3')
            a = audio[int(s * sr): int(e * sr)]
            torchaudio.save(audio_path, 
                            torch.tensor(a.astype('float32')).unsqueeze(0), 
                            16000, format='mp3')
            try:
                y_int = malaya_speech.astype.float_to_int(a)
                frames_int = list(malaya_speech.utils.generator.frames(y_int, 30, sr, append_ending_trail = False))

                dataset.append(
                    {
                        'file': audio_path,
                        'text': t,
                        'cleaned': cleaned_t,
                        'no': no,
                        'i': i,
                        'k': k,
                        'avg_logprob': selected[k]['avg_logprob'],
                        'no_speech_prob': selected[k]['no_speech_prob'],
                        'vad': float(np.mean([vad(frame) for frame in frames_int])),
                    }
                )
            except:
                pass
            index += 1

100%|███████████████████████████████████████████████████████████████████████████████████████████| 131/131 [00:46<00:00,  2.80it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 105/105 [00:41<00:00,  2.51it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 98/98 [00:35<00:00,  2.78it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 80/80 [00:29<00:00,  2.73it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 115/115 [00:40<00:00,  2.82it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 135/135 [00:49<00:00,  2.74it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 70/70 [00:26<00:00,  2.60it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|█████████████████████████████████████████████████████████████████████████████████████████████| 31/31 [00:09<00:00,  3.22it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 21/21 [00:05<00:00,  3.50it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00,  9.40it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  3.08it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:02<00:00,  2.72it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 30/30 [00:06<00:00,  4.37it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:02<00:00,  3.14it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:02<00:00,  3.39it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 51/51 [00:14<00:00,  3.41it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 70/70 [00:18<00:00,  3.88it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:02<00:00,  3.38it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00,  6.35it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 62/62 [00:14<00:00,  4.35it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:02<00:00,  3.38it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|█████████████████████████████████████████████████████████████████████████████████████████████| 41/41 [00:10<00:00,  3.86it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 36/36 [00:08<00:00,  4.25it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 33/33 [00:06<00:00,  5.02it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 34/34 [00:07<00:00,  4.68it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 33/33 [00:07<00:00,  4.63it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 33/33 [00:07<00:00,  4.33it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 38/38 [00:07<00:00,  4.95it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  8.89it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00,  5.58it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 65/65 [00:14<00:00,  4.40it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 51/51 [00:17<00:00,  2.94it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 62/62 [00:16<00:00,  3.83it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 70/70 [00:15<00:00,  4.58it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 61/61 [00:13<00:00,  4.44it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  4.99it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00,  3.88it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  2.57it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  3.39it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.13it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  3.37it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00,  4.57it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:02<00:00,  3.53it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:02<00:00,  3.48it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  3.55it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:02<00:00,  3.44it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:02<00:00,  3.85it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:02<00:00,  3.23it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:02<00:00,  3.58it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00,  5.48it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00,  5.88it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00,  5.44it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:01<00:00,  5.41it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00,  6.12it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:01<00:00,  6.20it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00,  5.52it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████| 176/176 [00:59<00:00,  2.94it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 13/13 [00:04<00:00,  2.69it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:00<00:00, 13.63it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00,  4.47it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [00:05<00:00,  2.75it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 165/165 [00:52<00:00,  3.16it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 126/126 [00:38<00:00,  3.28it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████| 224/224 [01:05<00:00,  3.41it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 201/201 [01:03<00:00,  3.18it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 205/205 [01:04<00:00,  3.19it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 167/167 [00:52<00:00,  3.20it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 192/192 [00:58<00:00,  3.29it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 216/216 [01:07<00:00,  3.21it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 182/182 [00:57<00:00,  3.19it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|█████████████████████████████████████████████████████████████████████████████████████████████| 71/71 [00:16<00:00,  4.22it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  4.15it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 61/61 [00:18<00:00,  3.22it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 65/65 [00:21<00:00,  3.06it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:02<00:00,  2.93it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:03<00:00,  2.65it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00,  4.07it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:03<00:00,  1.75it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:06<00:00,  1.57it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:07<00:00,  1.28it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [00:03<00:00,  4.11it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:02<00:00,  2.80it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 44/44 [00:25<00:00,  1.74it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00,  3.66it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:02<00:00,  2.72it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:03<00:00,  2.04it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:03<00:00,  2.17it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:03<00:00,  2.18it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:02<00:00,  2.48it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:08<00:00,  2.25it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 17.35it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|█████████████████████████████████████████████████████████████████████████████████████████████| 82/82 [00:25<00:00,  3.24it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 46/46 [00:15<00:00,  2.88it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:01<00:00,  3.49it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:02<00:00,  2.85it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:07<00:00,  4.32it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 21/21 [00:05<00:00,  3.72it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 24/24 [00:07<00:00,  3.16it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:01<00:00,  3.38it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:02<00:00,  3.84it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 21/21 [00:06<00:00,  3.27it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 22/22 [00:07<00:00,  3.10it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 28/28 [00:08<00:00,  3.39it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 23/23 [00:04<00:00,  4.90it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 22/22 [00:05<00:00,  3.87it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|█████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  5.53it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 12/12 [00:02<00:00,  4.09it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 132/132 [00:42<00:00,  3.09it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 58/58 [00:18<00:00,  3.22it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:05<00:00,  3.77it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:02<00:00,  3.34it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:02<00:00,  2.97it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:02<00:00,  3.00it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00,  3.87it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:02<00:00,  3.05it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 27/27 [00:07<00:00,  3.45it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 19/19 [00:05<00:00,  3.55it/s]


In [20]:
len(dataset)

1141443

In [21]:
dataset[0]

{'file': '/home/husein/ssd3/stt/whisper-v3/0.mp3',
 'text': ' Oh yeah!',
 'cleaned': 'oh yeah',
 'no': 0,
 'i': 0,
 'k': 0,
 'avg_logprob': -0.3756620857153046,
 'no_speech_prob': 0.15171679854393005,
 'vad': 0.9470588235294117}

In [22]:
dataset[-1]

{'file': '/home/husein/ssd3/stt/whisper-v3/1144194.mp3',
 'text': ' Ciao dan Bye Bye',
 'cleaned': 'ciao dan bye bye',
 'no': 3810,
 'i': 18,
 'k': 2,
 'avg_logprob': -0.6422442956404253,
 'no_speech_prob': 0.005675802938640118,
 'vad': 0.0}

In [24]:
import json

with open('dataset-whisper-stt-v3.json', 'w') as fopen:
    json.dump(dataset, fopen)