In [1]:
import os

os.environ['CUDA_VISIBLE_DEVICES'] = '1'

In [2]:
import pickle
from glob import glob

files = sorted(glob('/home/husein/processed-youtube-asr-whisper-large-v2/*.pkl'))
len(files)

790

In [3]:
from datasets import Audio
from tqdm import tqdm
import numpy as np
import IPython.display as ipd

In [4]:
sr = 16000
reader = Audio(sampling_rate = sr)

In [5]:
with open(files[0], 'rb') as fopen:
    data = pickle.load(fopen)

In [6]:
max(data[0]['asr_model'][0], key=data[0]['asr_model'][0].get)

'ms'

In [7]:
data[0]

{'wav_data': "/home/ubuntu/processed-youtube-asr-whisper-large-v2/'avin_a_bit_of_a_Frank_&_Pat_with_London_Boy_Mark_O'dea_(@markodea8)_[pJnuqq7oAeY]/0.mp3",
 'start': 0.0,
 'asr_model': ({'br': 4.848451499128714e-05,
   'ka': 8.601645276939962e-06,
   'sn': 0.00014158668636810035,
   'ms': 0.945112943649292,
   'sa': 6.63459868519567e-05,
   'yi': 5.955907454335829e-06,
   'so': 2.8467734409787226e-06,
   'pa': 7.193873170763254e-05,
   'bg': 5.460308966576122e-05,
   'si': 0.00020463635155465454,
   'hi': 0.0002003276313189417,
   'mi': 0.00033299013739451766,
   'jw': 0.006487382110208273,
   'bo': 0.00010008537356043234,
   'sr': 4.6827876758470666e-06,
   'haw': 0.0004717360425274819,
   'tr': 0.0009716611821204424,
   'sq': 1.6484309526276775e-05,
   'kk': 1.390101169818081e-05,
   'eu': 1.4503937563858926e-05,
   'tg': 9.537285222904757e-06,
   'da': 0.00022655694920103997,
   'pl': 3.691731035360135e-05,
   'id': 0.0038747312501072884,
   'ru': 0.0002895525249186903,
   'ps': 8.

In [8]:
ms_score = [s['avg_logprob'] for s in data[0]['asr_model'][1]['segments']]
en_score = [s['avg_logprob'] for s in data[0]['asr_model'][2]['segments']]

if np.mean(ms_score) > np.mean(en_score):
    selected = data[0]['asr_model'][1]['segments']
else:
    selected = data[0]['asr_model'][2]['segments']

In [9]:
i = 0

s = selected[i]['start']
e = selected[i]['end']
t = selected[i]['text']
s, e, t

(0.0, 9.0, ' The Fashion Week.')

In [10]:
f = data[0]['wav_data'].replace('/home/ubuntu/', '/home/husein/')
audio = reader.decode_example(reader.encode_example(f))['array']
y = audio[int(s * sr): int(e * sr)]

In [11]:
ipd.Audio(y, rate = sr)

In [12]:
import malaya_speech

`pyaudio` is not available, `malaya_speech.streaming.pyaudio` is not able to use.


In [14]:
import malaya
from malaya.text.normalization import cardinal

tokenizer = malaya.tokenizer.Tokenizer(hypen = False, parliament = False, time = False, time_pukul = False,
                                      temperature = False, distance = False, volume = False, duration = False,
                                      weight = False, date = False, money = False)

In [15]:
import unicodedata
import re
import itertools

vocabs = [" ", "a", "e", "n", "i", "t", "o", "u", "s", "k", "r", "l", "h", "d", "m", "g", "y", "b", "p", "w", "c", "f", "j", "v", "z", "0", "1", "x", "2", "q", "5", "3", "4", "6", "9", "8", "7"]

def preprocessing_text(string):
    
    tokenized = tokenizer.tokenize(string)
    string = ' '.join(tokenized)
    string = unicodedata.normalize('NFC', string.lower())
    string = ''.join([c if c in vocabs else ' ' for c in string])
    string = re.sub(r'[ ]+', ' ', string).strip()
    string = (
        ''.join(''.join(s)[:2] for _, s in itertools.groupby(string))
    )
    return string

In [20]:
directory = '/home/husein/ssd3/stt/whisper-v2'

In [19]:
directory = '/home/husein/ssd3/stt-v2/whisper'

In [20]:
!mkdir {directory}

In [21]:
import torchaudio
import torch
import os

In [27]:
dataset = []
index = 0
for no, f in enumerate(files):
    
    with open(f, 'rb') as fopen:
        data = pickle.load(fopen)
    
    for i in tqdm(range(len(data))):
        lang = max(data[i]['asr_model'][0], key=data[i]['asr_model'][0].get)
        if lang not in {'ms', 'en'}:
            continue
        
        ms_score = [s['avg_logprob'] for s in data[i]['asr_model'][1]['segments']]
        en_score = [s['avg_logprob'] for s in data[i]['asr_model'][2]['segments']]

        if np.mean(ms_score) > np.mean(en_score):
            selected = data[i]['asr_model'][1]['segments']
        else:
            selected = data[i]['asr_model'][2]['segments']
            
        audio = reader.decode_example(reader.encode_example(data[i]['wav_data'].replace('/home/ubuntu/', '/home/husein/')))['array']
        for k in range(len(selected)):
            s = selected[k]['start']
            e = selected[k]['end'] + 0.1
            t = selected[k]['text']
            cleaned_t = preprocessing_text(t)
            if not len(cleaned_t):
                continue
                
            audio_path = os.path.join(directory, f'{index}.mp3')
            a = audio[int(s * sr): int(e * sr)]
            torchaudio.save(audio_path, 
                            torch.tensor(a.astype('float32')).unsqueeze(0), 
                            16000, format='mp3')

            dataset.append(
                {
                    'file': audio_path,
                    'text': t,
                    'cleaned': cleaned_t,
                    'no': no,
                    'i': i,
                    'k': k,
                    'avg_logprob': selected[k]['avg_logprob'],
                    'no_speech_prob': selected[k]['no_speech_prob'],
                }
            )
            index += 1

100%|███████████████████████████████████████████████████████████████████████████████████████████| 174/174 [00:49<00:00,  3.54it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 14/14 [00:02<00:00,  4.78it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 109/109 [00:23<00:00,  4.73it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00,  5.16it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 131/131 [00:30<00:00,  4.23it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 86/86 [00:19<00:00,  4.44it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 91/91 [00:21<00:00,  4.26it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████| 246/246 [00:47<00:00,  5.18it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 358/358 [01:09<00:00,  5.14it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 167/167 [00:32<00:00,  5.21it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 189/189 [00:35<00:00,  5.34it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████| 80/80 [00:15<00:00,  5.10it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 453/453 [01:33<00:00,  4.85it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 246/246 [00:46<00:00,  5.29it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████| 310/310 [00:58<00:00,  5.26it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 323/323 [01:02<00:00,  5.20it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 327/327 [01:02<00:00,  5.26it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 228/228 [00:42<00:00,  5.37it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 367/367 [01:09<00:00,  5.30it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 144/144 [00:27<00:00,  5.31it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 331/331 [01:02<00:00,  5.33it/s]
100%|██████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████| 320/320 [00:59<00:00,  5.36it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 467/467 [01:31<00:00,  5.08it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 181/181 [00:35<00:00,  5.08it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 272/272 [00:48<00:00,  5.60it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 339/339 [01:03<00:00,  5.36it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 247/247 [00:46<00:00,  5.36it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████| 162/162 [00:30<00:00,  5.28it/s]
100%|██████████████████████████████████████████████████████████████████████████████

In [24]:
len(dataset)

209