In [1]:
import torch
from processing.processor import ConformerProcessor
from model.conformer import Conformer
from checkpoint import load_model
from processing.lm import KenCTCDecoder
import IPython.display as ipd
import pandas as pd

In [2]:
processor = ConformerProcessor(tokenizer_path='./tokenizer/vi.json')

In [3]:
model = Conformer(
    vocab_size=len(processor.vocab),
    n_conformer_blocks=17,
    d_model=512,
    n_heads=8
)

In [4]:
decoder = KenCTCDecoder(processor, lexicon_path='./lm/test/lexicon.txt', lm_path='./lm/test/lm.arpa', beam_size=250, beam_size_token=50, beam_threshold=20, hotwords=['FPT', 'INTERNET'], hotword_score=10)

Loading the LM will be faster if you build a binary file.
Reading ./lm/test/lm.arpa
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************


In [5]:
load_model("./checkpoints/new_checkpoint.pt", model)

In [6]:
model.eval()
model.to('cuda')

Conformer(
  (encoder): Encoder(
    (downsampling_conv): ConvolutionSubsampling(
      (conv_1): Conv2d(1, 512, kernel_size=(3, 3), stride=(2, 2))
      (act_1): ReLU()
      (conv_2): Conv2d(512, 512, kernel_size=(3, 3), stride=(2, 2))
      (act_2): ReLU()
    )
    (linear): Linear(in_features=9728, out_features=512, bias=True)
    (dropout): Dropout(p=0.0, inplace=False)
    (rel_pe): RelativePositionalEncoding()
    (layers): ModuleList(
      (0-16): 17 x ConformerBlock(
        (ffn_1): FeedForwardModule(
          (layer_norm): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
          (hidden_linear): Linear(in_features=512, out_features=2048, bias=True)
          (swish): Swish()
          (dropout_1): Dropout(p=0.0, inplace=False)
          (out_linear): Linear(in_features=2048, out_features=512, bias=True)
          (dropout_2): Dropout(p=0.0, inplace=False)
        )
        (attention): MultiHeadSelfAttentionModule(
          (layer_norm): LayerNorm((512,), eps=1e-0

In [7]:
filename = '1C218DE8-595D11EF-8288B969-4CEB9931'
df = pd.read_csv(f"/bigdata/voice_recognition/dvkhtq/temp/temp_audio_scc/{filename}.csv")
signal = processor.read_audio(f"/bigdata/voice_recognition/dvkhtq/temp/temp_audio_scc/{filename}.wav")

In [8]:
df

Unnamed: 0,filename,start,end,preds,path,keywordName
0,1C218DE8-595D11EF-8288B969-4CEB9931,0.128,6.4,và có,/mnt/logs/voice_record/voicescc/217-95/2024-08...,
1,1C218DE8-595D11EF-8288B969-4CEB9931,7.552,12.224,có,/mnt/logs/voice_record/voicescc/217-95/2024-08...,
2,1C218DE8-595D11EF-8288B969-4CEB9931,15.936,17.536,,/mnt/logs/voice_record/voicescc/217-95/2024-08...,
3,1C218DE8-595D11EF-8288B969-4CEB9931,21.376,33.024,dạ a lô dạ em chào anh em là quỳnh gọi cho mìn...,/mnt/logs/voice_record/voicescc/217-95/2024-08...,"em chào,internet,internet"
4,1C218DE8-595D11EF-8288B969-4CEB9931,37.056,40.64,thì trong tháng tám này thì fpt bên em đang th...,/mnt/logs/voice_record/voicescc/217-95/2024-08...,"fpt,kiểm tra"
5,1C218DE8-595D11EF-8288B969-4CEB9931,40.768,45.056,với lại thay đổi cho mình thiết bị modem wifi ...,/mnt/logs/voice_record/voicescc/217-95/2024-08...,"modem,wifi,internet"
6,1C218DE8-595D11EF-8288B969-4CEB9931,45.248,49.024,thì hợp đồng của mình là đang nằm trong danh s...,/mnt/logs/voice_record/voicescc/217-95/2024-08...,
7,1C218DE8-595D11EF-8288B969-4CEB9931,49.344,55.232,thì cho em hỏi thăm thì trong quá trình sử dụn...,/mnt/logs/voice_record/voicescc/217-95/2024-08...,chập chờn
8,1C218DE8-595D11EF-8288B969-4CEB9931,65.024,66.24,nhằm nâng cao chất lượng dịch vụ,/mnt/logs/voice_record/voicescc/217-95/2024-08...,
9,1C218DE8-595D11EF-8288B969-4CEB9931,70.4,71.168,thì nó sẽ giúp tăng,/mnt/logs/voice_record/voicescc/217-95/2024-08...,


In [9]:
index = int(input())

index_df = df.iloc[index]

start = index_df['start']
end = index_df['end']
audio = signal[int(float(start * 16000)) : int(float(end * 16000))]
prev_pred = index_df['preds']

 3


In [10]:
print(prev_pred)
ipd.display(ipd.Audio(data=audio, rate=16000))

dạ a lô dạ em chào anh em là quỳnh gọi cho mình từ tổng đài internet ptáanhchoem hỏi anh là anh nguyễn văn tân đã sử dụng internet ở năm trên bảy huỳnh thị hai phường tân chính hiệp đúng không ạ


In [11]:
inputs, lengths = processor([audio])

In [12]:
inputs = inputs.to('cuda')
lengths = lengths.to('cuda')
with torch.inference_mode():
    outputs, output_lengths = model(inputs, lengths)

In [18]:
texts = decoder(outputs.cpu().repeat(2, 1, 1), output_lengths.cpu().repeat(2, 1, 1))

In [19]:
texts

['XÃ A LÔ DẠ EM CHÀO ANH EM LÀ QUỲNH GỌI CHO MÌNH THƯỜNG THÁNG NÀY FPT EM HỎI LÀ NGUYỄN VĂN TĂNG ĐÃ SỬ DỤNG XE NÉT CẢ NĂM TRÊN BẢY HUYỆN THỊ HAI PHƯỜNG TÂN CHÍNH HIỆN ĐÚNG',
 'XÃ A LÔ DẠ EM CHÀO ANH EM LÀ QUỲNH GỌI CHO MÌNH THƯỜNG THÁNG NÀY FPT EM HỎI LÀ NGUYỄN VĂN TĂNG ĐÃ SỬ DỤNG XE NÉT CẢ NĂM TRÊN BẢY HUYỆN THỊ HAI PHƯỜNG TÂN CHÍNH HIỆN ĐÚNG']

In [20]:
texts[0]

['XÃ A LÔ DẠ EM CHÀO ANH EM LÀ MÌNH GỌI CHO MÌNH THƯỜNG TRONG NÀY FPT EM HỎI LÀ NGUYỄN VĂN TĂNG ĐÃ SỬ DỤNG XE NÉT CỦA NĂM TRÊN BẢY HUYỆN THỊ HAI PHƯỜNG TÂN CHÍNH HIỆN ĐÚNG']