In [36]:
import pandas as pd
from botok import WordTokenizer

In [37]:

def initialize_tokenizer():
    return WordTokenizer()

In [38]:
def read_tsv_file(file_path):
    return pd.read_csv(file_path, sep='\t', encoding='utf-8')

In [39]:
def process_transcript(text, tokenizer):
    tokens = tokenizer.tokenize(text)
    non_word_count = sum(1 for token in tokens if token.pos == 'NON_WORD' and not token.skrt)
    total_tokens = len(tokens)
    return non_word_count, total_tokens

In [40]:
def add_columns_to_df(df, tokenizer):
    df['non_word_count'], df['total_tokens'] = zip(*df['uni'].apply(lambda text: process_transcript(text, tokenizer)))
    df['non_word_percentage'] = (df['non_word_count'] / df['total_tokens']) * 100
    df.fillna(0, inplace=True)  # Replace NaN values with 0 in case of division by zero
    return df


In [41]:

def save_df_to_tsv(df, file_path):
    df.to_csv(file_path, sep='\t', index=False, encoding='utf-8')


In [42]:
if __name__ == '__main__':
    input_file = '../../data/test_input.tsv'
    output_file = '../../data/test_output.tsv'
    tokenizer = initialize_tokenizer()
    df = read_tsv_file(input_file)
    df_proccessed = add_columns_to_df(df, tokenizer)
    save_df_to_tsv(df_proccessed, output_file)                                                                         

Loading Trie... (2s.)


  warn(
  warn(
  warn(


In [43]:
df = read_tsv_file(input_file)
df.head()


Unnamed: 0,file_name,uni,wylie,url,dept
0,STT_MV0090_0159_1097722_to_1105009.wav,འུ་ཙི། འདིའི་ཁོར་ཡུག་དེ་འདྲས་ཡག་ག་ལ། རང་གིས་ག་...,'u tsi/_'di'i khor yug de 'dras yag ga la/_ran...,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV
1,STT_MV0230_0214_1355003_to_1357646.wav,ད་ཁྱེད་རང་ཤོང་ས་མ་རེད།,da khyed rang shong sa ma red/_,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV
2,STT_MV0320_0069_558399_to_562888.wav,ད་གེ། ད་གེ་ཡོད། རོགས་པ་མདུན་ལ་ཏོག་ཙི། སྐད་ཆ་རི...,da ge/_da ge yod/_rogs pa mdun la tog tsi/_ska...,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV
3,STT_MV0029_0105_977753_to_985770.wav,ཁྱེད་རང་གིས་ཆེད་མངགས་མི་བཏང་བྱས་ང་ཁྱེད་རང་ནང་ལ...,khyed rang gis ched mngags mi btang byas nga k...,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV
4,STT_MV0012_0213_1904651_to_1913374.wav,རྒན་ལགས། ཡ་རྒན་ལགས།,rgan lags/_ya rgan lags/_,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV


In [45]:
df_proccessed.head()


Unnamed: 0,file_name,uni,wylie,url,dept,non_word_count,total_tokens,non_word_percentage
0,STT_MV0090_0159_1097722_to_1105009.wav,འུ་ཙི། འདིའི་ཁོར་ཡུག་དེ་འདྲས་ཡག་ག་ལ། རང་གིས་ག་...,'u tsi/_'di'i khor yug de 'dras yag ga la/_ran...,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV,0,26,0.0
1,STT_MV0230_0214_1355003_to_1357646.wav,ད་ཁྱེད་རང་ཤོང་ས་མ་རེད།,da khyed rang shong sa ma red/_,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV,0,8,0.0
2,STT_MV0320_0069_558399_to_562888.wav,ད་གེ། ད་གེ་ཡོད། རོགས་པ་མདུན་ལ་ཏོག་ཙི། སྐད་ཆ་རི...,da ge/_da ge yod/_rogs pa mdun la tog tsi/_ska...,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV,0,22,0.0
3,STT_MV0029_0105_977753_to_985770.wav,ཁྱེད་རང་གིས་ཆེད་མངགས་མི་བཏང་བྱས་ང་ཁྱེད་རང་ནང་ལ...,khyed rang gis ched mngags mi btang byas nga k...,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV,0,32,0.0
4,STT_MV0012_0213_1904651_to_1913374.wav,རྒན་ལགས། ཡ་རྒན་ལགས།,rgan lags/_ya rgan lags/_,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV,0,7,0.0


In [46]:
threshold = 0.02
filtered_df = df_proccessed[df_proccessed['non_word_percentage'] > threshold]


In [47]:
filtered_df.head()

Unnamed: 0,file_name,uni,wylie,url,dept,non_word_count,total_tokens,non_word_percentage
5,STT_MV0129_0007_200945_to_210891.wav,དེ་གང་འདྲས་བྱས་པ་རེད། མགྱོགས་ཙི་རྗེས་འདེད་གཏོང...,de gang 'dras byas pa red/_mgyogs tsi rjes 'de...,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV,1,20,5.0
13,STT_MV0017_0218_1562564_to_1572563.wav,གཅེན་པོ་གཞོན་པ།ངས་བྱས་ན་ཁྱེད་ཚོ་དང་ཀྲའི་སི་ཧེ་...,gcen po gzhon pa/ngas byas na khyed tsho dang ...,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV,1,31,3.225806
37,STT_MV0390_0052_354538_to_362675.wav,ངས་ལོ་གཏོམ་ནག་དེ་གས་སྤོ་ལོ་ཐོབ་པའི་དགའ་ཚོར་དེ་...,ngas lo gtom nag de gas spo lo thob pa'i dga' ...,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV,1,28,3.571429
47,STT_MV0079_0290_2130163_to_2138445.wav,སྐུ་ངོ་བཀའ་དྲིན་ཆེ། སྦེ་གཡུད་ཐང་གི་དོན་དག་དེ་བ...,sku ngo bka' drin che/_sbe g.yud thang gi don ...,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV,1,27,3.703704
49,STT_MV0330_0062_743222_to_749397.wav,པ་སི་ག་བར་ཡོད། ཨེ་ཧེ། དགོངས་པ་མ་འཚོམ་ང་ཁྲན་ཧ་ཉ...,pa si ga bar yod/_e he/_dgongs pa ma 'tshom ng...,https://d38pmlk0v88drf.cloudfront.net/mv_wav/S...,STT_MV,2,37,5.405405
