In [9]:
import pandas as pd
from botok import WordTokenizer

In [10]:

def initialize_tokenizer():
    return WordTokenizer()

In [11]:
def read_tsv_file(file_path):
    return pd.read_csv(file_path, sep='\t', encoding='utf-8')

In [12]:
def process_transcript(text, tokenizer):
    tokens = tokenizer.tokenize(text)
    non_word_count = sum(1 for token in tokens if token.pos == 'NON_WORD' and not token.skrt)
    total_tokens = len(tokens)
    return non_word_count, total_tokens

In [13]:
def add_columns_to_df(df, tokenizer):
    df['non_word_count'], df['total_tokens'] = zip(*df['uni'].apply(lambda text: process_transcript(text, tokenizer)))
    df['non_word_percentage'] = (df['non_word_count'] / df['total_tokens']) * 100
    df.fillna(0, inplace=True)  # Replace NaN values with 0 in case of division by zero
    return df


In [14]:

def save_df_to_tsv(df, file_path):
    df.to_csv(file_path, sep='\t', index=False, encoding='utf-8')


In [16]:
if __name__ == '__main__':
    input_file = '../../data/test_input.tsv'
    output_file = '../../data/test_output.tsv'

    tokenizer = initialize_tokenizer()
    df = read_tsv_file(input_file)
    print(df.head())
    df_proccessed = add_columns_to_df(df, tokenizer)
    print(df_proccessed.head())
    save_df_to_tsv(df_proccessed, output_file)                                                                         

Loading Trie... (1s.)
                                file_name  \
0  STT_MV0090_0159_1097722_to_1105009.wav   
1  STT_MV0230_0214_1355003_to_1357646.wav   
2    STT_MV0320_0069_558399_to_562888.wav   
3    STT_MV0029_0105_977753_to_985770.wav   
4  STT_MV0012_0213_1904651_to_1913374.wav   

                                                 uni  \
0  འུ་ཙི། འདིའི་ཁོར་ཡུག་དེ་འདྲས་ཡག་ག་ལ། རང་གིས་ག་...   
1                            ད་ཁྱེད་རང་ཤོང་ས་མ་རེད།    
2  ད་གེ། ད་གེ་ཡོད། རོགས་པ་མདུན་ལ་ཏོག་ཙི། སྐད་ཆ་རི...   
3  ཁྱེད་རང་གིས་ཆེད་མངགས་མི་བཏང་བྱས་ང་ཁྱེད་རང་ནང་ལ...   
4                               རྒན་ལགས། ཡ་རྒན་ལགས།    

                                               wylie  \
0  'u tsi/_'di'i khor yug de 'dras yag ga la/_ran...   
1                    da khyed rang shong sa ma red/_   
2  da ge/_da ge yod/_rogs pa mdun la tog tsi/_ska...   
3  khyed rang gis ched mngags mi btang byas nga k...   
4                          rgan lags/_ya rgan lags/_   

                                 

  warn(
  warn(
  warn(


                                file_name  \
0  STT_MV0090_0159_1097722_to_1105009.wav   
1  STT_MV0230_0214_1355003_to_1357646.wav   
2    STT_MV0320_0069_558399_to_562888.wav   
3    STT_MV0029_0105_977753_to_985770.wav   
4  STT_MV0012_0213_1904651_to_1913374.wav   

                                                 uni  \
0  འུ་ཙི། འདིའི་ཁོར་ཡུག་དེ་འདྲས་ཡག་ག་ལ། རང་གིས་ག་...   
1                            ད་ཁྱེད་རང་ཤོང་ས་མ་རེད།    
2  ད་གེ། ད་གེ་ཡོད། རོགས་པ་མདུན་ལ་ཏོག་ཙི། སྐད་ཆ་རི...   
3  ཁྱེད་རང་གིས་ཆེད་མངགས་མི་བཏང་བྱས་ང་ཁྱེད་རང་ནང་ལ...   
4                               རྒན་ལགས། ཡ་རྒན་ལགས།    

                                               wylie  \
0  'u tsi/_'di'i khor yug de 'dras yag ga la/_ran...   
1                    da khyed rang shong sa ma red/_   
2  da ge/_da ge yod/_rogs pa mdun la tog tsi/_ska...   
3  khyed rang gis ched mngags mi btang byas nga k...   
4                          rgan lags/_ya rgan lags/_   

                                                 url   