In [1]:
import re
import math
import pandas as pd
from torchmetrics.text import CharErrorRate, WordErrorRate

In [2]:
def normalize_text(text: str):
    if isinstance(text, float) and math.isnan(text): # if an input text is empty, then we return an empty text too
        return ''
    
    for char in [".", ",", "!", "?", "(", ")"]:
        text = text.replace(char, " ")
    text = text.replace("ё", "е")
    text = re.sub(" +", " ", text)
    text = re.sub(r"[^\w\s]", "", text)
    text = text.lower().strip()
    return text

def normalize_df(df, column_names = ["transcription", "gt", "rescored_transcription"]):
    for colname in column_names:
        df[colname] = df[colname].apply(normalize_text) 
        
    return df


def calculate_error_rates(target, preds):
    wer = WordErrorRate()
    cer = CharErrorRate()
    
    return wer(target=target, preds=preds).item(), cer(target=target, preds=preds).item()

In [19]:
# test_df = pd.read_csv("test_df_denoisy_rescored.csv")
# test_df = pd.read_csv("test_df_finetune_rescored.csv")
# test_df = pd.read_csv("test_df_default_asr_rescored.csv")

# test_df = pd.read_csv("test_df_denoisy_rescored_yaspeller.csv")
# test_df = pd.read_csv("test_df_finetune_rescored_yaspeller.csv")
test_df = pd.read_csv("test_df_default_asr_rescored_yaspeller.csv")



# train_df = normalize_df(train_df)
test_df = normalize_df(test_df)

In [20]:
test_df.head(1)

Unnamed: 0,transcription,gt,rescored_transcription
0,к сожаление эти предложения не насвои ображани...,к сожалению эти предложения не нашли отражения...,к сожалению эти предложения не на свои изображ...


In [21]:
calculate_error_rates(test_df["gt"], test_df["transcription"])

(0.432607501745224, 0.15791331231594086)

In [22]:
calculate_error_rates(test_df["gt"], test_df["rescored_transcription"])

(0.36205047369003296, 0.14901161193847656)

In [36]:
test_df

Unnamed: 0,transcription,gt,rescored_transcription
0,к сожаление эти предложения не насвои ображани...,к сожалению эти предложения не нашли отражения...,к сожалению эти предложения не на свои ображан...
1,если не будет возражений я буду считать что ас...,если не будет возражений я буду считать что ас...,если не будет возражений я буду считать что об...
2,на вошаркен милый вород,новошахтинск милый город,ну вот шаркин милый вот
3,се рану разозвась что числе теряющихсяот поеще...,мы особенно рады отметить что число скрывающих...,сьюзен кэлвин рассердилась что число теряющихс...
4,контролер,контроллер,контролер
...,...,...,...
9625,мы должны сообща вешать задачи в области остра...,мы должны сообща решать задачи в области охран...,мы должны сообща решать задачи в области особы...
9626,требуваммое большинство в две третьих,требуемое большинство в две трети,требовало большинство в две третьих
9627,председатель вновь занимает место председателя,председатель вновь занимает место председателя,председатель вновь занимает место председателя
9628,давайте же по случаю ее кодобщины вновь подтве...,давайте же по случаю ее годовщины вновь подтве...,давайте же по случаю ее единодушия вновь подтв...


In [164]:
test_df.iloc[222]

transcription             третий комитет принял данный проверк развудици...
gt                        третий комитет принял данный проект резолюции ...
rescored_transcription    третий комитет принял данный законопроект без ...
Name: 222, dtype: object

In [148]:
test_df.iloc[206]

transcription             миротоворчески миссие организация объединенных...
gt                        миротворческие миссии организации объединенных...
rescored_transcription    политическая миссия организации объединенных н...
Name: 206, dtype: object

In [38]:
test_df.iloc[9628].tolist()

['давайте же по случаю ее кодобщины вновь подтвердим некоторые базовые принципы',
 'давайте же по случаю ее годовщины вновь подтвердим некоторые базовые принципы',
 'давайте же по случаю ее единодушия вновь подтвердим некоторые базовые принципы']