In [None]:
#default_exp text_norm

# Text normalization for the Dataset
 >Used for TTS dataset preparation

In [None]:
#export
import re
from fastcore.test import *
from nbdev.showdoc import *

In [None]:
#export
_whitespace_re = re.compile(r'\s+')

def collapse_whitespace(text):
    return re.sub(_whitespace_re, ' ', text)

In [None]:
test_eq(collapse_whitespace(" 1  2   3     4     5       ")," 1 2 3 4 5 ")

In [None]:
#export
def lowercase(text):
    return text.lower()

In [None]:
test_eq(lowercase('ПрИвеТ ЧуВАК!'), 'привет чувак!')

In [None]:
#export
def check_no_numbers(text):
    "Return a list of digits, or empty, if not found"
    return re.findall(r"(\d+)", text)

### Remove Special characters

In [None]:
#export
_specials = [(re.compile(f'{x[0]}'), x[1]) for x in [
  ('!\.', '!'),
  ('\?\.', '?'),
  ('\/', ''),
  ('…', '.'),
  ('\.\.', '.')
]]

In [None]:
#export
def remove_specials(text):
    for regex, replacement in _specials:
        text = re.sub(regex, replacement, text)
    return text

In [None]:
test_eq(remove_specials('Ой!. Ага?. Пауза./ Стоп.. Многоточие…'),'Ой! Ага? Пауза. Стоп. Многоточие.')

### Replace Abbreviations

In [None]:
#export
_abbreviations = [(re.compile(f'\\b{x[0]}', re.IGNORECASE), x[1]) for x in [
  ('т.е.', 'то есть'),
  ('т.к.', 'так как'),
  ('и т.д.', 'и так далее'),
  ('и т.п.', 'и тому подобное')
]]

In [None]:
#export
def expand_abbreviations(text):
    for regex, replacement in _abbreviations:
        text = re.sub(regex, replacement, text)
    return text

In [None]:
test_eq(expand_abbreviations(\
            'Привет Джон, т.е. Иван. Т.к. русский. И т.д. И т.п.'),\
            'Привет Джон, то есть Иван. так как русский. и так далее и тому подобное') 

### Cleaning Pipelines

#### Basic Cleaning

In [None]:
#export
def basic_cleaner(text):
    "Basic pipeline that lowercases and collapses whitespaces."
    text = lowercase(text)
    text = collapse_whitespace(text)
    return text

In [None]:
test_eq(basic_cleaner(
    'Привет   Джон, т.е. Иван, т.к. русский. И т.д. и т.п.'),
    'привет джон, т.е. иван, т.к. русский. и т.д. и т.п.')

#### Russian Extended Cleaning

In [None]:
#export
def russian_cleaner(text):
    "Pipeline for English text, including number and abbreviation expansion."
    text = lowercase(text)
    text = remove_specials(text)
    text = expand_abbreviations(text)
    text = collapse_whitespace(text)
    numbers = check_no_numbers(text)
    if (numbers != []): 
        print("Запишите числительные не цифрами, а словами:")
        print(numbers)
    return text

In [None]:
test_eq(russian_cleaner(
        'Привет Джон, т.е.     Иван, т.к. русский. И т.д. и т.п. Ой!. Ага?. / Стоп..'),
        'привет джон, то есть иван, так как русский. и так далее и тому подобное ой! ага? стоп.')

In [None]:
#hide
def main():
    parser = argparse.ArgumentParser(description="Text Normalization Utility")
    parser.add_argument("-i", "--input", required=False, help="Input text for normalization")
    parser.add_argument("-o", "--output", required=False, help="Output file name.")
    

In [None]:
#hide
from nbdev.export import notebook2script
notebook2script()

Converted 01_text_norm.ipynb.
Converted index.ipynb.
