In [None]:
from nbdev import *

In [None]:
%nbdev_default_export text_norm

Cells will be exported to text2speech.text_norm,
unless a different module is specified after an export flag: `%nbdev_export special.module`


# Text Normalization
> Functions used for TTS Dataset Preparation

In [None]:
%nbdev_export
import re

In [None]:
#hide
from fastcore.test import *
from nbdev.showdoc import *

## Functions for Pipeline

In [None]:
%nbdev_export
def collapse_whitespace(text):
    "Replace multiple whitespaces with single space."
    return re.sub(r'\s+', ' ', text).strip()

In [None]:
test_eq(collapse_whitespace(
    "\t\n 1  2   3     4     5       \t\r\n"),
    "1 2 3 4 5")

In [None]:
test_eq(collapse_whitespace(
    "\n\n\nFirst line after empty lines\n\n\n"),
    "First line after empty lines")

In [None]:
%nbdev_export
def lowercase(text):
    "Convert `text` to lower case."
    return text.lower()

In [None]:
test_eq(lowercase('ПрИвеТ, ЧуВАК!'), 
                  'привет, чувак!')

In [None]:
%nbdev_export
def check_no_numbers(text):
    "Return a list of digits, or empty list, if not found."
    return re.findall(r"(\d+)", text)

In [None]:
test_eq(check_no_numbers('Цифры есть 1 12 13.4'), ['1', '12', '13', '4'])
test_eq(check_no_numbers('Цифр нет'), [])

In [None]:
%nbdev_export_internal
_specials = [(re.compile(f'{x[0]}'), x[1]) for x in [
  ('\(?\d\d[:.]\d\d\)?', ''),  # timestamps
  ('!\.', '!'), # !. -> !
  ('\?\.', '?'),# ?. -> ?
  ('\/', ''),
  ('\s(…)', ' '),
  ('…', '.'),
  ('\.+', '.')  # ... -> .
]]

In [None]:
%nbdev_export
def remove_specials(text):
    "Replace predefined in `_specials` sequence of characters"
    for regex, replacement in _specials:
        text = re.sub(regex, replacement, text)
    return text

In [None]:
test_eq(remove_specials('Многоточие... Многоточие… … …Многоточие'),
                        'Многоточие. Многоточие.  Многоточие')

In [None]:
test_eq(remove_specials('Метки времени 01:12 или 01.01, (01:12) или (01.01) удаляем.'),
                        'Метки времени  или ,  или  удаляем.')

In [None]:
test_eq(remove_specials('Ой!. Ага?. / Стоп..'),
                        'Ой! Ага?  Стоп.')

In [None]:
%nbdev_export
_abbreviations = [(re.compile(f'\\b{x[0]}', re.IGNORECASE), x[1]) for x in [
  ('т\.е\.', 'то есть'),
  ('т\.к\.', 'так как'),
  ('и т\.д\.', 'и так далее.'),
  ('и т\.п\.', 'и тому подобное.')
]]

In [None]:
%nbdev_export
def expand_abbreviations(text):
    "`expand_abbreviations()` defined in `_abbreviations`"
    for regex, replacement in _abbreviations:
        text = re.sub(regex, replacement, text)
    return text

In [None]:
test_eq(
    expand_abbreviations('Привет Джон, т.е. Иван. Т.к. русский. И т.д. И т.п.'),
                         'Привет Джон, то есть Иван. так как русский. и так далее. и тому подобное.') 

## Pipelines

In [None]:
%nbdev_export_and_show
def basic_cleaner(text):
    "Basic pipeline: lowercase and collapse whitespaces."
    text = lowercase(text)
    text = collapse_whitespace(text)
    return text

In [None]:
test_eq(basic_cleaner(
    'Привет   Джон, т.е. Иван, т.к. русский. И т.д.   и т.п.'),
    'привет джон, т.е. иван, т.к. русский. и т.д. и т.п.')

In [None]:
%nbdev_export_and_show
def russian_cleaner(text):
    "Pipeline for Russian text cleaning: lowercase, expand_abbreviations, remove_specials, collapse_whitespace."
    text = lowercase(text)
    text = expand_abbreviations(text)
    text = remove_specials(text)
    text = collapse_whitespace(text)
    return text

In [None]:
test_eq(russian_cleaner(
        'Привет Джон, т.е.     Иван, т.к. русский. И т.д. и т.п. Ой!. Ага?. / Стоп..'),
        'привет джон, то есть иван, так как русский. и так далее. и тому подобное. ой! ага? стоп.')

## Sentences Tokenizer

In [None]:
import nltk

In [None]:
text = '''Восклицательное предложение! А это какое? Инициалы -- не повод разрывать. Правда, А.С. Пушкин? -- Разумеется, голубчик. (Скобки оставляем.)'''

In [None]:
for sent in nltk.sent_tokenize(text, language="russian"):
    print(sent,"\n")

Восклицательное предложение! 

А это какое? 

Инициалы -- не повод разрывать. 

Правда, А.С. Пушкин? 

-- Разумеется, голубчик. 

(Скобки оставляем.) 



In [None]:
#hide
from nbdev.export import notebook2script
notebook2script()

Converted 01_text_norm.ipynb.
Converted 02_data.ipynb.
Converted Untitled.ipynb.
Converted index.ipynb.
