In [None]:
#default_exp text_norm

# Text Normalization
> Functions used for TTS Dataset Preparation

In [None]:
#export
import re
from fastcore.test import *
from nbdev.showdoc import *

In [None]:
#export
def collapse_whitespace(text):
    "Replace multiple whitespaces with single space."
    return re.sub(r'\s+', ' ', text)

In [None]:
test_eq(collapse_whitespace(
    " 1  2   3     4     5       "),
    " 1 2 3 4 5 ")

In [None]:
#export
def lowercase(text):
    "Convert `text` to lower case."
    return text.lower()

In [None]:
test_eq(lowercase('ПрИвеТ, ЧуВАК!'), 
                  'привет, чувак!')

In [None]:
#export
def check_no_numbers(text):
    "Return a list of digits, or empty list, if not found."
    return re.findall(r"(\d+)", text)

In [None]:
#exporti
_specials = [(re.compile(f'{x[0]}'), x[1]) for x in [
  ('!\.', '!'), # !. -> !
  ('\?\.', '?'),# ?. -> ?
  ('\/', ''),
  ('…', '.'),
  ('\.+', '.')  # ... -> .
]]

In [None]:
#export
def remove_specials(text):
    "Replace predefined in `_specials` sequence of characters"
    for regex, replacement in _specials:
        text = re.sub(regex, replacement, text)
    return text

In [None]:
test_eq(remove_specials('Ой!. Ага?. Пауза. / Стоп.. Многоточие… Многоточие...'),
                        'Ой! Ага? Пауза.  Стоп. Многоточие. Многоточие.')

In [None]:
#export
_abbreviations = [(re.compile(f'\\b{x[0]}', re.IGNORECASE), x[1]) for x in [
  ('т\.е\.', 'то есть'),
  ('т\.к\.', 'так как'),
  ('и т\.д\.', 'и так далее.'),
  ('и т\.п\.', 'и тому подобное.')
]]

In [None]:
#export
def expand_abbreviations(text):
    "`expand_abbreviations()` defined in `_abbreviations`"
    for regex, replacement in _abbreviations:
        text = re.sub(regex, replacement, text)
    return text

In [None]:
test_eq(
    expand_abbreviations('Привет Джон, т.е. Иван. Т.к. русский. И т.д. И т.п.'),
                         'Привет Джон, то есть Иван. так как русский. и так далее. и тому подобное.') 

In [None]:
#export
def basic_cleaner(text):
    "Basic pipeline: lowercase and collapse whitespaces."
    text = lowercase(text)
    text = collapse_whitespace(text)
    return text

In [None]:
test_eq(basic_cleaner(
    'Привет   Джон, т.е. Иван, т.к. русский. И т.д.   и т.п.'),
    'привет джон, т.е. иван, т.к. русский. и т.д. и т.п.')

In [None]:
#exports
def russian_cleaner(text):
    """Pipeline for Russian text cleaning: 
       lowercase, expand_abbreviations, remove_specials, collapse_whitespace."""
    text = lowercase(text)
    text = expand_abbreviations(text)
    text = remove_specials(text)
    text = collapse_whitespace(text)
    return text

In [None]:
test_eq(russian_cleaner(
        'Привет Джон, т.е.     Иван, т.к. русский. И т.д. и т.п. Ой!. Ага?. / Стоп..'),
        'привет джон, то есть иван, так как русский. и так далее. и тому подобное. ой! ага? стоп.')

In [None]:
test_eq(check_no_numbers('Цифры есть 1 2 3'), ['1', '2', '3'])
test_eq(check_no_numbers('Цифр нет'), [])

In [None]:
import nltk

In [None]:
text = russian_cleaner('''Америка:  факты и домыслы! Зная статистику золотой лихорадки, мы понимаем, почему первые старатели так торопились добраться до Калифорнии. Между тысяча восемьсот сорок восьмым и пятьдесят восьмым годами, всего за десятилетие, было добыто двадцать четыре миллиона триста тысяч унций золота.
По сегодняшним ценам это более тридцати одного миллиарда долларов, но дело было не только в золоте. Сколько было вокруг фантастических историй.  Вот одна из них, известная всем.  После того, как в тысяча восемьсот сорок восьмом году Джеймс Маршалл в воде у лесопилки нашёл несколько самородков, началась первая золотая лихорадка в американской истории.
Тысячи храбрецов пустились в далёкое путешествие в Калифорнию по океану. Другие отправились туда в видавших виды повозках.  На одиноких тропах недостатка в опасностях тоже не было, особенно учитывая враждебно настроенных аборигенов.
Золотые прииски кишели бородатыми, лохматыми старателями. Удивительно, но золото лежало прямо на поверхности, сверкая на солнце.
Поэтому многие первопроходцы разбогатели? Но к середине пятидесятых годов праздник закончился.''')

In [None]:
text = 'привет джон, т.е. иван, т.к. русский. и т.д. и т.п.'

In [None]:
for sent in nltk.sent_tokenize(text, language="russian"):
    print(sent,"\n---")

привет джон, т.е. иван, т.к. русский. 
---
и т.д. и т.п. 
---


In [None]:
#hide
from nbdev.export import notebook2script
notebook2script()

Converted 01_text_norm.ipynb.
Converted index.ipynb.
