In [None]:
from nbdev import *

In [None]:
%nbdev_default_export text_norm

Cells will be exported to text2speech.text_norm,
unless a different module is specified after an export flag: `%nbdev_export special.module`


# Text Normalization
> Functions used for TTS Dataset Preparation

In [None]:
%nbdev_export
import re

In [None]:
#hide
from fastcore.test import *
from nbdev.showdoc import *

## Functions for Pipeline

In [None]:
%nbdev_export
def collapse_whitespace(text):
    "Replace multiple various whitespaces with a single space, strip leading and trailing spaces."
    return re.sub(r'[\s\ufeff\u200b\u2060]+', ' ', text).strip()

In [None]:
test_eq(collapse_whitespace(
    chr(int("0xfeff", 16)) + # zero width no-break space
    chr(int("0x200b", 16)) + # zero width space
    chr(int("0x202f", 16)) + # narrow no-break space
    chr(int("0x2060", 16)) + # word joiner
    chr(int("0x3000", 16)) + # ideographic space
    chr(int("0xa0"  , 16)) + # no-break space
    "\t\n 1 2   3     4     5       \t\r\n"),
    "1 2 3 4 5")

In [None]:
%nbdev_export
def lowercase(text):
    "Convert `text` to lower case."
    return text.lower()

In [None]:
test_eq(lowercase('ПрИвеТ, ЧуВАК!'), 
                  'привет, чувак!')

In [None]:
%nbdev_export
def check_no_numbers(text):
    "Return a list of digits, or empty list, if not found."
    return re.findall(r"(\d+)", text)

In [None]:
test_eq(check_no_numbers('Цифры есть 1 12 13.4'), ['1', '12', '13', '4'])
test_eq(check_no_numbers('Цифр нет'), [])

In [None]:
%nbdev_export_internal
_specials = [(re.compile(f'{x[0]}'), x[1]) for x in [
  ('\(?\d\d[:.]\d\d\)?', ''),  # timestamps
  ('!\.', '!'), # !. -> !
  ('\?\.', '?'),# ?. -> ?
  ('\/', ''),
  ('\s(…)', ' '),
  ('…', '.'),
  ('\.{3}', '.'),  # ... -> .
  ('\.{2}', ''),   # pause .. removed
]]

In [None]:
%nbdev_export
def remove_specials(text, purge_digits=None):
    "Replace predefined in `_specials` sequence of characters"
    for regex, replacement in _specials:
        text = re.sub(regex, replacement, text)
    if purge_digits:
        text = re.sub('\d', '', text)
    return text

In [None]:
test_eq(remove_specials('Многоточие... Многоточие… … …Многоточие'),
                        'Многоточие. Многоточие.  Многоточие')

In [None]:
test_eq(remove_specials('Метки времени 01:12 или 01.01, (01:12) или (01.01) удаляем.'),
                        'Метки времени  или ,  или  удаляем.')

In [None]:
test_eq(remove_specials('Ой!. Ага?. / Стоп..'),
                        'Ой! Ага?  Стоп')

In [None]:
%nbdev_export
_abbreviations = [(re.compile(f'\\b{x[0]}', re.IGNORECASE), x[1]) for x in [
  ('т\.е\.', 'то есть'),
  ('т\.к\.', 'так как'),
  ('и т\.д\.', 'и так далее.'),
  ('и т\.п\.', 'и тому подобное.')
]]

In [None]:
%nbdev_export
def expand_abbreviations(text):
    "`expand_abbreviations()` defined in `_abbreviations`"
    for regex, replacement in _abbreviations:
        text = re.sub(regex, replacement, text)
    return text

In [None]:
test_eq(
    expand_abbreviations('Привет Джон, т.е. Иван. Т.к. русский. И т.д. И т.п.'),
                         'Привет Джон, то есть Иван. так как русский. и так далее. и тому подобное.') 

In [None]:
%nbdev_export
def unify_dash_hyphen(text):
    "Unify dash and hyphen symbols"
    text = re.sub('[\u2212\u2012]', '\u2013', text)
    text = re.sub('[\u2010\u2011]', '\u002d', text)
    return text

In [None]:
test_eq(unify_dash_hyphen(
    chr(int("2212",16))+ # minus sign
    chr(int("2012",16))+ # figure dash
    chr(int("2010",16))+ # hyphen
    chr(int("2011",16))),# non-breaking hyphen
    chr(int("2013",16))*2+chr(int("2d",16))*2)

## Pipelines

In [None]:
%nbdev_export_and_show
def basic_cleaner(text):
    "Basic pipeline: lowercase and collapse whitespaces."
    text = lowercase(text)
    text = collapse_whitespace(text)
    return text

In [None]:
test_eq(basic_cleaner(
    'Привет   Джон, т.е. Иван, т.к. русский. И т.д.   и т.п.'),
    'привет джон, т.е. иван, т.к. русский. и т.д. и т.п.')

In [None]:
%nbdev_export_and_show
def russian_cleaner(text, purge_digits=True):
    "Pipeline for Russian text cleaning: lowercase, expand_abbreviations, remove_specials, collapse_whitespace."
    text = lowercase(text)
    text = expand_abbreviations(text)
    text = remove_specials(text, purge_digits=purge_digits)
    text = unify_dash_hyphen(text)
    text = collapse_whitespace(text)
    return text

In [None]:
test_eq(russian_cleaner(
        'Привет Джон, т.е.     Иван, т.к. русский. И т.д. и т.п. Ой!. Ага?. / Стоп..'),
        'привет джон, то есть иван, так как русский. и так далее. и тому подобное. ой! ага? стоп')

## Sentences Tokenizer

In [None]:
import nltk

In [None]:
fname = '/home/condor/git/cyrillica/f-ish.txt'
with open(fname) as f:
    text = f.read()

In [None]:
text

'\ufeff\n\n\n\n\n\n\n\nНам кажется, что мы знаем историю Америки, но порой домыслы оказываются сильнее правды. Вы знаете, что способ, которым мы приветствовали наш флаг, зажёг искру в глазах Адольфа Гитлера?.. Или что скульптор барельефа на горе Рашмор вынужден был взорвать незаконченную голову президента динамитом? А как вам тот факт, что «Статуя Свободы» предназначалась для Египта? Я –Джейми Кейлер, давайте немного помашем флагом, попристальнее вглядимся в нос Джорджа Вашингтона и залезем под кожу нашей любимой сорока-семи-метровой женщины в поисках правды.\n\n\nАМЕРИКА:  ФАКТЫ  И  ДОМЫСЛЫ\n\n\nЭто суперзвезда нашего государства. У него есть собственный гимн, своя клятва верности, он защищён законом. Конечно, я говорю об американском флаге. Но если вы считаете, что знаете всю правду о «Старой славе», приготовьтесь к красно-бело-синим сенсациям. Вот всем известная история. В июне тысяча семьсот семьдесят шестого года в Филадельфии Джордж Вашингтон заходит к швее Бетси Росс и просит её

In [None]:
russian_cleaner(text)

'нам кажется, что мы знаем историю америки, но порой домыслы оказываются сильнее правды. вы знаете, что способ, которым мы приветствовали наш флаг, зажёг искру в глазах адольфа гитлера?. или что скульптор барельефа на горе рашмор вынужден был взорвать незаконченную голову президента динамитом? а как вам тот факт, что «статуя свободы» предназначалась для египта? я –джейми кейлер, давайте немного помашем флагом, попристальнее вглядимся в нос джорджа вашингтона и залезем под кожу нашей любимой сорока-семи-метровой женщины в поисках правды. америка: факты и домыслы это суперзвезда нашего государства. у него есть собственный гимн, своя клятва верности, он защищён законом. конечно, я говорю об американском флаге. но если вы считаете, что знаете всю правду о «старой славе», приготовьтесь к красно-бело-синим сенсациям. вот всем известная история. в июне тысяча семьсот семьдесят шестого года в филадельфии джордж вашингтон заходит к швее бетси росс и просит её сшить первый американский флаг. она

### Set of characters in the origial text

In [None]:
text = "Я −Джейми Кейлер,"

In [None]:
print(f'Char\tDec\tHex\tPrintable?')
for i,c in enumerate(sorted(set(text))):
    print(f'{c}\t{ord(c)}\t{hex(ord(c))}\t{c.isprintable()}')

Char	Dec	Hex	Printable?

	10	0xa	False
 	32	0x20	True
!	33	0x21	True
,	44	0x2c	True
-	45	0x2d	True
.	46	0x2e	True
/	47	0x2f	True
0	48	0x30	True
1	49	0x31	True
2	50	0x32	True
3	51	0x33	True
5	53	0x35	True
7	55	0x37	True
8	56	0x38	True
9	57	0x39	True
:	58	0x3a	True
?	63	0x3f	True
 	160	0xa0	False
«	171	0xab	True
»	187	0xbb	True
А	1040	0x410	True
Б	1041	0x411	True
В	1042	0x412	True
Г	1043	0x413	True
Д	1044	0x414	True
Е	1045	0x415	True
З	1047	0x417	True
И	1048	0x418	True
Й	1049	0x419	True
К	1050	0x41a	True
Л	1051	0x41b	True
М	1052	0x41c	True
Н	1053	0x41d	True
О	1054	0x41e	True
П	1055	0x41f	True
Р	1056	0x420	True
С	1057	0x421	True
Т	1058	0x422	True
У	1059	0x423	True
Ф	1060	0x424	True
Х	1061	0x425	True
Ч	1063	0x427	True
Ш	1064	0x428	True
Ы	1067	0x42b	True
Э	1069	0x42d	True
Ю	1070	0x42e	True
Я	1071	0x42f	True
а	1072	0x430	True
б	1073	0x431	True
в	1074	0x432	True
г	1075	0x433	True
д	1076	0x434	True
е	1077	0x435	True
ж	1078	0x436	True
з	1079	0x437	True
и	1080	0x438	True
й	1081	0x439	True
к	1082

### Set of characters in the cleaned text

In [None]:
print(f'Char\tDec\tHex\tPrintable?')
for i,c in enumerate(sorted(set(russian_cleaner(text)))):
    print(f'{c}\t{ord(c)}\t{hex(ord(c))}\t{c.isprintable()}')

Char	Dec	Hex	Printable?
 	32	0x20	True
!	33	0x21	True
,	44	0x2c	True
-	45	0x2d	True
.	46	0x2e	True
:	58	0x3a	True
?	63	0x3f	True
«	171	0xab	True
»	187	0xbb	True
а	1072	0x430	True
б	1073	0x431	True
в	1074	0x432	True
г	1075	0x433	True
д	1076	0x434	True
е	1077	0x435	True
ж	1078	0x436	True
з	1079	0x437	True
и	1080	0x438	True
й	1081	0x439	True
к	1082	0x43a	True
л	1083	0x43b	True
м	1084	0x43c	True
н	1085	0x43d	True
о	1086	0x43e	True
п	1087	0x43f	True
р	1088	0x440	True
с	1089	0x441	True
т	1090	0x442	True
у	1091	0x443	True
ф	1092	0x444	True
х	1093	0x445	True
ц	1094	0x446	True
ч	1095	0x447	True
ш	1096	0x448	True
щ	1097	0x449	True
ъ	1098	0x44a	True
ы	1099	0x44b	True
ь	1100	0x44c	True
э	1101	0x44d	True
ю	1102	0x44e	True
я	1103	0x44f	True
ё	1105	0x451	True
–	8211	0x2013	True


### Set of the removed characters

In [None]:
print(f'Char\tDec\tHex\tPrintable?')
for i,c in enumerate(sorted( set(text).difference(set(russian_cleaner(text))))):
    print(f'{c}\t{ord(c)}\t{hex(ord(c))}\t{c.isprintable()}')

Char	Dec	Hex	Printable?

	10	0xa	False
/	47	0x2f	True
0	48	0x30	True
1	49	0x31	True
2	50	0x32	True
3	51	0x33	True
5	53	0x35	True
7	55	0x37	True
8	56	0x38	True
9	57	0x39	True
 	160	0xa0	False
А	1040	0x410	True
Б	1041	0x411	True
В	1042	0x412	True
Г	1043	0x413	True
Д	1044	0x414	True
Е	1045	0x415	True
З	1047	0x417	True
И	1048	0x418	True
Й	1049	0x419	True
К	1050	0x41a	True
Л	1051	0x41b	True
М	1052	0x41c	True
Н	1053	0x41d	True
О	1054	0x41e	True
П	1055	0x41f	True
Р	1056	0x420	True
С	1057	0x421	True
Т	1058	0x422	True
У	1059	0x423	True
Ф	1060	0x424	True
Х	1061	0x425	True
Ч	1063	0x427	True
Ш	1064	0x428	True
Ы	1067	0x42b	True
Э	1069	0x42d	True
Ю	1070	0x42e	True
Я	1071	0x42f	True
…	8230	0x2026	True
−	8722	0x2212	True
﻿	65279	0xfeff	False


In [None]:
check_no_numbers(russian_cleaner(text))

[]

In [None]:
#text = '''Восклицательное предложение! А это какое? Инициалы -- не повод разрывать. Правда, А.С. Пушкин? -- Разумеется, голубчик. (Скобки оставляем.)'''

In [None]:
sent_detector = nltk.data.load('tokenizers/punkt/russian.pickle',verbose=True,cache=False)

<<Loading nltk:tokenizers/punkt/PY3/russian.pickle>>


In [None]:
sent_detector.tokenize((russian_cleaner(text)))

['все думают, что знают историю америки, но когда заходит речь о морских приключениях, мы пересказываем сказки.',
 'взять хотя бы морских чудовищ – пиратов.',
 'вы знали, что они сражались совсем не так, как нам показывают в кино?',
 'и что чёрная борода боялся, как бы враги не раскрыли его секрет?',
 'и что за фокусы с исчезновением показывает бермудский треугольник?',
 'инопланетяне не угоняли звено «девятнадцать», виновник жил у нас дома.',
 'суши вёсла, парень, я – джейми кэйлер.',
 'пора порубить мифы на мелкие кусочки.',
 'и выкопать сундук.',
 'с правдой.',
 'америка: факты и домыслы золотой век пиратства пришёлся на период с тысяча шестьсот девяностого по тысяча семьсот тридцатый год. но большинство пиратов быстро отходили от дел.',
 'эдвард тич знаменитый чёрная борода наводил страх на моря меньше двух лет.',
 'как и многие пираты, он получил раннюю пенсию вместе с ударом абордажной сабли.',
 'короткая карьера, зато наследие на века.',
 'но всё, что мы знаем, омыто океаном фан

In [None]:
for sent in nltk.sent_tokenize(russian_cleaner(text), language="russian"):
    print(sent,"\n")

In [None]:
#hide
from nbdev.export import notebook2script
notebook2script()

Converted 01_text_norm.ipynb.
Converted 02_data.ipynb.
Converted index.ipynb.
