In [21]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import nlpaug.augmenter.char as nac
import nlpaug.augmenter.word as naw
import nlpaug.augmenter.sentence as nas
import nlpaug.flow as nafc

from nlpaug.util import Action

In [2]:
DATA_PATH = '../data/raw/labeled_texts_fixed_binary.csv'

In [38]:
MODEL_PATH = '../models/word2vec_embeddings/cc.ru.300.vec'

In [13]:
df = pd.read_csv(DATA_PATH)

In [14]:
texts = (df[df['sex'] == 1]['texts']).reset_index(drop=True)

In [22]:
rus_text = texts[0]
text = 'The quick brown fox jumps over the lazy dog .'

In [23]:
rus_text

'Сдается на длительный срок новая квартира (еще никто не жил) для граждан РФ, славяне - девушке или семье из 2х человек без животных и детей, других просьба не беспокоить. Залог 1 месяц. Оплата за свет и воду оплачивается отдельно. Риелторам и третьим лицам просьба не беспокоить.  Не тратьте зря свое и мое время. Звонить с 9 до 21.'

# Символьная аугментация

In [34]:
aug = nac.OcrAug()
#aug = nac.KeyboardAug()

In [35]:
augmented_text = aug.augment(text)
print("Original:")
print(text)
print("Augmented Text:")
print(augmented_text)

Original:
The quick brown fox jumps over the lazy dog .
Augmented Text:
['The quick brown fux jumps over the lazy dog.']


In [36]:
augmented_rus_text = aug.augment(rus_text)
print("Original:")
print(rus_text)
print("Augmented Text:")
print(augmented_rus_text)

Original:
Сдается на длительный срок новая квартира (еще никто не жил) для граждан РФ, славяне - девушке или семье из 2х человек без животных и детей, других просьба не беспокоить. Залог 1 месяц. Оплата за свет и воду оплачивается отдельно. Риелторам и третьим лицам просьба не беспокоить.  Не тратьте зря свое и мое время. Звонить с 9 до 21.
Augmented Text:
['Сдается на длительный срок новая квартира (еще никто не жил) для граждан РФ, славяне - девушке или семье из zх человек без животных и детей, других просьба не беспокоить. Залог 1 месяц. Оплата за свет и воду оплачивается отдельно. Риелторам и третьим лицам просьба не беспокоить. Не тратьте зря свое и мое время. Звонить с q до 21.']


# Аугментация по словам

In [70]:
aug = naw.SynonymAug(aug_src='wordnet', lang='rus')

In [37]:
aug = naw.SpellingAug()
augmented_texts = aug.augment(text, n=3)
print("Original:")
print(text)
print("Augmented Texts:")
print(augmented_texts)

Original:
The quick brown fox jumps over the lazy dog .
Augmented Texts:
['The quikly brown fox jumps other the lazy do.', 'The quick brow fox jumps over the lazing gog.', 'The quick bround fox jumps ower the lazy dof.']


In [65]:
%%time
aug = naw.WordEmbsAug(model_type='fasttext', model_path=MODEL_PATH, action="substitute", top_k=10)

CPU times: total: 0 ns
Wall time: 521 µs


In [69]:
augmented_texts = aug.augment(rus_text, n=10)
print("Original:")
print(rus_text)
print("Augmented Texts:")
print(augmented_texts)

Original:
Сдается на длительный срок новая квартира (еще никто не жил) для граждан РФ, славяне - девушке или семье из 2х человек без животных и детей, других просьба не беспокоить. Залог 1 месяц. Оплата за свет и воду оплачивается отдельно. Риелторам и третьим лицам просьба не беспокоить.  Не тратьте зря свое и мое время. Звонить с 9 до 21.
Augmented Texts:
['1комнатная на длительный срок обновленная квартира (тоже никто не жил) для граждан РФ, славяне - девушке или семье из 2х еловек всякой животных и детей, других просьба не беспокоить. Залог 8 месяц. Оплата за свет и воду оплачивается отдельно. Риелторам и третьим лицам просьба уж беспокоить. но тратьте ведь свое и мое время. Звонить с 4 до 21.', 'Здравсвуйте вечер я диспетчеров']


In [59]:
naw.WordEmbsAug?

In [83]:
aug = naw.SynonymAug(aug_src='wordnet', lang='eng')

In [84]:
augmented_texts = aug.augment(rus_text, n=10)
print("Original:")
print(rus_text)
print("Augmented Texts:")
print(augmented_texts)

Original:
Сдается на длительный срок новая квартира (еще никто не жил) для граждан РФ, славяне - девушке или семье из 2х человек без животных и детей, других просьба не беспокоить. Залог 1 месяц. Оплата за свет и воду оплачивается отдельно. Риелторам и третьим лицам просьба не беспокоить.  Не тратьте зря свое и мое время. Звонить с 9 до 21.
Augmented Texts:
['Сдается на длительный срок новая квартира (еще никто не жил) для граждан РФ, славяне - девушке или семье из 2х человек без животных и детей, других просьба не беспокоить. Залог 1 месяц. Оплата за свет и воду оплачивается отдельно. Риелторам и третьим лицам просьба не беспокоить. Не тратьте зря свое и мое время. Звонить с 9 до twenty one.', 'Сдается на длительный срок новая квартира (еще никто не жил) для граждан РФ, славяне - девушке или семье из 2х человек без животных и детей, других просьба не беспокоить. Залог 1 месяц. Оплата за свет и воду оплачивается отдельно. Риелторам и третьим лицам просьба не беспокоить. Не тратьте зря 