## Installation

In [1]:
#!pip install numpy requests nlpaug
#!pip install torch>=1.6.0 transformers>=4.11.3 sentencepiece
#!pip install nltk>=3.4.5

## Usage

In [2]:
import nlpaug.augmenter.word as naw

In [3]:
def augmenter(action):
    return naw.ContextualWordEmbsAug(model_path='dbmdz/bert-base-turkish-cased', action=action)

In [4]:
text = "İlaç kaydetmek istiyorum"

In [None]:
action = "insert"
for i in range(5):
    augmented_text = augmenter(action).augment(text)
    print(augmented_text)

In [None]:
action = "substitute"
for i in range(5):
    augmented_text = augmenter(action).augment(text)
    print(augmented_text)

## Easy Data Augmentation (EDA) 🚜

Please find here the model used below -> https://github.com/akoksal/Turkish-Word2Vec

In [1]:
#!pip install gensim

## Regex

Use regular expression for removing punctuation. 

In [120]:
from random import randint
import re

In [121]:
from gensim.models import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('embedding_model_tr', binary=True)

In [122]:
sample_sentence = "Karşımda beni ciddi ciddi süzen, küçük, eşi görülmedik biri duruyordu."

### Synonym Replacement
Select a word that is not a stop words and replace it its synonym.

In [123]:
tokenized_sentence = re.sub(r'[^\w\s]', '', sample_sentence).split(" ")
tokenized_sentence

['Karşımda',
 'beni',
 'ciddi',
 'ciddi',
 'süzen',
 'küçük',
 'eşi',
 'görülmedik',
 'biri',
 'duruyordu']

In [125]:
while True:
    random_idx = randint(0, len(tokenized_sentence) - 1)
    random_word = tokenized_sentence[random_idx]
    # there could be a word not included in dictionary if so, choose another.
    try:
        synonym_word = word_vectors.similar_by_word(random_word)[0][0]
        break
    except:
        pass

In [126]:
random_word, synonym_word

('ciddi', 'şiddetli')

In [127]:
replaced_tokenized_sentence = tokenized_sentence.copy()
replaced_tokenized_sentence[random_idx] = synonym_word
augmented_sentence = " ".join(replaced_tokenized_sentence)

In [128]:
sample_sentence, augmented_sentence

('Karşımda beni ciddi ciddi süzen, küçük, eşi görülmedik biri duruyordu.',
 'Karşımda beni ciddi şiddetli süzen küçük eşi görülmedik biri duruyordu')

## Random Insertion
Find a random synonym of a random n words in text date and insert into a random place.

In [129]:
tokenized_sentence = re.sub(r'[^\w\s]', '', sample_sentence).split(" ")
tokenized_sentence

['Karşımda',
 'beni',
 'ciddi',
 'ciddi',
 'süzen',
 'küçük',
 'eşi',
 'görülmedik',
 'biri',
 'duruyordu']

### Select a random word

In [136]:
random_idx = randint(0, len(tokenized_sentence) - 1)
random_word = tokenized_sentence[random_idx]

In [137]:
random_word

'biri'

In [138]:
similar_word = word_vectors.similar_by_word(random_word)[0][0]
similar_word

'birisi'

In [139]:
tokenized_sentence.insert(randint(0, len(tokenized_sentence)), similar_word)
tokenized_sentence

['Karşımda',
 'beni',
 'ciddi',
 'ciddi',
 'süzen',
 'küçük',
 'eşi',
 'birisi',
 'görülmedik',
 'biri',
 'duruyordu']

## Random Swap
Randomly select n words in the text and swap the positions.


In [140]:
tokenized_sentence = re.sub(r'[^\w\s]', '', sample_sentence).split(" ")
tokenized_sentence

['Karşımda',
 'beni',
 'ciddi',
 'ciddi',
 'süzen',
 'küçük',
 'eşi',
 'görülmedik',
 'biri',
 'duruyordu']

#### Find 2 random words

In [141]:
while True:
    random_idx1 = randint(0, len(tokenized_sentence) - 1)
    random_word1 = tokenized_sentence[random_idx1]

    random_idx2 = randint(0, len(tokenized_sentence) - 1)
    if not random_idx1 == random_idx2:
        random_word2 = tokenized_sentence[random_idx2]
        break

In [142]:
random_word1, random_word2, random_idx1, random_idx2

('beni', 'ciddi', 1, 3)

In [143]:
random_swapped_tokenized_sentence = []
for idx, i in enumerate(tokenized_sentence):
    if idx == random_idx1:
        random_swapped_tokenized_sentence.append(random_word2)
    elif idx == random_idx2:
        random_swapped_tokenized_sentence.append(random_word1)
    else:
        random_swapped_tokenized_sentence.append(i)

In [145]:
print(random_swapped_tokenized_sentence)
print(tokenized_sentence)

['Karşımda', 'ciddi', 'ciddi', 'beni', 'süzen', 'küçük', 'eşi', 'görülmedik', 'biri', 'duruyordu']
['Karşımda', 'beni', 'ciddi', 'ciddi', 'süzen', 'küçük', 'eşi', 'görülmedik', 'biri', 'duruyordu']


## Random Deletion
Randomly select n words and remove them.

In [150]:
random_idx = randint(0, len(tokenized_sentence) - 1)
random_idx

8

In [151]:
random_word = tokenized_sentence[random_idx]
random_word

'biri'

In [152]:
print(tokenized_sentence)
tokenized_sentence.pop(random_idx)
print(tokenized_sentence)

['Karşımda', 'beni', 'ciddi', 'ciddi', 'süzen', 'küçük', 'eşi', 'görülmedik', 'biri', 'duruyordu']
['Karşımda', 'beni', 'ciddi', 'ciddi', 'süzen', 'küçük', 'eşi', 'görülmedik', 'duruyordu']
