# Spanish NLP: Data Augmentation Notebook

For more information visit [spanish_nlp](https://github.com/jorgeortizfuentes/spanish_nlp) repository on GitHub.

## Available models

| **Models**               | **Methods**             | **Name to load**  |
|--------------------------|-------------------------|-------------------|
| Spelling augmentation    | Keyboard spelling       | keyboard          |
|                          | OCR spelling            | ocr               |
|                          | Random spelling         | random            |
|                          | Grapheme spelling       | grapheme_spelling |
|                          | Word spelling           | word_spelling     |
|                          | Remove punctuation      | remove_punctuation|
|                          | Remove accents          | remove_accents    |
|                          | Lowercase               | lowercase         |
|                          | Uppercase               | uppercase         |
|                          | Randomcase              | randomcase        |
|                          | Combine all methods     | all               | 
| Masked augmentation      | Sustitute words         | sustitute         |
|                          | Insert words            | insert            |
| Synonyms                 | Pending development     |                   |
| WordEmbeddings           | Pending development     |                   |
| GenerativeOpenSource     | Pending development     |                   |
| GenerativeOpenAI         | Pending development     |                   |
| BackTranslation          | Pending development     |                   |
| AbstractiveSummarization | Pending development     |                   |


Others models are under development (such as Synonyms, WordEmbeddings, GenerativeOpenSource, GenerativeOpenAI, BackTranslation, AbstractiveSummarization)


## Quick usage

In [1]:
from spanish_nlp import augmentation

text = "En aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos."


In [2]:
ocr = augmentation.Spelling(method="ocr", 
                            stopwords="default", 
                            aug_percent=0.3, 
                            tokenizer="default")

keyboard = augmentation.Spelling(method="keyboard", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

grapheme_spelling = augmentation.Spelling(method="grapheme_spelling", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

masked_sustitute = augmentation.Masked(method="sustitute", 
                                       model="dccuchile/bert-base-spanish-wwm-cased",
                                       tokenizer="default",
                                       stopwords="default",
                                       aug_percent=0.4,
                                       device="cpu",
                                       top_k=10)

masked_insert = augmentation.Masked(method="insert", 
                                    model="dccuchile/bert-base-spanish-wwm-cased",
                                    tokenizer="default",
                                    stopwords="default",
                                    aug_percent=0.4,
                                    device="cpu",
                                    top_k=10)

new_texts = [text]
new_texts.append(ocr.augment(text, num_samples=1, num_workers=1))
new_texts.append(keyboard.augment(text, num_samples=1, num_workers=1))
new_texts.append(grapheme_spelling.augment(text, num_samples=1, num_workers=1))
new_texts.append(masked_sustitute.augment(text, num_samples=1))
new_texts.append(masked_insert.augment(text, num_samples=1))

for t in new_texts:
    print(t)
    print("---")

En aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.
---
['En aque1 ti3mpo yo tenía Ueint3 años y estaEa lQco. 4abía Rer0idQ Vn Raí8 Rero había ganado un 8Veño. Y 5i t3nía 3se Bu3no lo demás no importaba. NI tPabajar n1 rezar ni estudiaP en la madrugada jVn7Q a lo5 p3PPos romántiGos.']
---
['En aquel tiemoo yk tenís veintw qñps y dstaba iico. Habíx peddjdo un laíx perp yabíw vxnaro uh sueño. Y si yenía rse euell li demás jo impprtabq. Ni ttqbxjar ni rszaf ni esfhdiar en la kadrugawa nuntp z kos pefrod rományicox.']
---
['En akel tienpo yo tenía veinte años y estaba loco. Había perdido um país pero  abía jamado un sueño. Y si temía ese sueño lo demás no importaba. Ni travajar ni rezar ni estudiar en la nadrugada junto a los perros románticos.']
---
['En aquel tiempo yo tenía veinte, pero estaba loco. Había destruido 

In [3]:
keyboard = augmentation.Spelling(method="keyboard", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

keyboard.augment(text, num_samples=1)

['En squel tidmok yo yenía veinte xpoe j estsba loco. Havíw legdudl yn pxís pero había gznaeo um dueño. Y sl tfnía ese sueñk po semás no iklorrabw. Ni tfabaiwr ni rezag no eqrudiar sn la mxdruhadz junrk a lps petdos gpmánhidos.']

In [4]:
ocr = augmentation.Spelling(method="ocr", 
                            stopwords="default", 
                            aug_percent=0.3, 
                            tokenizer="default")

ocr.augment(text, num_samples=1)

['En a9Vel tieWp0 y0 t3nía v3inte aNos y e8taba loco. Ha8ía Rer0ido Vn paíB R3ro había ganado un sueño. V si tenía ese sVeñ0 Io demáB n0 importa8a. Ni 7rabaLaP n1 re2ar nI 3studiar en la madruCada LVnto a los p3rro8 rQmán7ico5.']

In [5]:
random = augmentation.Spelling(method="random",
                                    stopwords="default", 
                                    aug_percent=0.05, 
                                    tokenizer="default")

random.augment(text, num_samples=1)

['En aquel tiempó yJ tenía veinte años y estaba lwco. Había Yerdido un áaís pero había ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni traPajar ni vezar nP ístudiar en la oadruxada junto a los perros románticos.']

In [6]:
grapheme_spelling = augmentation.Spelling(method="grapheme_spelling", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

grapheme_spelling.augment(text, num_samples=1)

['En aquel tiempo yo tenía veinte años y estava loco. Havía perdido un país pero havía janado um sueño. Y si tenía ese sueño lo denás no importaba. Ni travajar ni rezar ni estudiar em la madrugada gunto a los perros románticos.']

In [7]:
word_spelling = augmentation.Spelling(method="word_spelling", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

text2 = "por favor, no creo que haya nada mas importante que la libertad de expresion"
word_spelling.augment(text2, num_samples=1)

2


['por favor, no creo q aiga nada mas importante q la libertad de expresion']

In [8]:
remove_punctuation = augmentation.Spelling(method="remove_punctuation",
                                    stopwords="default", 
                                    aug_percent=0.5, 
                                    tokenizer="default")

remove_punctuation.augment(text, num_samples=1)

['por favor no creo que haya nada mas importante que la libertad de expresion']

In [9]:
remove_accents = augmentation.Spelling(method="remove_accents",
                                       stopwords="default", 
                                       aug_percent=0.5, 
                                       tokenizer="default")

remove_accents.augment(text, num_samples=1)

['por favor, no creo que haya nada mas importante que la libertad de expresion']

In [10]:
lowercase = augmentation.Spelling(method="lowercase",
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

lowercase.augment(text, num_samples=1)


['por favor, no creo que haya nada mas importante que la libertad de expresion']

In [11]:
uppercase = augmentation.Spelling(method="uppercase",
                                    stopwords="default", 
                                    aug_percent=0.1, 
                                    tokenizer="default")

uppercase.augment(text, num_samples=1)

['POR favor, no creo que haya nada mas IMPORTANTE que la libertad de expresion']

In [12]:
randomcase = augmentation.Spelling(method="randomcase",
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

randomcase.augment(text, num_samples=1)

['por favor, NO creo que haya nada mas importante que la libertad DE expresion']

In [13]:
all = augmentation.Spelling(method="all", 
                            stopwords="default", 
                            aug_percent=0.1, 
                            tokenizer="default")

all.augment(text, num_samples=1)

['por favor no creo que haya nada mas importante que la lkbertad de expresion']