# Spanish NLP: Data Augmentation Notebook

For more information visit [spanish_nlp](https://github.com/jorgeortizfuentes/spanish_nlp) repository on GitHub.

## Available models

| **Models**               | **Methods**             | **Name to load** |
|--------------------------|-------------------------|------------------|
| Spelling augmentation    | Keyboard orthography    | keyboard         |
|                          | OCR orthography         | ocr              |
|                          | Random orthography      | random           |
|                          | Orthography             | orthography      |
|                          | Combine all methods     | all              |
| Masked augmentation      | Sustitute words         | sustitute        |
|                          | Insert words            | insert           |
| Synonyms                 | Pending development     |                  |
| WordEmbeddings           | Pending development     |                  |
| GenerativeOpenSource     | Pending development     |                  |
| GenerativeOpenAI         | Pending development     |                  |
| BackTranslation          | Pending development     |                  |
| AbstractiveSummarization | Pending development     |                  |


Others models are under development (such as Synonyms, WordEmbeddings, GenerativeOpenSource, GenerativeOpenAI, BackTranslation, AbstractiveSummarization)


## Quick usage

In [1]:
from spanish_nlp import augmentation

text = "En aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos."


In [2]:
ocr = augmentation.Spelling(method="ocr", 
                            stopwords="default", 
                            aug_percent=0.3, 
                            tokenizer="default")

keyboard = augmentation.Spelling(method="keyboard", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

orthography = augmentation.Spelling(method="orthography", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

masked_sustitute = augmentation.Masked(method="sustitute", 
                                       model="dccuchile/bert-base-spanish-wwm-cased",
                                       tokenizer="default",
                                       stopwords="default",
                                       aug_percent=0.4,
                                       device="cpu",
                                       top_k=10)

masked_insert = augmentation.Masked(method="insert", 
                                    model="dccuchile/bert-base-spanish-wwm-cased",
                                    tokenizer="default",
                                    stopwords="default",
                                    aug_percent=0.4,
                                    device="cpu",
                                    top_k=10)

new_texts = [text]
new_texts.append(ocr.augment(text, num_samples=1, num_workers=1))
new_texts.append(keyboard.augment(text, num_samples=1, num_workers=1))
new_texts.append(orthography.augment(text, num_samples=1, num_workers=1))
new_texts.append(masked_sustitute.augment(text, num_samples=1))
new_texts.append(masked_insert.augment(text, num_samples=1))

for t in new_texts:
    print(t)
    print("---")

En aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.
---
['En aquel 7iempo Vo tenía Uein7e año5 y es7aEa loc0. Había perdid0 un Raí8 R3ro ha8ía qana0o un 8u3ño. Y si tenía es3 8Veño lo d3máB no imRoP7aba. Hi 7rabajar ni rezar n1 estudiar en Ia madrugada jVnt0 a 1o5 pePrQs Pománticos.']
---
['Em asuel tifmpo yo temíz veonre años g sstaba ilci. Hzbíw pegfidk jn paía perp bahía vxharo hn aueoo. Y xi rfnía ese sueño lo semás bo impirtzga. Ni tgagajad nl rwzar ni sstudiar dn la kadruraxa juhgo w lis oedros rkmánticos.']
---
['En aquel tiempo yo temía veimte años y estaba loco. Había perdido un país pero había gamado un sueño. Y si tenía ese sueño lo demás mo inportaba. Ni trabajar mi resar ni estudiar en la madrugada gunto a los perros romámticos.']
---
['En aquel caso yo tenía veinte mil y estaba loco. Había perdido un 

In [3]:
keyboard = augmentation.Spelling(method="keyboard", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

keyboard._keyboard_augment_(text, num_samples=1)

['Em aqyel foemoi yi gehía veinte wlos y estabz locl. Hzbía lerdido hb pwís perl había gabado kn eueñk. Y si reníz esr wueño lp denáx no jmpotgaba. Ni tdabajar ni reaar jk estuxiar en la mactutada junfo w lls ñsrros domántjcos.']

In [4]:
remove_punctuation = augmentation.Spelling(method="remove_punctuation",
                                    stopwords="default", 
                                    aug_percent=0.5, 
                                    tokenizer="default")

remove_punctuation.augment(text, num_samples=1, num_workers=1)

['En aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño Y si tenía ese sueño lo demás no importaba.Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.']

In [5]:
remove_accents = augmentation.Spelling(method="remove_accents",
                                       stopwords="default", 
                                       aug_percent=0.5, 
                                       tokenizer="default")

remove_accents.augment(text, num_samples=1, num_workers=1)

['En aquel tiempo yo tenia veinte años y estaba loco. Había perdido un pais pero habia ganado un sueño. Y si tenia ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.']

In [6]:
orthography = augmentation.Spelling(method="orthography", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

orthography.augment(text, num_workers=1)

['Em aquel tiempo llo temía veinte años y estaba loco. Havía perdido un país pero había ganado un sueño. Y si tenía ese sueño lo demás no inportaba. Ni travajar ni resar ni estudiar em la madrugada gunto a los perros románticos.']

In [7]:
random = augmentation.Spelling(method="random",
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

random.augment(text, num_workers=1)

['En ñquex tieLKÍ yo 3bní6 veinte años 1 esWabN loco. Habma 1eÜbidÑ un paíL Nerj hYIía gaOñÓo un sueñg. G si ten1ü xs5 8ueuo lo dimás 0o importaba. Ni trabUjar nR rezar ni VsHudiar ÚÑ lÓ 8eyrug4d1 junta Ó los TeÑros rooántico9.']

In [8]:
lowercase = augmentation.Spelling(method="lowercase",
                                    stopwords="default", 
                                    aug_percent=0.8, 
                                    tokenizer="default")

#lowercase.augment(text, num_workers=1)
lowercase._lowercase_augmentation_(text, num_samples=1)

[{'word': 'E', 'start': 224, 'end': 225},
 {'word': 'E', 'start': 0, 'end': 1},
 {'word': 'H', 'start': 224, 'end': 225},
 {'word': 'H', 'start': 52, 'end': 53},
 {'word': 'Y', 'start': 224, 'end': 225},
 {'word': 'Y', 'start': 102, 'end': 103},
 {'word': 'N', 'start': 224, 'end': 225},
 {'word': 'N', 'start': 146, 'end': 147}]

In [9]:
uppercase = augmentation.Spelling(method="uppercase",
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

u = uppercase.augment(text, num_workers=1)
print(u)

2
None


In [10]:
randomcase = augmentation.Spelling(method="randomcase",
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

randomcase.augment(text, num_workers=1)

In [11]:
all = augmentation.Spelling(method="all", 
                            stopwords="default", 
                            aug_percent=0.3, 
                            tokenizer="default")

all.augment(text, num_samples=1, num_workers=1)

['En aguel tIenpo yo 7enía veinte anos y ewtabq loco Había peddido un pais pero ha8ía yanado un su3ño. Y 8i 7enís ese sueño lo demás no Imñortaba. Ni trabajar ni rexar ni estudiar en la nadrugada junto a los perPps romántjcos.']

In [12]:
all._set_misspelled_dictionary_()
all.misspelled_dict

AttributeError: 'Spelling' object has no attribute '_set_misspelled_dictionary_'