# Spanish NLP: Data Augmentation Notebook

For more information visit [spanish_nlp](https://github.com/jorgeortizfuentes/spanish_nlp) repository on GitHub.

## Available models

| **Models**               | **Methods**             | **Name to load**  |
|--------------------------|-------------------------|-------------------|
| Spelling augmentation    | Keyboard spelling       | keyboard          |
|                          | OCR spelling            | ocr               |
|                          | Random spelling         | random            |
|                          | Grapheme spelling       | grapheme_spelling |
|                          | Word spelling           | word_spelling     |
|                          | Remove punctuation      | remove_punctuation|
|                          | Remove accents          | remove_accents    |
|                          | Lowercase               | lowercase         |
|                          | Uppercase               | uppercase         |
|                          | Randomcase              | randomcase        |
|                          | Combine all methods     | all               | 
| Masked augmentation      | Sustitute words         | sustitute         |
|                          | Insert words            | insert            |
| Synonyms                 | Pending development     |                   |
| WordEmbeddings           | Pending development     |                   |
| GenerativeOpenSource     | Pending development     |                   |
| GenerativeOpenAI         | Pending development     |                   |
| BackTranslation          | Pending development     |                   |
| AbstractiveSummarization | Pending development     |                   |


Others models are under development (such as Synonyms, WordEmbeddings, GenerativeOpenSource, GenerativeOpenAI, BackTranslation, AbstractiveSummarization)


## Quick usage

In [14]:
from spanish_nlp import augmentation

text = "En aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos."


In [26]:
from spanish_nlp import augmentation

ocr = augmentation.Spelling(method="ocr", 
                            stopwords="default", 
                            aug_percent=0.3, 
                            tokenizer="default")

grapheme_spelling = augmentation.Spelling(method="grapheme_spelling", 
                                          stopwords="default", 
                                          aug_percent=0.3, 
                                          tokenizer="default")

masked_sustitute = augmentation.Masked(method="sustitute", 
                                       model="dccuchile/bert-base-spanish-wwm-cased",
                                       tokenizer="default",
                                       stopwords="default",
                                       aug_percent=0.4,
                                       device="cpu",
                                       top_k=10)


new_texts = [text]
new_texts.append(ocr.augment(text, num_samples=1, num_workers=1))
new_texts.append(grapheme_spelling.augment(text, num_samples=1, num_workers=1))
new_texts.append(masked_sustitute.augment(text, num_samples=1))

for t in new_texts:
    print(t)
    print("---")

En aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.
---
['En a9uel tiempo yo tenía veint3 años y e8ta8a 1oco. Había Rerd1dQ un RaíB pePQ había ganado Vn su3ño. Y si tenía es3 BVeno lo 0emáB n0 iWRQPtaEa. N1 trabajar ni rezar ni 3s7ud1ar en la maOrVga0a junto a 1os p3rPo8 Pománt1Go5.']
---
['Em akel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero  abía janado um sueño. Y si temía ese sueño lo demás no importava. Ni trabajar ni rezar ni estudiar em la nadrugada junto a los perros románticos.']
---
['En aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño. Y si tenía mi sueño lo demás no importaba. ni trabajar ni rezar ni estudiar en la madrugada junto a los clubes románticos.']
---


In [15]:
keyboard = augmentation.Spelling(method="keyboard", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

keyboard.augment(text, num_samples=1)

['En aquel tiempo yo tebía vrimte años u esgaba llcl. Hanía legwido un país pero había bahado un sueño. Y zi tenía eae sueño lo srmás jk jjporgava. Ni tgabajqr ni dsxsr jl eqthdiar en lz msdfjgada nubti a los ñrrros glmájticls.']

In [16]:
ocr = augmentation.Spelling(method="ocr", 
                            stopwords="default", 
                            aug_percent=0.3, 
                            tokenizer="default")

ocr.augment(text, num_samples=1)

['En aqueI 7iemRo Vo tenía v3inte años y 3staba loGo. Había Rerdido Vn país perQ había ganaOQ un sueño. Y si 7enía 3se sueñ0 1o d3más no iWRQr7aEa. Ni trabajaP ni rezar ni 3s7u0iaP en la madrVgada Lunto a lo8 RePros rQWántlG0s.']

In [17]:
random = augmentation.Spelling(method="random",
                                    stopwords="default", 
                                    aug_percent=0.05, 
                                    tokenizer="default")

random.augment(text, num_samples=1)

['En aquel tiemyo yo tenía veinte años 5 estaba loco. Había perdido un país pero había ganado un sueño. Y si thn5a ese sueño lo demás no importaba. Ni tPabajar ni rezar ni Astudiar en la madru9aóa junto a los perros románticos.']

In [18]:
grapheme_spelling = augmentation.Spelling(method="grapheme_spelling", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

grapheme_spelling.augment(text, num_samples=1)

['En aquel tiempo yo tenía veinte años y estava loco. Había perdido un país pero  avía ganado un sueño. Y si tenía ese sueño lo denás mo inportaba. Ni travajar ni resar mi estudiar en la madrugada junto a los perros románticos.']

In [19]:
word_spelling = augmentation.Spelling(method="word_spelling", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

text2 = "por favor, no creo que haya nada mas importante que la libertad de expresion"
word_spelling.augment(text2, num_samples=1)

2


['por favor, no creo q haya nada mas importante q la libertad de expresion']

In [20]:
remove_punctuation = augmentation.Spelling(method="remove_punctuation",
                                    stopwords="default", 
                                    aug_percent=0.5, 
                                    tokenizer="default")

remove_punctuation.augment(text, num_samples=1)

['En aquel tiempo yo tenía veinte años y estaba loco Había perdido un país pero había ganado un sueño Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.']

In [21]:
remove_accents = augmentation.Spelling(method="remove_accents",
                                       stopwords="default", 
                                       aug_percent=0.5, 
                                       tokenizer="default")

remove_accents.augment(text, num_samples=1)

['En aquel tiempo yo tenia veinte años y estaba loco. Había perdido un pais pero habia ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros romanticos.']

In [22]:
lowercase = augmentation.Spelling(method="lowercase",
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

lowercase.augment(text, num_samples=1)


['En aquel tiempo yo tenía veinte años y estaba loco. había perdido un país pero había ganado un sueño. y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.']

In [23]:
uppercase = augmentation.Spelling(method="uppercase",
                                    stopwords="default", 
                                    aug_percent=0.1, 
                                    tokenizer="default")

uppercase.augment(text, num_samples=1)

['EN aquel tiempo YO tenía veinte años y estaba loco. HABÍA perdido un país PERO había ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.']

In [24]:
randomcase = augmentation.Spelling(method="randomcase",
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

randomcase.augment(text, num_samples=1)

['en aquel tiempo yo tenía VEINTE años Y estaba loco. había PERDIDO un país pero había GANADO un sueño. y si TENÍA ese sueño LO DEMÁS no importaba. ni trabajar NI REZAR ni estudiar en la madrugada junto a los perros románticos.']

In [25]:
all = augmentation.Spelling(method="all", 
                            stopwords="default", 
                            aug_percent=0.1, 
                            tokenizer="default")

all.augment(text, num_samples=1)

['en aquel tiempo yo tenía veinte años y estxba loco. había perdido un país pero había ganado un sueño y si tenia ese sueño lo demás no importxba. ni trabajar ni rezar ni estudiar en la madrugada jumto a los perrés románticos.']