# Spanish NLP: Data Augmentation Notebook

For more information visit [spanish_nlp](https://github.com/jorgeortizfuentes/spanish_nlp) repository on GitHub.

## Available models

| **Models**               | **Methods**             | **Name to load**  |
|--------------------------|-------------------------|-------------------|
| Spelling augmentation    | Keyboard spelling       | keyboard          |
|                          | OCR spelling            | ocr               |
|                          | Random spelling         | random            |
|                          | Grapheme spelling       | grapheme_spelling |
|                          | Word spelling           | word_spelling     |
|                          | Remove punctuation      | remove_punctuation|
|                          | Remove spaces           | remove_spaces     |
|                          | Remove accents          | remove_accents    |
|                          | Lowercase               | lowercase         |
|                          | Uppercase               | uppercase         |
|                          | Randomcase              | randomcase        |
|                          | Combine all methods     | all               | 
| Masked augmentation      | Sustitute words         | sustitute         |
|                          | Insert words            | insert            |
| Synonyms                 | Pending development     |                   |
| WordEmbeddings           | Pending development     |                   |
| GenerativeOpenSource     | Pending development     |                   |
| GenerativeOpenAI         | Pending development     |                   |
| BackTranslation          | Pending development     |                   |
| AbstractiveSummarization | Pending development     |                   |


Others models are under development (such as Synonyms, WordEmbeddings, GenerativeOpenSource, GenerativeOpenAI, BackTranslation, AbstractiveSummarization)


## Quick usage

In [1]:
from spanish_nlp import augmentation

text = "En aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos."

ocr = augmentation.Spelling(method="ocr", stopwords="default", aug_percent=0.3, tokenizer="default")

grapheme_spelling = augmentation.Spelling(
    method="grapheme_spelling", stopwords="default", aug_percent=0.3, tokenizer="default"
)

masked_sustitute = augmentation.Masked(
    method="sustitute",
    model="dccuchile/bert-base-spanish-wwm-cased",
    tokenizer="default",
    stopwords="default",
    aug_percent=0.4,
    device="cpu",
    top_k=10,
)


new_texts = [text]
new_texts.append(ocr.augment(text, num_samples=1, num_workers=1))
new_texts.append(grapheme_spelling.augment(text, num_samples=1, num_workers=1))
new_texts.append(masked_sustitute.augment(text, num_samples=1))

for t in new_texts:
    print(t)
    print("---")

  _C._set_default_tensor_type(t)


En aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.
---
['En aqu3l 7iempo yo tenía veinte ano5 y es7aEa loc0. Había perdIdo un RaíB p3ro había ganado un 8ueñQ. V 8i tenía 3se su3n0 lQ Oemás n0 lWportaba. Hl traEajar nl rezar nl 3studIar 3n Ia WaOPVgada LuntQ a l0s p3Pros PoWánticos.']
---
['En aquel tiempo yo tenía veinte años y estava loco. Havía perdido un país pero había jamado un sueño. Y si temía ese sueño lo denás no importava. Ni trabagar mi rezar ni estudiar en la madrugada junto a los perros románticos.']
---
['En el tiempo yo tenía veinte años y estaba soñando Había perdido un país pero habíamos ganado un trabajo Y si tenía ese sueño lo demás no importaba. Sin trabajar ni rezar ni estudiar en la academia junto con los perros románticos.']
---


In [2]:
keyboard = augmentation.Spelling(
    method="keyboard", stopwords="default", aug_percent=0.3, tokenizer="default"
)

keyboard.augment(text, num_samples=1)

['En aqusl tiempo ji rwnía vejbte qños y ewgahq pocl. Había pfddido un psís pedo havía ganasi un shrño. Y si teníq ese suelo lo demás nl imoortaba. Ni trabajag ni resae nl estudiat en ka kadgkbwra nujrl a los lerros romájtucos.']

In [3]:
ocr = augmentation.Spelling(method="ocr", stopwords="default", aug_percent=0.3, tokenizer="default")

ocr.augment(text, num_samples=1)

['En aquel 7iempo Vo tenía veinte añQB y 3staba lQco. 4a8ía perdidQ Vn país pero había ganaO0 Vn sueño. V si tenía 3Be Bueño lo d3más nQ imRortaba. Ni trabaLar n1 P3zar ni 35tud1aP en 1a ma0rVgaOa Lunto a los Rerros PomántiG0s.']

In [4]:
random = augmentation.Spelling(
    method="random", stopwords="default", aug_percent=0.05, tokenizer="default"
)

random.augment(text, num_samples=1)

['En aCuel tiemVo yo t5nía veiéte años y estaba lvco. HabJO perrido un país pero había ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni Nstudiaa en la madrugada junto a los perros románticos.']

In [5]:
grapheme_spelling = augmentation.Spelling(
    method="grapheme_spelling", stopwords="default", aug_percent=0.3, tokenizer="default"
)

grapheme_spelling.augment(text, num_samples=1)

['Em akel tiempo llo tenía veinte años y estaba loco. Había perdido un país pero havía gamado un sueño. Y si tenía ese sueño lo demás mo importaba. Ni trabagar ni rezar ni estudiar en la madrujada junto a los perros ronánticos.']

In [6]:
word_spelling = augmentation.Spelling(
    method="word_spelling", stopwords="default", aug_percent=0.3, tokenizer="default"
)

text2 = "por favor, no creo que haya nada mas importante que la libertad de expresion"
word_spelling.augment(text2, num_samples=1)

['por favor, no creo q haya nada mas importante q la libertad de expresion']

In [7]:
remove_punctuation = augmentation.Spelling(
    method="remove_punctuation", stopwords="default", aug_percent=0.5, tokenizer="default"
)

remove_punctuation.augment(text, num_samples=1)

['En aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.']

In [8]:
remove_accents = augmentation.Spelling(
    method="remove_accents", stopwords="default", aug_percent=0.5, tokenizer="default"
)

remove_accents.augment(text, num_samples=1)

['En aquel tiempo yo tenía veinte años y estaba loco. Habia perdido un país pero habia ganado un sueño. Y si tenía ese sueño lo demas no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros romanticos.']

In [9]:
lowercase = augmentation.Spelling(
    method="lowercase", stopwords="default", aug_percent=0.3, tokenizer="default"
)

lowercase.augment(text, num_samples=1)

['En aquel tiempo yo tenía veinte años y estaba loco. había perdido un país pero había ganado un sueño. Y si tenía ese sueño lo demás no importaba. ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.']

In [10]:
uppercase = augmentation.Spelling(
    method="uppercase", stopwords="default", aug_percent=0.1, tokenizer="default"
)

uppercase.augment(text, num_samples=1)

['En aquel tiempo yo tenía veinte años y estaba loco. HABÍA perdido un país PERO había ganado un sueño. Y SI tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar EN la madrugada junto a los perros románticos.']

In [11]:
randomcase = augmentation.Spelling(
    method="randomcase", stopwords="default", aug_percent=0.3, tokenizer="default"
)

randomcase.augment(text, num_samples=1)

['en aquel tiempo yo TENÍA veinte años y estaba loco. había perdido UN país pero había ganado un sueño. y SI TENÍA ese sueño LO DEMÁS no importaba. ni trabajar NI rezar NI estudiar en la MADRUGADA junto a los perros románticos.']

In [12]:
all = augmentation.Spelling(method="all", stopwords="default", aug_percent=0.1, tokenizer="default")

all.augment(text, num_samples=1)

['e']