# Spanish NLP: Data Augmentation Notebook

For more information visit [spanish_nlp](https://github.com/jorgeortizfuentes/spanish_nlp) repository on GitHub.

## Available models

| **Models**               | **Methods**             | **Name to load**  |
|--------------------------|-------------------------|-------------------|
| Spelling augmentation    | Keyboard spelling       | keyboard          |
|                          | OCR spelling            | ocr               |
|                          | Random spelling         | random            |
|                          | Grapheme spelling       | grapheme_spelling |
|                          | Word spelling           | word_spelling     |
|                          | Remove punctuation      | remove_punctuation|
|                          | Remove accents          | remove_accents    |
|                          | Lowercase               | lowercase         |
|                          | Uppercase               | uppercase         |
|                          | Randomcase              | randomcase        |
|                          | Combine all methods     | all               | 
| Masked augmentation      | Sustitute words         | sustitute         |
|                          | Insert words            | insert            |
| Synonyms                 | Pending development     |                   |
| WordEmbeddings           | Pending development     |                   |
| GenerativeOpenSource     | Pending development     |                   |
| GenerativeOpenAI         | Pending development     |                   |
| BackTranslation          | Pending development     |                   |
| AbstractiveSummarization | Pending development     |                   |


Others models are under development (such as Synonyms, WordEmbeddings, GenerativeOpenSource, GenerativeOpenAI, BackTranslation, AbstractiveSummarization)


## Quick usage

In [1]:
from spanish_nlp import augmentation

text = "En aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos."


In [2]:
ocr = augmentation.Spelling(method="ocr", 
                            stopwords="default", 
                            aug_percent=0.3, 
                            tokenizer="default")

keyboard = augmentation.Spelling(method="keyboard", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

grapheme_spelling = augmentation.Spelling(method="grapheme_spelling", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

masked_sustitute = augmentation.Masked(method="sustitute", 
                                       model="dccuchile/bert-base-spanish-wwm-cased",
                                       tokenizer="default",
                                       stopwords="default",
                                       aug_percent=0.4,
                                       device="cpu",
                                       top_k=10)

masked_insert = augmentation.Masked(method="insert", 
                                    model="dccuchile/bert-base-spanish-wwm-cased",
                                    tokenizer="default",
                                    stopwords="default",
                                    aug_percent=0.4,
                                    device="cpu",
                                    top_k=10)

new_texts = [text]
new_texts.append(ocr.augment(text, num_samples=1, num_workers=1))
new_texts.append(keyboard.augment(text, num_samples=1, num_workers=1))
new_texts.append(grapheme_spelling.augment(text, num_samples=1, num_workers=1))
new_texts.append(masked_sustitute.augment(text, num_samples=1))
new_texts.append(masked_insert.augment(text, num_samples=1))

for t in new_texts:
    print(t)
    print("---")

En aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.
---
['3n aque1 ti3mRo y0 t3nía veIn7e anos y es7aEa loco. Había per0ido un Raís pero 4abía ganaOQ un 8u3ño. V sI tenía 3s3 5ueNo l0 d3más no ImportaEa. N1 trabajar ni reZar n1 3stu0Iar en ia madPVga0a jVn7o a los p3rPos rQmánticos.']
---
['En aqusñ hiemoo yo temía veintf sops y estqgq lpco. Hagíq perdido un oqíx leeo yabía ganado un sysli. Y si tebíx ewe sueño ko denáx no importabs. Ni tfabsmar ni rwzwd nl estudiae rn oz macrugada jkmto a lod perris gomántidke.']
---
['En aquel tienpo llo tenía veinte años y estaba loco. Havía perdido um país pero havía janado un sueño. Y si tenía ese sueño lo demás no inportaba. Ni trabagar ni rezar ni estudiar em la madrugada junto a los perros románticos.']
---
['En mi tiempo, tenía veinte años y estaba loco. Estaba perdido un 

In [3]:
keyboard = augmentation.Spelling(method="keyboard", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

keyboard.augment(text, num_samples=1)

['En qqufl tiempo yo twhía vwlhtr xños y edtaba loco. Había pdrdofo um país pero había gsjado ub susñl. Y su tebía ese sueño lp dfmás jk imñpftabs. Ni texbxjzr jo tezar hu ewtudiat en lq mqsruyara jknto z lls perros eománticis.']

In [4]:
ocr = augmentation.Spelling(method="ocr", 
                            stopwords="default", 
                            aug_percent=0.3, 
                            tokenizer="default")

ocr.augment(text, num_samples=1)

['3n aqu3l 71emp0 yo tenía veInte añQs V e8taEa lQGo. 4abía perdid0 un país RePo 4a8ía ganado un BVeNo. V si tenía es3 5ueno lo 03Wás no iWportaba. Ni 7rabajaP ni re2ar ni estudiaP en la Wadrugada jVnto a los p3rro5 románticos.']

In [5]:
random = augmentation.Spelling(method="random",
                                    stopwords="default", 
                                    aug_percent=0.05, 
                                    tokenizer="default")

random.augment(text, num_samples=1)

['In Bquel tiempo yo tenía veinte años y estaba loco. Había perdido uP país pero había ganado un sueCo. Y si tenía ese sueño lo demás no impor0aba. Ni traSajar ni r8zar ni estu4iar en la madrugada junto a los perros románticos.']

In [6]:
grapheme_spelling = augmentation.Spelling(method="grapheme_spelling", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

grapheme_spelling.augment(text, num_samples=1)

['En aquel tienpo llo tenía beinte años ll estaba loco. Había perdido un país pero había ganado un sueño. Y si tenía ese sueño lo demás mo importava. Ni travajar ni rezar ni estudiar em la madrugada jumto a los perros románticos.']

In [7]:
word_spelling = augmentation.Spelling(method="word_spelling", 
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

word_spelling.augment(text, num_samples=1)

[]

In [8]:
remove_punctuation = augmentation.Spelling(method="remove_punctuation",
                                    stopwords="default", 
                                    aug_percent=0.5, 
                                    tokenizer="default")

remove_punctuation.augment(text, num_samples=1)

['En aquel tiempo yo tenía veinte años y estaba loco Había perdido un país pero había ganado un sueño.Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.']

In [9]:
remove_accents = augmentation.Spelling(method="remove_accents",
                                       stopwords="default", 
                                       aug_percent=0.5, 
                                       tokenizer="default")

remove_accents.augment(text, num_samples=1)

['En aquel tiempo yo tenia veinte años y estaba loco. Habia perdido un pais pero habia ganado un sueño. Y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.']

In [10]:
lowercase = augmentation.Spelling(method="lowercase",
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

lowercase.augment(text, num_samples=1)


['en aquel tiempo yo tenía veinte años y estaba loco. Había perdido un país pero había ganado un sueño. y si tenía ese sueño lo demás no importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.']

In [11]:
uppercase = augmentation.Spelling(method="uppercase",
                                    stopwords="default", 
                                    aug_percent=0.1, 
                                    tokenizer="default")

uppercase.augment(text, num_samples=1)

['En aquel tiempo yo tenía veinte años Y estaba loco. Había PERDIDO UN país pero había ganado un sueño. Y si tenía ese sueño lo demás NO importaba. Ni trabajar ni rezar ni estudiar en la madrugada junto a los perros románticos.']

In [12]:
randomcase = augmentation.Spelling(method="randomcase",
                                    stopwords="default", 
                                    aug_percent=0.3, 
                                    tokenizer="default")

randomcase.augment(text, num_samples=1)

['en aquel tiempo yo tenía VEINTE AÑOS y estaba loco. había perdido un país pero había GANADO UN sueño. y si tenía ESE sueño lo demás no importaba. ni trabajar ni rezar ni ESTUDIAR en LA madrugada junto A LOS perros románticos.']

In [13]:
all = augmentation.Spelling(method="all", 
                            stopwords="default", 
                            aug_percent=0.1, 
                            tokenizer="default")

all.augment(text, num_samples=1)

['en aau5l tiempo yo tenia veinte años y estaba loco había perdidy un país pero había ganado un sueño. y si tonía ese sueño lo demás no imrortaba. ni trabajar ni rezar ni estudiar en la maxrugada junto a los perros románticos.']