<center>
<img src="https://upload.wikimedia.org/wikipedia/commons/4/47/Acronimo_y_nombre_uc3m.png"/>

<img src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" width=15%/>
</center> 

# Easy Data Augmentation (EDA): textaugment package

Easy Data Augmentation (EDA) utiliza operaciones muy básicas para generar nuevos datos sintéticos. Están descritas en el siguiente artículo: 

Wei, J., & Zou, K. (2019). **Eda: Easy data augmentation techniques for boosting performance on text classification tasks**. EMNLP 2019. https://aclanthology.org/D19-1670.pdf


 Sus operaciones han sido implementadas en el paquete de Python: **textaugment**, que proporciona 4 operaciones muy sencillas para generar nuevos datos que permitan entrenar modelos más robustos y evitar el overfitting. 

La librería se puede obtener en el siguiente repositorio: https://github.com/dsfsi/'textaugment#eda-easy-data-augmentation-techniques-for-boosting-performance-on-text-classification-tasks



El primer paso es instalar la librería:

In [None]:
! pip install textaugment

## Sustitución de sinónimos
En esta operación se eligen aleatoriamente n palabras de la oración (que no sean palabras de parada). Cada una de estas palabras son reemplazadas con uno de sus sinónimos, también elegidos al azar. 
Por ejemplo, data la siguiente oración: 

- *'This article will focus on summarizing data augmentation techniques in NLP.'* 

podría ser transformada en la siguiente: can be trasnformed to 

- *'This **write-up** will focus on summarizing data augmentation **methods** in NLP.'* 

donde dos palabras, **article** y **tecniques** fueron seleccionadas aleatoriamente y son reemplazadas por sus sinónimos **write-up** y **methods**, respectivamente. 

Para obtener los sinónimos, la librería **textaugment** utiliza otras librerías como **nltk** para obtener las palabras vacías. Además, **nltk** utiliza **WordNet**, un diccionario de inglés, o **OMW**, una versión multilingüe de WordNet, para obtener sinónimos. 

Por tanto, vamos a necesitar también instalar esta librería y descargar esos paquetes:

In [2]:
import nltk
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')



[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

Ahora vamos a utilizar la librería **textaugment** para generar nuevas oraciones utilizando el método de **synonym_replacement**:

In [7]:
from textaugment import EDA
t = EDA()

texts = ["John is going to town", 
         "Samantha took the bus.", 
         "There is no play with fire.", 
         "Stop talking and open your book.",
         "All nations and English regions produce their own local news programmes and other current affairs and sport programmes.",
         "This article will focus on summarizing data augmentation techniques in NLP."]

for text in texts:
    new_text = t.synonym_replacement(text)
    print('original text: ', text)
    print('new text: ', new_text)
    print()

original text:  John is going to town
new text:  John is going to townspeople

original text:  Samantha took the bus.
new text:  Samantha bring the bus.

original text:  There is no play with fire.
new text:  There is no encounter with fire.

original text:  Stop talking and open your book.
new text:  Stop blab and open your book.

original text:  All nations and English regions produce their own local news programmes and other current affairs and sport programmes.
new text:  All nations and english people regions produce their own local news programmes and other current affairs and sport programmes.

original text:  This article will focus on summarizing data augmentation techniques in NLP.
new text:  This clause will focus on summarizing data augmentation techniques in NLP.



## Inserción aleatoria. 

La segunda operación selecciona una palabra (que no sea stopword) de forma aleatoria, e inserta un sinónimo de dicha palabra en una posición aleatoria en la oración. Este proceso se realiza n veces.

Para el ejemplo anterior:
- *'This article will focus on summarizing data augmentation techniques in NLP.'* 

esta operación toma dos palabras al azar (**artículo** y **técnicas**), obtiene sus sinónimos y los inserta en una posición aleatoria en la oración:

- *This article will focus on **write-up** summarizing data augmentation techniques in NLP **methods**.**

Date cuenta que las palabras originales no son reemplazadas.


## Intercambio aleatorio

La tercera operación elige aleatoriamente dos palabras en la oración e intercambia sus posiciones. Este proceso se puede hacer n veces.

Para el ejemplo anterior:
- *This article will focus on summarizing data augmentation techniques in NLP.*

Esta operación toma dos palabras aleatorias (artículo y técnicas) y las intercambia, generando la siguiente oración:

- *This **techniques** will focus on summarizing data augmentation **article** in NLP.*




## Random Deletion
La última operación elimina aleatoriamente una palabra de la oración. Esta operación se puede ejecutar varias veces. Por ejemplo, dada la oración

- *This article will focus on summarizing data augmentation techniques in NLP.*

El método selecciona n palabras (digamos dos), por ejemplo, **voluntad** y **técnicas**, y las elimina de la oración.

- *This article focus on summarizing data augmentation in NLP.*




Vamos a probar las operaciones: 

In [8]:
texts = [
         "Samantha took the bus.", 
         "There is no play with fire.", 
         "Stop talking and open your book.",
         "I want to be a computer engineer."]
for text in texts:
    new_text = t.synonym_replacement(text)
    print('original text: ', text)
    print('synonym replacement: ', new_text)

    new_text = t.random_insertion(text)
    print('random_insertion: ', new_text)
    
    new_text = t.random_swap(text)
    print('random_swap: ', new_text)
    
    new_text = t.random_deletion(text, p=0.2)
    print('random_deletion: ', new_text)

    print()

original text:  Samantha took the bus.
synonym replacement:  Samantha withdraw the bus.
random_insertion:  Samantha took the train bus.
random_swap:  Samantha the took bus.
random_deletion:  Samantha took the bus.

original text:  There is no play with fire.
synonym replacement:  There is no take on with fire.
random_insertion:  There on that point is no play with fire.
random_swap:  There is fire. play with no
random_deletion:  is no play with fire.

original text:  Stop talking and open your book.
synonym replacement:  Stop spill the beans and open your book.
random_insertion:  Stop talking and blockade open your book.
random_swap:  Stop book. and open your talking
random_deletion:  Stop talking open your book.

original text:  I want to be a computer engineer.
synonym replacement:  I privation to be a computer engineer.
random_insertion:  I want to be a computer atomic number  engineer.
random_swap:  I a to be want computer engineer.
random_deletion:  I want to be a computer enginee