<a href="https://colab.research.google.com/github/isegura/OCW-UC3M-NLPDeep-2023/blob/main/tema6_2_nlpaug.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center>
<img src="https://upload.wikimedia.org/wikipedia/commons/4/47/Acronimo_y_nombre_uc3m.png" width=50%/>

<h1><font color='#12007a'>Procesamiento de Lenguaje Natural con Aprendizaje Profundo</font></h1>
<p>Autora: Isabel Segura Bedmar</p>

<img align='right' src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" width=15%/>
</center>   

#6.2 Librería NLPAug para data augmentation.

En un ejercicio anterior, practicamos con la librería textaugmenter para la generación de textos.

En este ejercicio, estudiaremos una nueva librería, **NLPAug** (https://github.com/makcedward/nlpaug), que proporciona una implementación eficiente de las principales técnicas de data augmentation (DA).

En particular, NLPAug ofrece tres tipos de aumento:
- a nivel de carácter.
- a nivel de palabra.
- a nivel de oración.

En cada uno de estos niveles, NLPAug proporciona todas las técnicas habituales de DA:

- eliminación aleatoria,
- inserción aleatoria,
- alteración del orden,
- sustitución de sinónimos.


## Instalar la librería

In [1]:
!pip install -q nlpaug


[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/410.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m112.6/410.5 kB[0m [31m3.2 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m409.6/410.5 kB[0m [31m6.4 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m410.5/410.5 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
[?25h

## Generación de textos con cambios a nivel de caracter (Character Augmenter)

La generación de textos sintéticos a nivel de carácter está basada en las técnicas de reconocimiento de texto en imágenes (en particular, en los errores más comunes a la hora de confundir carácteres por su grafía similar) y también en los asistentes conversacionales (en particular, en sus errores tipográficos)*texto en cursiva*.




###  Optical character recognition (OCR)

Durante el reconocimiento de texto de la imagen, necesitamos un modelo de reconocimiento óptico de caracteres (OCR) para lograrlo, pero OCR introduce algunos errores, como reconocer "o" y "0". La librería NLPAug proporciona la clase **OCRAug** simula estos errores para realizar el aumento de datos.

VAmos a ver un ejemplo:

In [4]:
import nlpaug.augmenter.char as nac
text = 'El Europarlamento insta a prohibir el cobro por el equipaje de mano, pero aún lo seguirás pagando.'

aug = nac.OcrAug()
augmented_texts = aug.augment(text, n=3)

print("Texto original:")
print(text)
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text)

Texto original:
El Europarlamento insta a prohibir el cobro por el equipaje de mano, pero aún lo seguirás pagando.

Textos generados:
El Europarlamento insta a prohibir e1 cobro por el equipaje de mano, peku aún 10 seguirás pagando.
El Europarlamento insta a pkohi6ik el cobro p0k el equipaje de manu, pero aún 10 seguirás pa9and0.
El Bukupar1amentu insta a pr0hi6ik e1 cobro puk el equipaje de mano, pero aún lo seguirás pa9andu.


Podemos ver en la salida de la celda anterior, que el método **augment** clase **OcrAug**, permite generar nuevos textos modificando aleatoriamente alguno de los carácteres de la oración.
Por ejemplo, los carácteres que se suelen cambiar tienen una grafía similar (están basados en los errores más comúnes en OCR). Por ejemplo:
- b -> 6.
- E -> B.
- o -> 0 (y 0->o)
- o -> u (también 0-> u)
- g -> 9
- r -> k



### Keyboard Augmenter
Aunque los asistentes conversacionesl incluye correctores ortográficos, los errores suelen ser frecuentes.

La clase **KeyboardAug** trata de simular este tipo de errores, en concreto, lo que va a hacer es sustituir un carácter por otro próximo en el teclado.

Vamos a aplicar dicha clase sobre la oración anterior:

In [8]:
aug = nac.KeyboardAug()
augmented_texts = aug.augment(text, n=3)
print("Texto original:")
print(text)
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text)

Texto original:
El Europarlamento insta a prohibir el cobro por el equipaje de mano, pero aún lo seguirás pagando.

Textos generados:
El WuroLa5laJentL insta a prohibir el cob#9 por el eAu7laje de mano, p3r) aún lo eWguieás 0zganWo.
El EKGopsFlamen$o insta a (rohigKr el coVrl por el equl)ajD de HaMo, pero aún lo serHitás pagando.
El Europarlamento 7nsfa a proM&bor el vobrp por el #qu7pxje de Hsno, pero aún lo s#gu9ráa pagando.


Vemos que el método **augment** de la clase **KeyboardAug** ha generado nuevos textos modificando carácters que están próximos en el teclado (y son los errores típicos en los asistentes conversacionales). Por ejemplo, algunas transformaciones son:
- E -> W
- u -> K
- r -> G
- 7 -> i
Todas estos pares de letras aparecen muy próximos en el teclado.



### Inserción aleatoria
Otra técnica implementada es la inserción de carácteres  de forma aleatoria. La clase **RandomCharAug** permite esta insercción aleatoria de carácteres en un texto:


In [14]:
aug = nac.RandomCharAug(action="insert")
augmented_texts = aug.augment(text, n=3)

print("Texto original:")
print(text, len(text))
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text, len(new_text))

Texto original:
El Europarlamento insta a prohibir el cobro por el equipaje de mano, pero aún lo seguirás pagando. 98

Textos generados:
El EnurPoCpharlaVmento insta a prohibir el ncobXro por el eqkuAipaWje de zmqano, Ip+ero aún lo seguirás wpagaxnd$o. 115
El jEuropar9l3aPmeynto insta a preoheiLbir el codbKro por el equipaje de m7akno, peOrzo aún lo seBgu^irZás pagando. 115
El EurIopa4rolamenYtco #itnsta a Mp_rohibCir el )cobJro por el equipaje de mano, p^ezro aún lo seguirás spagFagndo. 115


Podemos ver que se insertan carácteres aleatorio en posiciones aleatorias. Los textos nuevos tienen una longitud mayor (número de carácteres) que el texto original.

### Reemplazo aleatoria
La misma clase **RandomCharAug**, además de insertar carácteres, también permite reemplazar un carácter por otro. El carácter y su reemplazo se selecciona de forma aleatoria.

In [16]:
aug = nac.RandomCharAug(action="substitute")
augmented_texts = aug.augment(text, n=3)


print("Texto original:")
print(text, len(text))
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text, len(new_text))

Texto original:
El Europarlamento insta a prohibir el cobro por el equipaje de mano, pero aún lo seguirás pagando. 98

Textos generados:
El Europarlamento ins6Z a prohtbYN el c+brJ por el equipaje de mav&, 0eDo aún lo seauirkE pagando. 98
El Euro2aZ+aUenIo insta a proCiOi) el cobro por el equipaje de mam7, 6e8o aún lo shGuiráV pavan@O. 98
El hufoNarJamenGo CnsGa a 1rYgibir el c%bto por el equipaje de mCn*, pero aún lo segKirxo pagando. 98


Vemos que los textos generados siguen teniendo la misma longitud. No se han insertado nuevos carácteres, sino que se han seleccionado algunos y han sido reemplazados por otros, de forma aleatoria.
El texto original y los nuevos textos tienen la misma longitud.

###Intercambio aleatoria

La misma clase también permite intercambiar carácteres en un texto, de forma aleatoria. Los carácteres son seleccionados de forma aleatoria.

In [15]:
aug = nac.RandomCharAug(action="swap")
augmented_texts = aug.augment(text, n=3)

print("Texto original:")
print(text, len(text))
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text, len(new_text))

Texto original:
El Europarlamento insta a prohibir el cobro por el equipaje de mano, pero aún lo seguirás pagando.

Textos generados:
El Europarlamento nitsa a rpoibhir el cobro por el eqiupaje de mano, pero aún lo esugirsá agpanod.
El Europarlamento inast a proihrbi el cboor por el equipaje de mano, epor aún lo seguirás pgaadon.
El Reuopraalmetno insta a porihibr el ocrbo por el qeuipeaj de mano, epor aún lo seguirsá pagando.



El texto original y los nuevos textos tienen la misma longitud.

### Borrado aleatorio
Por último, la última técnica a nivel de carácter, sería el borrado aleatorio de carácters en el texto original:

In [17]:
aug = nac.RandomCharAug(action="delete")
augmented_texts = aug.augment(text, n=3)

print("Texto original:")
print(text, len(text))
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text, len(new_text))

Texto original:
El Europarlamento insta a prohibir el cobro por el equipaje de mano, pero aún lo seguirás pagando. 98

Textos generados:
El urarlamen sta a rohbi el cobro por el euipj de ao, pero aún lo seguirás paan. 80
El uropameto nst a poiir el cobro por el equipaje de no, eo aún lo seguirás aano. 81
El Europarlamento ins a phbir el cbr por el equia de mano, pero aún lo sguir pgao. 82



El texto original tiene una longitud mayor que los nuevos textos tienen la misma longitud.

## Generación de textos con cambios a nivel de palabra (Word Augmenter)

Los principales aumentos a nivel de palabra son:
- intercambio de palabras
- borrado de palabras

El problema de este tipo de técnicas es que los textos generadosgeneradas suelen perder su corrección sintáctica y su coherencia semántica.  

In [19]:
import nlpaug.augmenter.word as naw


### Intercambio de palabras

In [22]:
aug = naw.RandomWordAug(action="swap")
augmented_texts = aug.augment(text, n=3)

print("Texto original:")
print(text, len(text.split()))
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text, len(new_text.split()))

Texto original:
El Europarlamento insta a prohibir el cobro por el equipaje de mano, pero aún lo seguirás pagando. 17

Textos generados:
El Europarlamento a insta el prohibir cobro por el mano equipaje de, pero aún seguirás lo. pagando 17
El Europarlamento a prohibir insta el cobro por el equipaje mano de, pero aún lo pagando seguirás. 17
El Europarlamento insta a prohibir el cobro por el mano equipaje de pero, lo aún seguirás pagando. 17


Podemos ver que los nuevos textos tienen el mismo número de tokens que el texto original.


### Borrado de palabras

In [23]:
# borrado de palabras
aug = naw.RandomWordAug()
augmented_texts = aug.augment(text, n=3)

print("Texto original:")
print(text, len(text.split()))
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text, len(new_text.split()))

Texto original:
El Europarlamento insta a prohibir el cobro por el equipaje de mano, pero aún lo seguirás pagando. 17

Textos generados:
El Europarlamento a prohibir el equipaje mano, aún lo seguirás pagando. 11
El insta prohibir cobro por el equipaje de, aún lo seguirás. 11
El Europarlamento insta a prohibir el de mano, pero lo pagando. 11


Podemos ver que los nuevos textos tienen un número menor de tokens que el texto original.

#### Borrado de n-gramas
También es posible eliminar n-gramas (n palabras consecutivas):


In [24]:
# se elimina una n-grama de palabras
aug = naw.RandomWordAug(action='crop')
augmented_texts = aug.augment(text, n=3)

print("Texto original:")
print(text, len(text.split()))
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text, len(new_text.split()))

Texto original:
El Europarlamento insta a prohibir el cobro por el equipaje de mano, pero aún lo seguirás pagando. 17

Textos generados:
El Europarlamento el equipaje de mano, pero aún lo seguirás pagando. 11
El Europarlamento el equipaje de mano, pero aún lo seguirás pagando. 11
Europarlamento el cobro por el equipaje de mano, pero aún lo seguirás pagando 13


### Sustitución de sinónimos

Otra técnica que se implementa en la librería es la sustitución de palabras por sinónimos. En general, esta técnica debería producir nuevos textos sintácticamente correctos y que mantienen su coherencia semántica.
La clase **SynonymAug** implementa estos cambios.

#### WordNet

La clase puede utilizar WordNet (https://wordnet.princeton.edu/) como fuente para elegir el sinónimo. WordNet es uno de los recursos léxicos (diccionarios) más populares y de mayor tamaño en la comunidad PLN.
Wordnet contiene información sobre nombres, verbos, adjetivos y adverbios. WordNet está organizador en synsets (conjuntos de palabras con el mismo significado).

Esta vez vamos a utilizar un texto escrito en inglés:


In [38]:
aug = naw.SynonymAug(aug_src='wordnet')
text = 'The key opens all the locks in the house'
augmented_texts = aug.augment(text, n=3)

print("Texto original:")
print(text)
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text)

Texto original:
The key opens all the locks in the house

Textos generados:
The key give all the locks in the sign
The cardinal opens totally the locks in the theater
The key opens wholly the locks in the household


Podemos ver que algunos textos generados mantienen el significado del texto original, pero con  errores sintácticos.

#### Word Embeddings



La técnica más utilizada y eficaz es la sustitución de sinónimos basada en modelos de word embeddings. Esta técnica consigue nuevos textos con el mismo significado pero pero con diferentes palabras.

Es posible utilizar tanto modelos no contextuales (generados con Glove, word2vec, etc.) o modelos contextuales (como Bert, Roberta, etc.).

Primero vamos a usar un modelo de word embeddings no contextualizado, en concreto, el modelo **GoogleNews-vectors-negative300.bin**.

La siguiente celda permite descargarlo (será almacenado en el directorio actual donde se está ejecutando este notebook). Este proceso puede tardar unos minutos...

In [32]:
!pip install wget
!wget https://figshare.com/ndownloader/files/10798046 -O GoogleNews-vectors-negative300.bin

Collecting wget
  Downloading wget-3.2.zip (10 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: wget
  Building wheel for wget (setup.py) ... [?25l[?25hdone
  Created wheel for wget: filename=wget-3.2-py3-none-any.whl size=9655 sha256=68f5beb7c1e512aa23e7b3a402a4e821e52b7b6bf3f1227328c2699340931c20
  Stored in directory: /root/.cache/pip/wheels/8b/f1/7f/5c94f0a7a505ca1c81cd1d9208ae2064675d97582078e6c769
Successfully built wget
Installing collected packages: wget
Successfully installed wget-3.2
--2023-10-04 18:52:52--  https://figshare.com/ndownloader/files/10798046
Resolving figshare.com (figshare.com)... 52.49.59.79, 52.31.154.4, 2a05:d018:1f4:d000:74e3:9f5a:4aed:5f8, ...
Connecting to figshare.com (figshare.com)|52.49.59.79|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://s3-eu-west-1.amazonaws.com/pfigshare-u-files/10798046/GoogleNewsvectorsnegative300.bin?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-C

In [42]:
# model_type: word2vec, glove or fasttext
aug = naw.WordEmbsAug(
    model_type='word2vec', model_path='GoogleNews-vectors-negative300.bin',
    action="substitute")

text = 'The key opens all the locks in the house'

augmented_texts = aug.augment(text, n=3)

print("Texto original:")
print(text)
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text)

Texto original:
The key opens all the locks in the house

Textos generados:
The key convenes all the locks in with bedsit
The ticker_symbol_ECPG opens all the UPVC_doors in the houses
The key postpones all the locks in same storey_detached


Ahora vamos a utilizar un modelo como BERT o RoBERTa. En estos modelos,  significados distintos de palabras tienen vectores distintos. Por ejemplo, la palabra key (llave) y la palabra (key) (clave) tendrán vectores distintos.

Es necesario instalar la librería **transformers** para poder cargar alguno de estos modelos.


In [43]:
!pip install -q  transformers

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.7/7.7 MB[0m [31m42.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m295.0/295.0 kB[0m [31m20.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.8/3.8 MB[0m [31m70.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m51.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m268.8/268.8 kB[0m [31m21.9 MB/s[0m eta [36m0:00:00[0m
[?25h

Vamos a utilizar el modelo BERT base en su versión uncased:

In [45]:

aug = naw.ContextualWordEmbsAug(model_path='bert-base-uncased', action="substitute")
augmented_texts = aug.augment(text, n=3)

print("Texto original:")
print(text)
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text)

Texto original:
The key opens all the locks in the house

Textos generados:
a key opened all the locks to the house
the car opens all 42 doors in the house
the key opens any possible locks to the house


### Reemplazo por antónimos


In [51]:
aug = naw.AntonymAug()
text = 'A Good Life offers a very different perspective'
augmented_texts = aug.augment(text, n=3)

print("Texto original:")
print(text)
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text)

Texto original:
A Good Life offers a very different perspective

Textos generados:
A Bad Life offers a very like perspective
A Evil Life offers a very same perspective
A Evil Life offers a very same perspective


## Generación de textos con cambios a nivel de oración (Sentence Augmentation)

En estas técnicas los cambios se realizan a nivel de oración. Por ejemplo, podemos insertar nuevas oraciones dentro de un texto.


Por ejemplo, podemos insertar nuevas oraciones utiizando modelos contextualizados como GPT2 o XLNet.

In [58]:
import nlpaug.augmenter.sentence as nas

aug = nas.ContextualWordEmbsForSentenceAug(model_path='gpt2')
text = 'A Good Life offers a very different perspective'
augmented_texts = aug.augment(text, n=3)

print("Texto original:")
print(text)
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text)

Texto original:
A Good Life offers a very different perspective

Textos generados:
A Good Life offers a very different perspective ' " , _ - ' or of : or ( , - ( 1 's ' for the .
A Good Life offers a very different perspective is ) 's 's ; ( - in : and , 1 a by are ( to is " ) : : : and 's .
A Good Life offers a very different perspective , - .


In [59]:
aug = nas.ContextualWordEmbsForSentenceAug(model_path='distilgpt2')
text = 'A Good Life offers a very different perspective'
augmented_texts = aug.augment(text, n=3)

print("Texto original:")
print(text)
print()
print("Textos generados:")
for new_text in augmented_texts:
    print(new_text)

Texto original:
A Good Life offers a very different perspective

Textos generados:
A Good Life offers a very different perspective I We B G I , The A J This " The .
A Good Life offers a very different perspective P It F The the The It - , We In The G The It M the It The P In I S The A A C S I In
A Good Life offers a very different perspective M A You .


La verdad es que los resultados no son muy alentadores...



También es posible utilizar técnicas de generación automática de resúmenes como técnica de data augmentation.

In [60]:
article = """
The history of natural language processing (NLP) generally started in the 1950s, although work can be
found from earlier periods. In 1950, Alan Turing published an article titled "Computing Machinery and
Intelligence" which proposed what is now called the Turing test as a criterion of intelligence.
The Georgetown experiment in 1954 involved fully automatic translation of more than sixty Russian
sentences into English. The authors claimed that within three or five years, machine translation would
be a solved problem. However, real progress was much slower, and after the ALPAC report in 1966,
which found that ten-year-long research had failed to fulfill the expectations, funding for machine
translation was dramatically reduced. Little further research in machine translation was conducted
until the late 1980s when the first statistical machine translation systems were developed.
"""

aug = nas.AbstSummAug(model_path='t5-base')
augmented_text = aug.augment(article)
print("Original:")
print(article)
print("Augmented Text:")
print(augmented_text)

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.21k [00:00<?, ?B/s]

Downloading (…)ve/main/spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.39M [00:00<?, ?B/s]

For now, this behavior is kept to avoid breaking backwards compatibility when padding/encoding with `truncation is True`.
- Be aware that you SHOULD NOT rely on t5-base automatically truncating your input to 512 when padding/encoding.
- If you want to encode/pad to sequences longer than 512 you can either instantiate this tokenizer with `model_max_length` or pass `max_length` when encoding/padding.


Downloading model.safetensors:   0%|          | 0.00/892M [00:00<?, ?B/s]

Downloading (…)neration_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

Original:

The history of natural language processing (NLP) generally started in the 1950s, although work can be 
found from earlier periods. In 1950, Alan Turing published an article titled "Computing Machinery and 
Intelligence" which proposed what is now called the Turing test as a criterion of intelligence. 
The Georgetown experiment in 1954 involved fully automatic translation of more than sixty Russian 
sentences into English. The authors claimed that within three or five years, machine translation would
be a solved problem. However, real progress was much slower, and after the ALPAC report in 1966, 
which found that ten-year-long research had failed to fulfill the expectations, funding for machine 
translation was dramatically reduced. Little further research in machine translation was conducted 
until the late 1980s when the first statistical machine translation systems were developed.

Augmented Text:
['the history of natural language processing (NLP) generally started in the 

Cuando apliques técnicas de DA, recuerde la siguiente:

- El conjunto de validación no debe contener datos sintéticos (tampoco el conjunto test claro!).

- Si está realizando una validación cruzada de K-fold, mantener en el mismo fold, el ejemplo original y los sintéticos creados a partir de él. De esta forma, se evitará el overfitting.

- Prueba siempre diferentes métodos y comprueba cuál funciona mejor. Una combinación de distintas operaciones puede funcionar, pero no te excedas.

- Estas técnicas no siempre ayudan a mejorar los resultados en NLP.

- Intenta determinar qué cantidad de ejemplos sintéticos te permite obtener los mejores resultados.

- De la técnicas estudiadas en este ejercicio, parece que las realizadas a nivel de palabra y basadas en substitución de sinónimos parecen generar textos que preservan el significado del texto original.

- Todas las técnicas parecen introducir errores sintácticos .