<a href="https://colab.research.google.com/github/guiratec/Data-Augmentation-Incremento-de-Datos/blob/main/Aumento_datos_texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Data Augmentation (Incremento de Datos)**
Las técnicas de aumento de datos se utilizan para aumentar la cantidad de datos añadiendo copias ligeramente modificadas de datos ya existentes o datos sintéticos recién creados a partir de datos existentes. Actúa como un regularizador y ayuda a reducir el sobreajuste cuando se entrena un modelo de aprendizaje automático. También está estrechamente relacionado con el sobremuestreo.

Fuente: [Wikipedia](https://en.wikipedia.org/wiki/Data_augmentation)

En este cuaderno repasaremos las técnicas de aumento de datos más utilizadas, específicamente para datos de texto, y su implementación utilizando el paquete  [Text-Data-Augmentation](https://github.com/Ritvik19/Text-Data-Augmentation).

In [23]:
%%capture
!pip install sentencepiece
!pip install git+https://github.com/Ritvik19/Text-Data-Augmentation.git
#!python -m spacy download en_core_web_lg
!python -m spacy download es_core_news_lg

In [24]:
%%capture
import nltk
nltk.download('all')

## Abstractive Summarization (Abstracción de resumen)

El aumento de la síntesis abstracta utiliza modelos de transformación de última generación para resumir el texto dado. [[17]](#ref-17) [[18]](#ref-18)

In [25]:
from text_data_augmentation import AbstractiveSummarization
aug = AbstractiveSummarization()
aug(["""La Resumificación Abstractiva es una tarea del Procesamiento del Lenguaje Natural (PLN) que tiene como objetivo generar un resumen conciso de un texto fuente. A diferencia del resumen extractivo
 el resumen abstractivo no se limita a copiar las frases importantes del texto original, sino que también puede crear nuevas frases que sean relevantes, lo que puede considerarse como 
 paráfrasis. El resumen abstractivo tiene numerosas aplicaciones en diferentes ámbitos, desde los libros y la literatura hasta la ciencia y la I+D, pasando por la investigación financiera y el análisis de documentos jurídicos.
  análisis de documentos jurídicos."""])

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


  0%|          | 0/1 [00:00<?, ?it/s]

['La Resumificación Abstractiva es una tarea del Procesamiento del Lenguaje Natural (PLN) que tiene como objetivo generar un resumen conciso de un texto fuente. A diferencia del resumen extractivo\n el resumen abstractivo no se limita a copiar las frases importantes del texto original, sino que también puede crear nuevas frases que sean relevantes, lo que puede considerarse como \n paráfrasis. El resumen abstractivo tiene numerosas aplicaciones en diferentes ámbitos, desde los libros y la literatura hasta la ciencia y la I+D, pasando por la investigación financiera y el análisis de documentos jurídicos.\n  análisis de documentos jurídicos.',
 ' La Resumificación Abstractiva is una tarea del Procesamiento del Lenguaje Natural (PLN) El resumen abstractivo no se limita a copiar las frases importantes del texto original, sino que también puede crear nuevas frases that sean relevantes .']

## Back Translation (Traducción Posterior)

El aumento de la traducción inversa se basa en la traducción de datos textuales a otro idioma y su posterior traducción al idioma original. Esta técnica permite generar datos textuales de redacción distinta al texto original conservando el contexto y el significado originales.[[1]](#ref-1) [[2]](#ref-2) [[10]](#ref-10)

In [26]:
from text_data_augmentation import BackTranslation
aug = BackTranslation()
aug(['A quick brown fox jumps over the lazy dog'])

  0%|          | 0/1 [00:00<?, ?it/s]

['A quick brown fox jumps over the lazy dog',
 'A quick brown fox jumps on the lazy dog']

## Character Noise (Ruido en el Carácter)

El aumento del ruido de caracteres añade ruido a nivel de caracteres insertando, borrando, intercambiando o sustituyendo aleatoriamente algunos caracteres en el texto de entrada. [[2]](#ref-2) [[9]](#ref-9)

In [27]:
from text_data_augmentation import CharacterNoise
aug = CharacterNoise(alpha=0.2, n_aug=1)
aug(['A quick brown fox jumps over the lazy dog'])

  0%|          | 0/1 [00:00<?, ?it/s]

['A quick brown fox jumps over the lazy dog',
 'l quick b ow0ofoA jumps over the lGzy dMg']

## Contextual Word Replacement (Sustitución de Palabras por Contexto)

El Aumento Contextual de Reemplazo de Palabras crea Muestras Aumentadas sustituyendo aleatoriamente algunas palabras por una máscara y utilizando después un Modelo de Lenguaje Enmascarado para rellenarla. El muestreo de palabras también puede ponderarse utilizando valores TFIDF. [[2]](#ref-2) [[3]](#ref-3) [[11]](#ref-11) [[19]](#ref-19)

In [28]:
from text_data_augmentation import ContextualWordReplacement
aug = ContextualWordReplacement(n_aug=1)
aug(['A quick brown fox jumps over the lazy dog'])

No model was supplied, defaulted to distilroberta-base and revision ec58a5b (https://huggingface.co/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


  0%|          | 0/1 [00:00<?, ?it/s]

['A quick brown fox jumps over the lazy dog',
 'A quick brown fox jumps over his lazy dog']

## Easy Data Augmentation (Fácil Incremento de Datos)

Easy Data Augmentation añade ruido a nivel de palabra insertando, borrando o intercambiando aleatoriamente algunas palabras en el texto de entrada o barajando las frases en el texto de entrada. [[4]](#ref-4) [[5]](#ref-5) [[9]](#ref-9) [[12]](#ref-12) [[13]](#ref-13)

In [29]:
from text_data_augmentation import EasyDataAugmentation
aug = EasyDataAugmentation(n_aug=1)
aug(['A quick brown fox jumps over the lazy dog'])

  0%|          | 0/1 [00:00<?, ?it/s]

['A quick brown fox jumps over the lazy dog',
 'A quick brown fox jumps over the lazy dog']

## KeyBoard Noise (Ruido del teclado)

El Aumento del Ruido del Teclado añade ruido de errores ortográficos a nivel de caracteres imitando los errores tipográficos cometidos con un teclado qwerty en el texto de entrada. [[2]](#ref-2) [[9]](#ref-9)

In [30]:
from text_data_augmentation import KeyBoardNoise
aug = KeyBoardNoise(alpha=0.1, n_aug=1)
aug(['A quick brown fox jumps over the lazy dog'])

  0%|          | 0/1 [00:00<?, ?it/s]

['A quick brown fox jumps over the lazy dog',
 'A qhic< brown fox jumps over the lazy dog']

## OCR Noise (Ruido OCR)

El aumento del ruido del OCR añade ruido de errores ortográficos a nivel de caracteres imitando los errores del OCR en el texto de entrada. [[6]](#ref-6)

In [31]:
from text_data_augmentation import OCRNoise
aug = OCRNoise(alpha=0.1, n_aug=1)
aug(['A quick brown fox jumps over the lazy dog'])

  0%|          | 0/1 [00:00<?, ?it/s]

['A quick brown fox jumps over the lazy dog',
 'A gu1ck brown foy jumps over the la2y doq']

## Paraphrase (Parafraseo)

El aumento de la paráfrasis reformula las frases de entrada utilizando modelos T5. [[2]](#ref-2)

In [32]:
from text_data_augmentation import Paraphrase
aug = Paraphrase("hetpandya/t5-small-tapaco", n_aug=1)
aug(['A quick brown fox jumps over the lazy dog'])

  0%|          | 0/1 [00:00<?, ?it/s]

['A quick brown fox jumps over the lazy dog',
 'Quick brown fox inwards over the lazy dog.']

## Similar Word Replacement (Sustitución de palabras similares)

El aumento de la sustitución de palabras similares crea muestras aumentadas sustituyendo aleatoriamente algunas palabras por una palabra que tenga el vector más similar a ella. El muestreo de palabras puede ponderarse utilizando también los valores TFIDF. [[2]](#ref-2) [[7]](#ref-7) [[15]](#ref-15) [[16]](#ref-16) [[19]](#ref-19)

In [33]:
from text_data_augmentation import SimilarWordReplacement
aug = SimilarWordReplacement("en_core_web_lg",  alpha=0.2, n_aug=1)
aug(['A quick brown fox jumps over the lazy dog'])

  0%|          | 0/1 [00:00<?, ?it/s]

['A quick brown fox jumps over the lazy dog',
 'A quick brown fox jumps over DESERTED lazy dog']

## Synonym Replacement (Sustitución de sinónimos)

El aumento por sustitución de sinónimos crea muestras aumentadas sustituyendo aleatoriamente algunas palabras por sus sinónimos a partir de la base de datos de la red de palabras. El muestreo de palabras puede ponderarse utilizando también los valores TFIDF. [[2]](#ref-2) [[4]](#ref-4) [[8]](#ref-8) [[13]](#ref-13) [[19]](#ref-19)

In [34]:
from text_data_augmentation import SynonymReplacement
aug = SynonymReplacement(alpha=0.2, n_aug=1)
aug(['A quick brown fox jumps over the lazy dog'])

  0%|          | 0/1 [00:00<?, ?it/s]

['A quick brown fox jumps over the lazy dog',
 'A quick brown fox jumps over the lazy dog']

## Word Split (División de palabras)

El aumento de la división de palabras añade ruido de error ortográfico a nivel de palabra dividiendo las palabras al azar en el texto de entrada. [[2]](#ref-2) [[14]](#ref-14)

In [35]:
from text_data_augmentation import WordSplit
aug = WordSplit(alpha=0.15, n_aug=1)
aug(['A quick brown fox jumps over the lazy dog'])

  0%|          | 0/1 [00:00<?, ?it/s]

['A quick brown fox jumps over the lazy dog',
 'A qui ck brown fox ju mps over the lazy dog']

# References

1. <a href="https://arxiv.org/pdf/2106.04681.pdf" id="ref-1">Data Expansion Using Back Translation and Paraphrasing for Hate Speech Detection</a>
2. <a href="https://arxiv.org/ftp/arxiv/papers/2107/2107.03158.pdf" id="ref-2">A Survey on Data Augmentation for Text Classification</a>
3. <a href="https://arxiv.org/pdf/1805.06201.pdf" id="ref-3">Contextual Augmentation: Data Augmentation by Words with Paradigmatic Relations</a>
4. <a href="https://arxiv.org/pdf/1901.11196.pdf" id="ref-4">EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks</a>
5. <a href="https://aclanthology.org/2020.coling-main.343.pdf" id="ref-5">An Analysis of Simple Data Augmentation for Named Entity Recognition</a>
6. <a href="https://zenodo.org/record/3245169/files/JCDL2019_Deep_Analysis.pdf" id="ref-6">Deep Statistical Analysis of OCR Errors for Effective Post-OCR Processing</a>
7. <a href="https://www.researchgate.net/publication/331784439_A_Study_of_Various_Text_Augmentation_Techniques_for_Relation_Classification_in_Free_Text" id="ref-7">A Study of Various Text Augmentation Techniques for Relation Classification in Free Text</a>
8. <a href="http://ceur-ws.org/Vol-2268/paper11.pdf" id="ref-8">Text Augmentation for Neural Networks</a>
9. <a href="https://arxiv.org/pdf/1711.02173.pdf" id="ref-9">Synthetic And Natural Noise Both Break Neural Machine Translation</a>
10. <a href="https://arxiv.org/pdf/1511.06709.pdf" id="ref-10">Improving Neural Machine Translation Models with Monolingual Data</a>
11. <a href="https://arxiv.org/pdf/2003.02245.pdf" id="ref-11">Data Augmentation Using Pre-trained Transformer Models</a>
12. <a href="https://arxiv.org/pdf/1903.09460.pdf" id="ref-12">Data Augmentation via Dependency Tree Morphing for Low-Resource Languages</a>
13. <a href="https://arxiv.org/pdf/1809.02079.pdf" id="ref-13">Adversarial Over-Sensitivity and Over-Stability Strategies for Dialogue Models</a>
14. <a href="https://arxiv.org/pdf/1812.05271v1.pdf" id="ref-14">TextBugger: Generating Adversarial Text Against Real-world Applications</a>
15. <a href="https://arxiv.org/pdf/1804.07998.pdf" id="ref-15">Generating Natural Language Adversarial Examples</a>
16. <a href="https://arxiv.org/pdf/1509.01626.pdf" id="ref-16">Character-level Convolutional Networks for Text Classification</a>
17. <a href="https://arxiv.org/pdf/1812.02303.pdf" id="ref-17">Neural Abstractive Text Summarization with Sequence-to-Sequence Models</a>
18. <a href="https://arxiv.org/pdf/1910.13461v1.pdf" id="ref-18">BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension</a>
19. <a href="https://arxiv.org/pdf/1904.12848.pdf" id="ref-19">Unsupervised Data Augmentation for Consistency Training</a>
20. <a href="https://arxiv.org/pdf/2007.02033.pdf" id="ref-20">Text Data Augmentation: Towards better detection of spear-phishing emails</a>
