# Text Data Augmentation

Às vezes, o aprendizado de máquina (ML) se depara com um problema em que os dados de treinamento têm tamanho limitado e com menos dados, o modelo de ML falha em capturar variação suficiente. Para tornar nosso modelo generalizado bem em dados novos ou invisíveis, precisamos ter mais dados. Para atenuar esse problema, podemos obter ajuda de __Data Augmentation__.

![](dandelion.jpg)

### O que é Data Augmentation?

Data augmentation (aumento de dados) significa simplesmente aumentar o número de pontos de dados. Por exemplo, na visão computacional, geramos mais imagens a partir das imagens já fornecidas, com a ajuda de vários métodos, como rotação de imagem, alteração das condições de iluminação, corte de imagem etc.

### Por que usar augment em dados textuais?

A maioria dos problemas da NLP é resolvida aplicando um modelo de machine learning ou deep learning nos dados de texto pré-processados. Portanto, faz sentido aumentar e gerar mais dados de texto. Uma solução poderia ser a de coletar mais dados, mas isso teria um custo que pode ser em termos de dinheiro, esforço humano e tempo fora do curso consumido no processo. Portanto, __data augmentation de texto__ é uma alternativa melhor nesses casos.

Neste notebook, usaremos as três abordagens a seguir para criar dados de texto aumentados (augmentation):

1. Tire as palavras aleatoriamente
2. Concatenar POS tags para texto
3. Substitua as entidades nomeadas por suas categorias

In [1]:
import re
import spacy # uma das utilizações usando spacy é data augmentation
import random

Será usado o modelo para português do spaCy neste notebook.

#### Para baixar o módulo para português
- Colocar na linha de comando dentro do environment
    - python -m spacy download pt_core_news_sm

In [2]:
nlp = spacy.load("pt_core_news_sm")

Trabalharemos com o texto de exemplo a seguir ao longo deste exercício.

In [3]:
sample_text = "Eu visitei este lugar no dia dos namorados à noite. Tivemos que esperar cerca de 15 minutos para conseguir uma mesa aqui. Utilizamos esse tempo para tirar fotos;) Este lugar tinha uma vibração muito fria com música alta ao fundo. A transmissão ao vivo de uma partida de críquete também estava acontecendo. Foi um pouco difícil manter uma conversa com alguém."

In [4]:
doc = nlp(sample_text)

### 1. Tirar as palavras aleatoriamente

Nesta abordagem, tentaremos gerar várias versões do texto de amostra, omitindo algumas palavras aleatoriamente do texto. Por exemplo, considere esta frase "Aumentar pequenos conjuntos de dados é importante e desafiador". Suas versões aumentadas seriam como ...

* Aumentar conjuntos de dados é um desafio importante
* Aumentar pequenos conjuntos de dados importantes e
* pequeno é importante e desafiador

Portanto, a ideia é bastante simples, mas bastante eficaz. Seguiremos os passos abaixo:

1. Tokenize o texto de amostra
2. Encontre o número de tokens
3. Defina a porcentagem de palavras a serem mantidas
4. Omita aleatoriamente as palavras para gerar novos dados de texto

Soa interessante? Vamos começar.

In [5]:
# tokenização
tokens = []
for token in doc:
    tokens.append(token.text)
    
# encontrar o nro de tokens
l = len(tokens)

# nro de tokens recuperados
random_tokens_count = round(0.8*l)

Geraremos 5 versões de texto aumentado. Sinta-se à vontade para gerar quantas versões desejar, alterando o valor de ___n___.

In [7]:
# lista para armazenar augmentation sobre o texto
augmented_texts = []

# nro de versões
n = 5

for i in range(n):
    # randomicamente gerar índices de tokens
    new_tokens_index = random.sample(range(l), random_tokens_count)
    new_tokens_index.sort()
    
    # gerar augmentation na lista de tokens
    new_tokens = [tokens[t] for t in new_tokens_index]
    
    # criar augmentation
    augmented_texts.append(' '.join(new_tokens))

Verificar o texto após o aumento.

In [8]:
for i in augmented_texts:
    print(i + '\n')

visitei este lugar no dia dos namorados à . Tivemos que esperar cerca 15 para conseguir uma aqui . Utilizamos esse tempo tirar fotos ) Este lugar tinha uma vibração muito fria com música alta a o fundo . A transmissão a de uma partida de críquete estava acontecendo Foi um pouco uma com alguém .

Eu este lugar no dos namorados à noite Tivemos que esperar cerca de 15 minutos para conseguir uma mesa aqui Utilizamos esse para tirar ) tinha uma vibração muito fria com música alta o fundo A a o vivo de partida de críquete também estava acontecendo . Foi um pouco difícil manter uma com alguém .

Eu visitei este lugar dia dos namorados à noite Tivemos que esperar cerca de 15 minutos para conseguir uma mesa aqui . esse tempo tirar ; Este tinha uma vibração fria com música alta a o fundo . transmissão a vivo uma partida de críquete também estava um pouco difícil manter uma conversa com alguém .

Eu este no dia dos namorados à . Tivemos que de minutos para conseguir uma mesa aqui . Utilizamos ess

---
### 2. Concatenar POS tags para texto

As POS tags definem o papel das palavras em uma frase com base no contexto. Observe o exemplo abaixo:

* Ela escreve rádio e televisão <span style = "color: green"> __ toca__ </span>.
* Ele <span style = "color: blue"> __ joga__ </span> futebol no parque.

A palavra "brinca" na primeira frase é um substantivo e na segunda frase é um verbo. No entanto, nosso sistema a trataria da mesma forma. Portanto, a marcação POS dessas palavras é útil. Concatenaremos as POS tags nas palavras do texto e aumentá-las-emos com a ajuda da biblioteca spaCy.

In [9]:
# tokenizar
tokens_pos = []
for token in doc:
    tokens_pos.append(token.text+"_"+token.pos_)

In [10]:
print(tokens_pos)

['Eu_PRON', 'visitei_VERB', 'este_DET', 'lugar_NOUN', 'no_DET', 'dia_NOUN', 'dos_VERB', 'namorados_NOUN', 'à_ADP', 'noite_NOUN', '._PUNCT', 'Tivemos_VERB', 'que_SCONJ', 'esperar_VERB', 'cerca_ADV', 'de_ADP', '15_NUM', 'minutos_SYM', 'para_ADP', 'conseguir_VERB', 'uma_DET', 'mesa_NOUN', 'aqui_ADV', '._PUNCT', 'Utilizamos_VERB', 'esse_DET', 'tempo_NOUN', 'para_ADP', 'tirar_VERB', 'fotos_NOUN', ';_PUNCT', ')_PUNCT', 'Este_DET', 'lugar_NOUN', 'tinha_VERB', 'uma_DET', 'vibração_NOUN', 'muito_ADV', 'fria_ADJ', 'com_ADP', 'música_NOUN', 'alta_ADJ', 'a_ADP', 'o_DET', 'fundo_NOUN', '._PUNCT', 'A_DET', 'transmissão_NOUN', 'a_ADP', 'o_DET', 'vivo_NOUN', 'de_ADP', 'uma_DET', 'partida_NOUN', 'de_ADP', 'críquete_PROPN', 'também_ADV', 'estava_AUX', 'acontecendo_VERB', '._PUNCT', 'Foi_VERB', 'um_DET', 'pouco_DET', 'difícil_ADJ', 'manter_VERB', 'uma_DET', 'conversa_NOUN', 'com_ADP', 'alguém_PRON', '._PUNCT']


In [11]:
print(" ".join(tokens_pos))

Eu_PRON visitei_VERB este_DET lugar_NOUN no_DET dia_NOUN dos_VERB namorados_NOUN à_ADP noite_NOUN ._PUNCT Tivemos_VERB que_SCONJ esperar_VERB cerca_ADV de_ADP 15_NUM minutos_SYM para_ADP conseguir_VERB uma_DET mesa_NOUN aqui_ADV ._PUNCT Utilizamos_VERB esse_DET tempo_NOUN para_ADP tirar_VERB fotos_NOUN ;_PUNCT )_PUNCT Este_DET lugar_NOUN tinha_VERB uma_DET vibração_NOUN muito_ADV fria_ADJ com_ADP música_NOUN alta_ADJ a_ADP o_DET fundo_NOUN ._PUNCT A_DET transmissão_NOUN a_ADP o_DET vivo_NOUN de_ADP uma_DET partida_NOUN de_ADP críquete_PROPN também_ADV estava_AUX acontecendo_VERB ._PUNCT Foi_VERB um_DET pouco_DET difícil_ADJ manter_VERB uma_DET conversa_NOUN com_ADP alguém_PRON ._PUNCT


---
### 3. Substituir entidades nomeadas por suas categorias

Agora veremos como podemos usar o reconhecimento de entidade nomeada para aumentar nossos dados de texto. Nesta técnica, substituiremos as entidades nomeadas por suas respectivas categorias mais amplas.

Por exemplo, na frase <span style = "color: green"> "A Apple está pensando em comprar uma startup no Brasil." </span>, a entidade __Apple__ é uma organização e __Brasil__ é uma entidade geopolítica. Substituiremos ambas as entidades pelas tags ORG e GPE, respectivamente. Portanto, a frase aumentada seria ...

<span style = "color: magenta"> "__ ORG__ está pensando em comprar uma startup __GPE__." </span>

Esse tipo de aumento é adequado para as tarefas em que não estamos muito preocupados com o nome das entidades. Vamos experimentá-lo nos dados da amostra.

In [13]:
aug_text = augmented_texts #sample_text
for ent in doc.ents:
    aug_text = re.sub(ent.text, ent.label_, aug_text)
    
print(aug_text)

['visitei este lugar no dia dos namorados à . Tivemos que esperar cerca 15 para conseguir uma aqui . Utilizamos esse tempo tirar fotos ) Este lugar tinha uma vibração muito fria com música alta a o fundo . A transmissão a de uma partida de críquete estava acontecendo Foi um pouco uma com alguém .', 'Eu este lugar no dos namorados à noite Tivemos que esperar cerca de 15 minutos para conseguir uma mesa aqui Utilizamos esse para tirar ) tinha uma vibração muito fria com música alta o fundo A a o vivo de partida de críquete também estava acontecendo . Foi um pouco difícil manter uma com alguém .', 'Eu visitei este lugar dia dos namorados à noite Tivemos que esperar cerca de 15 minutos para conseguir uma mesa aqui . esse tempo tirar ; Este tinha uma vibração fria com música alta a o fundo . transmissão a vivo uma partida de críquete também estava um pouco difícil manter uma conversa com alguém .', 'Eu este no dia dos namorados à . Tivemos que de minutos para conseguir uma mesa aqui . Utiliz

## Desafio

Tente as técnicas mencionadas acima para aumentar os dados usando os textos da tarefa de Text Mining ou em qualquer outro de sua preferência.