<a href="https://colab.research.google.com/github/Jaimemorillo/ShouldIwatchThisMovie/blob/master/memoria_preprocessing_textos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Preprocesamiento

El objetivo de esta sección es el de ver que técnicas existen para tratar de reducir el vocabulario de las oraciones. Con esto conseguimos acelerar y mejorar el entrenamiento de los modelos, ya que en el input de lo que vamos a codificar ya va la información esencial y la que contiene mayor carga de significado.

Podemos encontrarnos palabras con errores ortográficos, palabras que no aportan significado, palabras con terminaciones diferentes pero el mismo valor...

Si conseguimos tratar todos estos puntos vamos a conseguir extraer las características que realmente importan de los textos.

In [None]:
!python -m spacy download es_core_news_sm

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('es_core_news_sm')


In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


In [None]:
import pandas as pd
import numpy as np
import time

import nltk
from nltk.tokenize import WordPunctTokenizer

import string
import re

from tqdm.notebook import tqdm
tqdm.pandas()

nltk.download("popular")

  from pandas import Panel


[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to /root/nltk_data...
[nltk_data]    |   Package cmudict is already up-to-date!
[nltk_data]    | Downloading package gazetteers to /root/nltk_data...
[nltk_data]    |   Package gazetteers is already up-to-date!
[nltk_data]    | Downloading package genesis to /root/nltk_data...
[nltk_data]    |   Package genesis is already up-to-date!
[nltk_data]    | Downloading package gutenberg to /root/nltk_data...
[nltk_data]    |   Package gutenberg is already up-to-date!
[nltk_data]    | Downloading package inaugural to /root/nltk_data...
[nltk_data]    |   Package inaugural is already up-to-date!
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Package movie_reviews is already up-to-date!
[nltk_data]    | Downloading package names to /root/nltk_data...
[nltk_data]    |   Package names is already up-to-date!
[nltk_data]    | Do

True

In [None]:
dataover = pd.read_csv("gdrive/My Drive/TFG/tmdb_spanish_def.csv", sep='#',encoding='utf-8', lineterminator='\n')
taste = pd.read_csv("gdrive/My Drive/TFG/tmdb_spanish_Jaime_def.csv", sep='#', encoding='utf-8')

In [None]:
taste = taste[~taste['id'].str.contains('/')]
taste['id'] = taste['id'].astype(int)

data = taste.merge(dataover[['id','title','overview','genres','crew','cast']], left_on='id', right_on='id')
data = data[~pd.isna(data.overview)]

data = data.dropna(subset=['like'])
data['like'] = data['like'].astype(int)

data = data.drop_duplicates(subset=['id'])
data.reset_index(inplace=True,drop=True)

print(len(data))

print(data.like.value_counts(dropna=False))

1054
0    550
1    504
Name: like, dtype: int64


## Correción ortográfica

Uno de los problema al que nos enfrentamos cuando hablamos de textos es al de los errores ortográficos, muchas veces escribimos rápido y nos pasamos por alto acentos, confundimos letras por tener sonidos similares, intercalamos letras de más, tenemos letras en mayúsculas y minúsculas, juntamos palabras...

Algunos de ellos como las tildes tienen una solución sencilla que además suelen ser los errores más habituales. Nuestra base de datos de partida es editable por los usuarios y es un punto necesario para ser tratado.

Vamos a ver las funciones y técnicas que nos van a ayudar a resolver este apartado:

### Normalización

Vamos a quitar todas las tildes y llevar todas las letras a minúsculas, de tal manera que no pueda haber diferencias entre la palabra con tílde o sin ella o si tiene una letra en mayus. o en minus.
Además vamos a eliminar todos los signos de puntuación.

In [None]:
example = data.overview[0]
example

'La princesa Leia, líder del movimiento rebelde que desea reinstaurar la República en la galaxia en los tiempos ominosos del Imperio, es capturada por las malévolas Fuerzas Imperiales, capitaneadas por el implacable Darth Vader, el sirviente más fiel del emperador. El intrépido Luke Skywalker, ayudado por Han Solo, capitán de la nave espacial "El Halcón Milenario", y los androides, R2D2 y C3PO, serán los encargados de luchar contra el enemigo y rescatar a la princesa para volver a instaurar la justicia en el seno de la Galaxia.'

In [None]:
def normalize(x):
  x = x.lower()
  replacements = (
      ("á", "a"),
      ("é", "e"),
      ("í", "i"),
      ("ó", "o"),
      ("ú", "u"),
      ("ñ", "n")
  )
  for a, b in replacements:
      x = x.replace(a, b)

  x = x.translate(str.maketrans('','',string.punctuation))
  x = x.translate(str.maketrans('','','ªº¡¿'))    
  return x

In [None]:
normalize(example)

'la princesa leia lider del movimiento rebelde que desea reinstaurar la republica en la galaxia en los tiempos ominosos del imperio es capturada por las malevolas fuerzas imperiales capitaneadas por el implacable darth vader el sirviente mas fiel del emperador el intrepido luke skywalker ayudado por han solo capitan de la nave espacial el halcon milenario y los androides r2d2 y c3po seran los encargados de luchar contra el enemigo y rescatar a la princesa para volver a instaurar la justicia en el seno de la galaxia'

### Spell Checker

La alternativa sería usar un corrector ortográfico o bien implementado por tí o usando una librería de las que hay disponibles.

Los correctores ortográficos funcionan comparando cada una de las palabras contra las palabras del diccionario. Se calcula la distancia de **Levenshtein** respecto a las del diccionario y se selecciona aquella que tenga una distancia menor o 0 en el caso de ser una palabra correcta que está en el diccionario.

Esto computacionalmente es muy costoso de aplicar a todas las palabras de cada sinopsis por lo tanto se descarta en nuestra aplicación. Asumimos que el porcentaje de palabras mal escritas será muy bajo. Además puedes tener una palabra mal escrita que también exista en el diccionario y no estaríamos ganando nada o encontrarte un nombre propio y que te lo sustituya.

https://github.com/barrust/pyspellchecker

https://en.wikipedia.org/wiki/Levenshtein_distance

In [None]:
%pip install pyspellchecker



In [None]:
from spellchecker import SpellChecker

spell = SpellChecker(language='es')

# find those words that may be misspelled
misspelled = spell.unknown(['Mi', 'baca', 'se', 'yama', 'Paca'])

for word in misspelled:
    # Get the one `most likely` answer
    print(spell.correction(word))

    # Get a list of `likely` options
    print(spell.candidates(word))

## StopWords (Palabras vacías)

Este es el nombre que reciben las palabras que carecen de significado, como artíículos, pronombres, preposiciones... que nos interesa filtrar antes del tratamiento de nuestras sinopsis. Son palabras que no van a aportar nada al modelo y únicamente funcionarían como ruido. No existe una lista definitiva de stopwords del español y cada problema puede tener la suya propia. En nuestro caso la nuestra la cargamos mediante un '.txt' que contiene aquellas que suelen ser consideradas palabras vacías en la mayor parte de las ocasiones y la aplicaremos la funcion de normalización vista antes.

Para sacar estas stopwords comparamos todas las palabras de nuestra frase contra las de la lista y si coincide con alguna la sacamos.

Podemos ver con un ejemplo como se nos hace practiamente indiferente en terminos de significado el leer una oración con o sin estas palabras vacías:

***La princesa Leia, líder del movimiento rebelde que desea reinstaurar la República en la galaxia en los tiempos ominosos del Imperio.***

***princesa leia lider movimiento rebelde desea reinstaurar republica galaxia tiempos ominosos imperio.***

Con esta técnica conseguimos reducir el tamaño de las sinopsis y del diccionario final en consecuencia.

https://es.wikipedia.org/wiki/Palabra_vac%C3%ADa


In [None]:
stop_words = pd.read_csv("gdrive/My Drive/TFG/stopwords-es.txt",header=None)
stop_words = stop_words[0].tolist()
stop_words = [normalize(word) for word in stop_words]

def delete_stop_words(x):
  words = x.split(' ')
  words = [word for word in words if word not in stop_words]
  x = str(' '.join(words))
  return x

In [None]:
example

'La princesa Leia, líder del movimiento rebelde que desea reinstaurar la República en la galaxia en los tiempos ominosos del Imperio, es capturada por las malévolas Fuerzas Imperiales, capitaneadas por el implacable Darth Vader, el sirviente más fiel del emperador. El intrépido Luke Skywalker, ayudado por Han Solo, capitán de la nave espacial "El Halcón Milenario", y los androides, R2D2 y C3PO, serán los encargados de luchar contra el enemigo y rescatar a la princesa para volver a instaurar la justicia en el seno de la Galaxia.'

In [None]:
delete_stop_words(normalize(example))

'princesa leia lider movimiento rebelde desea reinstaurar republica galaxia tiempos ominosos imperio capturada malevolas fuerzas imperiales capitaneadas implacable darth vader sirviente fiel emperador intrepido luke skywalker ayudado capitan nave espacial halcon milenario androides r2d2 c3po encargados luchar enemigo rescatar princesa volver instaurar justicia seno galaxia'

## Stemming

La forma en la que aparecen las palabras puede penalizar la frecuencia de estas, de tal manera que palabras de la misma familia semántica (caballo, caballería, caballos...) sean consideradas como totalmente diferentes por nuestros modelos, cuando realmente comparten significado, y acaban dotándolas de una importancia menor de la que podrían tener. Lo que tenemos que tratar es de llevar todas estas palabras a una forma única para que nuestros algoritmos les den un peso más próximo a la realidad.

La primera técnica que vamos a ver se conoce como Stemming. Esta técnica consiste en llevar una palabra a su raíz, esta raíz no tiene por qué pertenecer al diccionario, y se logra tras quitar los morfemas (prefijos y sufijos) de la palabra derivada. El resultado no es el más preciso ya que no se basa en ningún tipo de regla lingüística para quitar estos morfemas, pero en la mayoría de casos suele ser suficiente para mapear palabras de la misma familia a la misma raiz. Computacionalmente es mucho menos costoso y más simple que la alternativa que veremos a continuación, por lo tanto la técnica elegida para nuestro problema es esta, lo que nostros buscamos es velocidad en el procesado.

https://en.wikipedia.org/wiki/Stemming

Existen diferentes algoritmos para lograr el stemming, el más conocido es el algoritmo de Porter. Nosotros vamos a aplicar un stemmer implementado dentro de la librería NLTK llamado SnowballStemmer, el funcionanmiento e implementación es muy similar al de Porter pero es bastante más agresivo y preciso.

El algoritmo de Porter fue desarrolado por un informático britanico llamado Martin F. Porter en el año 1979 como parte de un proyecto mayor de recuperación de información. El idioma original es el inglés y la mayoría de la literatura y códigos los encontramos para este idioma, por lo tanto vamos a explicar la implementación del algoritmo para el inglés y no el español, para nuestra lengua habría que considerar cambios en los apartados de las condiciones de la implementación, pero a rasgos generales vamos a alcanzar a entender el algoritmo de igual manera. 

(Explicación detallada del algoritmo) https://vijinimallawaarachchi.com/2017/05/09/porter-stemming-algorithm/

(Explicación Snowball Español) https://snowballstem.org/algorithms/spanish/stemmer.html

Vamos a ver un ejemplo de como quedaría esta frase tras aplicar el stemming:

"Aquel es un **caballo** de la **caballería** militar, los otros **caballos** no"

"aquel es un **caball** de la **caball** milit , los otros **caball** no"



---


https://tartarus.org/martin/PorterStemmer/

https://www.geeksforgeeks.org/snowball-stemmer-nlp/


In [None]:
from nltk import word_tokenize
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer("spanish", ignore_stopwords=True)

def stem_sentence(sentence):
  stemmed_text = [stemmer.stem(word) for word in word_tokenize(sentence)]
  return " ".join(stemmed_text)

In [None]:
stem_sentence(delete_stop_words(normalize(example)))

'princes lei lid movimient rebeld dese reinstaur republ galaxi tiemp omin imperi captur malevol fuerz imperial capitan implac darth vad sirvient fiel emper intrep luk skywalk ayud capit nav espacial halcon milenari android r2d2 c3po encarg luch enemig rescat princes volv instaur justici sen galaxi'

In [None]:
stem_sentence("Aquel es un caballo de la caballería militar, los otros caballos no")

'aquel es un caball de la caball milit , los otros caball no'

## Lemmatization

Con esta técnica lo que logramos es llevar cada palabra a su lema, el lema es la forma básica de la palabra que encontraríamos como entrada en el diccionario (a diferencia del stemming), el lema representa a todas las demás palabras flexionadas (palabras alteradas mediante morfemas), por ejemplo, decir sería el lema de dije, pero también de diré o dijéramos. En este caso tras aplicar la técnica pasaríamos de tener tres palabras distintas en nuestro vocabulario a solo una, justo lo que queremos conseguir. Para aplicar este método necesitaríamos tener mapeadas todas las palabras con su respectivo lema y luego poder realizar esta transformación para todas las palabras de cada sinopsis, lo que requiere un tiempo de computación bastante elevado, además de que siempre van a quedar palabras residuales que no tengamos almacenada y se nos escapen. En nuestro caso hemos usado los lemmas de una librería llamada spacy que como podemos comprobar con el siguiente ejemplo no muestra resultados muy positivos, unicamente consigue llevarnos al lema 2 de las 3 palabras.

"Aquel es un **caballo** de la **caballería** militar, los otros **caballos** no"

"Aquel ser uno **caballo** de lo **caballería** militar , lo otro **caballo** no"

Lo ideal es aplicar ambos métodos para cubrir aquellos casos en los que el stemming puede fallar o aquellas palabras que no tengamos mapeadas en la lematización. Primero se aplicaría la Lemmatization y a continuación el Stemming. El resultado para el ejemplo sería este:

"aquel es un **caball** de la **caball** milit , los otros **caball** no"


https://www.datacamp.com/community/tutorials/stemming-lemmatization-python

In [None]:
import spacy

nlp = spacy.load('es_core_news_sm')

def lemmatize_sentece(sentence):  
  doc = nlp(sentence)
  return ' '.join([word.lemma_ for word in doc])

In [None]:
lemmatize_sentece("Aquel es un caballo de la caballería militar, los otros caballos no")

'Aquel ser uno caballo de lo caballería militar , lo otro caballo no'

In [None]:
lemmatize_sentece(example)

'La princesa Leia , líder del movimiento rebelde que desear reinstaurar lo República en lo galaxia en lo tiempo ominoso del Imperio , ser capturar por los malévolo Fuerzas Imperiales , capitanear por el implacable Darth Vader , el sirviente más fiel del emperador . El intrépido Luke Skywalker , ayudar por Han Solo , capitán de lo nave espacial " El Halcón Milenario " , y lo androide , R2D2 y C3PO , ser lo encargar de luchar contra el enemigo y rescatar a lo princesa parir volver a instaurar lo justicia en el seno de lo Galaxia .'

In [None]:
stem_sentence(lemmatize_sentece("Aquel es un caballo de la caballería militar, los otros caballos no"))

'aquel ser uno caball de lo caball milit , lo otro caball no'

In [None]:
stem_sentence("Aquel es un caballo de la caballería militar, los otros caballos no")

'aquel es un caball de la caball milit , los otros caball no'

## Text Augmentation

Un problema al que nos enfrentamos al entrenar redes neuronales es a la cantidad de datos de las que disponemos, estos modelos demandan una cantidad enorme de datos y suelen lograr mejores resultados cuanto mayor sea esta, muchas veces no disponemos de tantos datos de entrenamiento como nos gustaría. Es aquí donde entra en juego el data augmentation (aumento de datos) en nuestro caso al tratarse de texto se le llama "Text Augmentation". Lo que tratamos con ello es de crear textos sintéticos que se parezcan a nuestros textos iniciales y que ayuden a afianzar conocimiento a nuestros modelos. Existen multiples métodos para conseguir este aumento de textos, vamos a repasar unos cuantos y veremos cual es la mejor elección. Hay que tener en cuenta que este text augmentation únicamente ha de aplicarse al train. 

https://towardsdatascience.com/data-augmentation-in-nlp-2801a34dfc28

https://neptune.ai/blog/data-augmentation-nlp

https://towardsdatascience.com/data-augmentation-library-for-text-9661736b13ff

https://github.com/makcedward/nlpaug

### Sinónimos

Este es el método más sencillo y seguramente el más usado, básicamente consiste en reemplazar n palabras del texto que no sean stopwords por sus respectivos sinónimos. Necesitas tener un diccionario de sinónimos almacenado o usar alguna librería que disponga de la implementación. La mayor limitación de esta técnica es que no todas las palabras tienen un sinónimo. Vamos a usar una librería llamada nlpaug para tratar un ejemplo, únicamente le indicamos que nos cambie una palabra. 


---


Un niño pequeño juega con una **pelota** redonda en el parque

Un niño pequeño juega con una **balón** redonda en el parque

In [None]:
%pip install nlpaug

Collecting nlpaug
[?25l  Downloading https://files.pythonhosted.org/packages/eb/f8/b11caecdd19aa2b1b2cb46c6cbbec692abd621aad884e653e459a8546add/nlpaug-1.1.3-py3-none-any.whl (394kB)
[K     |▉                               | 10kB 16.5MB/s eta 0:00:01[K     |█▋                              | 20kB 19.7MB/s eta 0:00:01[K     |██▌                             | 30kB 12.9MB/s eta 0:00:01[K     |███▎                            | 40kB 12.2MB/s eta 0:00:01[K     |████▏                           | 51kB 10.4MB/s eta 0:00:01[K     |█████                           | 61kB 9.8MB/s eta 0:00:01[K     |█████▉                          | 71kB 9.7MB/s eta 0:00:01[K     |██████▋                         | 81kB 10.0MB/s eta 0:00:01[K     |███████▌                        | 92kB 9.6MB/s eta 0:00:01[K     |████████▎                       | 102kB 9.7MB/s eta 0:00:01[K     |█████████▏                      | 112kB 9.7MB/s eta 0:00:01[K     |██████████                      | 122kB 9.7MB/s eta

In [None]:
%pip install torch>=1.6.0 transformers>=4.0.0

In [None]:
import nlpaug.augmenter.char as nac
import nlpaug.augmenter.word as naw
import nlpaug.augmenter.sentence as nas
import nlpaug.flow as naf

from nlpaug.util import Action

In [None]:
aug = naw.SynonymAug(aug_src='wordnet', lang='spa', aug_min=5, aug_max=20, stopwords=stop_words)
augmented_text = aug.augment('Un niño pequeño juega con una pelota redonda en el parque', n=1)
print("Original:")
print('Un niño pequeño juega con una pelota redonda en el parque')
print("Augmented Text:")
print(augmented_text)

Original:
Un niño pequeño juega con una pelota redonda en el parque
Augmented Text:
Un chico pequeño juega con una balón redonda en el zona verde


In [None]:
augmented_text = aug.augment(example, n=1)
print("Original:")
print(example)
print("Augmented Text:")
print(augmented_text)

Original:
La princesa Leia, líder del movimiento rebelde que desea reinstaurar la República en la galaxia en los tiempos ominosos del Imperio, es capturada por las malévolas Fuerzas Imperiales, capitaneadas por el implacable Darth Vader, el sirviente más fiel del emperador. El intrépido Luke Skywalker, ayudado por Han Solo, capitán de la nave espacial "El Halcón Milenario", y los androides, R2D2 y C3PO, serán los encargados de luchar contra el enemigo y rescatar a la princesa para volver a instaurar la justicia en el seno de la Galaxia.
Augmented Text:
La princesa Leia, líder del movimiento rebelde que desea reinstaurar la Nación en la galaxia en los tiempos ominosos del Imperium, es capturada por las malévolas Fuerzas Imperiales, capitaneadas por el implacable Darth Vader, el sirviente más fiel del emperador. El intrépido Luke Skywalker, ayudado por Han Solo, capitán de la nave espacial " El Halcón Milenio ", y los androides, R2D2 y C3PO, serán los encargados de pelear contra el enemi

### Back translation

En esta técnica como su propio nombre indica lo fundamental es la traducción. Consiste en traduccir el texto inicial a un idioma cualquiera y volverlo a traduccir al idioma de origen. Con esto conseguimos algo similiar a el caso de los sinónimos pero nos aprovechamos de las tecnologías y APIs de traducción (Google Translate, Bing, Yandex) para dotar de mayor coherencia a estos nuevos textos. También pueden introducir variaciones en el orden de las palabras que enriquecen a nuestro modelo. El problema de este método viene de las limitaciones que imponen estas APIs y que en la mayoría de casos te hacen pasar por caja. Vamos a usar una libería llamada translators para usar estas APIs.

El texto generado a partir de nuestro ejemplo pasando por el japonés sería el siguiente:


---


Un niño pequeño juega con una pelota redonda en el parque

Niño jugando con bola redonda en el parque

https://github.com/uliontse/translators

https://arxiv.org/pdf/1511.06709.pdf

In [None]:
!pip install translators

Collecting translators
  Downloading https://files.pythonhosted.org/packages/9b/07/5725410bf78b4c7d4484a86d4ae29ffd1baefbf89cdf6bf23a953e88e29f/translators-4.7.16-py3-none-any.whl
Collecting PyExecJS>=1.5.1
  Downloading https://files.pythonhosted.org/packages/ba/8e/aedef81641c8dca6fd0fb7294de5bed9c45f3397d67fddf755c1042c2642/PyExecJS-1.5.1.tar.gz
Collecting lxml>=4.5.0
[?25l  Downloading https://files.pythonhosted.org/packages/d2/88/b25778f17e5320c1c58f8c5060fb5b037288e162bd7554c30799e9ea90db/lxml-4.6.2-cp37-cp37m-manylinux1_x86_64.whl (5.5MB)
[K     |████████████████████████████████| 5.5MB 13.3MB/s 
[?25hCollecting loguru>=0.4.1
[?25l  Downloading https://files.pythonhosted.org/packages/6d/48/0a7d5847e3de329f1d0134baf707b689700b53bd3066a5a8cfd94b3c9fc8/loguru-0.5.3-py3-none-any.whl (57kB)
[K     |████████████████████████████████| 61kB 6.5MB/s 
Building wheels for collected packages: PyExecJS
  Building wheel for PyExecJS (setup.py) ... [?25l[?25hdone
  Created wheel for PyExec

In [None]:
import translators as ts

API = 'bing'

def translator_constructor(api):
    if api == 'google':
        return ts.google
    elif api == 'bing':
        return ts.bing
    elif api == 'baidu':
        return ts.baidu
    elif api == 'sogou':
        return ts.sogou
    elif api == 'youdao':
        return ts.youdao
    elif api == 'tencent':
        return ts.tencent
    elif api == 'alibaba':
        return ts.alibaba
    elif api == 'yandex':
        return ts.yandex
    else:
        raise NotImplementedError(f'{api} translator is not realised!')

translator = translator_constructor(API)

def translate(x, lang='en'):
    try:
        return translator(x, 'es', lang)
    except:
        print('KO')
        time.sleep(60)
        return translate(x, lang='en')

def back_translate(x, lang='en'):
    try:
        return translator(x, lang, 'es')
    except:
        print('KO')
        time.sleep(60)
        return translator(x, lang, 'es')

def translate_substitution(x, lang='en'):
  t = translate(x, lang)
  b = back_translate(t, lang)
  return b

In [None]:
lang='ru'
translate_substitution('Un niño pequeño juega con una pelota redonda en el parque', lang=lang)

Original: Un niño pequeño juega con una pelota redonda en el parque




'Niño juega con bola redonda en el parque'

In [None]:
translate_substitution(example, lang=lang)

Original: La princesa Leia, líder del movimiento rebelde que desea reinstaurar la República en la galaxia en los tiempos ominosos del Imperio, es capturada por las malévolas Fuerzas Imperiales, capitaneadas por el implacable Darth Vader, el sirviente más fiel del emperador. El intrépido Luke Skywalker, ayudado por Han Solo, capitán de la nave espacial "El Halcón Milenario", y los androides, R2D2 y C3PO, serán los encargados de luchar contra el enemigo y rescatar a la princesa para volver a instaurar la justicia en el seno de la Galaxia.




'La princesa Leia, líder del movimiento rebelde, que quiere restaurar la República en la galaxia durante la época de la Omiosis del Imperio, es capturada por las fuerzas imperiales malvadas, capitaneadas por el implacable Darth Vader, el siervo más leal del emperador. El intrépido Luke Skywalker, respaldado por Han Solo, capitán de la nave espacial Halcón Milenario, y los androides, R2D2 y C3PO, serán responsables de luchar contra el enemigo y rescatar a la princesa para restaurar la justicia a la galaxia.'

### Word Embeddings

Como hemos visto en el aparatado de codificación de textos, los word embeddings mapeaban las palabras sobre un espacio geométrico, de tal manera que las palabras similares se encontraban próximas entre sí, existe una distancia entre ellas que podemos medir. Con esta nueva técnica lo que vamos a hacer es cambiar n palabras de nuestra sentencia por sus palabras más cercanas en el embedding. Lo normal en este caso es utilizar un embedding pre-entrenado dónde buscar esta palabra más cercana. Veamos un ejemplo usando la librería nlpaug.

https://towardsdatascience.com/data-augmentation-in-nlp-2801a34dfc28

---

Un niño pequeño juega con una pelota redonda en el parque

Un niño monstruoso juega con una pelota redonda en el parquizó

Como podemos ver debido a la alta cantidad de palabras con las que ha sido entrenado (no se comprueba sin son palabras bien escritas, de la lengua...) esta técnica realiza sustituciones un poco extrañas y difíciles de controlar.


In [None]:
# Embedding https://github.com/dccuchile/spanish-word-embeddings
# https://fasttext.cc/docs/en/crawl-vectors.html

model_dir = '/content/gdrive/MyDrive/TFG/'

aug = naw.WordEmbsAug(
    model_type='fasttext', model_path= model_dir + 'embeddings-m-model.vec', action="substitute", aug_p=0.2, stopwords=stop_words)

In [None]:
augmented_text = aug.augment('Un niño pequeño juega con una pelota redonda en el parque')
print("Original:")
print('Un niño pequeño juega con una pelota redonda en el parque')
print("Augmented Text:")
print(augmented_text)

Original:
Un niño pequeño juega con una pelota redonda en el parque
Augmented Text:
Un niño monstruoso juega con una pelota redonda en el parquizó


### Contextualized Word Embeddings
Para solucionar el problema de los word embbedings tracionales, que comentamos anteriormente en el apartado de encoding, han surgido una nueva arquitectura de modelos bidireccionales que son capaces de tener en cuenta el contexto de las palabras. Para el caso de text augmentation, lo que podemos hacer es dejar que estos modelos nos cambien las palabras. Dada una palabra de nuestra frase es capaz de elegir un reemplazo adecuado para ella basándose en las que tiene alrededor.
En concreto nostros vamos a dejar que BERT (uno de estos modelos bidireccionales) nos genere nuevos textos, para ello usaremos la misma librería que para los sinónimos "nlpaug".


---

Un niño pequeño juega con una pelota redonda en el parque

Un hombre pequeño juega con una pelota colorada en el parque

Nos devuelve algo con bastante más sentido que en el apartado anterior.



In [None]:
# Cased acepta mayusculas y tildes, uncased no (para el aug lo único que varía es la salida)
aug = naw.ContextualWordEmbsAug(model_path='bert-base-multilingual-uncased', action="substitute", aug_p=0.2, stopwords=stop_words)

In [None]:
augmented_text = aug.augment('Un niño pequeño juega con una pelota redonda en el parque')
print("Original:")
print('Un niño pequeño juega con una pelota redonda en el parque')
print("Augmented Text:")
print(augmented_text)

Original:
Un niño pequeño juega con una pelota redonda en el parque
Augmented Text:
un nino vivo y con una pelota redonda en el parque


### Generación de texto

Existen modelos capaz de generar texto a partir de una frase dada. Aprende el contexto de la oración y empieza a generar texto. Muchos de estos textos tienen una coherencia asombrosa. Los dos modelos más conocidos son GPT-2 y XLnet. El problema es que tienen un funcionamiento muchísimo mejor y más fiable en inglés que en español.

Nosotros los podemos usar de tal manera que dandole la introducción de una sinopsis dejar que el modelo nos la continue. Veamos un ejemplo con nlpaug.


---

Un niño pequeño juega con una pelota redonda en el parque

Un niño pequeño juega con una pelota redonda en el parque . m - el w , - k re for and ir o n S , s on - , is u ( w on all G t - , t

Como podemos ver, el texto que ha generado es totalmente aleatorio. Estos modelos son extremadamente grandes por lo que para usarlos necesitas una api externa, no puedes levantarlos en tu propia máquina.


In [None]:
# model_path: xlnet-base-cased, gpt2 or distilgpt2
aug = nas.ContextualWordEmbsForSentenceAug(model_path='xlnet-base-cased', temperature=1, top_k=None)

In [None]:
augmented_texts = aug.augment('The quick brown fox jumps over the lazy dog .')
print("Original:")
print('The quick brown fox jumps over the lazy dog .')
print("Augmented Texts:")
print(augmented_texts)

Original:
The quick brown fox jumps over the lazy dog .
Augmented Texts:
The quick brown fox jumps over the lazy dog . it lured as off it uncontrollably tells The Blue Whale about its love over this rowdy tale and happily returns back.


### Propuesta

Aplicar sustitución por sinónimos, traducción y aplicar word embedding contextual. Todos ellos de manera aleatoria.

In [110]:
class CustomTranslateAug(WordAugmenter):
    def __init__(self, name='CustomWord_Aug', aug_min=1, aug_max=10, 
                 aug_p=0.3, stopwords=None, tokenizer=None, reverse_tokenizer=None, 
                 device='cpu', verbose=0, stopwords_regex=None):
        super(CustomTranslateAug, self).__init__(
            action='substitute', name=name, aug_min=aug_min, aug_max=aug_max, 
                 aug_p=aug_p, stopwords=stopwords, tokenizer=tokenizer, reverse_tokenizer=reverse_tokenizer, 
                 device=device, verbose=0, stopwords_regex=stopwords_regex)
        
        self.model = self.get_model()

    def substitute(self, data):
        lang = 'zh'
        return translate_substitution(data, lang=lang)
    
    def get_model(self):
        return None

In [111]:
aug = CustomTranslateAug()
aug.augment('Un niño pequeño juega con una pelota redonda en el parque')

'Un niño pequeño juega a la pelota en el parque'

In [112]:
aug.augment(example)

'La princesa Leia, líder del movimiento rebelde, quería restaurar la República a la Vía Láctea durante el ominoso período del Imperio, pero fue capturada por el malvado Ejército Imperial, dirigido por Darth Vader, el siervo más fiel del emperador. El intrépido Luke Skytrot, con la ayuda de Han Solo, el capitán de la nave espacial Halcón Milenario, y los robots R2D2 y C3PO, serán responsables de luchar contra el enemigo, salvar a la princesa y restablecer la justicia en la galaxia.'

In [141]:
# En la documentación de Bert recomiendan este modelo 
# BERT-Base, Multilingual (Not recommended, use Multilingual Cased instead)

aug = naf.Sometimes([
    naw.SynonymAug(aug_src='wordnet', lang='spa', aug_p=0.5, stopwords=stop_words),                  
    CustomTranslateAug(),
    naw.ContextualWordEmbsAug(model_path='bert-base-multilingual-cased', action='substitute', aug_p=0.5, stopwords=stop_words),
    naw.ContextualWordEmbsAug(model_path='bert-base-multilingual-cased', action='insert', aug_p=0.5, stopwords=stop_words)
])

def get_k_new_texts(x, k):
  return [aug.augment(x) for i in range(0, k)]

In [None]:
data['new_overviews'] = data.overview.progress_apply(lambda x: get_k_new_texts(x, 3))

HBox(children=(FloatProgress(value=0.0, max=1054.0), HTML(value='')))