# Ampliación de datos

En este notebook se va a aplicar la técnica de ampliación de datos a un conjunto de reseñas de Google Maps separadas en dos ficheros: uno con las reseñas que se van a considerar válidas y el otro con las inválidas. Cada línea es una reseña nueva.

### Imports

In [1]:
import pandas as pd
from deep_translator import (GoogleTranslator, MyMemoryTranslator)
import copy
import time
import random
import nltk
from nltk.corpus import wordnet
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /home/ibon/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /home/ibon/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

### Direcorio de datos

In [20]:
validReviewsPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidReviewsPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

### Pandas
Se van a pasar los datos a dataframes: uno con las valoraciones validas y otro con las negativas. Cada fila del dataframe será una reseña

In [3]:
def importFromTxtToDF(source):
    with open(source, 'r', encoding="utf-8") as file:
        #Generate a list with all the reviews
        targetList = [line.strip() for line in file]

    targetDF = pd.DataFrame(targetList, columns=['Text'])
    return targetDF

In [4]:
#Read the file with the valid reviews
validReviewsDF = importFromTxtToDF(validReviewsPath)
#Read the file with the invalid reviews
invalidReviewsDF = importFromTxtToDF(invalidReviewsPath)

Se muestran las primeras reseñas válidas

In [5]:
validReviewsDF.head()

Unnamed: 0,Text
0,"""Tiene fácil acceso para las personas con movi..."
1,"""Espero que hayan mejorais"""
2,"""La estación es antigua, aparte de tener una s..."
3,"""Bien"""
4,"""Bonito comodo"""


Se muestran las primeras reseñas inválidas

In [6]:
invalidReviewsDF.head()

Unnamed: 0,Text
0,"""He vivido 35 años en el barrio y reconozco qu..."
1,"""localización con muchos bares interesantes"""
2,"""…"""
3,"""Muy rica comida.."""
4,"""Estación del.metro"""


## Medidas de similitud
Para poder comparar frases y seleccionar las mejores para generar los mejores datasets se van a desarrollar las siguientes medidas de similitud.

### Similitud Semántica

A continuación se va a diseñar una función para calcular la similitud semántica entre pares de oraciones. Es decir, se van a calcular los embeddings de oraciones de cada par de frases y se va a usar una métrica de similitud para ver como de parecido es el significado de ambas frases.

Se va a usar una versión de SBERT, llamada MiniLM (Minimal Lenguaje Model), que utiliza una variante más pequeña. Se usa MiniLM de seis capas (L6), que logra una precisón buena con menos recursos.

Este modelo fue entrenado usando un dataset que incluye datos en varios idiomas, entre ellos el español. Consecuentemente, no hay problema al introducir frases en castellano. Es cierto, que obtiene mejores resultados para frases en inglés, ya que se entreno con más datos en este idioma.

MiniLM es un modelo específicamente entrenado para mapear frases y parrafos a un espacio vectorial de 384 dimensiones. Es decir, este modelo permite obtener un embedding de una frase directamente. Usando otros modelos esta tarea no es posible de forma directa, ya que devuelven un embedding para cada palabra del texto.

El método de similitud que se va a usar es la similitud del coseno, por lo que los valores más cercanos a uno indicarán una mayor similitud entre las frases

In [2]:
from sklearn.metrics.pairwise import cosine_similarity

#Given two texts and a model, the semantic similarity of the texts is returned
def getSemanticSimilarity(text1, text2, model):
    #Get the embeddings of the senteces
    embedding1 = model.encode(text1)
    embedding2 = model.encode(text2)

    #Get the cosine similarity of the senteces
    similarity = cosine_similarity([embedding1], [embedding2])

    return similarity[0][0]

### Similitud Léxica
Se va a diseñar una función para calcular la similitud léxica entre pares de oraciones. La similitud léxica mide el grado de coincidencia de palabras o términos entre dos frases o textos, sin tener en cuenta el significado subyacente.

Hay varias formas de realizar este cálculo: similitud del coseno basada en frecuencia de palabras, coeficiente de Jaccard,coeficiente de Dice ...

En este caso, se cree que la mejor opción es usar el coeficiente de Jaccard ya que calcula la similitud en función de la proporción de palabras comunes sobre el total de palabras únicas. Consecuentemente, esto nos permitirá detectar frases con menos coincidencias exactas en palabras.

Cuanto más cercano a uno sea el coeficiente de Jaccard más similares léxicamente serán las frases.

In [3]:
import unicodedata
import re

#Clean up the text removing punctuation, accent marks and convertin everything to lowercase
def cleanText(text):
    text = unicodedata.normalize('NFKD', text.lower()).encode('ascii', 'ignore').decode('utf-8', 'ignore')
    text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
    return text

In [4]:
def getSpanishStopWords():
    determinantes = {"el", "la", "los", "las", "un", "una", "unos", "unas", "este", "esta", "estos", "estas",
                 "ese", "esa", "esos", "esas", "aquel", "aquella", "aquellos", "aquellas", "mi", "mis",
                 "tu", "tus", "su", "sus", "nuestro", "nuestra", "nuestros", "nuestras", "vuestro", 
                 "vuestra", "vuestros", "vuestras", "primer", "primero", "primera", "segundo", "segunda"}

    preposiciones = {"a", "ante", "bajo", "cabe", "con", "contra", "de", "desde", "durante", "en", "entre", 
                 "hacia", "hasta", "mediante", "para", "por", "según", "sin", "sobre", "tras", "versus", "vía"}

    conjunciones = {"y", "e", "ni", "o", "u", "pero", "sino", "sino que", "mas", "aunque", "que", "porque", 
                "como", "cuando", "donde", "mientras", "para que", "a fin de que", "puesto que", "ya que", 
                "si", "siempre que"}
    pronombres = {
        # Pronombres personales
        "yo", "tú", "vos", "él", "ella", "nosotros", "nosotras", 
        "vosotros", "vosotras", "ellos", "ellas", "usted", "ustedes",
        "me", "te", "lo", "la", "nos", "os", "los", "las", "le", "les", "se",
    
        # Pronombres posesivos
        "mío", "mía", "míos", "mías", 
        "tuyo", "tuya", "tuyos", "tuyas", 
        "suyo", "suya", "suyos", "suyas", 
        "nuestro", "nuestra", "nuestros", "nuestras", 
        "vuestro", "vuestra", "vuestros", "vuestras",
    
        # Pronombres demostrativos
        "este", "esta", "estos", "estas", 
        "ese", "esa", "esos", "esas", 
        "aquel", "aquella", "aquellos", "aquellas",
    
        # Pronombres relativos
        "que", "cual", "cuales", "quien", "quienes", 
        "cuyo", "cuya", "cuyos", "cuyas", "donde",
    
        # Pronombres interrogativos y exclamativos
        "qué", "quién", "quiénes", "cuál", "cuáles", 
        "cuánto", "cuánta", "cuántos", "cuántas", 
        "dónde", "cómo", "cuándo",
    
        # Pronombres indefinidos
        "alguien", "algo", "nadie", "nada", "cualquiera", 
        "todos", "todas", "varios", "varias", "muchos", 
        "muchas", "pocos", "pocas", "alguno", "alguna", 
        "algunos", "algunas", "ninguno", "ninguna", 
        "uno", "una", "unos", "unas", "demás"
    }

    #Combine all the words in one set
    spanishStopWords = determinantes | preposiciones | conjunciones | pronombres

    return spanishStopWords

In [5]:
def revomeSpanishStopWords(text):
    spanishStopWords = getSpanishStopWords()

    textWithoutStopWords = [word for word in text.split() if word.lower() not in spanishStopWords]

    return " ".join(textWithoutStopWords)

In [6]:
#Jaccard similarity
def jaccardSimilarity(text1, text2):
    #Get the set of words of each text
    wordsInText1 = set(revomeSpanishStopWords(cleanText(text1)).split())
    wordsInText2 = set(revomeSpanishStopWords(cleanText(text2)).split())

    intersection = len(wordsInText1.intersection(wordsInText2)) 
    union = len(wordsInText1.union(wordsInText2))
    
    if union == 0:
        return 0

    #intersection / union
    return intersection / union

In [7]:
#Given two texts, the Jaccard similarity of those texts is returned
def getLexicalSimilarity(text1, text2):
    return jaccardSimilarity(text1, text2)

## Retrotraducción

El primer método de ampliación de datos que se va a usar va a ser la retrotraducción. Consiste en traducir el texto a un idioma distinto y luego volverlo a traducir al idioma original. 

Este proceso puede genera texto con el mismo significado que el original pero distintas palabras.

In [7]:
def BackTranslation(translatorsList, reviewsDF, targetPath):
    #Generate a data list to store the text that has to be translated
    notTranslatedList = reviewsDF['Text'].tolist()

    #Translate the text as many times as needed
    for translator in translatorsList:
        #Generate a data frame to store the text that has been translated
        translatedList = []
        for elem in notTranslatedList:
            #Translate all the reviews
            try:
                translation = translator.translate(elem)
            except Exception as e: #If the translation fails "" is written
                translation = '""'
            #If an error ocurred translate it to a ""
            if translation == None:
                translation = '""'
                
            #Save the translations in the corresponding list 
            translatedList.append(translation)

            #Wait 0.2 seconds not to collapse the server
            time.sleep(0.2)

        #Prepare to translate again if needed
        notTranslatedList = copy.deepcopy(translatedList) 
       
    #Open the file in which the translations are strored
    translationFile = open(targetPath, 'w', encoding="utf-8")
    #write all the translations
    for elem in translatedList:
        translationFile.write(elem + "\n")
    #Close the file
    translationFile.close()
    
    return pd.DataFrame(translatedList, columns=['Text'])

### Google Translator

Primero se va a traducir del castellano al ingles y luego del inglés al castellano

In [8]:
validPath = '1. Back Translation\\1. Google Translator\\ValidReviewsTranslationsEsEnEnEs.txt'
invalidPath = '1. Back Translation\\1. Google Translator\\InvalidReviewsTranslationsEsEnEnEs.txt'

firstTranslator = GoogleTranslator(source = 'es', target = 'en')
secondTranslator = GoogleTranslator(source='en', target='es')

translatorList = [firstTranslator, secondTranslator]

validSpanishReviewsGoogleEsEnEnEsDF = BackTranslation(translatorList, validReviewsDF, validPath)
invalidSpanishReviewsGoogleEsEnEnESDF = BackTranslation(translatorList, invalidReviewsDF, invalidPath)

A continuación se va a traducir del castellano al japonés y del japonés al castellano

In [9]:
validPath = '1. Back Translation\\1. Google Translator\\ValidReviewsTranslationsEsJaJaEs.txt'
invalidPath = '1. Back Translation\\1. Google Translator\\InvalidReviewsTranslationsEsJaJaEs.txt'

firstTranslator = GoogleTranslator(source = 'es', target = 'ja')
secondTranslator = GoogleTranslator(source='ja', target='es')

translatorList = [firstTranslator, secondTranslator]

validSpanishReviewsGoogleEsJaJaEsDF = BackTranslation(translatorList, validReviewsDF, validPath)
invalidSpanishReviewsGoogleEsJaJaEsDF = BackTranslation(translatorList, invalidReviewsDF, invalidPath)

Por último se va a implementar una cadena de traducciones más larga: castellano a frances, frances a japones, japones a ruso y ruso a catellano.

In [10]:
validPath = '1. Back Translation\\1. Google Translator\\ValidReviewsTranslationsEsFrFrJaJaRuRuEs.txt'
invalidPath = '1. Back Translation\\1. Google Translator\\InvalidReviewsTranslationsEsFrFrJaJaRuRuEs.txt'

firstTranslator = GoogleTranslator(source = 'es', target = 'fr')
secondTranslator = GoogleTranslator(source='fr', target='ja')
thirdTranslator = GoogleTranslator(source='ja', target='ru')
fourthTranslator = GoogleTranslator(source='ru', target='es')

translatorList = [firstTranslator, secondTranslator, thirdTranslator, fourthTranslator]

validSpanishReviewsGoogleEsFrFrJaJaRuRuEsDF = BackTranslation(translatorList, validReviewsDF, validPath)
invalidSpanishReviewsGoogleEsFrFrJaJaRuRuEsDF = BackTranslation(translatorList, invalidReviewsDF, invalidPath)

### MyMemory Translator

Se van a realizar las mismas traducciones pero usando otro traductor

Castellano -> Inglés -> Castellano

In [11]:
validPath = '1. Back Translation\\2. MyMemory Translator\\ValidReviewsTranslationsEsEnEnEs.txt'
invalidPath = '1. Back Translation\\2. MyMemory Translator\\InvalidReviewsTranslationsEsEnEnEs.txt'

firstTranslator = MyMemoryTranslator(source = 'spanish', target = 'english')
secondTranslator = MyMemoryTranslator(source='english', target='spanish')

translatorList = [firstTranslator, secondTranslator]

validSpanishReviewsMyMemoryEsEnEnEsDF = BackTranslation(translatorList, validReviewsDF, validPath)
invalidSpanishReviewsMyMemoryEsEnEnEsDF = BackTranslation(translatorList, invalidReviewsDF, invalidPath)

Castellano -> Japonés -> Castellano

In [12]:
validPath = '1. Back Translation\\2. MyMemory Translator\\ValidReviewsTranslationsEsJaJaEs.txt'
invalidPath = '1. Back Translation\\2. MyMemory Translator\\InvalidReviewsTranslationsEsJaJaEs.txt'

firstTranslator = MyMemoryTranslator(source = 'spanish', target = 'japanese')
secondTranslator = MyMemoryTranslator(source='japanese', target='spanish')

translatorList = [firstTranslator, secondTranslator]

validSpanishReviewsMyMemoryEsJaJaEsDF = BackTranslation(translatorList, validReviewsDF, validPath)
invalidSpanishReviewsMyMemoryEsJaJaEsDF = BackTranslation(translatorList, invalidReviewsDF, invalidPath)

Castellano -> Francés -> Japonés -> Ruso -> Castellano

In [13]:
validPath = '1. Back Translation\\2. MyMemory Translator\\ValidReviewsTranslationsEsFrFrJaJaRuRuEs.txt'
invalidPath = '1. Back Translation\\2. MyMemory Translator\\InvalidReviewsTranslationsEsFrFrJaJaRuRuEs.txt'

firstTranslator = MyMemoryTranslator(source = 'spanish', target = 'french')
secondTranslator = MyMemoryTranslator(source='french', target='japanese')
thirdTranslator = MyMemoryTranslator(source='japanese', target='russian')
fourthTranslator = MyMemoryTranslator(source='russian', target='spanish')

translatorList = [firstTranslator, secondTranslator, thirdTranslator, fourthTranslator]

validSpanishReviewsMyMemoryEsFrFrJaJaRuRuEsDF = BackTranslation(translatorList, validReviewsDF, validPath)
invalidSpanishReviewsMyMemoryEsFrFrJaJaRuRuEsDF = BackTranslation(translatorList, invalidReviewsDF, invalidPath)

## Análisis de la retrotraducción y selección de los datos

Dado que el código correspondiente a la traducción llevó largo rato y se dejo a la noche ejecutando, se vuelven a importar los datos a dataframes:

#### MyMemory genera errores en la traducción debido a problemas de conexión con el servidor. Consecuentemente, se procede a anilizar únicamente los datos generados por el traductor de Google

In [8]:
def importFromTxtToList(source):
    with open(source, 'r', encoding="utf-8") as file:
        #Generate a list with all the reviews
        targetList = [line.strip() for line in file]
    return targetList

Frases originales

In [8]:
validPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validOriginal = importFromTxtToList(validPath)
invalidOriginal = importFromTxtToList(invalidPath) 

Se importan las frases traducidas de: Castellano -> Inglés -> Castellano

In [9]:
validPath = '1. Back Translation/1. Google Translator/ValidReviewsTranslationsEsEnEnEs.txt'
invalidPath = '1. Back Translation/1. Google Translator/InvalidReviewsTranslationsEsEnEnEs.txt'

validEsEnEnEsTraductionList = importFromTxtToList(validPath)
invalidEsEnEnEsTraductionList = importFromTxtToList(invalidPath) 

Castellano -> Japonés -> Castellano

In [10]:
validPath = '1. Back Translation/1. Google Translator/ValidReviewsTranslationsEsJaJaEs.txt'
invalidPath = '1. Back Translation/1. Google Translator/InvalidReviewsTranslationsEsJaJaEs.txt'

validEsJaJaEsTraductionList = importFromTxtToList(validPath)
invalidEsJaJaEsTraductionList = importFromTxtToList(invalidPath)

Castellano -> Francés -> Japonés -> Ruso -> Castellano

In [11]:
validPath = '1. Back Translation/1. Google Translator/ValidReviewsTranslationsEsFrFrJaJaRuRuEs.txt'
invalidPath = '1. Back Translation/1. Google Translator/InvalidReviewsTranslationsEsFrFrJaJaRuRuEs.txt'

validEsFrFrJaJaRuRuEsList = importFromTxtToList(validPath)
invalidEsFrFrJaJaRuRuEsList = importFromTxtToList(invalidPath)

Para cada frase del conjunto de datos original (las frases con las reseñas válidas e inválidas), se va a calcular la similitud semántica (usando a un modelo basado en SBERT, conocido como MiniLM, que es más ligero y rápido consiguiendo resultados bastante certeros) y léxica con sus tres correspondientes frases generadas mediante el métodod de retrotraducción. Se van a seleccionar las frases que tengan mayor similitud semántica y menor similitud léxica y se van a guardar en un fichero para su posterior uso.

Se van a generar dos ficheros: un csv con dos elementos por fila (la frase original y la retrotraducción escogida) y el otro con solo las retrotraducciones seleccionadas.

In [10]:
from sentence_transformers import SentenceTransformer

#originalDataList: list of texts representing the original dataset
#allAugmentedDataList: list of list of texts representing the aumented data 
#(allAugmentedDataList = [augmentedDataList1, ... ,augmentedDataListN], where augmentedDataList = [augmentedData1, ..., augmentedDataM])
#pathWithOriginal: path of the csv with two columns (the original text and the best augmented text)
#pathAugmentedData: path of the file with only the augmented data (without the original text)
def processAugmentation(originalDataList, allAugmentedDataList, pathWithOriginal, pathAugmentedData):
    #Select the model for the semantic similarity
    model = SentenceTransformer('all-MiniLM-L6-v2')

    #Open the files in which the augmented data will be strored
    withOriginalFile = open(pathWithOriginal, "w", encoding="utf-8")
    augmentedDataFile = open(pathAugmentedData, "w", encoding="utf-8")

    #Write the titles of the csv
    withOriginalFile.write("OriginalText,AugmentedText,SemanticSimilarity,LexicalSimilarity\n")
    
    resul = []
    #Analize every phrase in the original data
    for i, originalText in enumerate(originalDataList):
        allAugmentedDataInfoDict = {}
        bestIdx = 1
        
        #Analize every traduction
        for j, augmentedDataList in enumerate(allAugmentedDataList):
            #Compute the similarities of the corresponding traduction
            semanticSimilarity = getSemanticSimilarity(originalText, augmentedDataList[i], model)
            lexicalSimilarity = getLexicalSimilarity(originalText, augmentedDataList[i])

            #Save the traduction and the similarities in a dictionary
            allAugmentedDataInfoDict.update({
                f"augmented{j + 1}": augmentedDataList[i],
                f"semanticSimilarity{j + 1}": semanticSimilarity,
                f"lexicalSimilarity{j + 1}": lexicalSimilarity
            })

            #Get the index of the traduction with greater semantic similarity and less lexical similarity
            bestIdx = max(bestIdx, j + 1,
                key = lambda k: (allAugmentedDataInfoDict[f"semanticSimilarity{k}"] - allAugmentedDataInfoDict[f"lexicalSimilarity{k}"])
            )

        #Select the information of the best augmentation
        info = {
            "originalText": originalText,
            "bestAugmentation": allAugmentedDataInfoDict[f"augmented{bestIdx}"],
            "bestAugmentedDataSemanticSimilarity": allAugmentedDataInfoDict[f"semanticSimilarity{bestIdx}"],
            "bestAugmentedDataLexicalSimiliratity": allAugmentedDataInfoDict[f"lexicalSimilarity{bestIdx}"]
        }
        info.update(allAugmentedDataInfoDict)

        #Save the information
        resul.append(info)

        #Write the information in the files
        withOriginalFile.write(originalText + "," + allAugmentedDataInfoDict[f"augmented{bestIdx}"] + "," + str(allAugmentedDataInfoDict[f"semanticSimilarity{bestIdx}"]) + "," + str(allAugmentedDataInfoDict[f"lexicalSimilarity{bestIdx}"]) + "\n")
        #If the text is not empty write it on  the file
        if allAugmentedDataInfoDict[f"augmented{bestIdx}"]  != '""':
            augmentedDataFile.write(allAugmentedDataInfoDict[f"augmented{bestIdx}"] + "\n")

    #Close the files
    withOriginalFile.close()
    augmentedDataFile.close()
    
    return resul

In [18]:
validWithOriginalPath = '1. Back Translation/3. Augmented Data/ValidBackTranslationWithOriginal.csv'
validAugmentedPath = '1. Back Translation/3. Augmented Data/ValidBackTranslationData.txt'
invalidWithOriginalPath = '1. Back Translation/3. Augmented Data/InvalidBackTranslationWithOriginal.csv'
invalidAugmentedPath = '1. Back Translation/3. Augmented Data/InvalidBackTranslationData.txt'

infoValid = processAugmentation(validOriginal, [validEsEnEnEsTraductionList, validEsJaJaEsTraductionList, validEsFrFrJaJaRuRuEsList], validWithOriginalPath, validAugmentedPath)
infoValidDF = pd.DataFrame(infoValid)
infoInvalid = processAugmentation(invalidOriginal, [invalidEsEnEnEsTraductionList, invalidEsJaJaEsTraductionList, invalidEsFrFrJaJaRuRuEsList], invalidWithOriginalPath, invalidAugmentedPath)
infoInvalidDF = pd.DataFrame(infoInvalid)

In [19]:
infoValidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""Tiene fácil acceso para las personas con movi...",“Es de fácil acceso para personas con discapac...,0.85463,0.45,“Tiene fácil acceso para personas con movilida...,0.978443,0.8125,“Es de fácil acceso para personas con movilida...,0.925599,0.611111,“Es de fácil acceso para personas con discapac...,0.85463,0.45
1,"""Espero que hayan mejorais""","""Espero que hayas mejorado""",0.916635,0.2,"""Espero que hayas mejorado""",0.916635,0.2,"""Espero que las cosas estén mejorando"".",0.785516,0.166667,"""Espero que la situación esté mejorando"".",0.736162,0.2
2,"""La estación es antigua, aparte de tener una s...",“Además de que esta estación es antigua y tien...,0.932238,0.393939,"“La estación es antigua, además de tener una ú...",0.883212,0.592593,“La estación es antigua e inaccesible para per...,0.932935,0.419355,“Además de que esta estación es antigua y tien...,0.932238,0.393939
3,"""Bien""","""Bien""",1.0,1.0,"""Bien""",1.0,1.0,"""bien""",1.0,1.0,"""bien""",1.0,1.0
4,"""Bonito comodo""","""Maravilloso confort""",0.415461,0.0,"""Bonito y cómodo""",0.955331,1.0,"""Maravilloso confort""",0.415461,0.0,“Muy conveniente”,0.229466,0.0


In [20]:
infoInvalidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""He vivido 35 años en el barrio y reconozco qu...",“Vivo en esta zona desde hace 35 años y recono...,0.695063,0.322581,“Llevo 35 años viviendo en el barrio y reconoz...,0.949282,0.62963,"""He vivido en esta zona durante 35 años y reco...",0.818717,0.448276,“Vivo en esta zona desde hace 35 años y recono...,0.695063,0.322581
1,"""localización con muchos bares interesantes""","""Ubicación con muchos bares interesantes""",0.793883,0.5,"""Ubicación con muchos bares interesantes""",0.793883,0.5,"""Ubicación con muchos bares interesantes""",0.793883,0.5,“Un lugar con muchos bares interesantes”,0.685196,0.5
2,"""…""","""""",0.905728,0.0,"""""",0.905728,0.0,"""...""",0.838349,0.0,"""""",0.905728,0.0
3,"""Muy rica comida..""","""Es una comida muy deliciosa"".",0.644577,0.4,"""Comida muy deliciosa..""",0.677902,0.5,"""Es una comida muy deliciosa"".",0.644577,0.4,“Comida muy sabrosa.”,0.706546,0.5
4,"""Estación del.metro""","""Estación de metro""",0.963894,0.333333,"""Estación de metro""",0.963894,0.333333,"""estación de metro""",0.963894,0.333333,"""estación de metro""",0.963894,0.333333


Como se puede ver, el método de retrotraducción genera frases con una similitud semántica muy parecida pero con gran variavilidad en la similitud léxica. Por lo tanto, se consiguen frases con distinto vocabulario pero mismo significado.

## Reemplazo por sinónimos

Este método consiste en elejir aleatoriamente n palabras del texto que no sean palabras vacías, y reemplazar cada una de estas palabras por uno de sus sinónimos elegido al azar.

Esta función, dada una palabra devuelve, si existe, un sinónimo.

In [11]:
#Swaps the word given by its synonym
def swapSynonym(word):
    #gets all synonyms from the word given
    synset = wordnet.synsets(word, lang='spa')
    if synset:
        #if the word has one or more synonym we swap it
        synset = wordnet.synsets(word, lang='spa')[0]
        synonymsList = synset.lemma_names('spa') 
        cleanList = [synonym.replace('_', ' ').strip() for synonym in synonymsList]
        #filter to make sure its a diferent word
        differentList = [s for s in cleanList if s.lower() != word.lower()]
        #choose a random synonym if the word has one
        if differentList:
            chosen = random.choice(differentList)
            return chosen
        else:
            return word
    else:
        return word

Dado un texto, cambia con un prob% de probabilidad las palabras no vacías por un sinónimo

In [12]:
def swapBySynonymLine(line, prob):
    # Split the line into individual words
    words = line.split();
    newWords = []

    #Get the spanish stop words
    spanishStopWords = getSpanishStopWords()

    #Analyze all the words in the given text
    for word in words:
        # Check if the word is not a stop word
        if word not in spanishStopWords: 
            # With prob probability, replace the word with a synonym
            if random.random() <= prob:
                newWord = swapSynonym(word)
            else: 
                newWord = word
            newWords.append(newWord)
        else:
            newWords.append(word)
    # Join the words back into a single line and return it
    return ' '.join(newWords)

Dado una lista de textos y una ruta, aplica el métododo de sustitución por sinónimos a todos los elementos de la lista y los alamacena en la ruta proporcionada.

In [13]:
#synonym replacement method
def synonymReplacement(textList, prob, targetPath):
    #Open the file
    targetFile = open(targetPath, "w", encoding = "utf-8")
    
    newList = []
    for line in textList:
        newLine = swapBySynonymLine(line, prob)
        newList.append(newLine)
        targetFile.write(newLine + "\n")

    #Close the file
    targetFile.close()
    
    return newList

In [14]:
def importFromTxtToList(source):
    with open(source, 'r', encoding="utf-8") as file:
        #Generate a list with all the reviews
        targetList = [line.strip() for line in file]
    return targetList

Se va a aplicar el método de reemplazo por sinónimos tres veces para generar tres conjuntos de datos diferentes. Además, la probabilidad de sustitución por sinónimo va a aumentar en cada conjunto de datos: inicialmente 0.25, después 0.45 y finalmente 0.65.

In [14]:
#Import the original data
validOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validOriginal = importFromTxtToList(validOriginalPath)
invalidOriginal = importFromTxtToList(invalidOriginalPath) 

#Apply the synonym replacement 3 times to both datasets
for i in range(3):
    validPath = f"3. Synonym Replacement/1. All Augmented Data/validSynonymsReviews{i + 1}.txt"
    invalidPath = f"3. Synonym Replacement/1. All Augmented Data/invalidSynonymsReviews{i + 1}.txt"

    prob = 0.25 + 2 * i / 10
    
    synonymReplacement(validOriginal, prob, validPath)
    synonymReplacement(invalidOriginal, prob, invalidPath)

## Análisis del reemplazo por sinónimos y selección de los datos

Importar los datos originales

In [12]:
validOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validOriginal = importFromTxtToList(validOriginalPath)
invalidOriginal = importFromTxtToList(invalidOriginalPath) 

Importar los tres datasets generados en el reemplazo por sinónimos

In [13]:
#import all the data 
validSynonymReplacementList = []
invalidSynonymReplacementList = []
for i in range(3):
    validPath = f"3. Synonym Replacement/1. All Augmented Data/validSynonymsReviews{i + 1}.txt"
    invalidPath = f"3. Synonym Replacement/1. All Augmented Data/invalidSynonymsReviews{i + 1}.txt"

    validSynonymReplacementList.append(importFromTxtToList(validPath))
    invalidSynonymReplacementList.append(importFromTxtToList(invalidPath))

Realizar el análisis y la selección de los datos

In [14]:
validWithOriginalPath = '3. Synonym Replacement/2. Augmented Data/ ValidSynonymReplacementWithOriginal.csv'
validAugmentedPath = '3. Synonym Replacement/2. Augmented Data/ValidSynonymReplacementData.txt'
invalidWithOriginalPath = '3. Synonym Replacement/2. Augmented Data/InvalidSynonymReplacementWithOriginal.csv'
invalidAugmentedPath = '3. Synonym Replacement/2. Augmented Data/InvalidSynonymReplacementData.txt'

infoValid = processAugmentation(validOriginal, validSynonymReplacementList, validWithOriginalPath, validAugmentedPath)
infoValidDF = pd.DataFrame(infoValid)
infoInvalid = processAugmentation(invalidOriginal, invalidSynonymReplacementList, invalidWithOriginalPath, invalidAugmentedPath)
infoInvalidDF = pd.DataFrame(infoInvalid)

In [15]:
infoValidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""Tiene fácil acceso para las personas con movi...","""Tiene fácil entrada para las personas con mov...",0.989551,0.875,"""Tiene fácil acceso para las personas con movi...",1.0,1.0,"""Tiene fácil entrada para las personas con mov...",0.989551,0.875,"""Tiene fácil acceso para las personas con movi...",0.988377,0.875
1,"""Espero que hayan mejorais""","""Espero que hayan mejorais""",1.0,1.0,"""Espero que hayan mejorais""",1.0,1.0,"""Espero que hayan mejorais""",1.0,1.0,"""Espero que hayan mejorais""",1.0,1.0
2,"""La estación es antigua, aparte de tener una s...","""La estación es antigua, a un lado de parir un...",0.805127,0.516129,"""La estación es antigua, aparte de tener una s...",0.949019,0.833333,"""La estación es antigua, a un lado de tener un...",0.952585,0.692308,"""La estación es antigua, a un lado de parir un...",0.805127,0.516129
3,"""Bien""","""Bien""",1.0,1.0,"""Bien""",1.0,1.0,"""Bien""",1.0,1.0,"""Bien""",1.0,1.0
4,"""Bonito comodo""","""Bonito comodo""",1.0,1.0,"""Bonito comodo""",1.0,1.0,"""Bonito comodo""",1.0,1.0,"""Bonito comodo""",1.0,1.0


In [16]:
infoInvalidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""He vivido 35 años en el barrio y reconozco qu...","""He vivido 35 largo tiempo en el barrio y reco...",0.920601,0.703704,"""He vivido 35 largo tiempo en el barrio y reco...",0.926218,0.769231,"""He vivido 35 largo tiempo en el barrio y reco...",0.920601,0.703704,"""He vivido 35 mucho tiempo en el barrio y reco...",0.986137,0.8
1,"""localización con muchos bares interesantes""","""localización con muchos bares interesantes""",1.0,1.0,"""localización con muchos bares interesantes""",1.0,1.0,"""localización con muchos bares interesantes""",1.0,1.0,"""localización con muchos bares interesantes""",1.0,1.0
2,"""…""","""…""",1.0,0.0,"""…""",1.0,0.0,"""…""",1.0,0.0,"""…""",1.0,0.0
3,"""Muy rica comida..""","""Muy rica comida..""",1.0,1.0,"""Muy rica comida..""",1.0,1.0,"""Muy rica comida..""",1.0,1.0,"""Muy rica comida..""",1.0,1.0
4,"""Estación del.metro""","""Estación del.metro""",1.0,1.0,"""Estación del.metro""",1.0,1.0,"""Estación del.metro""",1.0,1.0,"""Estación del.metro""",1.0,1.0


A diferencia de la retrotraducción, este método no genera variabilidad léxica. No altera el significado de la frase, pero tampoco altera las palabras que la componen. Creemos que esto se debe a la reducida capacidad de la librelia nltk para palabras en castellano.

## Inserción aleatoria

Este método consiste en encontrar un sinónimo aleatorio de una palabra aleatoria en la oración que no sea una palabra vacía e insertar ese sinónimo en una posición aleatoria de la oración.

Función para calcular el número de modificaciones (inserciones, eliminaciones, sustituciones ...) de un texto dado dependiendo de su longitud.

In [11]:
#Function to calculate the number of insertions or replacements or deletions on a given text depending on its length
def calculateModifications(text):
    return max(1, int(len(text.split()) * 0.1))

Función para añadir dobles comillas al inicio y al final del texto

In [12]:
#Add quotes to the given text
def addQuotes(text):
    return f'"{text}"'

Función para eliminar las dobles comillas del inicio y el final de un texto

In [13]:
#Remove quotes from the given text
def removeQuotes(text):
    if text.startswith('"') and text.endswith('"'):
        return text[1:-1]
    return text

Función que realiza la inserción aleatoria de un texto

In [18]:
#Function that executes the random insertion on a given text
def wordInsertion(text):
    #Split the text
    wordsList = text.split()   
    
    # Clean the line of text and remove extra spaces or special characters
    cleanTextStr = cleanText(text)
    
    # Remove Spanish stop words and split the result into words
    withoutStopWordsList = revomeSpanishStopWords(cleanTextStr).split() 
    
    # Proceed only if there are words left after removing stop words
    if withoutStopWordsList:
        # Determine the number of insertions based on line length
        for i in range(calculateModifications(text)):
            # Choose a random important word from the list without stop words
            chosen = random.choice(withoutStopWordsList)    
            # Get a synonym of the chosen word
            synonym = swapSynonym(chosen) 
            # Choose a random position to insert the synonym
            pos = random.randint(0, len(wordsList))    
            # Insert the synonym at the chosen position, removing any extra spaces
            wordsList.insert(pos, synonym.strip())   
            
    # Return the modified line with quotation marks around it
    return ' '.join(wordsList)

Función que realiza la inserción aleatoria a todos los elementos de una lista de textos

In [19]:
#Function that executes the random insertion to all the elements of a list of texts and strores it in a file
def randomInsertion(textList, targetPath):
    #Open the file
    targetFile = open(targetPath, "w", encoding = "utf-8")
    
    newList = []
    for text in textList:
        newLine = wordInsertion(text)
        newList.append(newLine)
        targetFile.write(newLine + "\n")

    #Close the file
    targetFile.close()
    
    return newList

Se va a realizar este proceso tres veces para generar más textos distintos de los que se posteriormente se elegirán los mejores.

In [17]:
#Import the original data
validOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validOriginal = importFromTxtToList(validOriginalPath)
invalidOriginal = importFromTxtToList(invalidOriginalPath) 

#Apply the synonym replacement 3 times to both datasets
for i in range(3):
    validPath = f"4. Random Insertion/1. All Augmented Data/validRandomInsertionReviews{i + 1}.txt"
    invalidPath = f"4. Random Insertion/1. All Augmented Data/invalidRandomInsertionReviews{i + 1}.txt"

    
    randomInsertion(validOriginal, validPath)
    randomInsertion(invalidOriginal, invalidPath)

## Análisis de la inserción aleatoria y selección de los datos

Importar los datos originales

In [11]:
validOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validOriginal = importFromTxtToList(validOriginalPath)
invalidOriginal = importFromTxtToList(invalidOriginalPath) 

Importar los datasets generados en la inserción aleatoria

In [12]:
#import all the data 
validRandomInsertionList = []
invalidRandomInsertionList = []
for i in range(3):
    validPath = f"4. Random Insertion/1. All Augmented Data/validRandomInsertionReviews{i + 1}.txt"
    invalidPath = f"4. Random Insertion/1. All Augmented Data/invalidRandomInsertionReviews{i + 1}.txt"

    validRandomInsertionList.append(importFromTxtToList(validPath))
    invalidRandomInsertionList.append(importFromTxtToList(invalidPath))

Realizar el análisis y la selección de los datos

In [13]:
validWithOriginalPath = '4. Random Insertion/2. Augmented Data/ ValidRandomInsertionWithOriginal.csv'
validAugmentedPath = '4. Random Insertion/2. Augmented Data/ValidRandomInsertionData.txt'
invalidWithOriginalPath = '4. Random Insertion/2. Augmented Data/InvalidRandomInsertionWithOriginal.csv'
invalidAugmentedPath = '4. Random Insertion/2. Augmented Data/InvalidRandomInsertionData.txt'

infoValid = processAugmentation(validOriginal, validRandomInsertionList, validWithOriginalPath, validAugmentedPath)
infoValidDF = pd.DataFrame(infoValid)
infoInvalid = processAugmentation(invalidOriginal, invalidRandomInsertionList, invalidWithOriginalPath, invalidAugmentedPath)
infoInvalidDF = pd.DataFrame(infoInvalid)

In [14]:
infoValidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""Tiene fácil acceso para las personas con movi...","""Tiene fácil acceso para las personas con movi...",0.993096,0.9375,"""Tiene julian fácil acceso para las personas c...",0.958814,1.0,"""Tiene fácil acceso otro para las personas con...",0.965412,1.0,"""Tiene fácil acceso para las personas con movi...",0.993096,0.9375
1,"""Espero que hayan mejorais""","""Espero que hayan mejorais"" hayan",0.98855,1.0,"espero ""Espero que hayan mejorais""",0.977621,1.0,"""Espero que hayan mejorais"" hayan",0.98855,1.0,"""Espero hayan que hayan mejorais""",0.987335,1.0
2,"""La estación es antigua, aparte de tener una s...","""La estación es antigua, aparte de tener una s...",0.986128,0.88,"""La estación es antigua, aparte de tener una s...",0.986128,0.88,"""La estación es antigua, aparte de tener una s...",0.978366,0.916667,"""La estación es antigua, aparte de tener una a...",0.968685,0.916667
3,"""Bien""","""Bien"" bien",0.956442,1.0,"""Bien"" bien",0.956442,1.0,"""Bien"" bien",0.956442,1.0,"""Bien"" bien",0.956442,1.0
4,"""Bonito comodo""","precioso ""Bonito comodo""",0.932838,0.666667,"precioso ""Bonito comodo""",0.932838,0.666667,"""Bonito comodo comodo""",0.973187,1.0,"""Bonito comodo"" comodo",0.978755,1.0


In [15]:
infoInvalidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""He vivido 35 años en el barrio y reconozco qu...","""He vivido dolor 35 años en joven el barrio y ...",0.980646,0.88,"""He vivido dolor 35 años en joven el barrio y ...",0.980646,0.88,"""He zonas joven vivido 35 años en el barrio y ...",0.946283,1.0,"""He vivido 35 años en el zonas barrio desapare...",0.967516,1.0
1,"""localización con muchos bares interesantes""","""localización con bares muchos bares interesan...",0.977484,1.0,"""localización bares con muchos bares interesan...",0.974223,1.0,"""localización con muchos bares bares interesan...",0.966685,1.0,"""localización con bares muchos bares interesan...",0.977484,1.0
2,"""…""","""…""",1.0,0.0,"""…""",1.0,0.0,"""…""",1.0,0.0,"""…""",1.0,0.0
3,"""Muy rica comida..""","""Muy rica comida.."" sustancialmente",0.935908,0.75,"""Muy rica sustancialmente comida..""",0.878053,0.75,"""Muy rica comida.."" sustancialmente",0.935908,0.75,"alimento ""Muy rica comida..""",0.92985,0.75
4,"""Estación del.metro""","""Estación estacion del.metro""",0.980573,1.0,"estacion ""Estación del.metro""",0.972385,1.0,"""Estación del.metro"" estacion",0.97864,1.0,"""Estación estacion del.metro""",0.980573,1.0


Como se puede ver, da mejores resultados que el anterior método, pero aun asi hay muy poca variación tanto en la similitud semántica como en la léxica (el mayor de los problemas)

## Intercambio aleatorio

Este método consiste en cambiar n veces dos palabras aleatoriamente en un texto.

Esta función va a coger dos índices aleatorios y distintos de una lista.

In [20]:
#Get two different indexes of a list
def getRandomIndexes(wordsList):
    
    # Generate a random index within the range of the words list
    pos1 = random.randint(0, len(wordsList) - 1)
    
    # Keep generating a new index until it is not equal to the first index
    pos2 = random.randint(0, len(wordsList) - 1)
    while pos1 == pos2:
        pos2 = random.randint(0, len(wordsList) - 1)   

    #Return both indexes
    return pos1, pos2

Esta funcion selecciona dos palabras no vacías del texto original y las intercambia. Repite este proceso tantas veces como la función alculateModifications(text) lo indique.

In [21]:
#Function that selects two non stop words of a text and swaps them. Does this alculateModifications(text) times
def wordSwap(text):
    #Remove the quotation marks
    text = removeQuotes(text)

    #Get the list of words of the text
    wordsList = text.split()
    
    #Remove the spanish stop words from the text
    withoutStopWordsTextList = revomeSpanishStopWords(text).split()
    
    # Check if there are more than one none stop words to perform swapping
    if len(withoutStopWordsTextList) > 1:
        # Loop for the number of modifications calculated for the text
        for i in range(calculateModifications(text)):
            # Get two diferent random indexes
            pos1 , pos2 = getRandomIndexes(withoutStopWordsTextList)

            #Update the indexes to match the original text
            pos1 = wordsList.index(withoutStopWordsTextList[pos1])
            pos2 = wordsList.index(withoutStopWordsTextList[pos2])
            
            # Swap the words at the two random positions
            aux = wordsList[pos1]
            wordsList[pos1] = wordsList[pos2]
            wordsList[pos2] = aux

    
    # Return the modified line with quotes added
    return addQuotes(' '.join(wordsList))

Función que realiza el intercambio aleatorio a todos los elementos de una lista de textos.

In [22]:
#Random swap
def randomSwap(textList, targetPath):
    #Open the file
    targetFile = open(targetPath, "w", encoding = "utf-8")

    newList = []
    for text in textList:
        newText = wordSwap(text)
        newList.append(newText)
        targetFile.write(newText + "\n")

    #Close the file
    targetFile.close()
    
    return newList

Se va a realizar este proceso tres veces para generar más textos distintos de los que se posteriormente se elegirán los mejores.

In [15]:
#Import the original data
validOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validOriginal = importFromTxtToList(validOriginalPath)
invalidOriginal = importFromTxtToList(invalidOriginalPath) 

#Apply the synonym replacement 3 times to both datasets
for i in range(3):
    validPath = f"5. Random Swap/1. All Augmented Data/validRandomSwapReviews{i + 1}.txt"
    invalidPath = f"5. Random Swap/1. All Augmented Data/invalidRandomSwapReviews{i + 1}.txt"

    
    randomSwap(validOriginal, validPath)
    randomSwap(invalidOriginal, invalidPath)

## Análisis del intercambio aleatorio y selección de los datos

Importar los datos originales.

In [11]:
validOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validOriginal = importFromTxtToList(validOriginalPath)
invalidOriginal = importFromTxtToList(invalidOriginalPath) 

Importar los datasets generados en el intercambio aleatorio.

In [12]:
#import all the data 
validRandomSwapList = []
invalidRandomSwapList = []
for i in range(3):
    validPath = f"5. Random Swap/1. All Augmented Data/validRandomSwapReviews{i + 1}.txt"
    invalidPath = f"5. Random Swap/1. All Augmented Data/invalidRandomSwapReviews{i + 1}.txt"

    validRandomSwapList.append(importFromTxtToList(validPath))
    invalidRandomSwapList.append(importFromTxtToList(invalidPath))

Realizar el análisis y la selección de los datos

In [13]:
validWithOriginalPath = '5. Random Swap/2. Augmented Data/ ValidRandomSwapWithOriginal.csv'
validAugmentedPath = '5. Random Swap/2. Augmented Data/ValidRandomSwapData.txt'
invalidWithOriginalPath = '5. Random Swap/2. Augmented Data/InvalidRandomSwapWithOriginal.csv'
invalidAugmentedPath = '5. Random Swap/2. Augmented Data/InvalidRandomSwapData.txt'

infoValid = processAugmentation(validOriginal, validRandomSwapList, validWithOriginalPath, validAugmentedPath)
infoValidDF = pd.DataFrame(infoValid)
infoInvalid = processAugmentation(invalidOriginal, invalidRandomSwapList, invalidWithOriginalPath, invalidAugmentedPath)
infoInvalidDF = pd.DataFrame(infoInvalid)

In [14]:
infoValidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""Tiene fácil acceso para las personas con movi...","""acceso fácil Tiene para las personas con movi...",0.99365,1.0,"""Tiene fácil acceso para las personas con movi...",0.986013,1.0,"""Tiene fácil acceso para las personas con movi...",0.98963,1.0,"""acceso fácil Tiene para las personas con movi...",0.99365,1.0
1,"""Espero que hayan mejorais""","""Espero que mejorais hayan""",0.99264,1.0,"""hayan que Espero mejorais""",0.989534,1.0,"""Espero que mejorais hayan""",0.99264,1.0,"""mejorais que hayan Espero""",0.991634,1.0
2,"""La estación es antigua, aparte de tener una s...","""La estación es antigua, aparte de tener una n...",0.995518,1.0,"""La estación es antigua, aparte de tener una n...",0.995518,1.0,"""La estación es antigua, aparte de habilitada ...",0.993437,1.0,"""La estación es antigua, pasillo de tener una ...",0.982857,1.0
3,"""Bien""","""Bien""",1.0,1.0,"""Bien""",1.0,1.0,"""Bien""",1.0,1.0,"""Bien""",1.0,1.0
4,"""Bonito comodo""","""comodo Bonito""",0.988781,1.0,"""comodo Bonito""",0.988781,1.0,"""comodo Bonito""",0.988781,1.0,"""comodo Bonito""",0.988781,1.0


In [15]:
infoInvalidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""He vivido 35 años en el barrio y reconozco qu...","""He gente 35 años en el ha y reconozco que el ...",0.986286,1.0,"""He gente 35 años en el ha y reconozco que el ...",0.986286,1.0,"""barrio vivido 35 años en el He y reconozco qu...",0.976794,1.0,"""He zonas mejoró años en el barrio y reconozco...",0.970291,1.0
1,"""localización con muchos bares interesantes""","""interesantes con muchos bares localización""",0.991607,1.0,"""interesantes con muchos bares localización""",0.991607,1.0,"""bares con muchos localización interesantes""",0.985325,1.0,"""interesantes con muchos bares localización""",0.991607,1.0
2,"""…""","""…""",1.0,0.0,"""…""",1.0,0.0,"""…""",1.0,0.0,"""…""",1.0,0.0
3,"""Muy rica comida..""","""rica Muy comida..""",0.989455,1.0,"""Muy comida.. rica""",0.980956,1.0,"""rica Muy comida..""",0.989455,1.0,"""comida.. rica Muy""",0.964634,1.0
4,"""Estación del.metro""","""del.metro Estación""",0.988279,1.0,"""del.metro Estación""",0.988279,1.0,"""del.metro Estación""",0.988279,1.0,"""del.metro Estación""",0.988279,1.0


En este caso, la similitud semántica varía ligeramente, pero la similitud léxica permanece intacta, ya que no se introducen nuevas palabras ni se eliminan palabras existentes.

## Eliminación aleatoria
Este método consiste en eliminar una palabra elegida aleatoriamente en el texto que no sea una palabra vacía.

Función que escoge una palabra no vacía de un texto y la elimina

In [23]:
def deleteWord(text):
    #Remove the quotation marks
    text = removeQuotes(text)

    #Get the list of words of the text
    wordsList = text.split()

    #Remove the spanish stop words from the text
    withoutStopWordsTextList = revomeSpanishStopWords(text).split()
    
    # Calculate and performs the number of deletions based on the line's content
    for i in range(calculateModifications(text)):
        # Check if there are more than one word to delete from
        if len(withoutStopWordsTextList) > 1:
            # Generate a random index to select a word for deletion
            pos = random.randint(0, len(withoutStopWordsTextList) - 1)
    
            #Update the index to the original list (with stop words)
            indx = wordsList.index(withoutStopWordsTextList[pos])
    
            #Remove the chosen word
            wordsList.pop(indx)
            withoutStopWordsTextList.pop(pos)
            
    # Join the remaining words into a string, add quotes, and return the result
    return addQuotes(' '.join(wordsList))

Función que realiza la eliminación aleatoria a todos los elementos de una lista de textos.

In [24]:
def randomDeletion(textList, targetPath):
    #Open the file
    targetFile = open(targetPath, "w", encoding = 'utf-8')
    
    newList = []
    for text in textList:
        newText = deleteWord(text)
        newList.append(newText)
        targetFile.write(newText + "\n")

    #Close the file
    targetFile.close()
    
    return newList

Se va a realizar este proceso tres veces para generar más textos distintos de los que se posteriormente se elegirán los mejores.

In [12]:
#Import the original data
validOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validOriginal = importFromTxtToList(validOriginalPath)
invalidOriginal = importFromTxtToList(invalidOriginalPath) 

#Apply the synonym replacement 3 times to both datasets
for i in range(3):
    validPath = f"6. Random Deletion/1. All Augmented Data/validRandomDeletionReviews{i + 1}.txt"
    invalidPath = f"6. Random Deletion/1. All Augmented Data/invalidRandomDeletionReviews{i + 1}.txt"

    
    randomDeletion(validOriginal, validPath)
    randomDeletion(invalidOriginal, invalidPath)

## Análisis de la eliminación aleatoria y selección de los datos

Importar los datos originales

In [11]:
validOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validOriginal = importFromTxtToList(validOriginalPath)
invalidOriginal = importFromTxtToList(invalidOriginalPath) 

Importar los datasets generados en la eliminacion aleatoria

In [13]:
#import all the data 
validRandomDeletionList = []
invalidRandomDeletionList = []
for i in range(3):
    validPath = f"6. Random Deletion/1. All Augmented Data/validRandomDeletionReviews{i + 1}.txt"
    invalidPath = f"6. Random Deletion/1. All Augmented Data/invalidRandomDeletionReviews{i + 1}.txt"

    validRandomDeletionList.append(importFromTxtToList(validPath))
    invalidRandomDeletionList.append(importFromTxtToList(invalidPath))

Realizar el análisis y la selección de los datos

In [14]:
validWithOriginalPath = '6. Random Deletion/2. Augmented Data/ ValidRandomDeletionWithOriginal.csv'
validAugmentedPath = '6. Random Deletion/2. Augmented Data/ValidRandomDeletionData.txt'
invalidWithOriginalPath = '6. Random Deletion/2. Augmented Data/InvalidRandomDeletionWithOriginal.csv'
invalidAugmentedPath = '6. Random Deletion/2. Augmented Data/InvalidRandomDeletionData.txt'

infoValid = processAugmentation(validOriginal, validRandomDeletionList, validWithOriginalPath, validAugmentedPath)
infoValidDF = pd.DataFrame(infoValid)
infoInvalid = processAugmentation(invalidOriginal, invalidRandomDeletionList, invalidWithOriginalPath, invalidAugmentedPath)
infoInvalidDF = pd.DataFrame(infoInvalid)

In [16]:
infoValidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""Tiene fácil acceso para las personas con movi...","""Tiene fácil acceso para las personas con movi...",0.97698,0.866667,"""Tiene fácil acceso para las personas con movi...",0.945306,0.866667,"""Tiene fácil acceso para las personas con movi...",0.97698,0.866667,"""Tiene fácil acceso para las con movilidad una...",0.951568,0.866667
1,"""Espero que hayan mejorais""","""que hayan mejorais""",0.915591,0.666667,"""que hayan mejorais""",0.915591,0.666667,"""Espero que mejorais""",0.900617,0.666667,"""que hayan mejorais""",0.915591,0.666667
2,"""La estación es antigua, aparte de tener una s...","""La estación es antigua, aparte de tener una s...",0.989588,0.863636,"""La estación es antigua, aparte de tener una s...",0.989588,0.863636,"""La estación es antigua, aparte de una sola sa...",0.987141,0.863636,"""La estación es antigua, aparte de una sola sa...",0.944223,0.909091
3,"""Bien""","""Bien""",1.0,1.0,"""Bien""",1.0,1.0,"""Bien""",1.0,1.0,"""Bien""",1.0,1.0
4,"""Bonito comodo""","""comodo""",0.80029,0.5,"""Bonito""",0.791561,0.5,"""comodo""",0.80029,0.5,"""Bonito""",0.791561,0.5


In [17]:
infoInvalidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""He vivido 35 años en el barrio y reconozco qu...","""He 35 años en el barrio y que el metro nos di...",0.955221,0.818182,"""He vivido 35 años en el y reconozco que el me...",0.966433,0.863636,"""He vivido 35 años en el barrio y reconozco qu...",0.948992,0.863636,"""He 35 años en el barrio y que el metro nos di...",0.955221,0.818182
1,"""localización con muchos bares interesantes""","""localización con muchos interesantes""",0.846651,0.666667,"""localización con muchos interesantes""",0.846651,0.666667,"""con muchos bares interesantes""",0.734324,0.666667,"""con muchos bares interesantes""",0.734324,0.666667
2,"""…""","""…""",1.0,0.0,"""…""",1.0,0.0,"""…""",1.0,0.0,"""…""",1.0,0.0
3,"""Muy rica comida..""","""Muy comida..""",0.739944,0.666667,"""Muy comida..""",0.739944,0.666667,"""Muy comida..""",0.739944,0.666667,"""Muy comida..""",0.739944,0.666667
4,"""Estación del.metro""","""del.metro""",0.768227,0.5,"""Estación""",0.710799,0.5,"""Estación""",0.710799,0.5,"""del.metro""",0.768227,0.5


Éste método es el que más variación genera de los anteriores tres.

## Combinación de reemplazo por sinónimos, inserción, intercambio y eliminacion 
Para intentar que haya la mayor variación posibles, manteniendo la semántica de los textos, se van a combinar los cuatro anteriores métodos para evitar un posible overfiting cuando se entrene al modelo con estos datos.

In [25]:
#performs all EDA transformations
def mixedEDAMethods(textList, prob, targetFolder, fileName, numVersion):
    targetPath = targetFolder + "/" + fileName + str(numVersion) + ".txt"
    
    newList = synonymReplacement(textList, prob, targetFolder + "/1. Intermidiate Augmentation/" + fileName + str(numVersion) + "Synonym.txt")
    newList = randomInsertion(newList, targetFolder + "/1. Intermidiate Augmentation/" + fileName + str(numVersion) + "Insertion.txt")
    newList = randomSwap(newList, targetFolder + "/1. Intermidiate Augmentation/" + fileName + str(numVersion) + "Swap.txt")
    newList = randomDeletion(newList, targetPath)
    
    return newList

Se aplica éste método tres veces para generar más datos y despúes escoger los maś convenientes.

In [29]:
#Import the original data
validOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validOriginal = importFromTxtToList(validOriginalPath)
invalidOriginal = importFromTxtToList(invalidOriginalPath) 

#Apply the synonym replacement 3 times to both datasets
targetFolder = "7. Mixed EDA/1. All Augmented Data"
for i in range(3):
    prob = 0.25 + 2 * i / 10
    
    mixedEDAMethods(validOriginal, prob, targetFolder, "validMixedEDAReviews", i + 1)
    mixedEDAMethods(invalidOriginal, prob, targetFolder, "invalidMixedEDAReviews", i + 1)

## Análisis de la combinación de los métodos y selección de los datos

Importar los datos originales

In [30]:
validOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validOriginal = importFromTxtToList(validOriginalPath)
invalidOriginal = importFromTxtToList(invalidOriginalPath) 

Importar los datasets generados en la eliminacion aleatoria

In [31]:
#import all the data 
validMixedEDAList = []
invalidMixedEDAList = []
for i in range(3):
    validPath = f"7. Mixed EDA/1. All Augmented Data/validMixedEDAReviews{i + 1}.txt"
    invalidPath = f"7. Mixed EDA/1. All Augmented Data/invalidMixedEDAReviews{i + 1}.txt"

    validMixedEDAList.append(importFromTxtToList(validPath))
    invalidMixedEDAList.append(importFromTxtToList(invalidPath))

Realizar el análisis y la selección de los datos

In [32]:
validWithOriginalPath = '7. Mixed EDA/2. Augmented Data/ ValidMixedEDAWithOriginal.csv'
validAugmentedPath = '7. Mixed EDA/2. Augmented Data/ValidMixedEDAData.txt'
invalidWithOriginalPath = '7. Mixed EDA/2. Augmented Data/InvalidMixedEDAWithOriginal.csv'
invalidAugmentedPath = '7. Mixed EDA/2. Augmented Data/InvalidMixedEDAData.txt'

infoValid = processAugmentation(validOriginal, validMixedEDAList, validWithOriginalPath, validAugmentedPath)
infoValidDF = pd.DataFrame(infoValid)
infoInvalid = processAugmentation(invalidOriginal, invalidMixedEDAList, invalidWithOriginalPath, invalidAugmentedPath)
infoInvalidDF = pd.DataFrame(infoInvalid)

In [33]:
infoValidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""Tiene fácil acceso para las personas con movi...","""Tiene fácil movilidad para las salida pueblo ...",0.909179,0.705882,"""tiene fácil acceso para las personas con movi...",0.958459,0.875,"""Tiene fácil movilidad para las salida pueblo ...",0.909179,0.705882,"""Tiene del entrada para fácil las personas con...",0.849175,0.647059
1,"""Espero que hayan mejorais""","""espero ""Espero que mejorais""""",0.858184,0.666667,"""mejorais que hayan Espero""",0.991634,1.0,"""espero ""Espero que mejorais""""",0.858184,0.666667,"""que Espero hayan mejorais""",0.994041,1.0
2,"""La estación es antigua, aparte de tener una s...","""La (que antigua, a un lado de dar a subterran...",0.788468,0.483871,"""""La estación sola pertenece aparte de ademas ...",0.858311,0.954545,"""""La estación metro"" pueblo aparte de tener un...",0.878832,0.76,"""La (que antigua, a un lado de dar a subterran...",0.788468,0.483871
3,"""Bien""","""bien""",1.0,1.0,"""bien""",1.0,1.0,"""bien""",1.0,1.0,"""""Bien""""",0.963228,1.0
4,"""Bonito comodo""","""comodo comodo""""",0.803378,0.5,"""""Bonito comodo""""",0.986783,1.0,"""""Bonito comodo""",0.991887,1.0,"""comodo comodo""""",0.803378,0.5


In [34]:
infoInvalidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""He vivido 35 años en el barrio y reconozco qu...","""barrio desaparecido. 35 mucho tiempo en el pr...",0.897766,0.692308,"""He vivido 35 años en el barrio desaparecido y...",0.919991,0.72,"""tren 35 tiempo zonas en el mejoró y reconozco...",0.851737,0.72,"""barrio desaparecido. 35 mucho tiempo en el pr...",0.897766,0.692308
1,"""localización con muchos bares interesantes""","""localizacion bares con muchos ""localización""",0.917731,0.666667,"""interesantes con muchos localización interesa...",0.798462,0.666667,"""bares con muchos localización interesantes""",0.985325,1.0,"""localizacion bares con muchos ""localización""",0.917731,0.666667
2,"""…""","""…""",1.0,0.0,"""…""",1.0,0.0,"""…""",1.0,0.0,"""…""",1.0,0.0
3,"""Muy rica comida..""","""rica rica Muy""",0.872533,0.666667,"""Muy comida.. rica""",0.980956,1.0,"""rica rica Muy""",0.872533,0.666667,"""""Muy comida.."" rica""",0.942068,1.0
4,"""Estación del.metro""","""Estación del.metro""",1.0,1.0,"""Estación del.metro""",1.0,1.0,"""del.metro Estación""",0.988279,1.0,"""Estación del.metro""",1.0,1.0


Como se puede ver, los resultados generados son mucho más prometedores ya que genrean más variabilidad léxica pero mantienen bastante alta la similitud semántica.

## Albumentation
Consiste en cambiar el orden de las frases de un texto y eliminar las repetidas

Función que obtiene las frases de un texto

In [14]:
def getUniqueSentences(text):
    # Remove quotes from the input line to ensure clean processing
    newText = removeQuotes(text)
    # Split the cleaned line into sentences using '.' as the delimiter and create a set comprehension to ensure unique sentences
    sentencesSet = {sentence.strip() + "." for sentence in newText.split('.') if sentence.strip()}
    # Return the set of unique sentences
    
    return sentencesSet

Función que cambia el orden de las frases

In [15]:
def mixSentences(sentencesSet):
    # Convert the input set of sentences into a list for shuffling
    newList = list(sentencesSet)
    # Shuffle the list in place to randomize the order of sentences
    random.shuffle(newList)
    # Join the shuffled sentences into a single string, adding quotes around it
    return addQuotes(' '.join(newList))

Función que realiza la "albumentation" a todos lo elementos de una lista de textos

In [16]:
#NLP albumentation method
def albumentation(textList, targetPath):
    #Open the target file
    targetFile = open(targetPath, "w", encoding = 'utf-8')
    
    newList = []
    for text in textList:
        newText = mixSentences(getUniqueSentences(text))
        newList.append(newText)
        targetFile.write(newText + "\n")

    #Close the file
    targetFile.close()
    
    return newList

Se va a realizar este proceso tres veces para tener más datos y luego poder escoger los mejores

In [17]:
#Import the original data
validOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validOriginal = importFromTxtToList(validOriginalPath)
invalidOriginal = importFromTxtToList(invalidOriginalPath) 

#Apply the synonym replacement 3 times to both datasets
for i in range(3):
    validPath = f"8. Albumentation/1. All Augmented Data/validAlbumentationReviews{i + 1}.txt"
    invalidPath = f"8. Albumentation/1. All Augmented Data/invalidAlbumentationReviews{i + 1}.txt"

    
    albumentation(validOriginal, validPath)
    albumentation(invalidOriginal, invalidPath)

## Análisis del "albumentation" y selección de los datos

Importar los datos originales.

In [18]:
validOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validOriginal = importFromTxtToList(validOriginalPath)
invalidOriginal = importFromTxtToList(invalidOriginalPath) 

Importar los datasets generados en el intercambio aleatorio.

In [19]:
#import all the data 
validAlbumentationList = []
invalidAlbumentationList = []
for i in range(3):
    validPath = f"8. Albumentation/1. All Augmented Data/validAlbumentationReviews{i + 1}.txt"
    invalidPath = f"8. Albumentation/1. All Augmented Data/invalidAlbumentationReviews{i + 1}.txt"

    validAlbumentationList.append(importFromTxtToList(validPath))
    invalidAlbumentationList.append(importFromTxtToList(invalidPath))

Realizar el análisis y la selección de los datos

In [20]:
validWithOriginalPath = '8. Albumentation/2. Augmented Data/ ValidAlbumentationWithOriginal.csv'
validAugmentedPath = '8. Albumentation/2. Augmented Data/ValidAlbumentationData.txt'
invalidWithOriginalPath = '8. Albumentation/2. Augmented Data/InvalidAlbumentationWithOriginal.csv'
invalidAugmentedPath = '8. Albumentation/2. Augmented Data/InvalidAlbumentationData.txt'

infoValid = processAugmentation(validOriginal, validAlbumentationList, validWithOriginalPath, validAugmentedPath)
infoValidDF = pd.DataFrame(infoValid)
infoInvalid = processAugmentation(invalidOriginal, invalidAlbumentationList, invalidWithOriginalPath, invalidAugmentedPath)
infoInvalidDF = pd.DataFrame(infoInvalid)

In [21]:
infoValidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""Tiene fácil acceso para las personas con movi...","""Tiene fácil acceso para las personas con movi...",1.0,1.0,"""Tiene fácil acceso para las personas con movi...",1.0,1.0,"""Tiene fácil acceso para las personas con movi...",1.0,1.0,"""Tiene fácil acceso para las personas con movi...",1.0,1.0
1,"""Espero que hayan mejorais""","""Espero que hayan mejorais.""",0.97818,1.0,"""Espero que hayan mejorais.""",0.97818,1.0,"""Espero que hayan mejorais.""",0.97818,1.0,"""Espero que hayan mejorais.""",0.97818,1.0
2,"""La estación es antigua, aparte de tener una s...","""La estación es antigua, aparte de tener una s...",0.998383,1.0,"""Además comunica por un pasillo subterráneo (q...",0.941534,1.0,"""La estación es antigua, aparte de tener una s...",0.998383,1.0,"""Además comunica por un pasillo subterráneo (q...",0.941534,1.0
3,"""Bien""","""Bien.""",0.909274,1.0,"""Bien.""",0.909274,1.0,"""Bien.""",0.909274,1.0,"""Bien.""",0.909274,1.0
4,"""Bonito comodo""","""Bonito comodo.""",0.956156,1.0,"""Bonito comodo.""",0.956156,1.0,"""Bonito comodo.""",0.956156,1.0,"""Bonito comodo.""",0.956156,1.0


In [22]:
infoInvalidDF.head()

Unnamed: 0,originalText,bestAugmentation,bestAugmentedDataSemanticSimilarity,bestAugmentedDataLexicalSimiliratity,augmented1,semanticSimilarity1,lexicalSimilarity1,augmented2,semanticSimilarity2,lexicalSimilarity2,augmented3,semanticSimilarity3,lexicalSimilarity3
0,"""He vivido 35 años en el barrio y reconozco qu...","""He vivido 35 años en el barrio y reconozco qu...",0.995105,1.0,"""Una pena. La gente joven se ha ido a otras zo...",0.966767,1.0,"""He vivido 35 años en el barrio y reconozco qu...",0.995105,1.0,"""Desgraciadamente el barrio que conocí práctic...",0.959858,1.0
1,"""localización con muchos bares interesantes""","""localización con muchos bares interesantes.""",0.972995,1.0,"""localización con muchos bares interesantes.""",0.972995,1.0,"""localización con muchos bares interesantes.""",0.972995,1.0,"""localización con muchos bares interesantes.""",0.972995,1.0
2,"""…""","""….""",0.911401,0.0,"""….""",0.911401,0.0,"""….""",0.911401,0.0,"""….""",0.911401,0.0
3,"""Muy rica comida..""","""Muy rica comida.""",0.995217,1.0,"""Muy rica comida.""",0.995217,1.0,"""Muy rica comida.""",0.995217,1.0,"""Muy rica comida.""",0.995217,1.0
4,"""Estación del.metro""","""Estación del. metro.""",0.987054,0.25,"""Estación del. metro.""",0.987054,0.25,"""metro. Estación del.""",0.973336,0.25,"""metro. Estación del.""",0.973336,0.25


En este caso, la similitud semántica varía ligeramente, pero la similitud léxica permanece intacta, ya que no se introducen nuevas palabras ni se eliminan palabras existentes.

# Aumento de datos con modelos preentrenados
Para realizar esta sección del aumento de datos se va a seguir el artículo "Dara Augmentation Using Pre-trained Transformer Models".

## GPT-2

### Primer enfoque
Se van a hacer el refinamiento del modelo preentrenado GPT-2

### Preparación de los datos

In [2]:
from datasets import Dataset
import random
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments, DataCollatorForLanguageModeling

In [3]:
def importFromTxtToDictList(source):
    dictList = []
    with open(source, 'r', encoding="utf-8") as file:
        for line in file: 
            dictList.append({"text" : line.strip()})
            
    return dictList

In [4]:
path = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/AllUnlabeledReviews.txt"

#Each row is a dictionary with the key text and the text as the value
dataDictList = importFromTxtToDictList(path)
#The list of dictionaries is converted to a dataset
dataset = Dataset.from_list(dataDictList)

In [5]:
print(dataset)

Dataset({
    features: ['text'],
    num_rows: 3234
})


### Tokenización de los datos

In [6]:
def tokenizeFunction(examples, tokenizer):
    return tokenizer(examples["text"], truncation = True, padding = "max_length", max_length = 512)

### Entrenamiento del modelo

In [8]:
def trainModel(savingPath, modelName, version, tokenizeFunction, dataset, fineTuneAllLayers = True, trainEpochs = 3, lr = 5e-5, freezePctg = 0.8):
    #Download the pretrained model and the tokenizer
    model = AutoModelForCausalLM.from_pretrained(modelName)
    tokenizer = AutoTokenizer.from_pretrained(modelName)
    
    #Check if the tokenizer has a padding toke
    if tokenizer.pad_token is None:
        tokenizer.add_special_tokens({'pad_token': '<|pad|>'})
        model.resize_token_embeddings(len(tokenizer))
        
    tokenizedDataset = dataset.map(lambda x: tokenizeFunction(x, tokenizer), batched = True)

    #If necessary freeze the layers that do not have to be trained
    if not fineTuneAllLayers:
        for name, param in model.named_parameters():
            if 'transformer.h.' in name:  # GPT2 has blocks called 'transformer.h.X'
                layer_num = int(name.split('.')[2])
                if layer_num < model.config.n_layer * freezePctg:  #Freeze 80 % of the layers
                    param.requires_grad = False

    # Define training arguments
    training_args = TrainingArguments(
        output_dir = savingPath + "/" + modelName.replace("/", "%"),
        overwrite_output_dir = True,
        num_train_epochs = trainEpochs,
        per_device_train_batch_size = 8,
        logging_steps = 10,
        eval_strategy = "no",
        save_strategy = "no",
        fp16 = True,
        gradient_accumulation_steps = 4,
        weight_decay=0.01,                
        warmup_steps=500,  
        learning_rate = lr,
        logging_dir = savingPath + "/" + modelName.replace("/", "%"),
    )

    dataCollator = DataCollatorForLanguageModeling(
        tokenizer = tokenizer,
        mlm = False,  # Is not a mask lenguage model
    )

    #Generates the labels automatically so that the model can predict the next token
    trainer = Trainer(
        model = model,
        args = training_args,
        train_dataset = tokenizedDataset,
        data_collator = dataCollator,
    )

    #Train the model
    torch.cuda.empty_cache()
    trainer.train()

    #Save the model
    tokenizer.save_pretrained(savingPath + "/" + modelName.replace("/", "%") + "v" + str(version))
    model.save_pretrained(savingPath + "/" + modelName.replace("/", "%") + "v" + str(version))

In [9]:
savingPath = "/home/ibon/Documentos/1. Models"
modelName = "mrm8488/spanish-gpt2"
trainModel(savingPath, modelName, 2, tokenizeFunction, dataset, fineTuneAllLayers = False)

The new embeddings will be initialized from a multivariate normal distribution that has old embeddings' mean and covariance. As described in this article: https://nlp.stanford.edu/~johnhew/vocab-expansion.html. To disable this, use `mean_resizing=False`
Map: 100%|██████████| 3234/3234 [00:00<00:00, 7890.00 examples/s]


transformer.wte.weight is being updated
transformer.wpe.weight is being updated
transformer.h.0.ln_1.weight is frozen
transformer.h.0.ln_1.bias is frozen
transformer.h.0.attn.c_attn.weight is frozen
transformer.h.0.attn.c_attn.bias is frozen
transformer.h.0.attn.c_proj.weight is frozen
transformer.h.0.attn.c_proj.bias is frozen
transformer.h.0.ln_2.weight is frozen
transformer.h.0.ln_2.bias is frozen
transformer.h.0.mlp.c_fc.weight is frozen
transformer.h.0.mlp.c_fc.bias is frozen
transformer.h.0.mlp.c_proj.weight is frozen
transformer.h.0.mlp.c_proj.bias is frozen
transformer.h.1.ln_1.weight is frozen
transformer.h.1.ln_1.bias is frozen
transformer.h.1.attn.c_attn.weight is frozen
transformer.h.1.attn.c_attn.bias is frozen
transformer.h.1.attn.c_proj.weight is frozen
transformer.h.1.attn.c_proj.bias is frozen
transformer.h.1.ln_2.weight is frozen
transformer.h.1.ln_2.bias is frozen
transformer.h.1.mlp.c_fc.weight is frozen
transformer.h.1.mlp.c_fc.bias is frozen
transformer.h.1.mlp.c_

Step,Training Loss
10,18.6434
20,18.8631
30,19.2761
40,18.3454
50,18.4244
60,19.2439
70,18.8699
80,18.9964
90,18.3488
100,18.6932


### Generación de texto

In [10]:
def generateText(modelPath, text):
    #Load the model
    model = AutoModelForCausalLM.from_pretrained(modelPath)
    tokenizer = AutoTokenizer.from_pretrained(modelPath)

    #Check if the tokenizer has a padding token
    if tokenizer.pad_token is None:
        tokenizer.add_special_tokens({'pad_token': '<|pad|>'})
        model.resize_token_embeddings(len(tokenizer))

    #Tokenize the input text
    inputIds = tokenizer.encode(text, return_tensors = "pt")

    #Generate the text
    output = model.generate(inputIds, max_length = len(text), num_return_sequences = 1, 
                            pad_token_id = tokenizer.pad_token_id, eos_token_id = tokenizer.eos_token_id, 
                            temperature = 0.7, top_k = 50, top_p = 0.9, repetition_penalty = 2.0,
                            no_repeat_ngram_size = 3,)

    #Decode the text
    generatedText = tokenizer.decode(output[0], skip_special_tokens=True)

    return generatedText

In [18]:
modelPath = savingPath + "/" + modelName.replace("/", "%") + "v2"
text = "Todo bien"

generatedText = generateText(modelPath, text)

print(generatedText)

Todo bien?- Sí.¿Qué pasa


#### Preparación de los datos
Siguiendo el artículo, se van a anteponer las etiquetas de las clases a los ejemplos de las clases. Es decir, los datos que se van a proporcionar al modelo tendrán la siguiente forma: etiqueta : texto.

Originalmente, las etiquetas del cojunto de datos eran v (valida) y n (no válida). Sin embargo, para proporcionar más contexto semántico al modelo, se van a extender a valida y noValida.

In [2]:
#Function that generates a list in which each element is: label : text. Where text is a line in the given file.
def dataPreparation(dataPath, label):
    dataList = []

    #Open and store evety line in the file in a list
    with open(dataPath, "r", encoding = 'utf-8') as dataFile:
        for line in dataFile:
            dataList.append(label + " : " + line.strip())

    return dataList

In [3]:
validOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/ValidReviews.txt"
invalidOriginalPath = "/home/ibon/Documentos/GitHub/TFG/1. Data/4. Labeled Reviews/2. Without Emojis/InvalidReviews.txt"

validReviewsList = dataPreparation(validOriginalPath, "valida")
invalidReviewsList = dataPreparation(invalidOriginalPath, "noValida")

Se juntan los dos datasets y se mezclan

In [4]:
dataList = validReviewsList + invalidReviewsList
random.shuffle(dataList, )