# Ampliación de datos

En este notebook se va a aplicar la técnica de ampliación de datos a un conjunto de reseñas de Google Maps separadas en dos ficheros: uno con las reseñas que se van a considerar válidas y el otro con las inválidas. Cada línea es una reseña nueva.

### Imports

In [1]:
import pandas as pd
from deep_translator import (GoogleTranslator, MyMemoryTranslator)
import copy
import time

### Direcorio de datos

In [2]:
validReviewsSource = "C:\\Users\\ibonm\\Documents\\GitHub\\TFG\\1. Data\\4. Labeled Reviews\\2. Without Emojis\\ValidReviews.txt"
invalidReviewsSource = "C:\\Users\\ibonm\\Documents\\GitHub\\TFG\\1. Data\\4. Labeled Reviews\\2. Without Emojis\\InvalidReviews.txt"

### Pandas
Se van a pasar los datos a dataframes: uno con las valoraciones validas y otro con las negativas. Cada fila del dataframe será una reseña

In [2]:
def importFromTxtToDF(source):
    with open(source, 'r', encoding="utf-8") as file:
        #Generate a list with all the reviews
        targetList = [line.strip() for line in file]

    targetDF = pd.DataFrame(targetList, columns=['Text'])
    return targetDF

In [4]:
#Read the file with the valid reviews
validReviewsDF = importFromTxtToDF(validReviewsSource)
#Read the file with the invalid reviews
invalidReviewsDF = importFromTxtToDF(invalidReviewsSource)

Se muestran las primeras reseñas válidas

In [5]:
validReviewsDF.head()

Unnamed: 0,Text
0,"""Tiene fácil acceso para las personas con movi..."
1,"""Espero que hayan mejorais"""
2,"""La estación es antigua, aparte de tener una s..."
3,"""Bien"""
4,"""Bonito comodo"""


Se muestran las primeras reseñas inválidas

In [6]:
invalidReviewsDF.head()

Unnamed: 0,Text
0,"""He vivido 35 años en el barrio y reconozco qu..."
1,"""localización con muchos bares interesantes"""
2,"""…"""
3,"""Muy rica comida.."""
4,"""Estación del.metro"""


## Retrotraducción

El primer método de ampliación de datos que se va a usar va a ser la retrotraducción. Consiste en traducir el texto a un idioma distinto y luego volverlo a traducir al idioma original. 

Este proceso puede genera texto con el mismo significado que el original pero distintas palabras.

In [7]:
def BackTranslation(translatorsList, reviewsDF, targetPath):
    #Generate a data list to store the text that has to be translated
    notTranslatedList = reviewsDF['Text'].tolist()

    #Translate the text as many times as needed
    for translator in translatorsList:
        #Generate a data frame to store the text that has been translated
        translatedList = []
        for elem in notTranslatedList:
            #Translate all the reviews
            try:
                translation = translator.translate(elem)
            except Exception as e: #If the translation fails "" is written
                translation = '""'
            #If an error ocurred translate it to a ""
            if translation == None:
                translation = '""'
                
            #Save the translations in the corresponding list 
            translatedList.append(translation)

            #Wait 0.2 seconds not to collapse the server
            time.sleep(0.2)

        #Prepare to translate again if needed
        notTranslatedList = copy.deepcopy(translatedList) 
       
    #Open the file in which the translations are strored
    translationFile = open(targetPath, 'w', encoding="utf-8")
    #write all the translations
    for elem in translatedList:
        translationFile.write(elem + "\n")
    #Close the file
    translationFile.close()
    
    return pd.DataFrame(translatedList, columns=['Text'])

### Google Translator

Primero se va a traducir del castellano al ingles y luego del inglés al castellano

In [8]:
validPath = '1. Back Translation\\1. Google Translator\\ValidReviewsTranslationsEsEnEnEs.txt'
invalidPath = '1. Back Translation\\1. Google Translator\\InvalidReviewsTranslationsEsEnEnEs.txt'

firstTranslator = GoogleTranslator(source = 'es', target = 'en')
secondTranslator = GoogleTranslator(source='en', target='es')

translatorList = [firstTranslator, secondTranslator]

validSpanishReviewsGoogleEsEnEnEsDF = BackTranslation(translatorList, validReviewsDF, validPath)
invalidSpanishReviewsGoogleEsEnEnESDF = BackTranslation(translatorList, invalidReviewsDF, invalidPath)

A continuación se va a traducir del castellano al japonés y del japonés al castellano

In [9]:
validPath = '1. Back Translation\\1. Google Translator\\ValidReviewsTranslationsEsJaJaEs.txt'
invalidPath = '1. Back Translation\\1. Google Translator\\InvalidReviewsTranslationsEsJaJaEs.txt'

firstTranslator = GoogleTranslator(source = 'es', target = 'ja')
secondTranslator = GoogleTranslator(source='ja', target='es')

translatorList = [firstTranslator, secondTranslator]

validSpanishReviewsGoogleEsJaJaEsDF = BackTranslation(translatorList, validReviewsDF, validPath)
invalidSpanishReviewsGoogleEsJaJaEsDF = BackTranslation(translatorList, invalidReviewsDF, invalidPath)

Por último se va a implementar una cadena de traducciones más larga: castellano a frances, frances a japones, japones a ruso y ruso a catellano.

In [10]:
validPath = '1. Back Translation\\1. Google Translator\\ValidReviewsTranslationsEsFrFrJaJaRuRuEs.txt'
invalidPath = '1. Back Translation\\1. Google Translator\\InvalidReviewsTranslationsEsFrFrJaJaRuRuEs.txt'

firstTranslator = GoogleTranslator(source = 'es', target = 'fr')
secondTranslator = GoogleTranslator(source='fr', target='ja')
thirdTranslator = GoogleTranslator(source='ja', target='ru')
fourthTranslator = GoogleTranslator(source='ru', target='es')

translatorList = [firstTranslator, secondTranslator, thirdTranslator, fourthTranslator]

validSpanishReviewsGoogleEsFrFrJaJaRuRuEsDF = BackTranslation(translatorList, validReviewsDF, validPath)
invalidSpanishReviewsGoogleEsFrFrJaJaRuRuEsDF = BackTranslation(translatorList, invalidReviewsDF, invalidPath)

### MyMemory Translator

Se van a realizar las mismas traducciones pero usando otro traductor

Castellano -> Inglés -> Castellano

In [11]:
validPath = '1. Back Translation\\2. MyMemory Translator\\ValidReviewsTranslationsEsEnEnEs.txt'
invalidPath = '1. Back Translation\\2. MyMemory Translator\\InvalidReviewsTranslationsEsEnEnEs.txt'

firstTranslator = MyMemoryTranslator(source = 'spanish', target = 'english')
secondTranslator = MyMemoryTranslator(source='english', target='spanish')

translatorList = [firstTranslator, secondTranslator]

validSpanishReviewsMyMemoryEsEnEnEsDF = BackTranslation(translatorList, validReviewsDF, validPath)
invalidSpanishReviewsMyMemoryEsEnEnEsDF = BackTranslation(translatorList, invalidReviewsDF, invalidPath)

Castellano -> Japonés -> Castellano

In [12]:
validPath = '1. Back Translation\\2. MyMemory Translator\\ValidReviewsTranslationsEsJaJaEs.txt'
invalidPath = '1. Back Translation\\2. MyMemory Translator\\InvalidReviewsTranslationsEsJaJaEs.txt'

firstTranslator = MyMemoryTranslator(source = 'spanish', target = 'japanese')
secondTranslator = MyMemoryTranslator(source='japanese', target='spanish')

translatorList = [firstTranslator, secondTranslator]

validSpanishReviewsMyMemoryEsJaJaEsDF = BackTranslation(translatorList, validReviewsDF, validPath)
invalidSpanishReviewsMyMemoryEsJaJaEsDF = BackTranslation(translatorList, invalidReviewsDF, invalidPath)

Castellano -> Francés -> Japonés -> Ruso -> Castellano

In [13]:
validPath = '1. Back Translation\\2. MyMemory Translator\\ValidReviewsTranslationsEsFrFrJaJaRuRuEs.txt'
invalidPath = '1. Back Translation\\2. MyMemory Translator\\InvalidReviewsTranslationsEsFrFrJaJaRuRuEs.txt'

firstTranslator = MyMemoryTranslator(source = 'spanish', target = 'french')
secondTranslator = MyMemoryTranslator(source='french', target='japanese')
thirdTranslator = MyMemoryTranslator(source='japanese', target='russian')
fourthTranslator = MyMemoryTranslator(source='russian', target='spanish')

translatorList = [firstTranslator, secondTranslator, thirdTranslator, fourthTranslator]

validSpanishReviewsMyMemoryEsFrFrJaJaRuRuEsDF = BackTranslation(translatorList, validReviewsDF, validPath)
invalidSpanishReviewsMyMemoryEsFrFrJaJaRuRuEsDF = BackTranslation(translatorList, invalidReviewsDF, invalidPath)

#### MyMemory genera errores en la traducción debido a problemas de conexión con el servidor. Consecuentemente, se procede a anilizar únicamente los datos generados por el traductor de Google

## Análisis de la retrotraducción:

Dado que el código correspondiente a la traducción llevó largo rato y se dejo a la noche ejecutando, se vuelven a importar los datos a dataframes:

In [3]:
def importFromTxtToList(source):
    with open(source, 'r', encoding="utf-8") as file:
        #Generate a list with all the reviews
        targetList = [line.strip() for line in file]
    return targetList

Se importan las frases traducidas de: Castellano -> Inglés -> Castellano

In [4]:
validPath = '1. Back Translation\\1. Google Translator\\ValidReviewsTranslationsEsEnEnEs.txt'
invalidPath = '1. Back Translation\\1. Google Translator\\InvalidReviewsTranslationsEsEnEnEs.txt'

EsEnEnEsTraductionList = importFromTxtToList(validPath) + importFromTxtToList(invalidPath) 

Castellano -> Japonés -> Castellano

In [5]:
validPath = '1. Back Translation\\1. Google Translator\\ValidReviewsTranslationsEsJaJaEs.txt'
invalidPath = '1. Back Translation\\1. Google Translator\\InvalidReviewsTranslationsEsJaJaEs.txt'

EsJaJaEsTraductionList = importFromTxtToList(validPath) + importFromTxtToList(invalidPath) 

Castellano -> Francés -> Japonés -> Ruso -> Castellano

In [6]:
validPath = '1. Back Translation\\1. Google Translator\\ValidReviewsTranslationsEsFrFrJaJaRuRuEs.txt'
invalidPath = '1. Back Translation\\1. Google Translator\\InvalidReviewsTranslationsEsFrFrJaJaRuRuEs.txt'

EsFrFrJaJaRuRuEsList = importFromTxtToList(validPath) + importFromTxtToList(invalidPath) 

### Similitud Semántica

A continuación se va a capturar la similitud semántica entre cada par de oraciones traducidas. Es decir, se van a calcular los embeddings de oraciones de cada par de frases (la original y la traducida) y se va a usar una métrica de similitud para ver como de parecido es el significado de ambas frases.

Se va a usar una versión de SBERT, llamada MiniLM (Minimal Lenguaje Model), que utiliza una variante más pequeña. Se usa MiniLM de seis capas (L6), que logra una precisón buena con menos recursos.

Este modelo fue entrenado usando el corpus Multilingual Universal Sentence Encoder (mUSE), que incluye datos en varios idiomas, entre ellos el español. Consecuentemente, no hay problema al introducir frases en castellano. Es cierto, que obtiene mejores resultados para frases en inglés, ya que se entreno con más datos en este idioma.

In [8]:
from transformers import AutoTokenizer, AutoModel

In [9]:
tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
