# Ampliación de datos

En este notebook se va a aplicar la técnica de ampliación de datos a un conjunto de reseñas de Google Maps separadas en dos ficheros: uno con las reseñas que se van a considerar válidas y el otro con las inválidas. Cada línea es una reseña nueva.

### Imports

In [36]:
import pandas as pd
from deep_translator import GoogleTranslator

### Pandas
Se van a pasar los datos a pandas: uno con las valoraciones validas y otro con las negativas. Cada fila del panda será una reseña

In [37]:
#Read the file with the valid reviews
with open('3. Labeled Reviews\ValidReviews.txt', 'r', encoding="utf-8") as validReviewsFile:
    #Generate a list with all the reviews
    validReviewsList = [line.strip() for line in validReviewsFile]

#Read the file with the valid reviews
with open('3. Labeled Reviews\InvalidReviews.txt', 'r', encoding="utf-8") as invalidReviewsFile:
    #Generate a list with all the reviews
    invalidReviewsList = [line.strip() for line in invalidReviewsFile]


#Tranform the lists to a data frames
validReviewsDF = pd.DataFrame(validReviewsList, columns=['Text'])
invalidReviewsDF = pd.DataFrame(invalidReviewsList, columns=['Text'])

Se muestran las primeras reseñas válidas

In [38]:
validReviewsDF.head()

Unnamed: 0,Text
0,"""Tiene fácil acceso para las personas con movi..."
1,"""Espero que hayan mejorais"""
2,"""La estación es antigua, aparte de tener una s..."
3,"""Bien"""
4,"""Bonito comodo"""


Se muestran las primeras reseñas inválidas

In [39]:
invalidReviewsDF.head()

Unnamed: 0,Text
0,"""He vivido 35 años en el barrio y reconozco qu..."
1,"""localización con muchos bares interesantes"""
2,"""😂…"""
3,"""Muy rica comida.."""
4,"""Estación del.metro"""


## Back translation

El primer método de ampliación de datos que se va a usar va a ser Back translation. Consiste en traducir el texto a un idioma distinto y luego volverlo a traducir al idioma original. 

Este proceso puede genera texto con el mismo significado que el original pero distintas palabras.

In [59]:
#The google translator is going to be used.
def BackTranslation(reviewsDF, englishPath, spanishPath):
    #Open the files in which the translations are strored
    englishReviewsFile = open(englishPath, 'w', encoding="utf-8")
    spanishReviewsFile = open(spanishPath, 'w', encoding="utf-8")

    #Generate two data frames to save the translations
    englishReviewsDF = pd.DataFrame(columns=["Text"])
    spanishReviewsDF = pd.DataFrame(columns=["Text"])
    
    for elem in reviewsDF['Text']:
        #Translate to english all the reviews
        try:
            englishTranslation = GoogleTranslator(source='es', target='en').translate(elem)
        except Exception as e: #If the translation fails "" is written
           englishTranslation = '""'
            
        print(elem)
        print(englishTranslation)
        englishReviewsDF = pd.concat([englishReviewsDF, pd.DataFrame({"Text" : [englishTranslation]})], ignore_index = True)
        englishReviewsFile.write(englishTranslation + "\n")
        
        #Translate back to spanish
        try:
            spanishTranslation = GoogleTranslator(source='es', target='en').translate(elem)
        except Exception as e:
            spanishTranslation = ['""']

        spanishReviewsDF = pd.concat([spanishReviewsDF, pd.DataFrame({"Text" : [spanishTranslation]})], ignore_index = True)
        spanishReviewsFile.write(spanishTranslation + "\n")

    #Close the files in which the translations are strored
    englishReviewsFile.close()
    spanishReviewsFile.close()
    
    return englishReviewsDF, spanishReviewsDF

In [60]:
validEnglishReviewsDF, validSpanishReviewsDF = BackTranslation(validReviewsDF[0:5], '3. Labeled Reviews\\1. Back Translation\\ValidEnglishReviews.txt', '3. Labeled Reviews\\1. Back Translation\\ValidSpanishReviews.txt')
invalidEnglishReviewsDF, invalidSpanishReviewsDF = BackTranslation(invalidReviewsDF[0:5], '3. Labeled Reviews\\1. Back Translation\\InvalidEnglishReviews.txt', '3. Labeled Reviews\\1. Back Translation\\InvalidSpanishReviews.txt')


"Tiene fácil acceso para las personas con movilidad reducida, una salida hacia el colegio Julián Besteiro y el otro en frente del Burgen King."
"It has easy access for people with reduced mobility, one exit towards the Julián Besteiro school and the other in front of Burgen King."
"Espero que hayan mejorais"
"I hope you have improved"
"La estación es antigua, aparte de tener una sola salida de metro no está habilitada para personas con discapacidad. Además comunica por un pasillo subterráneo (que parece infinito) con Embajadores que pertenece a la línea 3 de metro"
"The station is old, apart from having only one metro exit, it is not accessible to people with disabilities. It also connects via an underground passage (which seems endless) with Embajadores, which belongs to metro line 3."
"Bien"
"Good"
"Bonito comodo"
"Nice comfortable"
"He vivido 35 años en el barrio y reconozco que el metro nos dio vida y mejoró el barrio. Desgraciadamente el barrio que conocí prácticamente ha desapare

TypeError: unsupported operand type(s) for +: 'NoneType' and 'str'

In [None]:
validEnglishReviewsDF.head()

In [None]:
validSpanishReviewsDF.head()

In [None]:
invalidEnglishReviewsDF.head()

In [None]:
invalidSpanishReviewsDF.head()