

# **Traductor utilizando Web Scraping (Selenium)**


Elaborador por: 

Chávez Medina Mario, 
Corral Avila Carolina, 
Guitérrez Pérez Gabriela Guadalupe, 
Porto García Ismael y Rico Mendoza Josué

El siguiente proyecto utiliza web scraping para traducir un texto a un idioma en particular. Para este propósito se utiliza Selenium, una librería desarrollada para realizar pruebas de software de aplicaciones web ya que permite interactuar con una página web. Selenium permite utilizar diversos navegadores, sin embargo, para porpósitos de este trabajo se utiliza Chrome. A continuación se presentan 2 códigos que consiguen el mismo resultado con diferentes estratégias.

**Selenium Web Driver Método #1**

El siguiente código es el más rudimentario y se asemeja a lo que un usuario de Chrome haría si quisiese traducir un texto. Es decir, sigue los siguientes pasos:
1. Accede a la página del traductor de DeepL: 
https://www.deepl.com/es/translator
2. Escribe un texto a traducir en el cuadro de texto.
3. Selecciona el menú de idiomas de destino.
4. Selecciona el idioma de destino deseado.
5. El texto traducido es mostrado en el cuadro de texto correspondiente.



In [1]:
#Librerías
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
from selenium.webdriver.common.by import By

Hay muchas maneras de acceder al contenido de la página. Selenium permite acceder por classes, por nombre, por etiqueta HTML, por XPATH o por selectores CSS. El equipo decidió utilizar expresiones XPATH.

In [2]:
#Función de traducción
def translate(text, lanCode):
    
    # Inicializa el navegador
    # driver = webdriver.Chrome()

    # Initialize the Chrome WebDriver with the Thorium binary
    chrome_options = webdriver.ChromeOptions()
    chrome_options.binary_location = '/usr/bin/thorium-browser'
    driver = webdriver.Chrome(options=chrome_options)

    
    # Hace la pantalla completa
    driver.maximize_window()

    #Accede a DeepL
    driver.get('https://www.deepl.com/es/translator')

    # Encuentra la caja de texto y escribe el texto a traducir
    driver.find_element(By.XPATH,"/html/body/div[1]/div[1]/div[3]/div/div[1]/main/div[2]/nav/div/div[2]/div/div/div[1]/section/div/div[2]/div[1]/section/div/div[1]/d-textarea/div[1]/p").send_keys(text)

    #Esperamos un tiembo hasta que desaparezca una ventana flotante
    time.sleep(10)

    # Aplica el nivel de zoom a la página para que todos los elementos sean visibles
    zoom_level = 0.8
    driver.execute_script(f"document.body.style.transform = 'scale({zoom_level})';")

    time.sleep(5)
    #Desplegar menu de idiomas
    driver.find_element(By.XPATH, "/html/body/div[1]/div[1]/div[3]/div/div[1]/main/div[2]/nav/div/div[2]/div/div/div[1]/section/div/div[1]/div/div[3]/div[1]/span/span/span/button").click()

    time.sleep(5)

    #Selecciona idioma de destino con el código lanCode
    path="/html/body/div[1]/div[1]/div[3]/div/div[1]/main/div[2]/nav/div/div[2]/div/div/div[1]/section/div/div[1]/div/div[3]/div[1]/div/div/div[2]/div[2]/button["+str(lanCode)+"]"


    driver.find_element(By.XPATH,path).click()

    # Espera un poco para que se realice la traducción
    time.sleep(5)

    # Obtiene el texto traducido
    translated = driver.find_element(By.XPATH,"/html/body/div[1]/div[1]/div[3]/div/div[1]/main/div[2]/nav/div/div[2]/div/div/div[1]/section/div/div[2]/div[3]/section/div[1]/d-textarea/div/p").text


    # Cierra el navegador
    driver.quit()

    return translated

Para utilizar la función debemos proporcionar el código que le corresponde a cada idioma. Estos son números que el HTML de DeepL ha establecido que le corresponden a la etiqueda *\<div>* de cada idioma.

In [3]:
#Códigos por idioma
lang=input("Ingresa idioma de destino: ")
text=input("Ingresa texto a traducir: ")
match lang:
    case "Alemán":
        lanCode = 1
    case "Búlgaro":
        lanCode = 2
    case "Checo":
        lanCode = 3
    case "Chino":
        lanCode = 4
    case "Coreano":
        lanCode = 5
    case "Danés":
        lanCode = 6
    case "Eslovaco":
        lanCode = 7
    case "Esloveno":
        lanCode = 8
    case "Español":
        lanCode = 9
    case "Estonio":
        lanCode = 10
    case "Finés":
        lanCode = 11
    case "Francés":
        lanCode = 12
    case "Griego":
        lanCode = 13
    case "Húngaro":
        lanCode = 14
    case "Indonesio":
        lanCode = 15
    case "Inglés (americano)":
        lanCode = 16
    case "Inglés (británico)":
        lanCode = 17
    case "Italiano":
        lanCode = 18
    case "Japonés":
        lanCode = 19
    case "Letón":
        lanCode = 20
    case "Lituano":
        lanCode = 21
    case "Neerlandés":
        lanCode = 22
    case "Noruego":
        lanCode = 23
    case "Polaco":
        lanCode = 24
    case "Portugués":
        lanCode = 25
    case "Portugués (brasileño)":
        lanCode = 26
    case "Rumano":
        lanCode = 27
    case "Ruso":
        lanCode = 28
    case "Sueco":
        lanCode = 29
    case "Turco":
        lanCode = 30
    case "Ucraniano":
        lanCode = 31
    case _:
        print("Idioma no soportado.")

print(f"Mi texto: {text}\nTraducción al {lang}: {translate(text,lanCode)}")

Mi texto: ¿Quién soy yo?
Traducción al Japonés: 私は何者なのか？


**Limitaciones**

Este método tiene limitaciones. Al realizar éste método el equipo tuvo los siguientes problemas:

a) Este método no funciona para Google Translate, ya tuvimos dificultades para acceder al menú del idioma de destino. Es por esto que utilizamos DeepL.

b) Como se verá a continuación, este método es lento. Requiere de *time.sleep(n)*, una función que le pide al script detenerse *n* segundos. El propósito de esto es esperar a que se oculten las alertas emergentes, ya que le impiden al Web Driver acceder a los botones de la página.

c) Por último, es necesario hacerle ajustes a la ventana de Chrome que abre Selenium. Particularmente, se realizan dos ajustes: el tamaño de la ventana (*maximize_window()*) y el zoom de la página (*'scale({zoom_level})';"*), de otra manera el Web Driver no puede acceder a los elementos de la página.

**Selenium Web Driver Método #2**

Lamentablemente como lo hemos mencionado Google Translate cuenta con algunas barreras que no permiten replicar el comportamiento de un usuario por completo, es por ello que en este método se hace uso de una alternativa para solucionar este problema.

La estrategia clave detrás de nuestro programa radica en la modificación dinámica de las URL de las páginas web. Al modificar las URL de manera inteligente, el programa puede interactuar con distintos elementos de la página, en este caso seleccionar el idioma de origen y el de destino.

Este método sigue los siguientes pasos:


1.   Selección de Idioma de Origen
> *   El programa permite al usuario especificar el idioma de origen del texto a traducir. Esto se hace mediante una estrategia de modificación de la URL de Google Translate.
2.   Carga de la Página de Google Translate.
3. El programa encuentra la caja de texto en la página y escribe el texto que el usuario desea traducir.
4. Espera la traducción.
5. Obtiene el texto final.

In [7]:
import selenium
from selenium.webdriver.common.keys import Keys
import time
from selenium.webdriver.common.by import By


def translate(text, lang_from="auto", lang_to="es"):
   # Inicializa el navegador
    driver = selenium.webdriver.Chrome()

    # Obtiene el idioma de origen del texto
    lang_from = LANGUAGES.get(lang_from, "auto")

    # Abre Google Translate con los idiomas especificados
    driver.get(f'https://translate.google.com/?hl=en&tab=TT&sl={lang_from}&tl={lang_to}&op=translate')

    # Encuentra la caja de texto y escribe el texto a traducir
    driver.find_element(By.XPATH,"/html/body/c-wiz/div/div[2]/c-wiz/div[2]/c-wiz/div[1]/div[2]/div[3]/c-wiz[1]/span/span/div/textarea").send_keys(text)

    # Espera un poco para que se realice la traducción
    time.sleep(5)

    # Obtiene el texto traducido
    translated = driver.find_element(By.XPATH,"/html/body/c-wiz/div/div[2]/c-wiz/div[2]/c-wiz/div[1]/div[2]/div[3]/c-wiz[2]/div/div[8]/div/div[1]/span[1]/span/span").text

    # Cierra el navegador
    driver.quit()

    return translated

Solicitamos el texto a traducir.

In [8]:
texto=input("Introduce tu texto a traducir:")

Le mostramos al usuario los idiomas disponibles de los cuales "El código" correspone a los acordados por la ISO-639.
Posteriormente se selecciona uno de ellos.


In [9]:
LANGUAGES = {
    "Afrikaans": "af",
    "Albanian": "sq",
    "Amharic": "am",
    "Arabic": "ar",
    "Armenian": "hy",
    "Assamese": "as",
    "Aymara": "ay",
    "Azerbaijani": "az",
    "Bambara": "bm",
    "Basque": "eu",
    "Belarusian": "be",
    "Bengali": "bn",
    "Bhojpuri": "bho",
    "Bosnian": "bs",
    "Bulgarian": "bg",
    "Catalan": "ca",
    "Cebuano": "ceb",
    "Chinese (Simplified)": "zh-CN",
    "Chinese (Traditional)": "zh-TW",
    "Corsican": "co",
    "Croatian": "hr",
    "Czech": "cs",
    "Danish": "da",
    "Dhivehi": "dv",
    "Dogri": "doi",
    "Dutch": "nl",
    "English": "en",
    "Esperanto": "eo",
    "Estonian": "et",
    "Ewe": "ee",
    "Filipino (Tagalog)": "fil",
    "Finnish": "fi",
    "French": "fr",
    "Frisian": "fy",
    "Galician": "gl",
    "Georgian": "ka",
    "German": "de",
    "Greek": "el",
    "Guarani": "gn",
    "Gujarati": "gu",
    "Haitian Creole": "ht",
    "Hausa": "ha",
    "Hawaiian": "haw",
    "Hebrew": "he",
    "Hindi": "hi",
    "Hmong": "hmn",
    "Hungarian": "hu",
    "Icelandic": "is",
    "Igbo": "ig",
    "Ilocano": "ilo",
    "Indonesian": "id",
    "Irish": "ga",
    "Italian": "it",
    "Japanese": "ja",
    "Javanese": "jv",
    "Kannada": "kn",
    "Kazakh": "kk",
    "Khmer": "km",
    "Kinyarwanda": "rw",
    "Konkani": "gom",
    "Korean": "ko",
    "Krio": "kri",
    "Kurdish": "ku",
    "Kurdish (Sorani)": "ckb",
    "Kyrgyz": "ky",
    "Lao": "lo",
    "Latin": "la",
    "Latvian": "lv",
    "Lingala": "ln",
    "Lithuanian": "lt",
    "Luganda": "lg",
    "Luxembourgish": "lb",
    "Macedonian": "mk",
    "Maithili": "mai",
    "Malagasy": "mg",
    "Malay": "ms",
    "Malayalam": "ml",
    "Maltese": "mt",
    "Maori": "mi",
    "Marathi": "mr",
    "Meiteilon (Manipuri)": "mni-Mtei",
    "Mizo": "lus",
    "Mongolian": "mn",
    "Myanmar (Burmese)": "my",
    "Nepali": "ne",
    "Norwegian": "no",
    "Nyanja (Chichewa)": "ny",
    "Odia (Oriya)": "or",
    "Oromo": "om",
    "Pashto": "ps",
    "Persian": "fa",
    "Polish": "pl",
    "Portuguese (Portugal, Brazil)": "pt",
    "Punjabi": "pa",
    "Quechua": "qu",
    "Romanian": "ro",
    "Russian": "ru",
    "Samoan": "sm",
    "Sanskrit": "sa",
    "Scots Gaelic": "gd",
    "Sepedi": "nso",
    "Serbian": "sr",
    "Sesotho": "st",
    "Shona": "sn",
    "Sindhi": "sd",
    "Sinhala (Sinhalese)": "si",
    "Slovak": "sk",
    "Slovenian": "sl",
    "Somali": "so",
    "Spanish": "es",
    "Sundanese": "su",
    "Swahili": "sw",
    "Swedish": "sv",
    "Tagalog (Filipino)": "tl",
    "Tajik": "tg",
    "Tamil": "ta",
    "Tatar": "tt",
    "Telugu": "te",
    "Thai": "th",
    "Tigrinya": "ti",
    "Tsonga": "ts",
    "Turkish": "tr",
    "Turkmen": "tk",
    "Twi (Akan)": "ak",
    "Ukrainian": "uk",
    "Urdu": "ur",
    "Uyghur": "ug",
    "Uzbek": "uz",
    "Vietnamese": "vi",
    "Welsh": "cy",
    "Xhosa": "xh",
    "Yiddish": "yi",
    "Yoruba": "yo",
    "Zulu": "zu"
}

print("Selecciona un idioma usando su valor correspondiente\n")
for clave, valor in LANGUAGES.items():
    print(f'Idioma: {clave}, Valor: {valor}')
    
lengto=input("Valor:")

Selecciona un idioma usando su valor correspondiente

Idioma: Afrikaans, Valor: af
Idioma: Albanian, Valor: sq
Idioma: Amharic, Valor: am
Idioma: Arabic, Valor: ar
Idioma: Armenian, Valor: hy
Idioma: Assamese, Valor: as
Idioma: Aymara, Valor: ay
Idioma: Azerbaijani, Valor: az
Idioma: Bambara, Valor: bm
Idioma: Basque, Valor: eu
Idioma: Belarusian, Valor: be
Idioma: Bengali, Valor: bn
Idioma: Bhojpuri, Valor: bho
Idioma: Bosnian, Valor: bs
Idioma: Bulgarian, Valor: bg
Idioma: Catalan, Valor: ca
Idioma: Cebuano, Valor: ceb
Idioma: Chinese (Simplified), Valor: zh-CN
Idioma: Chinese (Traditional), Valor: zh-TW
Idioma: Corsican, Valor: co
Idioma: Croatian, Valor: hr
Idioma: Czech, Valor: cs
Idioma: Danish, Valor: da
Idioma: Dhivehi, Valor: dv
Idioma: Dogri, Valor: doi
Idioma: Dutch, Valor: nl
Idioma: English, Valor: en
Idioma: Esperanto, Valor: eo
Idioma: Estonian, Valor: et
Idioma: Ewe, Valor: ee
Idioma: Filipino (Tagalog), Valor: fil
Idioma: Finnish, Valor: fi
Idioma: French, Valor: fr
Id

Realizamos la traducción y mostramos el resultado final

In [10]:
print(f"Traduccion :{translate(texto,lang_to=lengto)}")

Traduccion :私という人間？


Ambos métodos pueden traducir efectivamente un texto, sin embargo, utilizan diferentes estrategias y tienen sus propios desafíos. El método a utilizar al final dependerá de los objetivos y prioridades del programador.


