Importacion de varias bibliotecas y modulos de Selenium, que es una herramienta para automatizar la interaccion con navegadores web.

In [7]:
from selenium import webdriver #Importa el m√≥dulo principal para controlar un navegador web.
from selenium.webdriver.chrome.service import Service #Permite definir un servicio para el navegador Chrome.
from selenium.webdriver.chrome.options import Options #Permite configurar opciones para Chrome, como ejecutar en modo sin interfaz gr√°fica (headless).
from selenium.webdriver.common.by import By #Define estrategias para ubicar elementos en una p√°gina, como By.ID, By.XPATH, etc.
from selenium.webdriver.support.ui import WebDriverWait #Permite esperar hasta que se cumpla una condici√≥n antes de continuar con la ejecuci√≥n del script.
from selenium.webdriver.support import expected_conditions as EC #Contiene condiciones predefinidas, como esperar que un elemento sea visible o clickeable.
from webdriver_manager.chrome import ChromeDriverManager #Descarga y administra autom√°ticamente la versi√≥n correcta del controlador de Chrome.
import time #Proporciona funciones para manejar pausas en la ejecuci√≥n del script.
import sys #Permite manejar rutas del sistema
import os #Permite interactuar con el sistema operativo, √∫til para manejar archivos o variables de entorno.
from datetime import datetime #Permite manejar fechas y horas en Python. Es √∫til si necesitas registrar timestamps o generar nombres de archivos con la fecha actual.
from selenium.webdriver.support.ui import Select #Se usa para interactuar con elementos select en formularios HTML, como listas desplegables (dropdowns) y permite permite seleccionar opciones por √≠ndice, valor o texto visible
from selenium.webdriver.common.keys import Keys #Permite enviar teclas como Enter, Tab o Ctrl+C a un campo de entrada.
from selenium.common.exceptions import TimeoutException, ElementClickInterceptedException, NoSuchElementException, StaleElementReferenceException #Importa excepciones comunes en Selenium para manejar errores

Asegurar de que existe un directorio llamado "articles" en la ruta absoluta del script. Si no existe, lo crea.

In [8]:
download_path = os.path.abspath("../../Bases_de_datos") #Obtener la ruta absoluta de la carpeta "articles".
if not os.path.exists(download_path): #Verifica si la carpeta "articles" existe en la ruta absoluta.
    os.makedirs(download_path) #Si la carpeta no existe, la crea autom√°ticamente.

Configurar las opciones del navegador Chrome en Selenium y luego iniciar sesion

In [10]:
options = Options()
options.add_argument("--start-maximized")

# Perfil temporal en lugar del real
options.add_argument("--user-data-dir=C:/Temp/ChromeProfile")

# Soluci√≥n t√≠pica para DevToolsActivePort
options.add_argument("--remote-debugging-port=9222")
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

Abrir un proxy en Selenium cargando la URL de inicio de sesi√≥n de un servicio de proxy

In [11]:
#Definir la URL del proxy
proxy_url = "https://login.intelproxy.com/v2/inicio?cuenta=7Ah6RNpGWF22jjyq" #Almacena la direcci√≥n de un servicio de proxy (IntelProxy en este caso).
#Cargar la URL en el navegador controlado por Selenium
driver.get(proxy_url) #Selenium abre la p√°gina del proxy en Google Chrome (o el navegador que se est√© usando)

Dar click en boton de iniciar sesion con Google

In [12]:
# Encuentra el bot√≥n por su ID y haz clic en √©l
boton = driver.find_element(By.ID, "btn-google")
boton.click()

Intentar iniciar sesi√≥n en Gmail autom√°ticamente con un correo y contrase√±a predefinidos.

In [None]:
#Intentar encontrar el campo de correo electr√≥nico
try:
    #Espera hasta 5 segundos para encontrar el campo de entrada de correo (ID="identifierId"), Si el campo aparece antes, contin√∫a sin esperar m√°s.
    email_input = WebDriverWait(driver, 5).until(
        EC.presence_of_element_located((By.ID, "identifierId"))
    )
    #Escribir el correo y presionar Enter
    email_input.send_keys("correo")
    email_input.send_keys(Keys.RETURN)

    print("‚úÖ Usuario de Gmail ingresado.") #Mensaje informativo

    #Esperar hasta que aparezca el campo de contrase√±a, espera hasta 5 segundos para que aparezca el campo de contrase√±a (NAME="Passwd"), Si aparece antes, sigue con la ejecuci√≥n.
    password_input = WebDriverWait(driver, 5).until( #Espera hasta que aparezca el campo de contrase√±a, espera hasta 10 segundos para que aparezca el campo de contrase√±a (NAME="Passwd"), Si aparece antes, sigue con la ejecuci√≥n.
        EC.presence_of_element_located((By.NAME, "Passwd"))
    )
    #Escribir la contrase√±a y presionar Enter
    password_input.send_keys("clave")
    password_input.send_keys(Keys.RETURN)

    print("‚úÖ Contrase√±a de Gmail ingresada.") #Mensaje informativo

#Manejar errores si ya se est√° autenticado    
except:
    print("‚ö†Ô∏è No se necesit√≥ login de Gmail (ya estabas autenticado).") #Mensaje informativo
print("üìÇ P√°gina actual:", driver.current_url) #Mensaje informativo

Abrir una p√°gina web de ScienceDirect a trav√©s de un proxy del CRAI

In [13]:
#Definir la URL de acceso con proxy
url_sd = "https://www-sciencedirect-com.crai.referencistas.com/" #url_sd almacena la direcci√≥n de ScienceDirect a trav√©s de un proxy institucional del CRAI, crai.referencistas.com es un proxy acad√©mico que permite a usuarios acceder a recursos de pago usando credenciales institucionales.
#Abrir la p√°gina en Selenium
driver.get(url_sd) #Selenium abre la URL en el navegador controlado autom√°ticamente.

Establecer palabra de busqueda

In [14]:
search_query = '"generative artificial intelligence"'

Realizar la b√∫squeda del sitio web usando Selenium.

In [15]:
#Esperar hasta que aparezca el campo de b√∫squeda
campo_input = WebDriverWait(driver, 10).until( #WebDriverWait(driver, 10).until(...): Espera hasta 10 segundos para que aparezca un elemento en la p√°gina
    EC.presence_of_element_located((By.ID, "qs")) #By.ID, "qs": Busca el campo de b√∫squeda por su id="qs"
)
#Escribir el t√©rmino de b√∫squeda
campo_input.send_keys(search_query) #Env√≠a el texto "computational thinking" al campo de b√∫squeda.
campo_input.send_keys(Keys.RETURN) #Presionar "Enter" para ejecutar la b√∫squeda

Esperar a que aparezca un bot√≥n con el texto "100" y luego hace clic en √©l.

In [16]:
#Esperar hasta que el bot√≥n "100" est√© disponible para hacer clic
option_100 = WebDriverWait(driver, 10).until( #Espera hasta 10 segundos para que el elemento est√© listo para hacer clic.
    EC.element_to_be_clickable((By.XPATH, "//span[contains(@class, 'anchor-text') and text()='100']")) #By.XPATH, "//span[contains(@class, 'anchor-text') and text()='100']", Busca un elemento <span> que tenga la clase "anchor-text", El texto exacto dentro del <span> debe ser "100".
)
option_100.click() #Hacer clic en la opci√≥n "100"
print("‚úÖ Se seleccion√≥ la opci√≥n '100'.") #Mensaje informativo

‚úÖ Se seleccion√≥ la opci√≥n '100'.


Buscar y seleccionar la casilla de verificaci√≥n ("checkbox") que permite marcar todos los resultados.

In [17]:
#Esperar hasta que el checkbox est√© presente en la p√°gina
select_all_checkbox = WebDriverWait(driver, 10).until( #WebDriverWait(driver, 15).until(...), Espera hasta 15 segundos a que el checkbox aparezca en la p√°gina.
    EC.presence_of_element_located((By.XPATH, "//input[@id='select-all-results']")) #EC.presence_of_element_located(...):, Asegura que el checkbox est√© presente en el DOM (aunque no sea interactuable todav√≠a), By.XPATH, "//input[@id='select-all-results']":, Busca un elemento <input> con el atributo id="select-all-results"., Este identificador suele usarse en p√°ginas que permiten seleccionar todos los art√≠culos o resultados con un solo clic.
)
#Hacer clic en la casilla de selecci√≥n usando JavaScript
driver.execute_script("arguments[0].click();", select_all_checkbox) #execute_script("arguments[0].click();", select_all_checkbox):, Usa JavaScript para forzar el clic en el checkbox.
print("‚úÖ Todos los art√≠culos han sido seleccionados correctamente.") #Mensaje informativo

‚úÖ Todos los art√≠culos han sido seleccionados correctamente.


Configurar la ruta de descarga del navegador Chrome para que los archivos descargados

In [19]:
#Definir la ruta de descarga personalizada
custom_download_path = r"C:\Proyecto Final\Bases_de_datos\science_direct" #Se usa para evitar problemas con las barras invertidas (\) en Windows.
#Configurar la descarga autom√°tica en Chrome
driver.execute_cdp_cmd("Page.setDownloadBehavior", { #execute_cdp_cmd("Page.setDownloadBehavior", {...}):, usa el Chrome DevTools Protocol (CDP) para modificar el comportamiento de descarga del navegador.
    "behavior": "allow", #"behavior": "allow" ‚Üí Permite descargas sin mostrar el cuadro de di√°logo de confirmaci√≥n.
    "downloadPath": custom_download_path #"downloadPath": custom_download_path ‚Üí Define la carpeta donde se guardar√°n los archivos.
})
print(f"‚úÖ Descargas configuradas en: {custom_download_path}") #Mensaje informativo

‚úÖ Descargas configuradas en: C:\Proyecto Final\Bases_de_datos\science_direct


Automatizar la descarga de citas en formato RIS desde una p√°gina de resultados de b√∫squeda

In [20]:
#Bucle para procesar todas las p√°ginas
while True: #Permite descargar citas de varias p√°ginas sin intervenci√≥n manual.
    try: #Se romper√° cuando no haya m√°s p√°ginas disponibles o haya un error.
        # Hacer clic en "Export"
        #Encuentra y hace clic en el bot√≥n "Export" dentro de la p√°gina.
        export_button = WebDriverWait(driver, 5).until(
            EC.element_to_be_clickable((By.XPATH, "//button[contains(@class, 'export-all-link-button') and .//span[contains(text(), 'Export')]]"))
        )
        export_button.click()
        print("‚úÖ Bot√≥n 'Export' clickeado correctamente.") #Mensaje informativo

        #Hacer clic en "Export citation to RIS"
        #Hace clic en la opci√≥n para descargar la citaci√≥n en formato .ris.
        export_ris_button = WebDriverWait(driver, 5).until(
            EC.element_to_be_clickable((By.XPATH, "//span[contains(@class, 'button-link-text') and text()='Export citation to RIS']"))
        )
        export_ris_button.click()
        print("‚úÖ Bot√≥n 'Export citation to RIS' clickeado correctamente.") #Mensaje informativo

        #Esperar la descarga del archivo .ris
        print("‚è≥ Esperando la descarga del archivo RIS...") #Mensaje informativo
        timeout = 5 #Tiempo limite de 5 segundos
        start_time = time.time() #Guarda el tiempo de inicio en segundos.
        downloaded = False #Variable de control para indicar si el archivo se ha descargado.

        #Monitorea la carpeta de descargas (download_path) durante 5 segundos en busca del archivo .ris.
        while time.time() - start_time < timeout:
            #Buscar archivos .ris en la carpeta de descargas
            ris_files = [f for f in os.listdir(download_path) if f.endswith(".ris")] #os.listdir(download_path): Lista todos los archivos en la carpeta de descargas., if f.endswith(".ris"): Filtra solo los archivos con extensi√≥n .ris.
            #Si se encuentra, imprime el nombre del archivo y contin√∫a.
            if ris_files:
                print(f"‚úÖ Archivo RIS descargado: {ris_files[-1]}") #Imprime el nombre del √∫ltimo archivo descargado (ris_files[-1]).
                downloaded = True #Cambia downloaded = True para indicar que la descarga fue exitosa.
                break #Usa break para salir del bucle, ya que el archivo fue encontrado
            time.sleep(1) #Esperar 1 segundo
        #Si no se encuentra, muestra un mensaje de advertencia.
        if not downloaded:
            print("‚ö†Ô∏è Advertencia: No se detect√≥ ning√∫n archivo RIS despu√©s de 5 segundos.") #Mensaje informativo

        #Cerrar la ventana modal (si existe)
        try:
            #Si la ventana de exportaci√≥n sigue abierta, la cierra.
            close_button = WebDriverWait(driver, 5).until(
                EC.element_to_be_clickable((By.XPATH, "//button[contains(@class, 'modal-close-button')]"))
            )
            close_button.click()
            print("‚úÖ Ventana modal cerrada correctamente.") #Mensaje informativo
            time.sleep(1)
        #Si no encuentra el bot√≥n, ignora el error y contin√∫a.    
        except TimeoutException:
            print("‚ö†Ô∏è No se encontr√≥ el bot√≥n de cierre de la ventana modal. Continuando...") #Mensaje informativo

        #Verificar si hay una p√°gina siguiente y navegar
        try:
            #Busca el bot√≥n "Next" (siguiente p√°gina).
            next_button = WebDriverWait(driver, 5).until( #Se usa WebDriverWait(driver, 5).until(...) para esperar hasta 5 segundos a que aparezca el bot√≥n "Next".
                EC.presence_of_element_located((By.XPATH, "//a[@data-aa-name='srp-next-page']")) #EC.presence_of_element_located(...): Se asegura de que el bot√≥n est√© presente en el DOM.
            )
            next_url = next_button.get_attribute("href") #Se extrae el atributo href del bot√≥n, que contiene el enlace a la siguiente p√°gina.
            #Si no existe, termina el bucle y la automatizaci√≥n.
            if not next_url:
                print("‚úÖ No hay m√°s p√°ginas disponibles.") #Mensaje informativo
                break #Cortar la ejecucion

            # ‚úÖ Hacer scroll hasta "Next"
            driver.execute_script("arguments[0].scrollIntoView();", next_button) #Se usa execute_script para hacer un scroll autom√°tico hasta el bot√≥n "Next".
            time.sleep(1) #Esperar 1 segundo

            #Intentar clic normal, si falla usar JavaScript
            try:
                next_button.click()
            except ElementClickInterceptedException:
                driver.execute_script("arguments[0].click();", next_button)
            print(f"‚û°Ô∏è Se hizo clic en 'Next'. Nueva URL: {next_url}") #Mensaje informativo

            # ‚úÖ Esperar hasta que la URL cambie
            WebDriverWait(driver, 5).until(lambda d: d.current_url == next_url)
            time.sleep(1) #Esperar 1 segundo

        except (TimeoutException, NoSuchElementException):
            print("‚úÖ No hay m√°s p√°ginas disponibles.") #Mensaje informativo
            break #Cortar la ejecucion

    except Exception as e:
        print(f"‚ö†Ô∏è Error inesperado: {e}") #Mensaje informativo
        break #Cortar la ejecucion

‚úÖ Bot√≥n 'Export' clickeado correctamente.
‚úÖ Bot√≥n 'Export citation to RIS' clickeado correctamente.
‚è≥ Esperando la descarga del archivo RIS...
‚ö†Ô∏è Advertencia: No se detect√≥ ning√∫n archivo RIS despu√©s de 5 segundos.


KeyboardInterrupt: 

Abre  la pagina de SAGE en el navegador controlado por Selenium

In [None]:
url_sage = "https://journals-sagepub-com.crai.referencistas.com/" #Definir URL
driver.get(url_sage) #Carga la p√°gina en el navegador, driver es el objeto de Selenium WebDriver que controla el navegador y presiona enter

Buscar un campo de entrada en la p√°gina web y env√≠a una consulta de b√∫squeda con la frase "computational thinking".

In [None]:
#Espera a que el campo de entrada est√© disponible
campo_input = WebDriverWait(driver, 10).until( #Usa WebDriverWait(driver, 10).until(...) para esperar hasta 10 segundos a que el campo aparezca en la p√°gina.
    EC.presence_of_element_located((By.ID, "AllField35ea26a9-ec16-4bde-9652-17b798d5b6750")) #EC.presence_of_element_located((By.ID, "AllField35ea26a9-ec16-4bde-9652-17b798d5b6750")):, Busca un elemento por su ID (AllField35ea26a9-ec16-4bde-9652-17b798d5b6750)., EC.presence_of_element_located(...) asegura que el campo existe en el DOM, aunque no sea visible a√∫n.
)
#Escribe en el campo de b√∫squeda
campo_input.send_keys(search_query) #send_keys("computational thinking"): Escribe "computational thinking" en el campo de entrada
campo_input.send_keys(Keys.RETURN) #Simular enter

Configurar la ruta de descarga del navegador para que los archivos se guarden en una ubicaci√≥n espec√≠fica en lugar de la carpeta de descargas predeterminada.

In [None]:
#Definir la ruta donde se guardar√°n los archivos descargados.
custom_download_path = r"C:\Proyecto-Final\Bases_de_datos\sage" #Se usa un string crudo (r"") para evitar problemas con las barras invertidas (\).
#Cambia la configuraci√≥n de descarga del navegador (Chrome).
driver.execute_cdp_cmd("Page.setDownloadBehavior", { #driver.execute_cdp_cmd(...) usa el Chrome DevTools Protocol (CDP) para ejecutar comandos avanzados en Chrome., "Page.setDownloadBehavior": Modifica el comportamiento de descargas del navegador.
    "behavior": "allow", #"behavior": "allow": Permite que las descargas se realicen sin necesidad de confirmaci√≥n manual.
    "downloadPath": custom_download_path #"downloadPath": custom_download_path: Define la carpeta donde se guardar√°n los archivos.
})
print(f"‚úÖ Descargas configuradas en: {custom_download_path}") #Mensje informativo

Acceder a SAGE ya autenticado y extraer art√≠culos

In [None]:
#Ejecutar hasta que no haya m√°s p√°ginas disponibles
while True:
    try:
        # Espera hasta que el bot√≥n de cookies sea clickeable (m√°ximo 5 segundos).
        cookie_button = WebDriverWait(driver, 5).until(
            EC.element_to_be_clickable((By.ID, "onetrust-accept-btn-handler"))
        )
        # Hace clic en el bot√≥n de cookies.
        cookie_button.click()
        print("‚úÖ Bot√≥n 'Accept Non-Essential Cookies' clickeado correctamente.")
    except TimeoutException:
        print("‚ö†Ô∏è Bot√≥n 'Accept Non-Essential Cookies' no encontrado o no clickeable.")
        
    try:
        #Seleccionar todos los art√≠culos de la p√°gina actual
        select_all_checkbox = WebDriverWait(driver, 5).until(
            EC.presence_of_element_located((By.ID, "action-bar-select-all"))
        )
        driver.execute_script("arguments[0].click();", select_all_checkbox) # Usa execute_script para forzar el clic en caso de que Selenium no pueda hacerlo directamente.
        print("‚úÖ Todos los art√≠culos han sido seleccionados correctamente.") #Mensaje informativo

        #Exportar las citas seleccionadas
        export_button = WebDriverWait(driver, 5).until(
            EC.element_to_be_clickable((By.XPATH, "//span[text()='Export selected citations']"))
        )
        export_button.click()
        print("‚úÖ Bot√≥n 'Export selected citations' clickeado correctamente.") #Mensaje informativo

        #Seleccionar el formato "RIS"
        select_element = WebDriverWait(driver, 5).until(
            EC.presence_of_element_located((By.ID, "citation-format"))
        )
        select = Select(select_element)
        select.select_by_value("ris")
        print("‚úÖ Formato 'RIS' seleccionado correctamente.") #Mensaje informativo
        #Descargar la cita exportada
        download_button = WebDriverWait(driver, 5).until(
            EC.element_to_be_clickable((By.XPATH, "//a[contains(@class, 'download__btn') and contains(text(), 'Download citation')]"))
        )

        #Si el clic normal falla, usa JavaScript para forzar el clic.
        try:
            download_button.click()
        except ElementClickInterceptedException:
            print("‚ö†Ô∏è Click interceptado, usando JavaScript...")
            driver.execute_script("arguments[0].click();", download_button)
        print("‚úÖ Bot√≥n 'Download citation' clickeado correctamente.") #Mensaje informativo
        time.sleep(3) #Esperar 1 segundo
        #Buscar el archivo descargado m√°s reciente y lo renombra
        ris_files = [f for f in os.listdir(custom_download_path) if f.endswith(".ris")]
        if ris_files:
            latest_file = max(ris_files, key=lambda f: os.path.getctime(os.path.join(custom_download_path, f)))
            old_path = os.path.join(custom_download_path, latest_file)
            #Generar nuevo nombre con fecha y hora
            timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
            new_filename = f"sage_{timestamp}.ris"
            new_path = os.path.join(custom_download_path, new_filename)
            #Renombrar el archivo
            os.rename(old_path, new_path)
            print(f"‚úÖ Archivo renombrado: {new_filename}")
        else:
            print("‚ö†Ô∏è No se encontr√≥ ning√∫n archivo RIS.")

        #Intentar cerrar la modal
        try:
            modal = WebDriverWait(driver, 5).until(
                EC.presence_of_element_located((By.CLASS_NAME, "modal__header"))
            )
            print("‚úÖ Modal detectada.")
            close_button = WebDriverWait(driver, 5).until(
                EC.element_to_be_clickable((By.XPATH, "//div[@class='modal__header']//button[@data-dismiss='modal']"))
            )
            #Intentar cerrar la modal con clic normal
            close_button.click()
            time.sleep(1) #Esperar 2 segundos
            #Si sigue abierta, intentar con JavaScript
            if modal.is_displayed():
                driver.execute_script("arguments[0].click();", close_button)
                time.sleep(1)
            #Enviar tecla ESC si a√∫n sigue abierta
            if modal.is_displayed():
                from selenium.webdriver.common.keys import Keys
                driver.find_element(By.TAG_NAME, "body").send_keys(Keys.ESCAPE)
                time.sleep(1)
            #Si a√∫n no se cierra, eliminarla del DOM
            if modal.is_displayed():
                driver.execute_script("document.querySelector('.modal__header').remove();")
                time.sleep(1)
            print("‚úÖ Modal cerrada correctamente.")
        except TimeoutException:
            print("‚ö†Ô∏è No se detect√≥ la modal o ya estaba cerrada.")

        #Avanzar a la siguiente p√°gina (si existe)
        try:
            next_button = WebDriverWait(driver, 5).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, 'li.page-item__arrow--next a'))
            )
            #Obtener la URL de la siguiente p√°gina
            next_page_url = next_button.get_attribute('href')
            #Verificar si hay m√°s p√°ginas
            if not next_page_url:
                print("‚úÖ No hay m√°s p√°ginas disponibles. Finalizando la navegaci√≥n.")
                break
            print(f"üìå Avanzando a la siguiente p√°gina: {next_page_url}") #Mensaje informativo
            #Hacer clic en "Next" usando JavaScript
            driver.execute_script("arguments[0].click();", next_button)
            time.sleep(1) #Esperar 1 segundo
        except (NoSuchElementException, TimeoutException, StaleElementReferenceException):
            print("‚úÖ No hay m√°s p√°ginas disponibles. Finalizando la navegaci√≥n.")
            break

    except Exception as e:
        print(f"‚ö†Ô∏è Error inesperado: {e}")
        break  # Salir en caso de error grave