In [1]:
# ======================= Importación de Librerías =======================
import csv
import json
import random
import re
import time
from IPython.display import Image  # Mostrar imágenes en entornos interactivos (opcional)
from selenium import webdriver  # Automatización del navegador
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from webdriver_manager.chrome import ChromeDriverManager  # Gestor automático de drivers

# ======================= Configuración del Navegador =======================
options = Options()
options.add_argument('--headless')  # Ejecutar en modo sin interfaz gráfica
options.add_argument('--no-sandbox')  # Evitar errores de usuario en entornos restringidos
options.add_argument('--disable-dev-shm-usage')  # Incrementa memoria compartida en contenedores

# ======================= Inicialización del Navegador =======================
browser = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
browser.maximize_window()  # Maximizar la ventana del navegador al abrir

In [2]:
# ======================= Función para Mostrar Captura de Pantalla =======================
def show_screenshot(browser, fuente):
    """
    Guarda una captura de pantalla del navegador y la muestra.

    Parameters:
    - browser (webdriver): instancia del navegador Selenium
    - fuente (str): nombre de la fuente, usado para el archivo de imagen

    Returns:
    - Image: visualización de la captura de pantalla en el entorno interactivo
    """
    # Definir el nombre del archivo y la ruta donde se guardará
    path_png = f'./imgs/{fuente}.png'
    
    # Guardar la captura de pantalla en el archivo especificado
    browser.save_screenshot(path_png)
    
    # Mostrar la captura de pantalla guardada
    return Image(path_png)

In [3]:
# ======================= Función para Realizar Búsqueda =======================
def search_data(browser):
    """
    Realiza una búsqueda en la página web usando el término de entrada en el campo de búsqueda.

    Parameters:
    - inp_search (str): término a buscar (ej. 'Barcelona')
    - browser (webdriver): instancia del navegador de Selenium

    Returns:
    - None
    """

    # Insertar el término de búsqueda en el campo correspondiente
    id_input = 'header_leagues'
    e_input = browser.find_element(By.ID, id_input)
    e_input.click()
    # Confirmación de búsqueda realizada
    print(f'==> Se buscaron los datos para')

In [None]:
# ======================= Función para Guardar Registros de la Página =======================
def save_records_from_page(browser, list_dict):
    links = browser.find_elements(By.XPATH, '//tr[@class="thead"]/following-sibling::tr/th[@scope="row"]/a')

    for index, link in enumerate(links):
        url = link.get_attribute("href")  # Obtiene la URL del enlace
        print(f"Abriendo: {url}")

        # Abrir el enlace en una nueva pestaña
        browser.execute_script(f"window.open('{url}', '_blank');")
        time.sleep(2)  # Esperar un poco para que la página cargue

        # Cambiar a la nueva pestaña
        browser.switch_to.window(browser.window_handles[-1])
        time.sleep(2)
        e_input = browser.find_element(By.XPATH, '//ul[@class="hoversmooth"]/li[3]')
        e_input.click()
        time.sleep(2)  # Esperar un poco más para evitar errores de carga
        
        # Capturar pantalla
        show_screenshot(browser, f"pagina_{index}")

        links2 = browser.find_elements(By.XPATH, '//div[@class="filter"]/div/a')

        for index2, link2 in enumerate(links2):
            url2 = link2.get_attribute("href")  # Obtiene la URL del enlace
            print(f"Abriendo: {url2}")

            # Abrir el enlace en una nueva pestaña
            browser.execute_script(f"window.open('{url2}', '_blank');")
            time.sleep(2)  # Esperar un poco para que la página cargue

            # Cambiar a la nueva pestaña
            browser.switch_to.window(browser.window_handles[-1])

            try:
                body = browser.find_element(By.TAG_NAME, 'body')
                body.send_keys(Keys.ESCAPE)
                time.sleep(2)  # Espera un poco para asegurarse de que se cierre
            except Exception as e:
                print("No se pudo cerrar con Esc:", e)


            time.sleep(2)
            # Capturar pantalla
            show_screenshot(browser, f"pagina_{index}_{index2}")

            links3 = browser.find_elements(By.XPATH,'//div[@id="all_schedule"]//table//td[6]/a')

            for index3, link3 in enumerate(links3):
                url3 = link3.get_attribute("href")  # Obtiene la URL del enlace
                print(f"Abriendo: {url3}")

                # Abrir el enlace en una nueva pestaña
                browser.execute_script(f"window.open('{url3}', '_blank');")
                time.sleep(2)  # Esperar un poco para que la página cargue

                # Cambiar a la nueva pestaña
                browser.switch_to.window(browser.window_handles[-1])

                # Capturar pantalla
                show_screenshot(browser, f"pagina_{index}_{index2}_{index3}")

                links4 = browser.find_elements(By.XPATH, '//div[@class="current"]/following-sibling::div')

                # Eliminar primero el índice 5 y luego el 2 para evitar cambios en los índices
                browser.execute_script("arguments[0].remove();", links4[5])
                browser.execute_script("arguments[0].remove();", links4[2])

                for index4, link4 in enumerate(links4):
                    url4 = link4.get_attribute("href")  # Obtiene la URL del enlace
                    print(f"Abriendo: {url4}")

                    # Abrir el enlace en una nueva pestaña
                    browser.execute_script(f"window.open('{url4}', '_blank');")
                    time.sleep(2)  # Esperar un poco para que la página cargue

                    # Cambiar a la nueva pestaña
                    browser.switch_to.window(browser.window_handles[-1])



                    wait = WebDriverWait(browser, 10)

                    # Extraer los elementos en cada iteración del bucle
                    elementos = browser.find_elements(By.XPATH, '//table[@class="sortable stats_table now_sortable"]//thead/tr[2]')
                    lista_elementos = [element.text for element in elementos]

                    datos = browser.find_elements(By.XPATH, '//table[@class="sortable stats_table now_sortable"]//tbody/tr/th[@scope="row"]')
                    lista_datos = [dato.text for dato in datos]

                    celdas = browser.find_elements(By.XPATH, '//table[@class="sortable stats_table now_sortable"]//tbody/tr/td')
                    lista_celdas = [celda.text for celda in celdas]

                    # Guardar datos en la lista de diccionarios
                    list_dict.append({
                        "url": url4,
                        "elementos": lista_elementos,
                        "datos": lista_datos,
                        "celdas": lista_celdas
                    })

                    # Cerrar la pestaña actual
                    browser.close()
                    time.sleep(1)
                    browser.switch_to.window(browser.window_handles[3])

                # Cerrar la pestaña actual
                browser.close()
                time.sleep(1)
                browser.switch_to.window(browser.window_handles[2])

            # Cerrar la pestaña actual
            browser.close()
            time.sleep(1)
            browser.switch_to.window(browser.window_handles[1])
        
        # Cerrar la pestaña actual
        browser.close()
        time.sleep(1)

        # Solo cambiar de pestaña si aún hay pestañas abiertas
        if len(browser.window_handles) > 0:
            browser.switch_to.window(browser.window_handles[0])

In [8]:
list_dict

[{'url': None, 'elementos': [], 'datos': [], 'celdas': []},
 {'url': None, 'elementos': [], 'datos': [], 'celdas': []}]

In [5]:
# ============================ Ejecución Principal ===============================

# 1. Parámetros
url_root = 'https://www.basketball-reference.com/'

# 2. Navegar a la página principal
browser.get(url_root)
show_screenshot(browser, "0. Pagina Principal")

# 3. Realizar la búsqueda
search_data(browser)
show_screenshot(browser, "1. Pagina Temporadas")

# 4. Extraer y guardar registros de la página
time.sleep(1)  # Esperar antes de iniciar la extracción

list_dict = []  # Lista vacía si necesitas almacenar información extra
save_records_from_page(browser, list_dict)

# 5. Cerrar el navegador
browser.quit()


==> Se buscaron los datos para
Abriendo: https://www.basketball-reference.com/leagues/NBA_2025.html
Abriendo: https://www.basketball-reference.com/leagues/NBA_2025_games-october.html
Abriendo: https://www.basketball-reference.com/boxscores/202410220BOS.html
Abriendo: None
Abriendo: None


StaleElementReferenceException: Message: stale element reference: stale element not found in the current frame
  (Session info: chrome=133.0.6943.127); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#stale-element-reference-exception
Stacktrace:
0   chromedriver                        0x000000010272ab58 cxxbridge1$str$ptr + 2724820
1   chromedriver                        0x00000001027231b8 cxxbridge1$str$ptr + 2693684
2   chromedriver                        0x0000000102289afc cxxbridge1$string$len + 93348
3   chromedriver                        0x000000010228f808 cxxbridge1$string$len + 117168
4   chromedriver                        0x0000000102291b64 cxxbridge1$string$len + 126220
5   chromedriver                        0x0000000102312960 cxxbridge1$string$len + 654088
6   chromedriver                        0x0000000102311b94 cxxbridge1$string$len + 650556
7   chromedriver                        0x00000001022c4ba0 cxxbridge1$string$len + 335176
8   chromedriver                        0x00000001026f3610 cxxbridge1$str$ptr + 2498188
9   chromedriver                        0x00000001026f6924 cxxbridge1$str$ptr + 2511264
10  chromedriver                        0x00000001026d8cb0 cxxbridge1$str$ptr + 2389292
11  chromedriver                        0x00000001026f71cc cxxbridge1$str$ptr + 2513480
12  chromedriver                        0x00000001026c9c98 cxxbridge1$str$ptr + 2327828
13  chromedriver                        0x0000000102713880 cxxbridge1$str$ptr + 2629884
14  chromedriver                        0x0000000102713a08 cxxbridge1$str$ptr + 2630276
15  chromedriver                        0x0000000102722e2c cxxbridge1$str$ptr + 2692776
16  libsystem_pthread.dylib             0x000000018ce202e4 _pthread_start + 136
17  libsystem_pthread.dylib             0x000000018ce1b0fc thread_start + 8
