In [244]:
# ======================= Importación de Librerías =======================
import csv
import json
import random
import re
import time
from IPython.display import Image  # Mostrar imágenes en entornos interactivos (opcional)
from selenium import webdriver  # Automatización del navegador
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from webdriver_manager.chrome import ChromeDriverManager  # Gestor automático de drivers

# ======================= Configuración del Navegador =======================
options = Options()
options.add_argument('--headless')  # Ejecutar en modo sin interfaz gráfica
options.add_argument('--no-sandbox')  # Evitar errores de usuario en entornos restringidos
options.add_argument('--disable-dev-shm-usage')  # Incrementa memoria compartida en contenedores

# ======================= Inicialización del Navegador =======================
browser = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
browser.maximize_window()  # Maximizar la ventana del navegador al abrir

In [245]:
# ======================= Función para Mostrar Captura de Pantalla =======================
def show_screenshot(browser, fuente):
    """
    Guarda una captura de pantalla del navegador y la muestra.

    Parameters:
    - browser (webdriver): instancia del navegador Selenium
    - fuente (str): nombre de la fuente, usado para el archivo de imagen

    Returns:
    - Image: visualización de la captura de pantalla en el entorno interactivo
    """
    # Definir el nombre del archivo y la ruta donde se guardará
    path_png = f'./imgs/{fuente}.png'
    
    # Guardar la captura de pantalla en el archivo especificado
    browser.save_screenshot(path_png)
    
    # Mostrar la captura de pantalla guardada
    return Image(path_png)

In [246]:
# ======================= Función para Realizar Búsqueda =======================
def search_data(browser):
    """
    Realiza una búsqueda en la página web usando el término de entrada en el campo de búsqueda.

    Parameters:
    - inp_search (str): término a buscar (ej. 'Barcelona')
    - browser (webdriver): instancia del navegador de Selenium

    Returns:
    - None
    """

    # Insertar el término de búsqueda en el campo correspondiente
    id_input = 'header_leagues'
    e_input = browser.find_element(By.ID, id_input)
    e_input.click()
    # Confirmación de búsqueda realizada
    print(f'==> Se buscaron los datos para')

In [None]:
# ======================= Función para Guardar Registros de la Página =======================
def save_records_from_page(browser, list_dict):
    links = browser.find_elements(By.XPATH, '//tr[@class="thead"]/following-sibling::tr/th[@scope="row"]/a')

    for index, link in enumerate(links):
        url = link.get_attribute("href")  # Obtiene la URL del enlace
        print(f"Abriendo: {url}")

        # Abrir el enlace en una nueva pestaña
        browser.execute_script(f"window.open('{url}', '_blank');")
        time.sleep(2)  # Esperar un poco para que la página cargue

        # Cambiar a la nueva pestaña
        browser.switch_to.window(browser.window_handles[-1])
        time.sleep(2)
        e_input = browser.find_element(By.XPATH, '//ul[@class="hoversmooth"]/li[3]')
        e_input.click()
        time.sleep(2)  # Esperar un poco más para evitar errores de carga
        
        # Capturar pantalla
        show_screenshot(browser, f"pagina_{index}")

        links2 = browser.find_elements(By.XPATH, '//div[@class="filter"]/div/a')

        for index2, link2 in enumerate(links2):
            url2 = link2.get_attribute("href")  # Obtiene la URL del enlace
            print(f"Abriendo: {url2}")

            # Abrir el enlace en una nueva pestaña
            browser.execute_script(f"window.open('{url2}', '_blank');")
            time.sleep(2)  # Esperar un poco para que la página cargue

            # Cambiar a la nueva pestaña
            browser.switch_to.window(browser.window_handles[-1])

            try:
                body = browser.find_element(By.TAG_NAME, 'body')
                body.send_keys(Keys.ESCAPE)
                time.sleep(2)  # Espera un poco para asegurarse de que se cierre
            except Exception as e:
                print("No se pudo cerrar con Esc:", e)


            time.sleep(2)
            # Capturar pantalla
            show_screenshot(browser, f"pagina_{index}_{index2}")

            links3 = browser.find_elements(By.XPATH,'//div[@id="all_schedule"]//table//td[6]/a')

            for index3, link3 in enumerate(links3):
                url3 = link3.get_attribute("href")  # Obtiene la URL del enlace
                print(f"Abriendo: {url3}")

                # Abrir el enlace en una nueva pestaña
                browser.execute_script(f"window.open('{url3}', '_blank');")
                time.sleep(2)  # Esperar un poco para que la página cargue

                # Cambiar a la nueva pestaña
                browser.switch_to.window(browser.window_handles[-1])

                # Capturar pantalla
                show_screenshot(browser, f"pagina_{index}_{index2}_{index3}")
        
                # Cerrar la pestaña actual
                browser.close()
                time.sleep(1)
                browser.switch_to.window(browser.window_handles[2])

            # Cerrar la pestaña actual
            browser.close()
            time.sleep(1)
            browser.switch_to.window(browser.window_handles[1])
        
        # Cerrar la pestaña actual
        browser.close()
        time.sleep(1)

        # Solo cambiar de pestaña si aún hay pestañas abiertas
        if len(browser.window_handles) > 0:
            browser.switch_to.window(browser.window_handles[0])

In [248]:
# ============================ Ejecución Principal ===============================

# 1. Parámetros
url_root = 'https://www.basketball-reference.com/'

# 2. Navegar a la página principal
browser.get(url_root)
show_screenshot(browser, "0. Pagina Principal")

# 3. Realizar la búsqueda
search_data(browser)
show_screenshot(browser, "1. Pagina Temporadas")

# 4. Extraer y guardar registros de la página
time.sleep(1)  # Esperar antes de iniciar la extracción

list_dict = []  # Lista vacía si necesitas almacenar información extra
save_records_from_page(browser, list_dict)

# 5. Cerrar el navegador
browser.quit()


==> Se buscaron los datos para
Abriendo: https://www.basketball-reference.com/leagues/NBA_2025.html
Abriendo: https://www.basketball-reference.com/leagues/NBA_2025_games-october.html
Abriendo: https://www.basketball-reference.com/boxscores/202410220BOS.html
Abriendo: https://www.basketball-reference.com/boxscores/202410220LAL.html
Abriendo: https://www.basketball-reference.com/boxscores/202410230DET.html
Abriendo: https://www.basketball-reference.com/boxscores/202410230ATL.html
Abriendo: https://www.basketball-reference.com/boxscores/202410230MIA.html
Abriendo: https://www.basketball-reference.com/boxscores/202410230PHI.html
Abriendo: https://www.basketball-reference.com/boxscores/202410230TOR.html
Abriendo: https://www.basketball-reference.com/boxscores/202410230HOU.html
Abriendo: https://www.basketball-reference.com/boxscores/202410230NOP.html
Abriendo: https://www.basketball-reference.com/boxscores/202410230UTA.html
Abriendo: https://www.basketball-reference.com/boxscores/202410230L

KeyboardInterrupt: 