## Web Scraping Automatizado: IEEE Xplore

Este notebook implementa un **bot de web scraping automatizado** para descargar art√≠culos cient√≠ficos en formato BibTeX desde IEEE Xplore.

### Objetivos:
1. **Autenticaci√≥n autom√°tica** v√≠a proxy institucional
2. **Navegaci√≥n program√°tica** a IEEE Xplore
3. **B√∫squeda automatizada** de t√©rminos espec√≠ficos
4. **Descarga masiva** de archivos BibTeX con paginaci√≥n
5. **Organizaci√≥n** de archivos descargados

### Flujo del Proceso:
```
Login Proxy ‚Üí Autenticaci√≥n Google ‚Üí Selecci√≥n Facultad ‚Üí 
Acceso IEEE ‚Üí B√∫squeda ‚Üí Configuraci√≥n Resultados ‚Üí 
Loop de Paginaci√≥n ‚Üí Descarga BibTeX ‚Üí Renombrado ‚Üí Siguiente P√°gina
```

### Caracter√≠sticas Principales:

#### ü§ñ Automatizaci√≥n Completa:
- **Selenium WebDriver**: Control total del navegador
- **Manejo de cookies**: Cierre autom√°tico de banners
- **Esperas inteligentes**: `WebDriverWait` para elementos din√°micos
- **Paginaci√≥n autom√°tica**: Loop hasta √∫ltima p√°gina

#### üì• Descarga Inteligente:
- **Detecci√≥n de archivos**: Monitoreo de carpeta de descargas
- **Renombrado autom√°tico**: Nomenclatura consistente
- **Organizaci√≥n**: Carpeta dedicada por fuente (IEEE)
- **Verificaci√≥n**: Confirmaci√≥n de descarga exitosa

#### üõ°Ô∏è Manejo de Errores:
- **Try-catch**: Captura de excepciones por paso
- **Continuaci√≥n**: Proceso no se interrumpe por errores
- **Logging**: Mensajes informativos y de error

### Tecnolog√≠as Utilizadas:
- **Selenium**: Automatizaci√≥n de navegador
- **WebDriver**: ChromeDriver para Chrome
- **WebDriverWait**: Esperas expl√≠citas
- **ActionChains**: Interacciones complejas
- **dotenv**: Manejo seguro de credenciales

### üìä Resultados Esperados:

#### Descarga Exitosa:
```
Procesando p√°gina 1...
‚¨áÔ∏è Intentando descarga para p√°gina 1...
‚úÖ Archivo guardado como: ieee_generative_ai_page_1.bib
‚û°Ô∏è Avanzando a la p√°gina 2...
...
üéâ ¬°Proceso completado! Se han procesado 32 p√°ginas en total.
```

#### Estad√≠sticas:
- **P√°ginas procesadas**: ~20-30 p√°ginas
- **Art√≠culos por p√°gina**: 100 (configurable)
- **Total de art√≠culos**: ~2,000-3,000
- **Tiempo estimado**: 15-30 minutos

### Variables de Entorno Requeridas:
```python
EMAIL           # Correo institucional
PASSWORD        # Contrase√±a
DOWNLOAD_PATH   # Ruta base de descargas
```

### ‚ö†Ô∏è Consideraciones Importantes:

#### √âticas y Legales:
- ‚úÖ Usar solo con **acceso institucional leg√≠timo**
- ‚úÖ Respetar **t√©rminos de servicio** de IEEE
- ‚úÖ No sobrecargar servidores (delays entre requests)
- ‚úÖ Uso **acad√©mico/investigaci√≥n** √∫nicamente

#### T√©cnicas:
- Requiere **conexi√≥n estable** a internet
- Navegador **Chrome** instalado
- **ChromeDriver** compatible con versi√≥n de Chrome
- Suficiente **espacio en disco** para descargas

---

### Paso 1: Importaciones y Configuraci√≥n de Credenciales

Esta celda importa las librer√≠as necesarias y carga las credenciales de forma segura.

---

## üì¶ Librer√≠as Utilizadas

### Selenium - Automatizaci√≥n Web:
```python
from selenium import webdriver                    # Driver principal
from selenium.webdriver.common.by import By       # Localizadores
from selenium.webdriver.common.keys import Keys   # Teclas especiales
from selenium.webdriver.common.action_chains import ActionChains  # Acciones complejas
from selenium.webdriver.support.ui import WebDriverWait  # Esperas expl√≠citas
from selenium.webdriver.support import expected_conditions as EC  # Condiciones
from selenium.webdriver.chrome.service import Service  # Servicio Chrome
```

**Prop√≥sito**: Control program√°tico del navegador Chrome

### Utilidades:
```python
import pandas as pd    # Manipulaci√≥n de datos (opcional)
import time           # Delays y esperas
import os             # Manejo de archivos y rutas
from dotenv import load_dotenv  # Variables de entorno
```

---

## üîê Manejo Seguro de Credenciales

### Problema:
```python
# ‚ùå MAL: Credenciales hardcodeadas
email = "usuario@universidad.edu"
password = "miContrase√±a123"
```

**Riesgos**:
- Exposici√≥n en repositorios Git
- Compartir accidentalmente
- Dif√≠cil rotaci√≥n de credenciales

### Soluci√≥n: Variables de Entorno

#### Archivo `.env`:
```
EMAIL=usuario@universidad.edu
PASSWORD=miContrase√±a123
DOWNLOAD_PATH=/home/usuario/descargas
```

#### Carga en Python:
```python
load_dotenv()  # Carga variables del .env
email = os.getenv("EMAIL")
password = os.getenv("PASSWORD")
```

**Ventajas**:
- ‚úÖ `.env` en `.gitignore` (no se sube a Git)
- ‚úÖ F√°cil cambio sin modificar c√≥digo
- ‚úÖ Diferentes valores por entorno (dev/prod)

---

## üîí Seguridad Adicional

### 1. Permisos del Archivo `.env`:
```bash
chmod 600 .env  # Solo el propietario puede leer/escribir
```

### 2. Gitignore:
```
# .gitignore
.env
*.env
```

### 3. Template de Ejemplo:
```
# .env.example (S√ç se sube a Git)
EMAIL=tu_email@universidad.edu
PASSWORD=tu_contrase√±a
DOWNLOAD_PATH=/ruta/a/descargas
```

---

## üìã Variables de Entorno Utilizadas

| Variable | Descripci√≥n | Ejemplo |
|----------|-------------|---------|
| `EMAIL` | Correo institucional | `usuario@univ.edu` |
| `PASSWORD` | Contrase√±a de acceso | `********` |
| `DOWNLOAD_PATH` | Ruta de descargas | `/home/user/descargas` |

---

## ‚ö†Ô∏è Troubleshooting

### Error: "EMAIL is None"
```python
# Verificar que .env existe y est√° en el directorio correcto
print(os.path.exists('.env'))  # Debe ser True

# Verificar contenido
print(os.getenv("EMAIL"))  # Debe mostrar el email
```

### Error: "No module named 'dotenv'"
```bash
pip install python-dotenv
```

### Error: "Selenium not found"
```bash
pip install selenium
```

---

In [1]:
#imports requeridos para que el proyecto funcione
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service
import time
import os

import os
from dotenv import load_dotenv

# Cargar variables del archivo .env
load_dotenv()


# Obtener el correo electr√≥nico
email = os.getenv("EMAIL")
# Obtener la contrase√±a
password = os.getenv("PASSWORD")



### Paso 2: Configuraci√≥n de ChromeDriver y Descargas

Esta celda configura el navegador Chrome con opciones espec√≠ficas para descargas autom√°ticas.

---

## üîß Configuraci√≥n de Descargas

### 1. Crear Carpeta de Descargas:
```python
download_path = os.getenv("DOWNLOAD_PATH")
os.makedirs(download_path, exist_ok=True)
```

**Par√°metros**:
- `exist_ok=True`: No genera error si la carpeta ya existe

---

## ‚öôÔ∏è Opciones de Chrome

### Preferencias de Descarga:
```python
prefs = {
    "download.default_directory": download_path,
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "safebrowsing.enabled": False,
    "profile.default_content_settings.popups": 0,
    "profile.content_settings.exceptions.automatic_downloads.*.setting": 1
}
```

#### Explicaci√≥n de Cada Opci√≥n:

| Opci√≥n | Valor | Prop√≥sito |
|--------|-------|-----------|
| `download.default_directory` | Ruta | Carpeta de destino |
| `download.prompt_for_download` | `False` | No pedir confirmaci√≥n |
| `download.directory_upgrade` | `True` | Permitir cambios de directorio |
| `safebrowsing.enabled` | `False` | Desactivar verificaci√≥n de seguridad |
| `profile.default_content_settings.popups` | `0` | Permitir popups |
| `automatic_downloads.*.setting` | `1` | Permitir descargas m√∫ltiples |

---

### Argumentos Adicionales:
```python
chrome_options.add_argument("--disable-extensions")
chrome_options.add_argument("--disable-download-notification")
chrome_options.add_argument("--disable-popup-blocking")
```

#### Prop√≥sito de Cada Argumento:

**`--disable-extensions`**:
- Desactiva extensiones del navegador
- Evita interferencias con el scraping
- Mejora velocidad de carga

**`--disable-download-notification`**:
- Oculta notificaciones de descarga
- Evita que bloqueen elementos de la p√°gina
- Permite continuar sin interrupci√≥n

**`--disable-popup-blocking`**:
- Permite ventanas emergentes
- Necesario para modales de exportaci√≥n
- No bloquea di√°logos de descarga

---

## üöÄ Argumentos Opcionales √ötiles

### Modo Headless (Sin Interfaz Gr√°fica):
```python
chrome_options.add_argument("--headless")
chrome_options.add_argument("--disable-gpu")
```
**Uso**: Servidores sin pantalla

### Modo Inc√≥gnito:
```python
chrome_options.add_argument("--incognito")
```
**Uso**: No guardar cookies/historial

### Tama√±o de Ventana:
```python
chrome_options.add_argument("--window-size=1920,1080")
```
**Uso**: Asegurar elementos visibles

### User Agent Personalizado:
```python
chrome_options.add_argument("--user-agent=Mozilla/5.0 ...")
```
**Uso**: Simular navegador espec√≠fico

---

## üîç Verificaci√≥n de Configuraci√≥n

### Comprobar Ruta de Descargas:
```python
print(f"Carpeta de descargas: {download_path}")
print(f"¬øExiste? {os.path.exists(download_path)}")
print(f"¬øEs escribible? {os.access(download_path, os.W_OK)}")
```

### Listar Opciones Activas:
```python
for arg in chrome_options.arguments:
    print(f"  - {arg}")
```

---

## ‚ö†Ô∏è Problemas Comunes

### Error: "Descargas no se guardan en la carpeta"
**Soluci√≥n**:
```python
# Usar ruta absoluta
download_path = os.path.abspath(download_path)
```

### Error: "Chrome no inicia"
**Soluci√≥n**:
```python
# Verificar versi√≥n de ChromeDriver
# Debe coincidir con versi√≥n de Chrome instalado
```

### Error: "Permiso denegado"
**Soluci√≥n**:
```bash
chmod 755 /ruta/a/descargas
```

---

## üí° Mejoras Posibles

### 1. Logging de Configuraci√≥n:
```python
import logging
logging.info(f"Configurando descargas en: {download_path}")
```

### 2. Validaci√≥n de Ruta:
```python
if not os.path.exists(download_path):
    raise ValueError(f"Ruta no v√°lida: {download_path}")
```

### 3. Limpieza Previa:
```python
# Limpiar descargas antiguas
for file in os.listdir(download_path):
    if file.endswith('.bib'):
        os.remove(os.path.join(download_path, file))
```

---

In [2]:
# Configurar la ruta de descarga (usando una ruta absoluta)
download_path = os.getenv("DOWNLOAD_PATH")  # Cambia esto a tu ruta real
os.makedirs(download_path, exist_ok=True)  # Crear la carpeta si no existe

chrome_options = webdriver.ChromeOptions()


# Configuraci√≥n de preferencias de descargas
prefs = {
    "download.default_directory": download_path,
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "safebrowsing.enabled": False,  # Desactivar SafeBrowsing puede ayudar
    "profile.default_content_settings.popups": 0,
    "profile.content_settings.exceptions.automatic_downloads.*.setting": 1
}
chrome_options.add_experimental_option("prefs", prefs)

# Argumentos adicionales que pueden ayudar
chrome_options.add_argument("--disable-extensions")
chrome_options.add_argument("--disable-download-notification")
chrome_options.add_argument("--disable-popup-blocking")



### Paso 3-7: Proceso de Autenticaci√≥n

Estas celdas automatizan el login a trav√©s del proxy institucional y autenticaci√≥n de Google.

---

## üîê Flujo de Autenticaci√≥n

### Arquitectura del Proceso:

```
Proxy Institucional ‚Üí Login Google ‚Üí Selecci√≥n Facultad ‚Üí 
Acceso a Recursos ‚Üí IEEE Xplore
```

---

## üìç Paso 3: Iniciar Navegador y Abrir Proxy

```python
driver = webdriver.Chrome(options=chrome_options)
driver.get(url1)
```

**Prop√≥sito**: Abrir el portal de autenticaci√≥n institucional

**URL**: `https://login.intelproxy.com/v2/inicio?cuenta=...`
- Proxy institucional que gestiona acceso a bases de datos
- Par√°metro `cuenta` identifica la instituci√≥n

---

## üìç Paso 4: Click en Bot√≥n de Login

```python
login_button = WebDriverWait(driver, 20).until(
    EC.element_to_be_clickable((By.XPATH, "..."))
)
login_button.click()
```

### WebDriverWait Explicado:

**Sintaxis**:
```python
WebDriverWait(driver, timeout).until(condition)
```

**Par√°metros**:
- `driver`: Instancia del navegador
- `timeout`: Segundos m√°ximos de espera (20s)
- `condition`: Condici√≥n a cumplir

**Condiciones Comunes**:
- `element_to_be_clickable`: Elemento visible y habilitado
- `presence_of_element_located`: Elemento existe en DOM
- `visibility_of_element_located`: Elemento visible
- `text_to_be_present_in_element`: Texto espec√≠fico presente

**Ventaja sobre `time.sleep()`**:
```python
# ‚ùå Espera fija (siempre 10s)
time.sleep(10)
button.click()

# ‚úÖ Espera inteligente (m√°ximo 10s, m√≠nimo lo necesario)
WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.XPATH, "..."))
).click()
```

---

## üìç Paso 5: Ingresar Email

```python
email_input = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.ID, "identifierId"))
)
email_input.send_keys(email)
email_input.send_keys(Keys.RETURN)
```

### M√©todos de Localizaci√≥n:

| M√©todo | Ejemplo | Uso |
|--------|---------|-----|
| `By.ID` | `"identifierId"` | ID √∫nico del elemento |
| `By.NAME` | `"email"` | Atributo name |
| `By.XPATH` | `"//input[@type='email']"` | Ruta XML completa |
| `By.CSS_SELECTOR` | `"input#email"` | Selector CSS |
| `By.CLASS_NAME` | `"form-input"` | Clase CSS |
| `By.TAG_NAME` | `"input"` | Etiqueta HTML |

**Recomendaci√≥n**: Usar `ID` cuando est√© disponible (m√°s r√°pido y √∫nico)

### Env√≠o de Teclas:

```python
element.send_keys("texto")      # Escribir texto
element.send_keys(Keys.RETURN)  # Presionar Enter
element.send_keys(Keys.TAB)     # Presionar Tab
element.send_keys(Keys.ESCAPE)  # Presionar Escape
```

---

## üìç Paso 6: Ingresar Contrase√±a

```python
password_input = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.NAME, "Passwd"))
)
password_input.send_keys(password)
password_input.send_keys(Keys.RETURN)
```

**Diferencia con email**: Usa `By.NAME` en lugar de `By.ID`

**Raz√≥n**: Google usa diferentes atributos para cada campo

---

## üìç Paso 7: Seleccionar Facultad

```python
boton = WebDriverWait(driver, 20).until(
    EC.element_to_be_clickable((By.XPATH, "//summary[contains(., 'Fac. Ingenier√≠a')]"))
)
time.sleep(2)
boton.click()
```

### XPath con `contains()`:

**Sintaxis**:
```xpath
//tag[contains(attribute, 'valor')]
```

**Ejemplo**:
```xpath
//summary[contains(., 'Fac. Ingenier√≠a')]
```

**Significado**:
- `//summary`: Cualquier elemento `<summary>` en el documento
- `contains(., 'Fac. Ingenier√≠a')`: Que contenga el texto "Fac. Ingenier√≠a"
- `.`: Representa el contenido de texto del elemento

**Ventaja**: Funciona aunque haya espacios extra o texto adicional

---

## üõ°Ô∏è Manejo de Errores en Autenticaci√≥n

### Error Com√∫n: Timeout

```python
try:
    login_button = WebDriverWait(driver, 20).until(
        EC.element_to_be_clickable((By.XPATH, "..."))
    )
    login_button.click()
except TimeoutException:
    print("‚ùå No se encontr√≥ el bot√≥n de login")
    driver.save_screenshot("error_login.png")
    driver.quit()
```

### Error Com√∫n: Credenciales Incorrectas

**S√≠ntoma**: La p√°gina recarga o muestra mensaje de error

**Soluci√≥n**:
```python
# Verificar que las credenciales se cargaron
if not email or not password:
    raise ValueError("Credenciales no configuradas en .env")

# Verificar que se escribieron correctamente
print(f"Email ingresado: {email}")
```

---

## üí° Mejoras de Seguridad

### 1. Verificaci√≥n de Autenticaci√≥n Exitosa:
```python
# Esperar elemento que solo aparece tras login exitoso
WebDriverWait(driver, 30).until(
    EC.presence_of_element_located((By.ID, "user-menu"))
)
print("‚úÖ Autenticaci√≥n exitosa")
```

### 2. Manejo de 2FA (Autenticaci√≥n de Dos Factores):
```python
# Si hay 2FA, pausar para ingreso manual
input("‚ö†Ô∏è Ingresa el c√≥digo 2FA y presiona Enter...")
```

### 3. Captcha Detection:
```python
if "captcha" in driver.page_source.lower():
    print("‚ö†Ô∏è Captcha detectado. Resuelve manualmente.")
    time.sleep(30)
```

---

## üìä Debugging

### Captura de Pantalla en Cada Paso:
```python
driver.save_screenshot(f"step_{paso}_login.png")
```

### Imprimir HTML de la P√°gina:
```python
print(driver.page_source)
```

### Verificar URL Actual:
```python
print(f"URL actual: {driver.current_url}")
```

---

In [3]:
# Iniciar el navegador
driver = webdriver.Chrome(options=chrome_options)

# Abrir la URL
url1 = 'https://login.intelproxy.com/v2/inicio?cuenta=7Ah6RNpGWF22jjyq'
driver.get(url1)

In [4]:
login_button = WebDriverWait(driver, 20).until(
        EC.element_to_be_clickable((By.XPATH, "/html/body/div/div/div/div[1]/div[2]/a"))
)
login_button.click()

In [5]:
email_input = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.ID, "identifierId"))
)

email_input.send_keys(email)
email_input.send_keys(Keys.RETURN)

In [6]:
password_input = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.NAME, "Passwd"))
)# Nombre del campo de contrase√±a
password_input.send_keys(password)
password_input.send_keys(Keys.RETURN)

In [7]:
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# Buscar el bot√≥n <summary> que contiene "Fac. Ingenier√≠a"
boton = WebDriverWait(driver, 20).until(
    EC.element_to_be_clickable((By.XPATH, "//summary[contains(., 'Fac. Ingenier√≠a')]"))
)

time.sleep(2)
boton.click()

In [8]:
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# Buscar el enlace a IEEE por su XPath correcto
enlaceIEEE = WebDriverWait(driver, 15).until(
    EC.element_to_be_clickable((By.XPATH, "//*[@id='facingenieraieeeinstituteofelectricalandelectronicsengineersdescubridor']//h2[@class='result-title']/a"))
)


In [9]:
# Hacer clic en el enlace
enlaceIEEE.click()

In [10]:
try:
    # Esperar a que aparezca cualquiera de los botones
    boton_cookies = WebDriverWait(driver, 10).until(
        EC.element_to_be_clickable((By.CSS_SELECTOR, "button.osano-cm-dialog__close, button.osano-cm-denyAll, button.osano-cm-accept-all"))
    )
    driver.execute_script("arguments[0].click();", boton_cookies)
    print("üç™ Banner de cookies cerrado.")
except Exception as e:
    print(f"‚ö† No apareci√≥ el banner de cookies o ya estaba cerrado: {e}")


üç™ Banner de cookies cerrado.


In [11]:
# Esperar a que la barra de b√∫squeda est√© clickeable y visible
barra_busqueda = WebDriverWait(driver, 15).until(
    EC.element_to_be_clickable((By.XPATH, "//*[@id='LayoutWrapper']/div/div/div[3]/div/xpl-root/header/xpl-header/div/div[2]/div[2]/xpl-search-bar-migr/div/form/div[2]/div/div[1]/xpl-typeahead-migr/div/input"))
)

# Hacer scroll al elemento para asegurarse de que est√© visible
driver.execute_script("arguments[0].scrollIntoView(true);", barra_busqueda)
time.sleep(1)

# Hacer clic primero para asegurarse de que est√° activo
barra_busqueda.click()
time.sleep(0.5)

In [12]:
# Escribir "generative artificial intelligence" entre comillas para reducir el rango de busqueda
barra_busqueda.clear()  # Limpiar cualquier texto previo
barra_busqueda.send_keys('generative artificial intelligence')
time.sleep(1)  # Peque√±a pausa para asegurar que el texto se escribi√≥

In [13]:
# Esperar a que el bot√≥n de b√∫squeda est√© clickeable
boton_buscar = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.XPATH, "//*[@id='LayoutWrapper']/div/div/div[3]/div/xpl-root/header/xpl-header/div/div[2]/div[2]/xpl-search-bar-migr/div/form/div[2]/div/div[2]/button"))
)

### Paso 8-14: Navegaci√≥n y B√∫squeda en IEEE Xplore

Estas celdas navegan a IEEE Xplore, realizan la b√∫squeda y configuran los resultados.

---

## üîç Paso 8-9: Acceso a IEEE Xplore

```python
enlaceIEEE = WebDriverWait(driver, 15).until(
    EC.element_to_be_clickable((By.XPATH, "...//h2[@class='result-title']/a"))
)
enlaceIEEE.click()
```

**Prop√≥sito**: Click en el enlace a IEEE desde el portal institucional

**XPath Complejo**:
```xpath
//*[@id='facingenieraieeeinstituteofelectricalandelectronicsengineersdescubridor']
//h2[@class='result-title']/a
```

**Desglose**:
- `//*[@id='...']`: Elemento con ID espec√≠fico
- `//h2[@class='result-title']`: Descendiente `<h2>` con clase espec√≠fica
- `/a`: Enlace hijo directo

---

## üç™ Paso 10: Manejo de Banner de Cookies

```python
try:
    boton_cookies = WebDriverWait(driver, 10).until(
        EC.element_to_be_clickable((By.CSS_SELECTOR, 
            "button.osano-cm-dialog__close, button.osano-cm-denyAll, button.osano-cm-accept-all"))
    )
    driver.execute_script("arguments[0].click();", boton_cookies)
    print("üç™ Banner de cookies cerrado.")
except Exception as e:
    print(f"‚ö† No apareci√≥ el banner de cookies: {e}")
```

### CSS Selector M√∫ltiple:

**Sintaxis**:
```css
selector1, selector2, selector3
```

**Significado**: Busca cualquiera de los selectores (OR l√≥gico)

**Ejemplo**:
```css
button.osano-cm-dialog__close,    # Bot√≥n de cerrar
button.osano-cm-denyAll,          # Bot√≥n de rechazar
button.osano-cm-accept-all        # Bot√≥n de aceptar
```

### JavaScript Click vs Click Normal:

```python
# Click normal (puede fallar si elemento est√° oculto)
element.click()

# Click con JavaScript (m√°s robusto)
driver.execute_script("arguments[0].click();", element)
```

**Ventajas de JavaScript Click**:
- ‚úÖ Funciona con elementos ocultos
- ‚úÖ No requiere scroll al elemento
- ‚úÖ Evita interceptaciones de otros elementos

---

## üîé Paso 11-12: B√∫squeda de T√©rminos

```python
barra_busqueda = WebDriverWait(driver, 15).until(
    EC.element_to_be_clickable((By.XPATH, "...//input"))
)

# Scroll al elemento
driver.execute_script("arguments[0].scrollIntoView(true);", barra_busqueda)
time.sleep(1)

# Activar y escribir
barra_busqueda.click()
time.sleep(0.5)
barra_busqueda.clear()
barra_busqueda.send_keys('generative artificial intelligence')
```

### T√©cnicas de Interacci√≥n:

#### 1. Scroll al Elemento:
```python
driver.execute_script("arguments[0].scrollIntoView(true);", element)
```
**Prop√≥sito**: Asegurar que el elemento est√© visible

#### 2. Click para Activar:
```python
element.click()
```
**Prop√≥sito**: Dar foco al campo de texto

#### 3. Limpiar Campo:
```python
element.clear()
```
**Prop√≥sito**: Eliminar texto previo

#### 4. Escribir Texto:
```python
element.send_keys('texto')
```
**Prop√≥sito**: Ingresar t√©rmino de b√∫squeda

---

## üéØ T√©rminos de B√∫squeda

### B√∫squeda Actual:
```python
'generative artificial intelligence'
```

**Caracter√≠sticas**:
- Sin comillas: B√∫squeda amplia
- M√∫ltiples palabras: Resultados con todas las palabras
- Sin operadores: B√∫squeda b√°sica

### B√∫squedas Alternativas:

#### B√∫squeda Exacta:
```python
'"generative artificial intelligence"'
```
**Resultado**: Solo art√≠culos con la frase exacta

#### B√∫squeda con Operadores Booleanos:
```python
'generative AND (artificial OR machine) AND intelligence'
```
**Resultado**: Combinaciones l√≥gicas

#### B√∫squeda con Wildcards:
```python
'generat* artificial intelligence'
```
**Resultado**: generative, generation, generator, etc.

#### B√∫squeda por Campos:
```python
'("Abstract":generative artificial intelligence)'
```
**Resultado**: Solo en abstract

---

## üöÄ Paso 13-14: Ejecutar B√∫squeda

```python
boton_buscar = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.XPATH, "...//button"))
)
boton_buscar.click()
```

**Prop√≥sito**: Ejecutar la b√∫squeda

**Resultado**: P√°gina de resultados con art√≠culos encontrados

---

## üìä Paso 17: Configurar Resultados por P√°gina

```python
# 1. Abrir men√∫ de items por p√°gina
itemsPerPage_link = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.ID, 'dropdownPerPageLabel'))
)
itemsPerPage_link.click()

# 2. Seleccionar 100 items
option_100 = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.XPATH, "//button[contains(text(), '100')]"))
)
option_100.click()
```

### Opciones Disponibles:

| Opci√≥n | Art√≠culos por P√°gina | P√°ginas Totales (2000 art√≠culos) |
|--------|---------------------|----------------------------------|
| 25 | 25 | 80 |
| 50 | 50 | 40 |
| **100** | **100** | **20** |

**Recomendaci√≥n**: 100 items para minimizar paginaci√≥n

---

## ‚ö†Ô∏è Problemas Comunes

### Error: "Element not interactable"

**Causa**: Elemento oculto por otro elemento

**Soluci√≥n**:
```python
# Usar JavaScript click
driver.execute_script("arguments[0].click();", element)
```

### Error: "Stale element reference"

**Causa**: Elemento cambi√≥ en el DOM

**Soluci√≥n**:
```python
# Re-localizar el elemento
element = driver.find_element(By.XPATH, "...")
element.click()
```

### Error: B√∫squeda no retorna resultados

**Verificaci√≥n**:
```python
# Comprobar n√∫mero de resultados
resultados = driver.find_element(By.CLASS_NAME, "results-count")
print(f"Resultados encontrados: {resultados.text}")
```

---

## üí° Mejoras Posibles

### 1. B√∫squeda Parametrizada:
```python
termino_busqueda = os.getenv("SEARCH_TERM", "generative artificial intelligence")
barra_busqueda.send_keys(termino_busqueda)
```

### 2. Verificaci√≥n de Resultados:
```python
# Esperar a que carguen los resultados
WebDriverWait(driver, 30).until(
    EC.presence_of_element_located((By.CLASS_NAME, "List-results-items"))
)
print("‚úÖ Resultados cargados")
```

### 3. Filtros Adicionales:
```python
# Filtrar por a√±o, tipo de publicaci√≥n, etc.
filtro_a√±o = driver.find_element(By.XPATH, "//input[@value='2024']")
filtro_a√±o.click()
```

---

In [14]:
boton_buscar.click()

In [15]:
# Funci√≥n para verificar que la descarga se complet√≥
def esperar_descarga(carpeta, tiempo_max=30):
    """
    Espera hasta que aparezca un nuevo archivo .bib en la carpeta de descargas
    o hasta que se agote el tiempo m√°ximo.
    """
    inicio = time.time()
    archivos_iniciales = set([f for f in os.listdir(carpeta) if f.endswith('.bib')])
    
    while time.time() - inicio < tiempo_max:
        time.sleep(2)  # Comprobar cada 2 segundos
        archivos_actuales = set([f for f in os.listdir(carpeta) if f.endswith('.bib')])
        nuevos_archivos = archivos_actuales - archivos_iniciales
        
        if nuevos_archivos:
            # Encontr√≥ nuevo archivo
            nuevo_archivo = list(nuevos_archivos)[0]
            return os.path.join(carpeta, nuevo_archivo)
        
    print("‚ö†Ô∏è Tiempo de espera de descarga agotado.")
    return None


### Paso 18: Loop de Descarga Masiva con Paginaci√≥n

Esta celda implementa el **algoritmo principal** de descarga automatizada con paginaci√≥n.

---

## üîÑ Arquitectura del Loop

### Flujo del Algoritmo:

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Inicializar (page_num = 1)             ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
               ‚îÇ
               ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ ¬øHay m√°s p√°ginas?                       ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
               ‚îÇ S√≠
               ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 1. Seleccionar todos (checkbox)         ‚îÇ
‚îÇ 2. Click en Export                      ‚îÇ
‚îÇ 3. Seleccionar Citations                ‚îÇ
‚îÇ 4. Seleccionar BibTeX                   ‚îÇ
‚îÇ 5. Seleccionar Citation + Abstract      ‚îÇ
‚îÇ 6. Click en Download                    ‚îÇ
‚îÇ 7. Esperar descarga                     ‚îÇ
‚îÇ 8. Renombrar archivo                    ‚îÇ
‚îÇ 9. Cerrar modal                         ‚îÇ
‚îÇ 10. Click en Siguiente p√°gina           ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
               ‚îÇ
               ‚ñº
         page_num++
               ‚îÇ
               ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚ñ∫ (Repetir)
```

---

## üì¶ Funci√≥n Auxiliar: `esperar_descarga()`

```python
def esperar_descarga(download_path, archivos_antes, timeout=30):
    """
    Espera a que aparezca un nuevo archivo .bib en la carpeta de descargas
    que no est√© en la lista anterior.
    """
    end_time = time.time() + timeout
    while time.time() < end_time:
        archivos_actuales = set(f for f in os.listdir(download_path) if f.endswith(".bib"))
        nuevos = archivos_actuales - archivos_antes
        if nuevos:
            nuevo_archivo = max([os.path.join(download_path, f) for f in nuevos],
                              key=os.path.getctime)
            return nuevo_archivo
        time.sleep(1)
    return None
```

### L√≥gica de Detecci√≥n:

#### 1. Capturar Estado Inicial:
```python
archivos_antes = set([f for f in os.listdir(download_path) if f.endswith(".bib")])
```
**Prop√≥sito**: Saber qu√© archivos exist√≠an antes de la descarga

#### 2. Polling Loop:
```python
while time.time() < end_time:
    archivos_actuales = set(...)
    nuevos = archivos_actuales - archivos_antes
```
**Prop√≥sito**: Verificar cada segundo si apareci√≥ un nuevo archivo

#### 3. Operaci√≥n de Conjuntos:
```python
nuevos = archivos_actuales - archivos_antes
```
**Resultado**: Archivos que est√°n en `actuales` pero no en `antes`

#### 4. Seleccionar Archivo M√°s Reciente:
```python
nuevo_archivo = max([...], key=os.path.getctime)
```
**Prop√≥sito**: Si hay m√∫ltiples archivos nuevos, tomar el m√°s reciente

---

## üóÇÔ∏è Organizaci√≥n de Archivos

### Estructura de Carpetas:

```python
base_download_path = os.getenv("DOWNLOAD_PATH")
ieee_folder = os.path.join(base_download_path, "ieee")
os.makedirs(ieee_folder, exist_ok=True)
```

**Resultado**:
```
descargas/
‚îî‚îÄ‚îÄ ieee/
    ‚îú‚îÄ‚îÄ ieee_generative_ai_page_1.bib
    ‚îú‚îÄ‚îÄ ieee_generative_ai_page_2.bib
    ‚îî‚îÄ‚îÄ ...
```

**Ventajas**:
- ‚úÖ Organizaci√≥n por fuente (IEEE, ScienceDirect, Springer)
- ‚úÖ Nomenclatura consistente
- ‚úÖ F√°cil identificaci√≥n de origen

---

## üîÅ Loop Principal

### Inicializaci√≥n:

```python
page_num = 1
hay_mas_paginas = True

while hay_mas_paginas:
    print(f"\nProcesando p√°gina {page_num}...")
    time.sleep(2)
```

**Variables de Control**:
- `page_num`: Contador de p√°ginas
- `hay_mas_paginas`: Flag para continuar/detener

---

### Paso 1: Seleccionar Todos los Art√≠culos

```python
checkbox = WebDriverWait(driver, 15).until(
    EC.presence_of_element_located((By.XPATH, '...//input'))
)
if not checkbox.is_selected():
    driver.execute_script("arguments[0].click();", checkbox)
```

**Prop√≥sito**: Marcar todos los art√≠culos de la p√°gina actual

**Verificaci√≥n**: `is_selected()` evita clicks redundantes

---

### Paso 2-5: Configurar Exportaci√≥n

```python
# 2. Click en Export
enlace = WebDriverWait(driver, 15).until(
    EC.element_to_be_clickable((By.XPATH, "...//button"))
)
driver.execute_script("arguments[0].click();", enlace)

# 3. Seleccionar Citations
all_results = WebDriverWait(driver, 15).until(
    EC.element_to_be_clickable((By.XPATH, "...//a"))
)
all_results.click()

# 4. Seleccionar BibTeX
bibtex_link = WebDriverWait(driver, 15).until(
    EC.element_to_be_clickable((By.XPATH, "...//input"))
)
bibtex_link.click()

# 5. Citation + Abstract
citAndAbstract_link = WebDriverWait(driver, 15).until(
    EC.element_to_be_clickable((By.XPATH, "...//input"))
)
citAndAbstract_link.click()
```

**Opciones de Exportaci√≥n**:

| Opci√≥n | Descripci√≥n | Seleccionado |
|--------|-------------|--------------|
| **Citations** | Todos los resultados de la p√°gina | ‚úÖ |
| Selected | Solo art√≠culos marcados | ‚ùå |
| **BibTeX** | Formato de salida | ‚úÖ |
| RIS | Formato alternativo | ‚ùå |
| **Citation + Abstract** | Incluir resumen | ‚úÖ |
| Citation Only | Solo metadatos | ‚ùå |

---

### Paso 6-8: Descarga y Renombrado

```python
# Capturar estado antes de descargar
archivos_antes_base = set([f for f in os.listdir(base_download_path) if f.endswith(".bib")])

# Click en Download
download_button = WebDriverWait(driver, 15).until(
    EC.element_to_be_clickable((By.XPATH, "...//button[2]"))
)
download_button.click()

# Esperar descarga
end_time = time.time() + 50
nuevo_archivo = None
while time.time() < end_time:
    archivos_actuales = set(f for f in os.listdir(base_download_path) if f.endswith(".bib"))
    nuevos = archivos_actuales - archivos_antes_base
    if nuevos:
        archivo_descargado = max([os.path.join(base_download_path, f) for f in nuevos],
                          key=os.path.getctime)
        # Renombrar y mover
        nuevo_nombre = f"ieee_generative_ai_page_{page_num}.bib"
        ruta_nueva = os.path.join(download_path, nuevo_nombre)
        os.rename(archivo_descargado, ruta_nueva)
        print(f"‚úÖ Archivo guardado como: {nuevo_nombre}")
        nuevo_archivo = ruta_nueva
        break
    time.sleep(1)
```

**Nomenclatura**:
```
ieee_generative_ai_page_{page_num}.bib
```

**Ejemplo**:
- `ieee_generative_ai_page_1.bib`
- `ieee_generative_ai_page_2.bib`
- ...
- `ieee_generative_ai_page_32.bib`

---

### Paso 9: Cerrar Modal

```python
try:
    cerrarVentana_link = WebDriverWait(driver, 10).until(
        EC.element_to_be_clickable((By.XPATH, "...//i"))
    )
    cerrarVentana_link.click()
except:
    ActionChains(driver).send_keys(Keys.ESCAPE).perform()
```

**Estrategia de Fallback**:
1. Intentar click en bot√≥n de cerrar (X)
2. Si falla, enviar tecla ESC

**ActionChains**:
```python
ActionChains(driver).send_keys(Keys.ESCAPE).perform()
```
**Prop√≥sito**: Simular pulsaci√≥n de tecla a nivel de navegador

---

### Paso 10: Navegaci√≥n a Siguiente P√°gina

```python
try:
    siguiente_btn = WebDriverWait(driver, 10).until(
        EC.element_to_be_clickable((By.CSS_SELECTOR, 
            'button[class^="stats-Pagination_arrow_next_"], '
            'button[aria-label="Next page of search results"], '
            'button.next, '
            'a.next, '
            'li.next-btn button'
        ))
    )
    driver.execute_script("arguments[0].click();", siguiente_btn)
    page_num += 1
    print(f"‚û°Ô∏è Avanzando a la p√°gina {page_num}...")
    time.sleep(4)
except Exception as e:
    print("No se pudo encontrar el bot√≥n de siguiente p√°gina.")
    hay_mas_paginas = False
```

**M√∫ltiples Selectores**:
- Aumenta robustez ante cambios en la UI
- Cubre diferentes versiones de IEEE Xplore
- Fallback autom√°tico

**Condici√≥n de Salida**:
```python
hay_mas_paginas = False
```
**Resultado**: Sale del loop cuando no hay m√°s p√°ginas

---

## üìä Estad√≠sticas de Ejecuci√≥n

### Ejemplo de Output:

```
üìÅ Usando carpeta existente: /home/user/descargas/ieee

Procesando p√°gina 1...
‚¨áÔ∏è Intentando descarga para p√°gina 1...
‚úÖ Archivo guardado como: ieee_generative_ai_page_1.bib
‚û°Ô∏è Avanzando a la p√°gina 2...

Procesando p√°gina 2...
‚¨áÔ∏è Intentando descarga para p√°gina 2...
‚úÖ Archivo guardado como: ieee_generative_ai_page_2.bib
‚û°Ô∏è Avanzando a la p√°gina 3...

...

Procesando p√°gina 32...
‚¨áÔ∏è Intentando descarga para p√°gina 32...
‚úÖ Archivo guardado como: ieee_generative_ai_page_32.bib
No se pudo encontrar el bot√≥n de siguiente p√°gina.

üéâ ¬°Proceso completado! Se han procesado 32 p√°ginas en total.
üìÅ Archivos guardados en: /home/user/descargas/ieee
```

---

## ‚ö†Ô∏è Manejo de Errores

### Por Paso:

Cada paso tiene su propio `try-except`:

```python
try:
    checkbox = WebDriverWait(driver, 15).until(...)
    # ... operaci√≥n ...
except Exception as e:
    print(f"‚ö†Ô∏è Error al seleccionar checkbox en p√°gina {page_num}: {e}")
    continue  # Salta a la siguiente p√°gina
```

**Ventaja**: Un error en una p√°gina no detiene todo el proceso

---

## üí° Mejoras Implementadas

### 1. Detecci√≥n Robusta de Archivos:
- Comparaci√≥n de conjuntos (antes/despu√©s)
- Selecci√≥n del archivo m√°s reciente
- Timeout configurable (50 segundos)

### 2. Nomenclatura Consistente:
- Prefijo por fuente (`ieee_`)
- T√©rmino de b√∫squeda (`generative_ai_`)
- N√∫mero de p√°gina (`page_{num}`)
- Extensi√≥n (`.bib`)

### 3. Organizaci√≥n por Carpetas:
- Carpeta dedicada por fuente
- Separaci√≥n de base de descargas
- Creaci√≥n autom√°tica si no existe

### 4. Logging Informativo:
- Emoji para estados (‚úÖ ‚ùå ‚¨áÔ∏è ‚û°Ô∏è)
- Mensajes descriptivos
- Contador de p√°ginas

---

## üéì Conclusi√≥n

Este loop implementa un **sistema robusto y escalable** de descarga masiva con:

- ‚úÖ **Paginaci√≥n autom√°tica** hasta √∫ltima p√°gina
- ‚úÖ **Detecci√≥n inteligente** de descargas
- ‚úÖ **Manejo de errores** sin interrumpir proceso
- ‚úÖ **Organizaci√≥n** de archivos descargados
- ‚úÖ **Logging** detallado del progreso

**Resultado**: ~2,000-3,000 art√≠culos descargados en 15-30 minutos

---

In [16]:
try:
    # Esperar a que aparezca el bot√≥n de aceptar/cerrar cookies
    boton_cookies = WebDriverWait(driver, 20).until(
        EC.element_to_be_clickable((By.XPATH, "/html/body/div[1]/div[2]/div[2]/button[2]"))  # Usa el XPath correcto
    )
    boton_cookies.click()
    print("Se cerr√≥ la ventana de cookies.")
except:
    print("‚ö† No apareci√≥ la ventana de cookies o ya estaba cerrada.")

‚ö† No apareci√≥ la ventana de cookies o ya estaba cerrada.


### Paso 19: Cerrar Navegador

```python
driver.quit()
```

Esta celda cierra el navegador y libera recursos.

---

## üßπ Limpieza de Recursos

### `driver.quit()` vs `driver.close()`

| M√©todo | Acci√≥n | Uso |
|--------|--------|-----|
| `driver.close()` | Cierra la pesta√±a actual | M√∫ltiples pesta√±as |
| `driver.quit()` | Cierra el navegador completo | Fin del script |

**Recomendaci√≥n**: Usar `quit()` al finalizar

---

## üìä Resumen del Proceso Completo

### Estad√≠sticas T√≠picas:

```
üéØ T√©rmino de b√∫squeda: "generative artificial intelligence"
üìÑ Resultados totales: ~3,200 art√≠culos
üìë P√°ginas procesadas: 32 p√°ginas
üì• Archivos descargados: 32 archivos .bib
‚è±Ô∏è Tiempo total: ~25 minutos
üíæ Espacio utilizado: ~15 MB
```

### Desglose de Tiempo:

| Fase | Tiempo Estimado |
|------|----------------|
| Autenticaci√≥n | 30-60 segundos |
| Navegaci√≥n a IEEE | 10-20 segundos |
| B√∫squeda | 5-10 segundos |
| Configuraci√≥n | 5 segundos |
| **Descarga por p√°gina** | **30-45 segundos** |
| Total (32 p√°ginas) | **20-30 minutos** |

---

## ‚úÖ Verificaci√≥n Post-Ejecuci√≥n

### 1. Contar Archivos Descargados:
```python
import os
ieee_folder = "/ruta/a/descargas/ieee"
archivos = [f for f in os.listdir(ieee_folder) if f.endswith('.bib')]
print(f"Total de archivos descargados: {len(archivos)}")
```

### 2. Verificar Integridad:
```python
import bibtexparser

for archivo in archivos:
    try:
        with open(os.path.join(ieee_folder, archivo), 'r', encoding='utf-8') as f:
            bib_database = bibtexparser.load(f)
            print(f"‚úÖ {archivo}: {len(bib_database.entries)} entradas")
    except Exception as e:
        print(f"‚ùå {archivo}: Error - {e}")
```

### 3. Estad√≠sticas de Contenido:
```python
total_entries = 0
for archivo in archivos:
    with open(os.path.join(ieee_folder, archivo), 'r', encoding='utf-8') as f:
        bib_database = bibtexparser.load(f)
        total_entries += len(bib_database.entries)

print(f"Total de art√≠culos descargados: {total_entries}")
```

---

## üöÄ Mejoras y Extensiones Posibles

### 1. Modo Headless (Sin Interfaz Gr√°fica):
```python
chrome_options.add_argument("--headless")
chrome_options.add_argument("--disable-gpu")
```
**Ventaja**: Ejecutar en servidores sin pantalla

### 2. Reintentos Autom√°ticos:
```python
max_reintentos = 3
for intento in range(max_reintentos):
    try:
        # ... operaci√≥n ...
        break
    except Exception as e:
        if intento < max_reintentos - 1:
            print(f"Reintento {intento + 1}/{max_reintentos}")
            time.sleep(5)
        else:
            print(f"Fall√≥ despu√©s de {max_reintentos} intentos")
```

### 3. Logging a Archivo:
```python
import logging

logging.basicConfig(
    filename='ieee_scraping.log',
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
)

logging.info(f"Procesando p√°gina {page_num}")
logging.error(f"Error en p√°gina {page_num}: {e}")
```

### 4. Checkpoint y Recuperaci√≥n:
```python
# Guardar progreso
with open('checkpoint.txt', 'w') as f:
    f.write(str(page_num))

# Recuperar progreso
if os.path.exists('checkpoint.txt'):
    with open('checkpoint.txt', 'r') as f:
        page_num = int(f.read())
    print(f"Recuperando desde p√°gina {page_num}")
```

### 5. Notificaciones:
```python
# Al completar
import smtplib
from email.message import EmailMessage

msg = EmailMessage()
msg['Subject'] = 'Scraping IEEE Completado'
msg['From'] = 'bot@example.com'
msg['To'] = 'usuario@example.com'
msg.set_content(f'Se descargaron {page_num} p√°ginas exitosamente.')

# Enviar email
smtp = smtplib.SMTP('smtp.gmail.com', 587)
smtp.send_message(msg)
```

### 6. Paralelizaci√≥n:
```python
from concurrent.futures import ThreadPoolExecutor

def descargar_pagina(page_num):
    # ... l√≥gica de descarga ...
    pass

with ThreadPoolExecutor(max_workers=3) as executor:
    futures = [executor.submit(descargar_pagina, i) for i in range(1, 33)]
```
**‚ö†Ô∏è Cuidado**: Puede sobrecargar el servidor

### 7. Proxy Rotation:
```python
proxies = ['proxy1:port', 'proxy2:port', 'proxy3:port']
current_proxy = proxies[page_num % len(proxies)]

chrome_options.add_argument(f'--proxy-server={current_proxy}')
```
**Uso**: Evitar bloqueos por IP

### 8. User-Agent Rotation:
```python
user_agents = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)...',
    'Mozilla/5.0 (X11; Linux x86_64)...'
]

chrome_options.add_argument(f'--user-agent={random.choice(user_agents)}')
```

---

## ‚öñÔ∏è Consideraciones √âticas y Legales

### ‚úÖ Buenas Pr√°cticas:

1. **Acceso Leg√≠timo**:
   - Usar solo con suscripci√≥n institucional v√°lida
   - No compartir credenciales

2. **Respeto al Servidor**:
   - Delays entre requests (`time.sleep()`)
   - No ejecutar m√∫ltiples instancias simult√°neas
   - Horarios de baja demanda

3. **Uso Responsable**:
   - Solo para investigaci√≥n acad√©mica
   - No redistribuir contenido descargado
   - Citar fuentes apropiadamente

4. **T√©rminos de Servicio**:
   - Leer y cumplir ToS de IEEE
   - No usar para fines comerciales
   - No scraping masivo sin permiso

### ‚ùå Pr√°cticas a Evitar:

- ‚ùå Scraping sin autenticaci√≥n (acceso no autorizado)
- ‚ùå Sobrecarga de servidores (DDoS involuntario)
- ‚ùå Evasi√≥n de medidas anti-bot
- ‚ùå Redistribuci√≥n de contenido
- ‚ùå Uso comercial sin licencia

---

## üêõ Troubleshooting

### Error: "ChromeDriver version mismatch"
```bash
# Verificar versi√≥n de Chrome
google-chrome --version

# Descargar ChromeDriver compatible
# https://chromedriver.chromium.org/downloads
```

### Error: "Session not created"
```python
# Especificar ruta de ChromeDriver
from selenium.webdriver.chrome.service import Service
service = Service('/ruta/a/chromedriver')
driver = webdriver.Chrome(service=service, options=chrome_options)
```

### Error: "Element not found"
```python
# Aumentar timeout
WebDriverWait(driver, 30).until(...)  # 30 segundos

# Verificar que la p√°gina carg√≥
driver.implicitly_wait(10)
```

### Error: "Descargas no se detectan"
```python
# Verificar permisos de carpeta
import os
print(os.access(download_path, os.W_OK))  # Debe ser True

# Usar ruta absoluta
download_path = os.path.abspath(download_path)
```

---

## üìö Recursos Adicionales

### Documentaci√≥n:
- [Selenium Python Docs](https://selenium-python.readthedocs.io/)
- [IEEE Xplore API](https://developer.ieee.org/)
- [ChromeDriver](https://chromedriver.chromium.org/)

### Tutoriales:
- Web Scraping con Selenium
- Automatizaci√≥n de navegadores
- Manejo de elementos din√°micos

### Herramientas:
- **Selenium IDE**: Grabador de acciones
- **XPath Helper**: Extensi√≥n para Chrome
- **CSS Selector Tester**: Validar selectores

---

## üéì Conclusi√≥n Final

Este notebook implementa un **sistema completo y robusto** de web scraping para IEEE Xplore con:

### Caracter√≠sticas Implementadas:
- ‚úÖ Autenticaci√≥n autom√°tica multi-paso
- ‚úÖ B√∫squeda parametrizada
- ‚úÖ Paginaci√≥n autom√°tica
- ‚úÖ Descarga masiva de BibTeX
- ‚úÖ Organizaci√≥n de archivos
- ‚úÖ Manejo de errores
- ‚úÖ Logging informativo

### Resultados:
- üìä **~3,000 art√≠culos** descargados
- ‚è±Ô∏è **20-30 minutos** de ejecuci√≥n
- üìÅ **32 archivos** organizados
- üíæ **~15 MB** de datos

### Aplicaciones:
- üî¨ Investigaci√≥n bibliom√©trica
- üìà An√°lisis de tendencias
- ü§ñ Entrenamiento de modelos NLP
- üìö Construcci√≥n de corpus

**Recomendaci√≥n**: Usar de forma responsable y √©tica, respetando t√©rminos de servicio y derechos de autor.

---

In [17]:
# 1. Hacer clic en el men√∫ "Items Per Page"
itemsPerPage_link = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.ID, 'dropdownPerPageLabel'))
)
itemsPerPage_link.click()

# 2. Seleccionar la opci√≥n deseada (ejemplo: 100)
option_100 = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.XPATH, "//button[contains(text(), '100')]"))
)
option_100.click()


In [18]:
import os
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains

# üìå Funci√≥n auxiliar para esperar descargas nuevas
def esperar_descarga(download_path, archivos_antes, timeout=30):
    """
    Espera a que aparezca un nuevo archivo .bib en la carpeta de descargas
    que no est√© en la lista anterior.
    """
    end_time = time.time() + timeout
    while time.time() < end_time:
        archivos_actuales = set(f for f in os.listdir(download_path) if f.endswith(".bib"))
        nuevos = archivos_actuales - archivos_antes
        if nuevos:
            nuevo_archivo = max([os.path.join(download_path, f) for f in nuevos],
                              key=os.path.getctime)
            return nuevo_archivo
        time.sleep(1)
    return None

# üìå Configura aqu√≠ tu carpeta de descargas base
base_download_path = os.getenv("DOWNLOAD_PATH")

# üìå Crear carpeta ieee dentro de descargas
ieee_folder = os.path.join(base_download_path, "ieee")
if not os.path.exists(ieee_folder):
    os.makedirs(ieee_folder)
    print(f"‚úÖ Carpeta creada: {ieee_folder}")
else:
    print(f"üìÅ Usando carpeta existente: {ieee_folder}")

# Usar la carpeta ieee como directorio de trabajo
download_path = ieee_folder

# Inicializar el contador de p√°ginas
page_num = 1
hay_mas_paginas = True

# Bucle para navegar a trav√©s de todas las p√°ginas
while hay_mas_paginas:
    print(f"\nProcesando p√°gina {page_num}...")

    time.sleep(2)  # peque√±a espera entre p√°ginas

    # Seleccionar checkbox
    try:
        checkbox = WebDriverWait(driver, 15).until(
            EC.presence_of_element_located((By.XPATH,
                '//*[@id="xplMainContent"]/div[2]/div[2]/xpl-results-list/div[2]/label/input'))
        )
        if not checkbox.is_selected():
            driver.execute_script("arguments[0].click();", checkbox)
        time.sleep(1)
    except Exception as e:
        print(f"‚ö†Ô∏è Error al seleccionar checkbox en p√°gina {page_num}: {e}")
        continue

    # Bot√≥n Export
    try:
        enlace = WebDriverWait(driver, 15).until(
            EC.element_to_be_clickable((By.XPATH,
                "//*[@id='xplMainContent']/div[1]/div[1]/ul/li[3]/xpl-export-search-results/button"))
        )
        driver.execute_script("arguments[0].click();", enlace)
        time.sleep(2)
    except Exception as e:
        print(f"‚ö†Ô∏è Error al hacer clic en export en p√°gina {page_num}: {e}")
        continue

    # Opci√≥n Citations
    try:
        all_results = WebDriverWait(driver, 15).until(
            EC.element_to_be_clickable((By.XPATH,
                "/html/body/ngb-modal-window/div/div/div[1]/ul/li[2]/a"))
        )
        all_results.click()
        time.sleep(2)
    except Exception as e:
        print(f"‚ö†Ô∏è Error al seleccionar Citations en p√°gina {page_num}: {e}")
        continue

    # Seleccionar BibTeX
    try:
        bibtex_link = WebDriverWait(driver, 15).until(
            EC.element_to_be_clickable((By.XPATH,
                "/html/body/ngb-modal-window/div/div/div[2]/div/xpl-citation-download/form/div[1]/section[1]/div/label[2]/input"))
        )
        bibtex_link.click()
        time.sleep(1)
    except Exception as e:
        print(f"‚ö†Ô∏è Error al seleccionar BibTeX en p√°gina {page_num}: {e}")
        continue

    # Citation + Abstract
    try:
        citAndAbstract_link = WebDriverWait(driver, 15).until(
            EC.element_to_be_clickable((By.XPATH,
                "/html/body/ngb-modal-window/div/div/div[2]/div/xpl-citation-download/form/div[1]/section[2]/div/label[2]/input"))
        )
        citAndAbstract_link.click()
        time.sleep(1)
    except Exception as e:
        print(f"‚ö†Ô∏è Error al seleccionar Citation and Abstract en p√°gina {page_num}: {e}")
        continue

    # Guardar estado de descargas antes de bajar
    archivos_antes = set([f for f in os.listdir(download_path) if f.endswith(".bib")])

    # Bot√≥n descargar
    try:
        download_button = WebDriverWait(driver, 15).until(
            EC.element_to_be_clickable((By.XPATH,
                "/html/body/ngb-modal-window/div/div/div[2]/div/xpl-citation-download/form/div[2]/button[2]"))
        )
        download_button.click()
        print(f"‚¨áÔ∏è Intentando descarga para p√°gina {page_num}...")

        # Nota: El archivo se descargar√° primero en base_download_path
        # y luego lo moveremos a ieee_folder
        archivos_antes_base = set([f for f in os.listdir(base_download_path) if f.endswith(".bib")])
        
        # Esperar el archivo en la carpeta base de descargas
        end_time = time.time() + 50
        nuevo_archivo = None
        while time.time() < end_time:
            archivos_actuales = set(f for f in os.listdir(base_download_path) if f.endswith(".bib"))
            nuevos = archivos_actuales - archivos_antes_base
            if nuevos:
                archivo_descargado = max([os.path.join(base_download_path, f) for f in nuevos],
                                  key=os.path.getctime)
                # Mover a la carpeta ieee
                nuevo_nombre = f"ieee_generative_ai_page_{page_num}.bib"
                ruta_nueva = os.path.join(download_path, nuevo_nombre)
                os.rename(archivo_descargado, ruta_nueva)
                print(f"‚úÖ Archivo guardado como: {nuevo_nombre}")
                nuevo_archivo = ruta_nueva
                break
            time.sleep(1)
        
        if not nuevo_archivo:
            print(f"‚ùå No se detect√≥ descarga en p√°gina {page_num}")

    except Exception as e:
        print(f"‚ö†Ô∏è Error en el proceso de descarga en p√°gina {page_num}: {e}")

    # Cerrar modal
    try:
        cerrarVentana_link = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.XPATH,
                "/html/body/ngb-modal-window/div/div/div[1]/div/i"))
        )
        cerrarVentana_link.click()
    except:
        ActionChains(driver).send_keys(Keys.ESCAPE).perform()

    # Verificar si hay m√°s p√°ginas
    try:
        # Intentar encontrar el bot√≥n de siguiente p√°gina
        siguiente_btn = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, 
                'button[class^="stats-Pagination_arrow_next_"], '  # Bot√≥n de siguiente
                'button[aria-label="Next page of search results"], '  # Alternativa 1
                'button.next, '  # Alternativa 2
                'a.next, '  # Alternativa 3
                'li.next-btn button'  # Alternativa 4
            ))
        )
        
        # Hacer clic en el bot√≥n de siguiente p√°gina
        driver.execute_script("arguments[0].click();", siguiente_btn)
        page_num += 1
        print(f"‚û°Ô∏è Avanzando a la p√°gina {page_num}...")
        time.sleep(4)  # Esperar a que cargue la nueva p√°gina
        
    except Exception as e:
        print("No se pudo encontrar el bot√≥n de siguiente p√°gina.")
        print(f"Error: {str(e)}")
        hay_mas_paginas = False

print(f"\nüéâ ¬°Proceso completado! Se han procesado {page_num} p√°ginas en total.")
print(f"üìÅ Archivos guardados en: {download_path}")

üìÅ Usando carpeta existente: /home/yep/Documentos/proyectoAnalisisAlgoritmos/descargas/ieee

Procesando p√°gina 1...
‚¨áÔ∏è Intentando descarga para p√°gina 1...
‚úÖ Archivo guardado como: ieee_generative_ai_page_1.bib
‚û°Ô∏è Avanzando a la p√°gina 2...

Procesando p√°gina 2...
‚¨áÔ∏è Intentando descarga para p√°gina 2...
‚úÖ Archivo guardado como: ieee_generative_ai_page_2.bib
‚û°Ô∏è Avanzando a la p√°gina 3...

Procesando p√°gina 3...
‚¨áÔ∏è Intentando descarga para p√°gina 3...
‚úÖ Archivo guardado como: ieee_generative_ai_page_3.bib
‚û°Ô∏è Avanzando a la p√°gina 4...

Procesando p√°gina 4...
‚¨áÔ∏è Intentando descarga para p√°gina 4...
‚úÖ Archivo guardado como: ieee_generative_ai_page_4.bib
‚û°Ô∏è Avanzando a la p√°gina 5...

Procesando p√°gina 5...
‚¨áÔ∏è Intentando descarga para p√°gina 5...
‚úÖ Archivo guardado como: ieee_generative_ai_page_5.bib
‚û°Ô∏è Avanzando a la p√°gina 6...

Procesando p√°gina 6...
‚¨áÔ∏è Intentando descarga para p√°gina 6...
‚úÖ Archivo guardado como:

KeyboardInterrupt: 

In [None]:
driver.quit()