# Ejemplo de uso de Selenium

Asignatura: Procesamiento del Lenguaje Natural

Fecha: 20/3/2025

Docentes:
- Ferrucci, Constantino
- Geary, Alan
- Manson, Juan Pablo
- Sollberger, Dolores

## Introducci√≥n

### Instalaci√≥n de dependencias
En esta celda, actualizamos las dependencias del sistema y luego instalamos las librer√≠as necesarias para trabajar con Selenium:  
- **Selenium**: para la automatizaci√≥n de navegadores web.  
- **webdriver-manager**: para gestionar autom√°ticamente los controladores del navegador (Chrome, en este caso).

### Configuraci√≥n del entorno y opciones para Selenium
En esta celda:
1. Importamos las librer√≠as necesarias de Selenium y otras utilidades.
2. Configuramos opciones del navegador Chrome:
   - **--headless**: ejecuta Chrome sin interfaz gr√°fica.
   - **--no-sandbox**: evita restricciones de seguridad en entornos virtualizados.
   - **--disable-dev-shm-usage**: mejora la gesti√≥n de memoria compartida en Docker.
3. Especificamos la ruta al controlador de Chrome.

In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# Configuraci√≥n m√°s detallada de las opciones de Chrome
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.add_argument('--disable-gpu')

# Configurar la ruta del driver
service = Service('/usr/bin/chromedriver')

### Funci√≥n para extraer videos de YouTube
Esta funci√≥n permite:
1. Esperar un tiempo opcional para cargar el contenido de la p√°gina.
2. Extraer informaci√≥n sobre los primeros 5 videos:
   - **T√≠tulo**.
   - **Nombre del canal**.
   - **Likes** y **tiempo de publicaci√≥n**.
3. Imprimir los resultados de forma ordenada.

In [None]:
def extraer_videos_youtube(driver, esperar_carga=True, delay=5, num_of_videos=10):
    """
    Extrae y muestra los t√≠tulos, canales y metadata de los videos en una p√°gina de resultados de YouTube.

    Args:
        driver (webdriver.Chrome): Instancia del navegador.
        esperar_carga (bool): Si True, espera un tiempo definido para que cargue la p√°gina.
        delay (int): Tiempo en segundos a esperar si esperar_carga es True.

    Returns:
        None
    """
    # Verificar si se debe esperar por la carga de la p√°gina
    if esperar_carga:
        print(f"Esperando {delay} segundos para que cargue la p√°gina...")
        time.sleep(delay)

    # Intentar extraer los videos
    videos = driver.find_elements(By.TAG_NAME, "ytd-video-renderer")

    # Verificar si se encontraron videos
    if not videos:
        print("No se encontraron videos en la p√°gina.")
        return

    # Imprimir encabezado
    print(f"T√≠tulos de los primeros {min(num_of_videos, len(videos))} videos encontrados:")
    print("-" * 50)

    # Iterar y mostrar detalles de los videos
    for i, video in enumerate(videos[:num_of_videos], start=1):
        # Extraer detalles del video
        titulo = video.find_element(By.ID, "video-title").text
        canal = video.find_element(By.ID, "channel-name").find_element(By.CSS_SELECTOR, 'ytd-channel-name a').get_attribute('innerText')
        metadata = video.find_element(By.ID, "metadata-line").text.split('\n')
        likes = metadata[0]
        tiempo = metadata[1]

        # Imprimir los detalles de cada video
        print(f"Video {i}:")
        print(f"  T√≠tulo: {titulo}")
        print(f"  Canal: {canal}")
        print(f"  Likes: {likes}")
        print(f"  Tiempo: {tiempo}")
        print("-" * 50)

### Inicializaci√≥n del navegador y ejecuci√≥n
1. **Navegador Chrome**:
   - Se inicializa con las opciones configuradas previamente.
2. **Navegar a YouTube**:
   - URL de b√∫squeda: `openai gpt 3.5 turbo`.
3. **Ejecutar la funci√≥n `extraer_videos_youtube`**:
   - Se llama a la funci√≥n para extraer los detalles de los videos.
4. **Liberar recursos**:
   - Cierra el navegador con `driver.quit()`.

Prueba sin tiempo de espera

In [None]:
# Inicializar el webdriver
driver = webdriver.Chrome(options=chrome_options)

# Navegar a la p√°gina de YouTube
driver.get('https://www.youtube.com/results?search_query=openai+gpt+3.5+turbo')

# Llamar a la funci√≥n para extraer videos
extraer_videos_youtube(driver, esperar_carga=False, num_of_videos=15)

# Cerrar el navegador
driver.quit()

No se encontraron videos en la p√°gina.


Prueba con tiempo de espera

In [None]:
# Inicializar el webdriver
driver = webdriver.Chrome(options=chrome_options)

# Navegar a la p√°gina de YouTube
driver.get('https://www.youtube.com/results?search_query=openai+gpt+3.5+turbo')

# Llamar a la funci√≥n para extraer videos
extraer_videos_youtube(driver, esperar_carga=True, delay=5, num_of_videos=5)

# Cerrar el navegador
driver.quit()

Esperando 5 segundos para que cargue la p√°gina...
T√≠tulos de los primeros 5 videos encontrados:
--------------------------------------------------
Video 1:
  T√≠tulo: OpenAI GPT 3.5 Turbo Explained in 100 Seconds
  Canal: Ai Austin
  Likes: 7.5K views
  Tiempo: 2 years ago
--------------------------------------------------
Video 2:
  T√≠tulo: Getting started with the NEW OpenAI ChatGPT API (gpt-3.5-turbo)
  Canal: Tinkering with Deep Learning & AI
  Likes: 34K views
  Tiempo: 2 years ago
--------------------------------------------------
Video 3:
  T√≠tulo: How to Fine Tune GPT 3.5 Turbo with OpenAI's API
  Canal: CreateContentWithGenAI
  Likes: 296 views
  Tiempo: 1 year ago
--------------------------------------------------
Video 4:
  T√≠tulo: How to Use OpenAI API to Communicate with GPT-3.5 Turbo Model
  Canal: Tom Media
  Likes: 562 views
  Tiempo: 1 year ago
--------------------------------------------------
Video 5:
  T√≠tulo: OpenAI Fights Back (GPT 4.5 is wild)
  Canal: Theo

### Ejemplo con requests

In [None]:
import requests
from bs4 import BeautifulSoup
import re

def extraer_videos_youtube(url, num_of_videos=10):
    """
    Extrae y muestra los t√≠tulos, canales y metadata de los videos en una p√°gina de resultados de YouTube
    utilizando requests y BeautifulSoup.

    Args:
        url (str): URL de la p√°gina de resultados de YouTube.
        num_of_videos (int): N√∫mero m√°ximo de videos a extraer.

    Returns:
        list: Lista de diccionarios con informaci√≥n de cada video.
    """
    # Configurar headers para simular un navegador
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
        'Accept-Language': 'es-ES,es;q=0.9'
    }

    # Realizar la solicitud HTTP
    response = requests.get(url, headers=headers)

    # Verificar si la solicitud fue exitosa
    if response.status_code != 200:
        print(f"Error al acceder a la p√°gina. C√≥digo de estado: {response.status_code}")
        return []

    # Parsear el HTML con BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')

    # Lista para almacenar la informaci√≥n de los videos
    videos_info = []

    # Intentamos encontrar los contenedores principales de videos
    videos = soup.select('div#contents ytd-video-renderer')

    # Si no encontramos videos con el selector anterior, intentamos otro enfoque
    if not videos:
        # Alternativa: buscar secciones que contengan videos
        videos = soup.find_all('div', {'id': re.compile('dismissible')})

    # Verificar si se encontraron videos
    if not videos:
        print("No se encontraron videos en la p√°gina.")
        return []

    # Imprimir encabezado
    print(f"T√≠tulos de los primeros {min(num_of_videos, len(videos))} videos encontrados:")
    print("-" * 50)

    # Limitar la cantidad de videos a procesar
    videos = videos[:num_of_videos]

    # Iterar y extraer detalles de los videos
    for i, video in enumerate(videos, start=1):
        try:
            # Intentamos diferentes selectores para adaptarnos a la estructura de YouTube
            # T√≠tulo del video
            titulo_elem = video.select_one('a#video-title') or video.select_one('h3 a')
            titulo = titulo_elem.text.strip() if titulo_elem else "T√≠tulo no disponible"

            # Canal
            canal_elem = video.select_one('div#channel-info a') or video.select_one('ytd-channel-name a')
            canal = canal_elem.text.strip() if canal_elem else "Canal no disponible"

            # Metadatos (vistas, tiempo)
            metadata_elem = video.select_one('div#metadata-line') or video.select_one('span.style-scope.ytd-video-meta-block')

            if metadata_elem:
                metadata_text = metadata_elem.text.strip()
                # Intentar extraer vistas y tiempo
                metadata_parts = metadata_text.split('\n')
                vistas = metadata_parts[0].strip() if len(metadata_parts) > 0 else "Vistas no disponibles"
                tiempo = metadata_parts[1].strip() if len(metadata_parts) > 1 else "Tiempo no disponible"
            else:
                vistas = "Vistas no disponibles"
                tiempo = "Tiempo no disponible"

            # Crear diccionario con la informaci√≥n del video
            video_info = {
                'titulo': titulo,
                'canal': canal,
                'vistas': vistas,
                'tiempo': tiempo
            }

            # Agregar a la lista de videos
            videos_info.append(video_info)

            # Imprimir los detalles del video
            print(f"Video {i}:")
            print(f"  T√≠tulo: {titulo}")
            print(f"  Canal: {canal}")
            print(f"  Vistas: {vistas}")
            print(f"  Tiempo: {tiempo}")
            print("-" * 50)

        except Exception as e:
            print(f"Error al procesar el video {i}: {str(e)}")

    return videos_info

In [None]:
url = "https://www.youtube.com/results?search_query=python+tutorial"
extraer_videos_youtube(url, num_of_videos=5)

No se encontraron videos en la p√°gina.


[]

## Ejemplo

### Levantamos un servidor con un HTML

In [None]:
from flask import Flask, render_template_string, jsonify
import threading
import requests
import time
import logging

app = Flask(__name__)

# Funci√≥n para obtener el valor del d√≥lar
def obtener_dolar():
    try:
        response = requests.get("https://dolarapi.com/v1/dolares")
        if response.status_code == 200:
            return response.json()
        else:
            return {"error": "No se pudo obtener el valor del d√≥lar"}
    except Exception as e:
        return {"error": str(e)}

# P√°gina HTML din√°mica
html_code = """
<!DOCTYPE html>
<html lang="es">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>D√≥lar API</title>
    <link rel="preconnect" href="https://fonts.googleapis.com">
    <link href="https://fonts.googleapis.com/css2?family=Poppins:wght@300;400;600&display=swap" rel="stylesheet">
    <style>
        /* Estilos generales */
        body {
            font-family: 'Poppins', sans-serif;
            background-color: #f4f4f9;
            display: flex;
            justify-content: center;
            align-items: center;
            height: 100vh;
            margin: 0;
        }

        /* Contenedor principal */
        .container {
            background: #ffffff;
            padding: 20px 30px;
            border-radius: 12px;
            box-shadow: 0 5px 15px rgba(0, 0, 0, 0.1);
            text-align: center;
            max-width: 400px;
            width: 100%;
        }

        h1 {
            font-size: 22px;
            color: #333;
            margin-bottom: 10px;
        }

        /* Lista de valores */
        .dolar-list {
            list-style: none;
            padding: 0;
        }

        .dolar-list li {
            background: #007bff;
            color: white;
            padding: 12px;
            margin: 8px 0;
            border-radius: 8px;
            font-size: 16px;
            font-weight: 600;
        }

        /* Animaci√≥n de carga */
        .loading {
            font-size: 16px;
            color: #777;
            margin-top: 10px;
        }

        .loading::after {
            content: "‚è≥";
            animation: dots 1.5s infinite;
        }

        @keyframes dots {
            0% { content: "‚è≥"; }
            33% { content: "‚åõ"; }
            66% { content: "‚è≥"; }
            100% { content: "‚åõ"; }
        }
    </style>
</head>
<body>
    <div class="container">
        <h1>Valores del D√≥lar üí∞</h1>
        <ul class="dolar-list" id="lista-dolar">
            <li class="loading">Cargando datos...</li>
        </ul>
    </div>

    <script>
        // Esperar 3 segundos antes de hacer la petici√≥n
        setTimeout(() => {
            fetch('https://dolarapi.com/v1/dolares')
                .then(response => response.json())
                .then(data => {
                    const lista = document.getElementById("lista-dolar");
                    lista.innerHTML = ""; // Limpiar la lista

                    // Agregar cada tipo de d√≥lar a la lista
                    data.forEach(d => {
                        const li = document.createElement("li");
                        li.textContent = `${d.nombre}: Compra ${d.compra} | Venta ${d.venta}`;
                        lista.appendChild(li);
                    });
                })
                .catch(error => {
                    console.error("Error al obtener los datos:", error);
                    document.getElementById("lista-dolar").innerHTML = "<li>Error al cargar los datos</li>";
                });
        }, 3000);
    </script>
</body>
</html>
"""

@app.route('/')
def home():
    return render_template_string(html_code)

@app.route('/api/dolar')
def dolar():
    return jsonify(obtener_dolar())

# Iniciar Flask en un hilo separado
def run_flask():
    # Configurar el nivel de logging de Flask
    log = logging.getLogger('werkzeug')
    log.setLevel(logging.ERROR)  # Oculta logs de peticiones normales, pero muestra errores
    app.run(host='0.0.0.0', port=5000)

flask_thread = threading.Thread(target=run_flask)
flask_thread.start()

 * Serving Flask app '__main__'
 * Debug mode: off


### Definimos las funciones

#### Requests

In [None]:
import requests
from bs4 import BeautifulSoup

def obtener_dolar_requests():
    """
    Obtiene el valor del d√≥lar desde una p√°gina HTML est√°tica con Requests y BeautifulSoup.
    """
    url = "http://localhost:5000"
    response = requests.get(url)

    if response.status_code == 200:
        soup = BeautifulSoup(response.text, "html.parser")

        # Buscar los valores del d√≥lar en la lista
        dolares = soup.find_all("li")

        if dolares:
            print("üí∞ Valores del d√≥lar (Requests - Est√°tico):")
            for dolar in dolares:
                print(dolar.text)
        else:
            print("‚ö† No se encontraron valores del d√≥lar en la p√°gina.")

    else:
        print(f"‚ùå Error al conectar con la p√°gina. C√≥digo: {response.status_code}")

#### Selenium

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
import time

def obtener_dolar_solo_selenium(delay=5):
    """
    Obtiene el valor del d√≥lar desde una p√°gina din√°mica usando solo Selenium.
    """
    # Configurar Selenium con WebDriver Manager
    driver = webdriver.Chrome(options=chrome_options)

    try:
        url = "http://localhost:5000"
        driver.get(url)

        print(f"‚è≥ Esperando {delay} segundos para que carguen los datos...")
        time.sleep(delay)  # Esperar para permitir que el JavaScript cargue los datos din√°micos

        # Buscar los elementos de la lista que contienen los valores del d√≥lar
        dolares = driver.find_elements(By.TAG_NAME, "li")

        if dolares:
            print("üí∞ Valores del d√≥lar (Selenium - Solo Selenium):")
            for dolar in dolares:
                print(dolar.text)
        else:
            print("‚ö† No se encontraron valores del d√≥lar en la p√°gina.")

    finally:
        driver.quit()  # Cerrar el navegador

### Probamos las funciones

#### De forma est√°tica

In [None]:
obtener_dolar_requests()

üí∞ Valores del d√≥lar (Requests - Est√°tico):
Cargando datos...


In [None]:
obtener_dolar_solo_selenium(0)

‚è≥ Esperando 0 segundos para que carguen los datos...
üí∞ Valores del d√≥lar (Selenium - Solo Selenium):
Cargando datos...


#### De forma din√°mica

In [None]:
obtener_dolar_solo_selenium(5)

‚è≥ Esperando 5 segundos para que carguen los datos...
üí∞ Valores del d√≥lar (Selenium - Solo Selenium):
Oficial: Compra 1049.5 | Venta 1089.5
Blue: Compra 1245 | Venta 1265
Bolsa: Compra 1282.2 | Venta 1286.7
Contado con liquidaci√≥n: Compra 1285.3 | Venta 1286.4
Mayorista: Compra 1066.5 | Venta 1069.5
Cripto: Compra 1289.9 | Venta 1295.1
Tarjeta: Compra 1364.35 | Venta 1416.35


#### Bajamos el servidor

In [None]:
!pkill -9 flask

## Conclusi√≥n final

### Comparaci√≥n entre B√∫squeda Est√°tica y Din√°mica en Web Scraping

| Caracter√≠stica        | B√∫squeda Est√°tica | B√∫squeda Din√°mica |
|----------------------|------------------|------------------|
| **M√©todo**          | `requests` + `BeautifulSoup` | `Selenium`, `Playwright` |
| **Velocidad**       | R√°pida | Lenta |
| **Carga JavaScript** | No | S√≠ |
| **Consumo de recursos** | Bajo | Alto |
| **Dificultad**      | F√°cil | M√°s compleja |
| **Riesgo de bloqueo** | Bajo | Alto |
| **Uso recomendado** | Datos visibles en el HTML | Datos cargados con JavaScript |


La b√∫squeda din√°mica en web scraping es √∫til cuando los datos no est√°n en el HTML y se generan con JavaScript. Aunque es m√°s lenta y consume m√°s recursos, permite extraer informaci√≥n que no se puede obtener con un m√©todo est√°tico. Se debe usar solo cuando sea necesario y con cuidado para evitar bloqueos o problemas legales.
