# Selección de elementos

## Ejemplo simple

In [None]:
import requests
from pprint import pprint as pp
from bs4 import BeautifulSoup as bs

Examinemos un ejemplo más pequeño

In [None]:
ejemplo_html="""
<!DOCTYPE html>
<html>
<head>
    <title>Mi Sitio Web de Ejemplo</title>
    <meta charset="UTF-8">
    <meta name="description" content="Un sitio web de ejemplo para demostrar componentes comunes de HTML.">
    <link rel="stylesheet" href="styles.css">
</head>
<body>
    <header id="header" class="header">
        <h1>Bienvenido a Mi Sitio Web de Ejemplo</h1>
        <nav id="nav" class="nav">
            <ul>
                <li><a href="#home" class="nav-link">Inicio</a></li>
                <li><a href="#about" class="nav-link">Acerca de</a></li>
                <li><a href="#contact" class="nav-link">Contacto</a></li>
            </ul>
        </nav>
    </header>

    <main id="main" class="container">
        <section id="content">
            <h2>Sobre Nosotros</h2>
            <p>Somos una empresa que valora la excelencia y la innovación.</p>
            <img src="logo.png" alt="" id="logo" class="logo">
        </section>

        <section id="services">
            <h2>Nuestros Servicios</h2>
            <ul>
                <li>Desarrollo Web</li>
                <li>Desarrollo de Aplicaciones</li>
                <li>Optimización SEO</li>
            </ul>
        </section>

        <section id="contact">
            <h2>Contáctanos</h2>
            <form id="form" class="form">
                <label for="name">Nombre:</label>
                <input type="text" id="name" name="name" class="input-group">
                <label for="email">Correo Electrónico:</label>
                <input type="email" id="email" name="email" class="input-group">
                <button type="submit" class="button">Enviar</button>
            </form>
        </section>
    </main>

    <footer id="footer" class="footer">
        <p>© 2024 Mi Sitio Web de Ejemplo</p>
    </footer>

    <div id="modal" class="modal">
        <div class="modal-content">
            <span class="close-button">×</span>
            <p>Este es un cuadro de diálogo modal.</p>
        </div>
    </div>
</body>
</html>
"""

In [None]:
soup = bs(ejemplo_html, 'html.parser')

In [None]:
print(soup.prettify())

In [None]:
soup.html

In [None]:
soup.head

In [None]:
soup.body

In [None]:
soup.find('a')

Seleccionemos los siguientes elementos:

**Etiquetas**

In [None]:
html_element = soup.html
head_element = soup.head
body_element = soup.body
h1_element = soup.find('h1')
p_element = soup.find('p')
a_element = soup.find('a')
img_element = soup.find('img')

In [None]:
Puedes revisar el contenido de cada variable imprimiendo su contenido.

In [None]:
print(img_element)

**Atributos**

In [None]:
src_attribute = img_element['src']
href_attribute = a_element['href']
alt_attribute = img_element['alt']
type_attribute = img_element.get('type')
target_attribute = a_element.get('target')
title_attribute = a_element.get('title')

In [None]:
print(src_attribute)

**Clases**

In [None]:
container_class = soup.find('div', class_='container')
row_class = soup.find('div', class_='row')
button_class = soup.find('button', class_='button')
nav_class = soup.find('nav', class_='nav')

In [None]:
print(button_class)

**IDs**

In [None]:
main_id = soup.find('main', id='main')
header_id = soup.find('header', id='header')
content_id = soup.find('div', id='content')

In [None]:
print(header_id)

### Ejemplo

¿Qué pasa si queremos obtener información de la página: https://www.plataformadetransparencia.org.mx?

In [None]:
url = "https://www.plataformadetransparencia.org.mx/Inicio"
response = requests.get(url)
response.raise_for_status()

`raise_for_status()` devuelve un objeto HTTPError si se produjo un error durante el proceso, cuando el código de error no se encuentra en el rango de **200-229**, 

A pesar del error podemos acceder a la respuesta de `requests` a la página:

In [None]:
soup = bs(response.content, 'html.parser')
print(soup.prettify())

El acceso es fue denegado. Del mensaje anterior podemos tener en consideración tres elementos:

- Habilitar cookies
- Captcha

## ¿Qué es una cookie?

Las cookies son pequeños archivos de texto, generalmente, que los sitios web almacenan en tu computadora. Son como pequeñas notas digitales que los sitios web utilizan para recordar información sobre tu visita.

In [None]:
Hay dos opciones para solucionar este error: utilizar una estrategia para resolver el captcha y cargar las cookies por default o emular el navegador sin utilizar el navagador. 

In [None]:
import sys

In [None]:
!{sys.executable} -m pip install beautifulsoup4 selenium

In [None]:
url = "https://www.plataformadetransparencia.org.mx/Inicio"

In [None]:
from curl_cffi import requests

# Notice the impersonate parameter
response = requests.get(url, impersonate="chrome")
response.raise_for_status()

In [None]:
soup = bs(response.content, 'html.parser')
print(soup.prettify())

In [None]:
response.cookies

In [None]:
response.cookies.get("__cf_bm")

Puedo vencer el bloqueco de Cloudfare con curl_cffi? Depende, en este caso sí. 

Exploremos los elementos de la página:

In [None]:
def extract_elements(html_content):
    """
    Extrae todos los tags, attributes, classes, y IDs de un documento HTML.

    Args:
        html_content: El contenido HTML como texto.

    Returns:
        Un diccionario que contiene una lista de tags, attributes, classes, y IDs.
    """

    soup = bs(html_content, 'html.parser')

    tags = {tag.name for tag in soup.find_all()}
    attributes = {attr for tag in soup.find_all() for attr in tag.attrs}
    classes = {class_name for tag in soup.find_all() for class_name in tag.get('class', [])}
    ids = {tag.get('id') for tag in soup.find_all() if tag.get('id')}

    return {'tags': tags, 'attributes': attributes, 'classes': classes, 'ids': ids}

In [None]:
extract_elements(response.content)

In [None]:
soup

Por qué a pesar de haber vencido el acceso de Cloudfare no puedeo acceder al contenido completo de la página web?|m

La página es una app de Angular, y tiene que ser rendereada por Javascript, es necesario un navegador

## ¿Qué es un CAPTCHA?
Un test CAPTCHA está diseñado para determinar si un usuario en línea es realmente un humano y no un bot. CAPTCHA es un acrónimo que significa "Prueba de Turing pública completamente automatizada para diferenciar computadoras de humanos".

## ¿Qué es un CAPTCHA?
Un test CAPTCHA está diseñado para determinar si un usuario en línea es realmente un humano y no un bot. CAPTCHA es un acrónimo que significa "Prueba de Turing pública completamente automatizada para diferenciar computadoras de humanos".

Hay tres maneras de resolver un capcha:

- Accediendo directamente con la API (Application Programming Interface), técnicamente no es web scraping. 
- Servicios de resolución de captchas: [2captcha](https://2captcha.com), por ejemplo.
- Automatización del navegador: automatización de interacciones del navegador, incluida la resolución de captchas.

Hay tres maneras de resolver un capcha:

- Accediendo directamente con la API (Application Programming Interface), técnicamente no es web scraping. 
- Servicios de resolución de captchas: [2captcha](https://2captcha.com), por ejemplo.
- Automatización del navegador: automatización de interacciones del navegador, incluida la resolución de captchas.

In [None]:
import requests
from bs4 import BeautifulSoup as bs
from pathlib import Path
import zipfile
from zipfile import error as zipfile_error
import time

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select
from selenium.webdriver.chrome.service import Service

NOTA: las versiones del navegador y del driver tienen que coincidir, para navegadores recientes es necesario usar la versión correspondiente de acuerdo a su sistema operativo: https://googlechromelabs.github.io/chrome-for-testing/

In [None]:
URL = "https://storage.googleapis.com/chrome-for-testing-public"
DRIVER_VERSION = "129.0.6668.100"

# Usuarios MacOS
OS_PLATFORM = "mac-x64"

# Usuarios Windows
# OS_PLATFORM = "win64"

DRIVER = f"{URL}/{DRIVER_VERSION}/{OS_PLATFORM}/chromedriver-{OS_PLATFORM}.zip"

In [None]:
download_url = MYDRIVER
download_path = Path.home() / Path(download_url).name

try:
    response = requests.get(download_url, stream=True)
    response.raise_for_status()  
    with open(download_path, "wb") as f:
        for chunk in response.iter_content(1024):
            f.write(chunk)

    print(f"Downloaded file: {download_path}")
except requests.exceptions.RequestException as e:
    print(f"Download failed: {e}")
    exit(1)

try:
    with zipfile.ZipFile(download_path, 'r') as zip_ref:
        zip_ref.extractall(Path.home())
    print(f"Extracted files to: {Path.home()}")
except zipfile.ZipException as e:
    print(f"Extraction failed: {e}")
    exit(1)

NOTA: en sistemas Linux y MacOS es necesario agregar permisos de ejecución. En Windows ésto **NO** es necesario.

In [None]:
!echo $OS_PLATFORM

In [None]:
DRIVER = str(Path.home() / f"chromedriver-{OS_PLATFORM}/chromedriver")
BROWSER = r"/Applications/Brave Browser.app/Contents/MacOS/Brave Browser"
# BROWSER = r"C:\Program Files\Google\Chrome\Application\chrome.exe"

In [None]:
# ====>
def chrome_driver(driver, browser):
    """
    Crea una nueva instancia de Chrome WebDriver con modo incógnito opcional
    y desactiva la detección de automatización.

    Args:
        driver (str): La ruta al ejecutable de ChromeDriver.
        browser (str, optional): La ruta a un ejecutable específico de Chrome.
            Si no se proporciona, se utilizará el Chrome del sistema predeterminado.

    Returns:
        webdriver.Chrome: Una nueva instancia de Chrome WebDriver.
    """
    s = Service(driver)

    options = webdriver.ChromeOptions()
    if browser:
        options.binary_location = browser
    # options.add_argument("-incognito")
    # options.add_argument("headless")
    options.add_experimental_option("excludeSwitches", ["enable-automation"])

    browser = webdriver.Chrome(service=s, options=options)

    return browser

def get_website(url, driver, browser):
    """
    Obtiene un sitio web utilizando la instancia de Chrome WebDriver proporcionada.

    Args:
        url (str): La URL del sitio web al que se accederá.
        driver (webdriver.Chrome): Una instancia de Chrome WebDriver previamente creada.

    Returns:
        webdriver.Chrome: La misma instancia de Chrome WebDriver después de navegar a la URL.
    """
    website = chrome_driver(driver, browser)
    website.get(url)

    # time.sleep(30)

    return website

Probemos con Selenium si podemos acceder a la página de www.plataformadetransparencia.org.mx

In [None]:
url = "https://www.plataformadetransparencia.org.mx"
website = get_website(url=url, driver=DRIVER, browser=BROWSER)

para usuarios Windows, cuando no definimos el valor `browser` Selenium usará el valor predeterminado para el ejecutable de Chrome.

In [None]:
# website = get_website(url=url, driver=DRIVER)

In [None]:
soup = bs(website.page_source, "html.parser")

In [None]:
print(soup.prettify())

In [None]:
extract_elements(website.page_source)

In [None]:
website.close()

In [None]:
soup

Ahora, intentémoslo con la opción incógnito activada, quita el comentario (`#`) a la línea: `options.add_argument("-incognito")` y ejecuta las celdas desde `# ====>` ¿Notas alguna diferencia?

Al utilizar Selenium lanzamos una ventana del navegador por sesión, lo cual es bueno cuando estamos depurando nuestro código hasta obtener la información deseada. Posteriormente para las tareas de automatización, que pueden consumir recursos considerables de nuestra computadora, podemos utilizar el navegador sin una interfaz de usuario visible con la opción `options.add_argument("headless")`. ¿Qué pasa si intentas utilizar ambas opciones,  `incognito` y `headless`? Recuerda, desde la posición `# ====>`.

SPOILER: La opción `headless` dispara el CAPTCHA **¿Por qué?**

**Tipos de CAPTCHA**:

- CAPTCHA Clásico: solicita a los usuarios que identifiquen letras distorsionadas. Para superar la prueba, los usuarios deben interpretar el texto distorsionado, escribir las letras correctas en un campo de formulario y enviar el formulario. Si las letras no coinciden, se solicita a los usuarios que vuelvan a intentarlo.
- reCAPTCHA: es más avanzado, requieren que los usuarios ingresen imágenes de texto que las computadoras tienen dificultades para descifrar. A diferencia de los CAPTCHA normales, reCAPTCHA obtiene el texto de imágenes del mundo real como imágenes de direcciones de calles, texto de libros impresos, texto de periódicos antiguos, etc.   