# üåê Lecci√≥n 2: HTTP Requests y Beautiful Soup Avanzado

## üéØ Objetivos de Aprendizaje

Al finalizar esta lecci√≥n, ser√°s capaz de:
- ‚úÖ Dominar el protocolo HTTP y sus m√©todos
- ‚úÖ Manejar headers, cookies y sesiones avanzadas
- ‚úÖ Trabajar con formularios y POST requests
- ‚úÖ Implementar t√©cnicas avanzadas de Beautiful Soup
- ‚úÖ Manejar diferentes tipos de contenido y encodings
- ‚úÖ Crear scrapers robustos para sitios complejos

---

## 1. Protocolo HTTP en Profundidad üîç

HTTP (HyperText Transfer Protocol) es el fundamento de toda comunicaci√≥n web. Para hacer web scraping avanzado, necesitas entender c√≥mo funciona realmente.

### üîÑ M√©todos HTTP Principales

| M√©todo | Prop√≥sito | Idempotente | Cacheable | Tiene Body |
|--------|-----------|-------------|-----------|------------|
| **GET** | üì• Obtener datos | ‚úÖ | ‚úÖ | ‚ùå |
| **POST** | üì§ Enviar datos | ‚ùå | ‚ùå | ‚úÖ |
| **PUT** | üîÑ Actualizar/crear | ‚úÖ | ‚ùå | ‚úÖ |
| **DELETE** | üóëÔ∏è Eliminar recurso | ‚úÖ | ‚ùå | ‚ùå |
| **HEAD** | üìã Solo headers | ‚úÖ | ‚úÖ | ‚ùå |
| **OPTIONS** | üîß Opciones disponibles | ‚úÖ | ‚úÖ | ‚ùå |

In [None]:
import requests
import json
from pprint import pprint
from urllib.parse import urljoin, urlparse
import time

def explorar_metodos_http():
    """Demonstrar diferentes m√©todos HTTP"""
    print("üåê EXPLORANDO M√âTODOS HTTP\n")
    print("‚ïê" * 60)
    
    # URL de ejemplo que acepta diferentes m√©todos
    base_url = "https://httpbin.org"
    
    # 1. GET Request b√°sico
    print("\n1Ô∏è‚É£ GET Request:")
    print("-" * 30)
    
    response = requests.get(f"{base_url}/get", params={'param1': 'valor1', 'param2': 'valor2'})
    print(f"Status Code: {response.status_code}")
    print(f"URL final: {response.url}")
    
    data = response.json()
    print(f"Par√°metros enviados: {data['args']}")
    print(f"Headers enviados: {len(data['headers'])} headers")
    
    # 2. POST Request con datos
    print("\n2Ô∏è‚É£ POST Request:")
    print("-" * 30)
    
    post_data = {
        'usuario': 'scraper_usuario',
        'email': 'usuario@ejemplo.com',
        'mensaje': 'Datos enviados via POST'
    }
    
    response = requests.post(f"{base_url}/post", data=post_data)
    print(f"Status Code: {response.status_code}")
    
    data = response.json()
    print(f"Datos enviados: {data['form']}")
    print(f"Content-Type: {data['headers'].get('Content-Type')}")
    
    # 3. HEAD Request (solo headers)
    print("\n3Ô∏è‚É£ HEAD Request:")
    print("-" * 30)
    
    response = requests.head("https://httpbin.org/html")
    print(f"Status Code: {response.status_code}")
    print(f"Content-Type: {response.headers.get('content-type')}")
    print(f"Content-Length: {response.headers.get('content-length')}")
    print(f"Body length: {len(response.content)} (deber√≠a ser 0)")
    
    # 4. PUT Request
    print("\n4Ô∏è‚É£ PUT Request:")
    print("-" * 30)
    
    put_data = {'recurso': 'actualizado', 'version': '2.0'}
    response = requests.put(f"{base_url}/put", json=put_data)
    
    data = response.json()
    print(f"Status Code: {response.status_code}")
    print(f"JSON enviado: {data['json']}")
    
    # 5. DELETE Request
    print("\n5Ô∏è‚É£ DELETE Request:")
    print("-" * 30)
    
    response = requests.delete(f"{base_url}/delete")
    print(f"Status Code: {response.status_code}")
    print(f"M√©todo confirmado: {response.json()['url']}")
    
# Ejecutar demostraci√≥n
explorar_metodos_http()

## 2. Headers HTTP: Tu Identidad en la Web üïµÔ∏è

Los headers HTTP son metadatos que acompa√±an cada request y response. Son cruciales para un scraping exitoso.

In [None]:
def analizar_headers_http():
    """An√°lisis completo de headers HTTP"""
    print("üïµÔ∏è AN√ÅLISIS COMPLETO DE HEADERS HTTP\n")
    print("‚ïê" * 70)
    
    # Headers b√°sicos vs avanzados
    headers_basicos = {
        'User-Agent': 'Python-requests/2.28.0'
    }
    
    headers_avanzados = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'Accept-Language': 'es-ES,es;q=0.9,en;q=0.8',
        'Accept-Encoding': 'gzip, deflate, br',
        'DNT': '1',
        'Connection': 'keep-alive',
        'Upgrade-Insecure-Requests': '1',
        'Cache-Control': 'max-age=0',
        'Sec-Fetch-Dest': 'document',
        'Sec-Fetch-Mode': 'navigate',
        'Sec-Fetch-Site': 'none',
        'Sec-Fetch-User': '?1'
    }
    
    # Comparar respuestas
    print("1Ô∏è‚É£ Comparaci√≥n: Headers B√°sicos vs Avanzados")
    print("-" * 50)
    
    # Request con headers b√°sicos
    response_basico = requests.get('https://httpbin.org/headers', headers=headers_basicos)
    print("\nüì§ Headers enviados (b√°sicos):")
    for key, value in headers_basicos.items():
        print(f"   {key}: {value[:50]}{'...' if len(value) > 50 else ''}")
    
    # Request con headers avanzados
    response_avanzado = requests.get('https://httpbin.org/headers', headers=headers_avanzados)
    print("\nüì§ Headers enviados (avanzados):")
    for key, value in headers_avanzados.items():
        print(f"   {key}: {value[:50]}{'...' if len(value) > 50 else ''}")
    
    # Analizar headers de respuesta
    print("\n\n2Ô∏è‚É£ An√°lisis de Headers de Respuesta")
    print("-" * 50)
    
    response = requests.get('https://httpbin.org/response-headers?Content-Type=application/json&Custom-Header=valor-personalizado')
    
    print("üì• Headers recibidos importantes:")
    headers_importantes = [
        'content-type', 'content-length', 'server', 'date', 
        'cache-control', 'set-cookie', 'location', 'custom-header'
    ]
    
    for header in headers_importantes:
        valor = response.headers.get(header, 'No presente')
        print(f"   {header.title()}: {valor}")
    
    # Headers de seguridad
    print("\n\n3Ô∏è‚É£ Headers de Seguridad Comunes")
    print("-" * 50)
    
    security_headers = {
        'X-Frame-Options': 'Previene clickjacking',
        'X-Content-Type-Options': 'Previene MIME sniffing',
        'X-XSS-Protection': 'Protecci√≥n XSS',
        'Strict-Transport-Security': 'Fuerza HTTPS',
        'Content-Security-Policy': 'Control de recursos',
        'Referrer-Policy': 'Control de referrer'
    }
    
    # Probar un sitio real para ver headers de seguridad
    try:
        response = requests.head('https://github.com', timeout=5)
        print("üîí Headers de seguridad en GitHub:")
        
        for header, descripcion in security_headers.items():
            valor = response.headers.get(header.lower(), 'No presente')
            status = "‚úÖ" if valor != 'No presente' else "‚ùå"
            print(f"   {status} {header}: {valor[:50]}{'...' if len(str(valor)) > 50 else ''}")
            
    except requests.RequestException as e:
        print(f"‚ùå Error al acceder a GitHub: {e}")
    
    # User-Agents m√°s comunes
    print("\n\n4Ô∏è‚É£ User-Agents Recomendados para Scraping")
    print("-" * 50)
    
    user_agents = {
        'Chrome Windows': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
        'Chrome Mac': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
        'Firefox Windows': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/121.0',
        'Safari Mac': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.1 Safari/605.1.15',
        'Edge Windows': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0'
    }
    
    for navegador, ua in user_agents.items():
        print(f"\nüåê {navegador}:")
        print(f"   {ua}")

# Ejecutar an√°lisis
analizar_headers_http()

## 3. Sesiones y Cookies: Manteniendo el Estado üç™

Las sesiones HTTP permiten mantener el estado entre m√∫ltiples requests. Son esenciales para sitios que requieren login o tienen comportamiento din√°mico.

In [None]:
def demostrar_sesiones_cookies():
    """Demostraci√≥n completa de sesiones y cookies"""
    print("üç™ SESIONES Y COOKIES EN WEB SCRAPING\n")
    print("‚ïê" * 70)
    
    # 1. Sesiones b√°sicas
    print("1Ô∏è‚É£ Creaci√≥n y Uso de Sesiones")
    print("-" * 40)
    
    # Crear una sesi√≥n
    session = requests.Session()
    
    # Configurar headers por defecto para la sesi√≥n
    session.headers.update({
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
        'Accept-Language': 'es-ES,es;q=0.9'
    })
    
    print("‚úÖ Sesi√≥n creada con headers por defecto")
    print(f"üìã Headers de sesi√≥n: {len(session.headers)} configurados")
    
    # 2. Manejo autom√°tico de cookies
    print("\n2Ô∏è‚É£ Manejo Autom√°tico de Cookies")
    print("-" * 40)
    
    # Primera request - establecer cookies
    response = session.get('https://httpbin.org/cookies/set/session_id/abc123')
    print(f"‚úÖ Primera request completada: {response.status_code}")
    
    # Ver cookies en la sesi√≥n
    print(f"üç™ Cookies almacenadas en sesi√≥n: {len(session.cookies)}")
    for cookie in session.cookies:
        print(f"   {cookie.name}: {cookie.value} (domain: {cookie.domain})")
    
    # Segunda request - cookies se env√≠an autom√°ticamente
    response = session.get('https://httpbin.org/cookies')
    data = response.json()
    print(f"\nüì§ Cookies enviadas autom√°ticamente: {data['cookies']}")
    
    # 3. Manipulaci√≥n manual de cookies
    print("\n3Ô∏è‚É£ Manipulaci√≥n Manual de Cookies")
    print("-" * 40)
    
    # A√±adir cookies manualmente
    session.cookies.set('custom_cookie', 'valor_personalizado', domain='httpbin.org')
    session.cookies.set('tracking_id', 'usuario_12345', domain='httpbin.org')
    
    # Verificar cookies
    response = session.get('https://httpbin.org/cookies')
    data = response.json()
    print(f"üç™ Todas las cookies: {data['cookies']}")
    
    # 4. Persistencia de cookies
    print("\n4Ô∏è‚É£ Persistencia de Cookies")
    print("-" * 40)
    
    import pickle
    import os
    
    # Guardar cookies
    cookies_file = '../data/cookies_session.pkl'
    os.makedirs(os.path.dirname(cookies_file), exist_ok=True)
    
    with open(cookies_file, 'wb') as f:
        pickle.dump(session.cookies, f)
    print(f"üíæ Cookies guardadas en: {cookies_file}")
    
    # Crear nueva sesi√≥n y cargar cookies
    nueva_session = requests.Session()
    
    with open(cookies_file, 'rb') as f:
        nueva_session.cookies.update(pickle.load(f))
    
    print(f"üìÇ Cookies cargadas en nueva sesi√≥n: {len(nueva_session.cookies)}")
    
    # Verificar que funcionan
    response = nueva_session.get('https://httpbin.org/cookies')
    data = response.json()
    print(f"‚úÖ Cookies persistentes funcionando: {len(data['cookies'])} cookies activas")
    
    # 5. Cookies con expiraci√≥n
    print("\n5Ô∏è‚É£ An√°lisis de Cookies con Expiraci√≥n")
    print("-" * 40)
    
    # Obtener un sitio real con cookies complejas
    try:
        response = session.get('https://httpbin.org/cookies/set/expires_cookie/temporal', timeout=5)
        
        print("üïê Informaci√≥n detallada de cookies:")
        for cookie in session.cookies:
            print(f"\n   üìã Cookie: {cookie.name}")
            print(f"      Valor: {cookie.value}")
            print(f"      Dominio: {cookie.domain}")
            print(f"      Ruta: {cookie.path}")
            print(f"      Segura: {cookie.secure}")
            print(f"      HTTPOnly: {cookie.has_nonstandard_attr('HttpOnly')}")
            if cookie.expires:
                import datetime
                expiry = datetime.datetime.fromtimestamp(cookie.expires)
                print(f"      Expira: {expiry}")
            else:
                print(f"      Expira: Sesi√≥n (no persistente)")
                
    except requests.RequestException as e:
        print(f"‚ùå Error al obtener cookies detalladas: {e}")
    
    return session

# Ejecutar demostraci√≥n
mi_session = demostrar_sesiones_cookies()
print(f"\nüéâ Sesi√≥n configurada y lista para usar con {len(mi_session.cookies)} cookies")

## 4. Formularios y POST Requests üìù

Muchos sitios web requieren interactuar con formularios para acceder al contenido. Aprender a manejar formularios es crucial para el scraping avanzado.

In [None]:
from bs4 import BeautifulSoup
import urllib.parse

def manejar_formularios():
    """Demostraci√≥n completa de manejo de formularios"""
    print("üìù MANEJO AVANZADO DE FORMULARIOS\n")
    print("‚ïê" * 70)
    
    # 1. An√°lisis de formularios HTML
    print("1Ô∏è‚É£ An√°lisis de Formularios HTML")
    print("-" * 40)
    
    # HTML de formulario complejo
    formulario_html = """
    <form method="post" action="/login" enctype="application/x-www-form-urlencoded">
        <input type="hidden" name="csrf_token" value="abc123xyz789" />
        <input type="hidden" name="form_id" value="login_form" />
        
        <label for="username">Usuario:</label>
        <input type="text" name="username" id="username" required />
        
        <label for="password">Contrase√±a:</label>
        <input type="password" name="password" id="password" required />
        
        <label for="remember">Recordarme:</label>
        <input type="checkbox" name="remember" id="remember" value="1" />
        
        <label for="role">Rol:</label>
        <select name="role" id="role">
            <option value="user" selected>Usuario</option>
            <option value="admin">Administrador</option>
        </select>
        
        <button type="submit">Iniciar Sesi√≥n</button>
    </form>
    """
    
    # Parsear formulario
    soup = BeautifulSoup(formulario_html, 'html.parser')
    form = soup.find('form')
    
    print(f"üìã Formulario encontrado:")
    print(f"   M√©todo: {form.get('method', 'GET').upper()}")
    print(f"   Acci√≥n: {form.get('action', 'misma p√°gina')}")
    print(f"   Encoding: {form.get('enctype', 'application/x-www-form-urlencoded')}")
    
    # Extraer todos los campos
    campos = form.find_all(['input', 'select', 'textarea'])
    print(f"\nüîç Campos encontrados: {len(campos)}")
    
    form_data = {}
    for campo in campos:
        name = campo.get('name')
        if not name:
            continue
            
        tipo = campo.get('type', campo.name)
        valor = campo.get('value', '')
        required = '‚úÖ' if campo.has_attr('required') else '‚ùå'
        
        print(f"   üìù {name} ({tipo}): '{valor}' | Requerido: {required}")
        
        # Configurar valores por defecto
        if tipo == 'hidden':
            form_data[name] = valor
        elif tipo == 'checkbox' and not valor:
            form_data[name] = '1' if campo.has_attr('checked') else ''
        elif tipo == 'select':
            selected_option = campo.find('option', selected=True)
            form_data[name] = selected_option.get('value') if selected_option else ''
        else:
            form_data[name] = valor
    
    # 2. Simulaci√≥n de env√≠o de formulario
    print("\n2Ô∏è‚É£ Simulaci√≥n de Env√≠o de Formulario")
    print("-" * 40)
    
    # Completar formulario
    form_data.update({
        'username': 'usuario_scraper',
        'password': 'password123',
        'remember': '1',
        'role': 'user'
    })
    
    print("üì§ Datos del formulario a enviar:")
    for key, value in form_data.items():
        print(f"   {key}: {value}")
    
    # Simular POST request
    session = requests.Session()
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
        'Content-Type': 'application/x-www-form-urlencoded',
        'Referer': 'https://httpbin.org/forms/post'
    }
    
    try:
        response = session.post('https://httpbin.org/post', data=form_data, headers=headers)
        
        if response.status_code == 200:
            print(f"\n‚úÖ Formulario enviado exitosamente: {response.status_code}")
            
            data = response.json()
            print(f"üì® Datos recibidos por el servidor: {data['form']}")
            print(f"üìã Headers enviados: {len(data['headers'])}")
        else:
            print(f"‚ùå Error al enviar formulario: {response.status_code}")
            
    except requests.RequestException as e:
        print(f"‚ùå Error de conexi√≥n: {e}")
    
    # 3. Manejo de diferentes tipos de encoding
    print("\n3Ô∏è‚É£ Diferentes Tipos de Encoding")
    print("-" * 40)
    
    # application/x-www-form-urlencoded (por defecto)
    print("\nüìù Form URL Encoded:")
    response = session.post('https://httpbin.org/post', data=form_data)
    data = response.json()
    print(f"   Content-Type enviado: {data['headers'].get('Content-Type')}")
    print(f"   Datos: {data['form']}")
    
    # multipart/form-data (para archivos)
    print("\nüìÅ Multipart Form Data:")
    files_data = {
        'username': 'usuario_archivo',
        'file': ('test.txt', 'Contenido del archivo de prueba', 'text/plain')
    }
    
    response = session.post('https://httpbin.org/post', files=files_data)
    data = response.json()
    print(f"   Content-Type enviado: {data['headers'].get('Content-Type')[:50]}...")
    print(f"   Archivos: {data['files']}")
    print(f"   Form data: {data['form']}")
    
    # application/json
    print("\nüìä JSON Data:")
    json_data = {'username': 'usuario_json', 'preferences': {'theme': 'dark', 'lang': 'es'}}
    response = session.post('https://httpbin.org/post', json=json_data)
    data = response.json()
    print(f"   Content-Type enviado: {data['headers'].get('Content-Type')}")
    print(f"   JSON: {data['json']}")

# Ejecutar demostraci√≥n
manejar_formularios()

## 5. Beautiful Soup Avanzado: T√©cnicas Profesionales üç≤

Beautiful Soup tiene caracter√≠sticas avanzadas que pueden hacer tu scraping mucho m√°s eficiente y robusto.

In [None]:
import re
from bs4 import BeautifulSoup, NavigableString, Tag
from bs4.builder import XMLParsedAsHTMLWarning
import warnings

# Suprimir warnings de Beautiful Soup para output m√°s limpio
warnings.filterwarnings("ignore", category=XMLParsedAsHTMLWarning)

def beautiful_soup_avanzado():
    """T√©cnicas avanzadas de Beautiful Soup"""
    print("üç≤ BEAUTIFUL SOUP: T√âCNICAS AVANZADAS\n")
    print("‚ïê" * 70)
    
    # HTML complejo para demostraci√≥n
    html_complejo = """
    <!DOCTYPE html>
    <html lang="es">
    <head>
        <meta charset="UTF-8">
        <title>P√°gina Compleja de Ejemplo</title>
        <script type="application/ld+json">
        {
            "@context": "http://schema.org",
            "@type": "Article",
            "headline": "Noticia Principal",
            "author": "Juan P√©rez",
            "datePublished": "2024-01-15"
        }
        </script>
    </head>
    <body>
        <div class="container main-content" data-section="primary">
            <article id="article-123" class="post featured" data-id="123" data-category="tech">
                <header>
                    <h1>T√≠tulo Principal con <em>√©nfasis</em> y <strong>importancia</strong></h1>
                    <time datetime="2024-01-15T10:30:00Z">15 de Enero, 2024</time>
                    <div class="tags">
                        <span class="tag tech">Tecnolog√≠a</span>
                        <span class="tag ai">Inteligencia Artificial</span>
                        <span class="tag python">Python</span>
                    </div>
                </header>
                
                <div class="content">
                    <p class="intro">Este es el p√°rrafo introductorio con <a href="#link1">enlace interno</a>.</p>
                    <p>P√°rrafo normal con texto y <code>c√≥digo inline</code>.</p>
                    
                    <!-- Lista con diferentes tipos -->
                    <ul class="lista-items">
                        <li data-priority="high">Item importante</li>
                        <li data-priority="medium">Item normal</li>
                        <li data-priority="low">Item de baja prioridad</li>
                    </ul>
                    
                    <!-- Tabla de datos -->
                    <table class="data-table">
                        <thead>
                            <tr>
                                <th>Producto</th>
                                <th>Precio</th>
                                <th data-sortable="true">Rating</th>
                            </tr>
                        </thead>
                        <tbody>
                            <tr data-product-id="1">
                                <td>Producto A</td>
                                <td class="price">$99.99</td>
                                <td class="rating">4.5</td>
                            </tr>
                            <tr data-product-id="2">
                                <td>Producto B</td>
                                <td class="price">$149.99</td>
                                <td class="rating">4.8</td>
                            </tr>
                        </tbody>
                    </table>
                </div>
                
                <footer class="article-footer">
                    <div class="author">Por: <span class="author-name">Mar√≠a Gonz√°lez</span></div>
                    <div class="social-sharing">
                        <a href="#" class="social-link" data-platform="twitter">Twitter</a>
                        <a href="#" class="social-link" data-platform="facebook">Facebook</a>
                    </div>
                </footer>
            </article>
            
            <!-- Comentarios -->
            <section id="comments" class="comments-section">
                <h2>Comentarios (3)</h2>
                <div class="comment" data-comment-id="1">
                    <strong>Usuario1</strong>: Excelente art√≠culo!
                    <time>hace 2 horas</time>
                </div>
                <div class="comment" data-comment-id="2">
                    <strong>Usuario2</strong>: Muy informativo, gracias.
                    <time>hace 1 hora</time>
                </div>
            </section>
        </div>
        
        <!-- Sidebar -->
        <aside class="sidebar">
            <div class="widget recent-posts">
                <h3>Posts Recientes</h3>
                <ul>
                    <li><a href="/post/1">Post 1</a></li>
                    <li><a href="/post/2">Post 2</a></li>
                </ul>
            </div>
        </aside>
    </body>
    </html>
    """
    
    # Crear soup
    soup = BeautifulSoup(html_complejo, 'html.parser')
    
    # 1. B√∫squedas con funciones personalizadas
    print("1Ô∏è‚É£ B√∫squedas con Funciones Personalizadas")
    print("-" * 50)
    
    def tiene_precio_alto(tag):
        """Funci√≥n personalizada para encontrar precios altos"""
        if tag.name != 'td' or not tag.has_attr('class'):
            return False
        if 'price' not in tag.get('class'):
            return False
        try:
            precio = float(tag.text.replace('$', ''))
            return precio > 100
        except ValueError:
            return False
    
    precios_altos = soup.find_all(tiene_precio_alto)
    print(f"üí∞ Precios altos encontrados: {len(precios_altos)}")
    for precio in precios_altos:
        producto = precio.parent.find('td').text
        print(f"   üì¶ {producto}: {precio.text}")
    
    # 2. Navegaci√≥n compleja del √°rbol
    print("\n2Ô∏è‚É£ Navegaci√≥n Compleja del √Årbol")
    print("-" * 50)
    
    # Encontrar elemento y navegar por sus relaciones
    article = soup.find('article', id='article-123')
    
    print(f"üìù Art√≠culo encontrado: ID {article.get('id')}")
    print(f"   üë®‚Äçüëß‚Äçüë¶ Padre: {article.parent.name} (clase: {article.parent.get('class')})")
    print(f"   üë∂ Hijos directos: {len([child for child in article.children if isinstance(child, Tag)])}")
    
    # Hermanos
    siguiente_hermano = article.find_next_sibling()
    if siguiente_hermano:
        print(f"   üë´ Siguiente hermano: {siguiente_hermano.name} (ID: {siguiente_hermano.get('id')})")
    
    # Ancestros espec√≠ficos
    container = article.find_parent('div', class_='container')
    print(f"   üë¥ Container padre: {container.get('class')} (data-section: {container.get('data-section')})")
    
    # 3. Extracci√≥n de texto avanzada
    print("\n3Ô∏è‚É£ Extracci√≥n de Texto Avanzada")
    print("-" * 50)
    
    titulo = soup.find('h1')
    
    # Diferentes formas de obtener texto
    print(f"üìù Texto completo: {titulo.get_text()}")
    print(f"üìù Texto con separador: {titulo.get_text(separator=' | ', strip=True)}")
    print(f"üìù Solo strings navegables: {[s.strip() for s in titulo.strings if s.strip()]}")
    
    # Texto de elementos espec√≠ficos
    enfasis = titulo.find('em')
    importante = titulo.find('strong')
    print(f"üìù Texto con √©nfasis: {enfasis.text if enfasis else 'No encontrado'}")
    print(f"üìù Texto importante: {importante.text if importante else 'No encontrado'}")
    
    # 4. Expresiones regulares avanzadas
    print("\n4Ô∏è‚É£ B√∫squedas con Expresiones Regulares")
    print("-" * 50)
    
    # Buscar por texto que contenga patrones
    comentarios_recientes = soup.find_all(string=re.compile(r'hace \d+ hora'))
    print(f"üïê Comentarios recientes: {len(comentarios_recientes)}")
    for comentario in comentarios_recientes:
        print(f"   üí¨ {comentario.strip()}")
    
    # Buscar atributos con patrones
    elementos_data = soup.find_all(attrs={'data-comment-id': re.compile(r'\d+')})
    print(f"\nüè∑Ô∏è Elementos con data-comment-id num√©rico: {len(elementos_data)}")
    for elem in elementos_data:
        id_comentario = elem.get('data-comment-id')
        usuario = elem.find('strong').text if elem.find('strong') else 'Usuario desconocido'
        print(f"   #{id_comentario}: {usuario}")
    
    # Buscar clases con patrones
    tags = soup.find_all('span', class_=re.compile(r'tag \w+'))
    print(f"\nüè∑Ô∏è Tags encontrados: {len(tags)}")
    for tag in tags:
        clases = ' '.join(tag.get('class'))
        print(f"   üè∑Ô∏è {tag.text}: {clases}")
    
    # 5. Modificaci√≥n del DOM
    print("\n5Ô∏è‚É£ Modificaci√≥n del DOM")
    print("-" * 50)
    
    # Crear copia para modificar
    soup_copia = BeautifulSoup(str(soup), 'html.parser')
    
    # A√±adir elemento
    nuevo_comentario = soup_copia.new_tag('div', **{'class': 'comment', 'data-comment-id': '3'})
    nuevo_comentario.string = 'Comentario a√±adido por scraper'
    
    seccion_comentarios = soup_copia.find('section', id='comments')
    seccion_comentarios.append(nuevo_comentario)
    
    print(f"‚ûï Comentario a√±adido. Total comentarios: {len(soup_copia.find_all('div', class_='comment'))}")
    
    # Modificar atributo
    article_copia = soup_copia.find('article')
    article_copia['data-processed'] = 'true'
    article_copia['data-scraped-at'] = '2024-01-15'
    
    print(f"üîÑ Atributos modificados: {article_copia.get('data-processed')} | {article_copia.get('data-scraped-at')}")
    
    # Eliminar elementos
    scripts = soup_copia.find_all('script')
    print(f"üóëÔ∏è Scripts encontrados para eliminar: {len(scripts)}")
    for script in scripts:
        script.decompose()
    
    scripts_despues = soup_copia.find_all('script')
    print(f"‚úÖ Scripts despu√©s de eliminar: {len(scripts_despues)}")
    
    # 6. Extracci√≥n de JSON-LD (datos estructurados)
    print("\n6Ô∏è‚É£ Extracci√≥n de Datos Estructurados JSON-LD")
    print("-" * 50)
    
    import json
    
    # Buscar scripts con datos estructurados
    json_scripts = soup.find_all('script', type='application/ld+json')
    print(f"üìä Scripts JSON-LD encontrados: {len(json_scripts)}")
    
    for i, script in enumerate(json_scripts, 1):
        try:
            data = json.loads(script.string)
            print(f"\n   üìÑ JSON-LD #{i}:")
            print(f"      Tipo: {data.get('@type')}")
            print(f"      T√≠tulo: {data.get('headline')}")
            print(f"      Autor: {data.get('author')}")
            print(f"      Fecha: {data.get('datePublished')}")
        except json.JSONDecodeError as e:
            print(f"   ‚ùå Error parsing JSON-LD: {e}")

# Ejecutar demostraci√≥n
beautiful_soup_avanzado()

## 6. Manejo de Encodings y Contenido Internacional üåç

Los problemas de encoding son comunes en web scraping, especialmente con contenido en diferentes idiomas.

In [None]:
import chardet
from bs4 import BeautifulSoup

def manejar_encodings():
    """Manejo avanzado de encodings y contenido internacional"""
    print("üåç MANEJO DE ENCODINGS Y CONTENIDO INTERNACIONAL\n")
    print("‚ïê" * 70)
    
    # 1. Detecci√≥n autom√°tica de encoding
    print("1Ô∏è‚É£ Detecci√≥n Autom√°tica de Encoding")
    print("-" * 50)
    
    # Simular contenido con diferentes encodings
    textos_ejemplo = {
        'utf-8': 'Hola mundo! Caf√©, ni√±o, coraz√≥n üíñ',
        'latin-1': 'Hola mundo! Caf\xe9, ni\xf1o, coraz\xf3n',
        'cp1252': 'Hola mundo! Smart quotes: \u201cHello\u201d',
        'ascii': 'Hello world! Basic ASCII text only'
    }
    
    for encoding, texto in textos_ejemplo.items():
        try:
            # Simular bytes con encoding espec√≠fico
            if encoding == 'latin-1':
                # Contenido que parece latin-1
                texto_limpio = 'Hola mundo! Caf√©, ni√±o, coraz√≥n'
                bytes_contenido = texto_limpio.encode('latin-1')
            elif encoding == 'cp1252':
                texto_limpio = 'Hola mundo! Smart quotes: "Hello"'
                bytes_contenido = texto_limpio.encode('cp1252')
            else:
                bytes_contenido = texto.encode(encoding)
            
            # Detectar encoding
            detected = chardet.detect(bytes_contenido)
            
            print(f"\nüìù Encoding {encoding}:")
            print(f"   Detectado: {detected['encoding']} (confianza: {detected['confidence']:.2f})")
            print(f"   Texto original: {texto}")
            
            # Decodificar correctamente
            if detected['encoding']:
                texto_decodificado = bytes_contenido.decode(detected['encoding'])
                print(f"   Decodificado: {texto_decodificado}")
            
        except UnicodeError as e:
            print(f"   ‚ùå Error de Unicode: {e}")
    
    # 2. Funci√≥n robusta para detecci√≥n de encoding
    print("\n\n2Ô∏è‚É£ Funci√≥n Robusta de Detecci√≥n")
    print("-" * 50)
    
    def detectar_encoding_robusto(response):
        """Detecta encoding de forma robusta"""
        
        # 1. Intentar con el encoding del header
        content_type = response.headers.get('content-type', '')
        if 'charset=' in content_type:
            charset = content_type.split('charset=')[-1].split(';')[0].strip()
            print(f"   üìã Encoding del header: {charset}")
            try:
                test_decode = response.content[:100].decode(charset)
                return charset, 'header'
            except UnicodeDecodeError:
                print(f"   ‚ö†Ô∏è Header encoding {charset} fall√≥")
        
        # 2. Buscar en meta tags
        try:
            # Parsear solo el head con encoding aproximado
            head_content = response.content[:2000]  # Primeros 2KB
            soup_temp = BeautifulSoup(head_content, 'html.parser')
            
            # Buscar meta charset
            meta_charset = soup_temp.find('meta', charset=True)
            if meta_charset:
                charset = meta_charset.get('charset')
                print(f"   üìã Meta charset: {charset}")
                try:
                    test_decode = response.content[:100].decode(charset)
                    return charset, 'meta_charset'
                except UnicodeDecodeError:
                    pass
            
            # Buscar meta http-equiv
            meta_equiv = soup_temp.find('meta', attrs={'http-equiv': 'Content-Type'})
            if meta_equiv and meta_equiv.get('content'):
                content = meta_equiv.get('content')
                if 'charset=' in content:
                    charset = content.split('charset=')[-1].strip()
                    print(f"   üìã Meta http-equiv: {charset}")
                    try:
                        test_decode = response.content[:100].decode(charset)
                        return charset, 'meta_equiv'
                    except UnicodeDecodeError:
                        pass
                        
        except Exception as e:
            print(f"   ‚ö†Ô∏è Error parseando meta tags: {e}")
        
        # 3. Usar chardet como √∫ltimo recurso
        detected = chardet.detect(response.content[:10000])  # Primeros 10KB
        if detected['encoding'] and detected['confidence'] > 0.7:
            print(f"   üîç Chardet detect√≥: {detected['encoding']} (confianza: {detected['confidence']:.2f})")
            return detected['encoding'], 'chardet'
        
        # 4. UTF-8 como fallback
        print(f"   üîÑ Usando UTF-8 como fallback")
        return 'utf-8', 'fallback'
    
    # Probar con diferentes sitios
    sitios_prueba = [
        'https://httpbin.org/html',
        'https://httpbin.org/encoding/utf8'
    ]
    
    session = requests.Session()
    
    for url in sitios_prueba:
        try:
            print(f"\nüåê Probando: {url}")
            response = session.get(url, timeout=5)
            
            encoding, metodo = detectar_encoding_robusto(response)
            print(f"   ‚úÖ Encoding final: {encoding} (m√©todo: {metodo})")
            
            # Decodificar contenido
            try:
                if encoding != response.encoding:
                    response.encoding = encoding
                
                contenido = response.text[:100]
                print(f"   üìù Contenido (primeros 100 chars): {contenido[:50]}...")
                
            except UnicodeDecodeError as e:
                print(f"   ‚ùå Error decodificando: {e}")
                
        except requests.RequestException as e:
            print(f"   ‚ùå Error de conexi√≥n: {e}")
    
    # 3. Manejo de caracteres especiales
    print("\n\n3Ô∏è‚É£ Manejo de Caracteres Especiales")
    print("-" * 50)
    
    # HTML con caracteres especiales
    html_internacional = """
    <!DOCTYPE html>
    <html>
    <head><meta charset="UTF-8"></head>
    <body>
        <h1>Texto Internacional</h1>
        <p>Espa√±ol: ni√±o, coraz√≥n, √±o√±o</p>
        <p>Franc√©s: caf√©, r√©sum√©, na√Øve</p>
        <p>Alem√°n: M√ºller, Gr√∂√üe, wei√ü</p>
        <p>Japon√©s: „Åì„Çì„Å´„Å°„ÅØ (Konnichiwa)</p>
        <p>Emojis: üåü üíñ üöÄ üçï</p>
        <p>S√≠mbolos: ¬© ¬Æ ‚Ñ¢ ‚Ç¨ ¬£ ¬•</p>
        <p>Entidades HTML: &lt;tag&gt; &amp; &quot;quote&quot;</p>
    </body>
    </html>
    """
    
    soup = BeautifulSoup(html_internacional, 'html.parser')
    
    print("üåç Extracci√≥n de texto internacional:")
    parrafos = soup.find_all('p')
    
    for i, p in enumerate(parrafos, 1):
        texto = p.get_text()
        print(f"   {i}. {texto}")
        
        # Mostrar informaci√≥n de encoding
        try:
            bytes_utf8 = texto.encode('utf-8')
            print(f"      UTF-8 bytes: {len(bytes_utf8)} bytes")
        except UnicodeEncodeError as e:
            print(f"      ‚ùå Error encoding UTF-8: {e}")
    
    # 4. Limpieza de texto
    print("\n\n4Ô∏è‚É£ Limpieza de Texto Avanzada")
    print("-" * 50)
    
    import unicodedata
    
    def limpiar_texto_avanzado(texto):
        """Limpia texto de forma avanzada"""
        
        # 1. Normalizar Unicode
        texto = unicodedata.normalize('NFKD', texto)
        
        # 2. Limpiar espacios en blanco
        texto = ' '.join(texto.split())
        
        # 3. Remover caracteres de control
        texto = ''.join(char for char in texto if unicodedata.category(char)[0] != 'C' or char in '\n\t\r')
        
        return texto.strip()
    
    # Texto problem√°tico para limpiar
    texto_sucio = "\n\n  Texto    con    espacios\t\t\textra   \n  y caracteres\x00 de control\x01  \n\n"
    
    print(f"üìù Texto original: {repr(texto_sucio)}")
    texto_limpio = limpiar_texto_avanzado(texto_sucio)
    print(f"‚ú® Texto limpio: {repr(texto_limpio)}")

# Instalar chardet si no est√° disponible
try:
    import chardet
    manejar_encodings()
except ImportError:
    print("üì¶ Instalando chardet...")
    import subprocess
    import sys
    subprocess.check_call([sys.executable, '-m', 'pip', 'install', 'chardet'])
    import chardet
    manejar_encodings()

## 7. Paginaci√≥n y Crawling Avanzado üìÑ

Muchos sitios web dividen el contenido en p√°ginas. Aprender a manejar paginaci√≥n es crucial para extraer datasets completos.

In [None]:
import time
import random
from urllib.parse import urljoin, urlparse, parse_qs

def manejar_paginacion():
    """T√©cnicas avanzadas para manejar paginaci√≥n"""
    print("üìÑ MANEJO AVANZADO DE PAGINACI√ìN\n")
    print("‚ïê" * 70)
    
    # 1. Paginaci√≥n b√°sica con quotes.toscrape.com
    print("1Ô∏è‚É£ Paginaci√≥n B√°sica")
    print("-" * 40)
    
    def scrape_quotes_paginado():
        """Scraper con paginaci√≥n autom√°tica"""
        base_url = "http://quotes.toscrape.com"
        session = requests.Session()
        session.headers.update({
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
        })
        
        todas_citas = []
        pagina = 1
        max_paginas = 3  # Limitar para demostraci√≥n
        
        while pagina <= max_paginas:
            url = f"{base_url}/page/{pagina}/"
            print(f"\nüìñ Procesando p√°gina {pagina}: {url}")
            
            try:
                response = session.get(url, timeout=10)
                response.raise_for_status()
                
                soup = BeautifulSoup(response.content, 'html.parser')
                
                # Extraer citas de esta p√°gina
                quotes = soup.find_all('div', class_='quote')
                
                if not quotes:
                    print(f"   ‚ùå No se encontraron citas en p√°gina {pagina}. Terminando.")
                    break
                
                print(f"   ‚úÖ Encontradas {len(quotes)} citas")
                
                for quote in quotes:
                    texto = quote.find('span', class_='text').text
                    autor = quote.find('small', class_='author').text
                    tags = [tag.text for tag in quote.find_all('a', class_='tag')]
                    
                    todas_citas.append({
                        'pagina': pagina,
                        'texto': texto,
                        'autor': autor,
                        'tags': tags
                    })
                
                # Buscar enlace a siguiente p√°gina
                next_btn = soup.find('li', class_='next')
                if not next_btn:
                    print(f"   üèÅ No hay m√°s p√°ginas despu√©s de la p√°gina {pagina}")
                    break
                
                # Delay entre requests
                delay = random.uniform(1, 2)
                print(f"   ‚è≥ Esperando {delay:.2f} segundos...")
                time.sleep(delay)
                
                pagina += 1
                
            except requests.RequestException as e:
                print(f"   ‚ùå Error en p√°gina {pagina}: {e}")
                break
        
        return todas_citas
    
    # Ejecutar scraping paginado
    citas_paginadas = scrape_quotes_paginado()
    
    print(f"\nüìä Resumen de paginaci√≥n:")
    print(f"   üìö Total de citas recopiladas: {len(citas_paginadas)}")
    
    # Agrupar por p√°gina
    from collections import Counter
    citas_por_pagina = Counter(cita['pagina'] for cita in citas_paginadas)
    for pagina, cantidad in sorted(citas_por_pagina.items()):
        print(f"   üìÑ P√°gina {pagina}: {cantidad} citas")
    
    # Autores m√°s frecuentes
    autores_frecuentes = Counter(cita['autor'] for cita in citas_paginadas)
    print(f"\nüë• Autores m√°s frecuentes:")
    for autor, cantidad in autores_frecuentes.most_common(3):
        print(f"   ‚úçÔ∏è {autor}: {cantidad} citas")
    
    # 2. Detecci√≥n autom√°tica de paginaci√≥n
    print("\n\n2Ô∏è‚É£ Detecci√≥n Autom√°tica de Paginaci√≥n")
    print("-" * 50)
    
    def detectar_paginacion(soup, current_url):
        """Detecta patrones de paginaci√≥n autom√°ticamente"""
        
        patrones_paginacion = []
        
        # 1. Buscar enlaces "Next" t√≠picos
        next_patterns = [
            ('a', {'class': re.compile(r'next', re.I)}),
            ('a', {'id': re.compile(r'next', re.I)}),
            ('a', {'text': re.compile(r'next|siguiente|‚Üí|¬ª', re.I)}),
            ('li', {'class': re.compile(r'next', re.I)})
        ]
        
        for tag, attrs in next_patterns:
            if 'text' in attrs:
                elementos = soup.find_all(tag, string=attrs['text'])
            else:
                elementos = soup.find_all(tag, attrs)
            
            for elem in elementos:
                # Si es li, buscar enlace dentro
                if tag == 'li':
                    link = elem.find('a')
                    if link and link.get('href'):
                        href = link.get('href')
                        full_url = urljoin(current_url, href)
                        patrones_paginacion.append({
                            'tipo': 'next_link_li',
                            'elemento': str(elem)[:100] + '...',
                            'url': full_url
                        })
                else:
                    href = elem.get('href')
                    if href:
                        full_url = urljoin(current_url, href)
                        patrones_paginacion.append({
                            'tipo': 'next_link_direct',
                            'elemento': str(elem)[:100] + '...',
                            'url': full_url
                        })
        
        # 2. Buscar enlaces numerados (1, 2, 3, ...)
        links_numericos = soup.find_all('a', href=True)
        for link in links_numericos:
            href = link.get('href')
            texto = link.get_text(strip=True)
            
            if texto.isdigit() and int(texto) > 1:
                full_url = urljoin(current_url, href)
                patrones_paginacion.append({
                    'tipo': 'numbered_page',
                    'elemento': str(link),
                    'url': full_url,
                    'numero_pagina': int(texto)
                })
        
        # 3. Buscar patrones en URLs
        parsed_url = urlparse(current_url)
        path_parts = parsed_url.path.strip('/').split('/')
        query_params = parse_qs(parsed_url.query)
        
        url_info = {
            'base_url': f"{parsed_url.scheme}://{parsed_url.netloc}",
            'path_parts': path_parts,
            'query_params': query_params
        }
        
        return patrones_paginacion, url_info
    
    # Probar detecci√≥n con quotes.toscrape.com
    try:
        session = requests.Session()
        response = session.get('http://quotes.toscrape.com/page/1/', timeout=5)
        soup = BeautifulSoup(response.content, 'html.parser')
        
        patrones, url_info = detectar_paginacion(soup, response.url)
        
        print(f"üîç Patrones de paginaci√≥n detectados: {len(patrones)}")
        for i, patron in enumerate(patrones[:5], 1):  # Mostrar primeros 5
            print(f"\n   {i}. Tipo: {patron['tipo']}")
            if 'numero_pagina' in patron:
                print(f"      P√°gina: {patron['numero_pagina']}")
            print(f"      URL: {patron['url']}")
            print(f"      Elemento: {patron['elemento'][:80]}...")
        
        print(f"\nüîó Informaci√≥n de URL:")
        print(f"   Base URL: {url_info['base_url']}")
        print(f"   Path parts: {url_info['path_parts']}")
        print(f"   Query params: {url_info['query_params']}")
        
    except requests.RequestException as e:
        print(f"‚ùå Error probando detecci√≥n: {e}")
    
    # 3. Estrategias de paginaci√≥n
    print("\n\n3Ô∏è‚É£ Estrategias de Paginaci√≥n")
    print("-" * 50)
    
    estrategias = {
        'üîó Siguiente/Anterior': {
            'descripcion': 'Enlaces "Next" y "Previous"',
            'ventajas': 'Simple, respeta la estructura del sitio',
            'desventajas': 'Lento, secuencial',
            'ejemplo': '/page/next/ o ?page=2'
        },
        'üî¢ P√°ginas Numeradas': {
            'descripcion': 'Enlaces directos a p√°ginas espec√≠ficas',
            'ventajas': 'Permite paralelizaci√≥n, acceso aleatorio',
            'desventajas': 'Puede requerir conocer el total de p√°ginas',
            'ejemplo': '/page/1/, /page/2/, /page/3/'
        },
        'üìä Offset/Limit': {
            'descripcion': 'Par√°metros de desplazamiento',
            'ventajas': 'Flexible, com√∫n en APIs',
            'desventajas': 'Puede tener problemas con datos cambiantes',
            'ejemplo': '?offset=20&limit=10'
        },
        'üîÑ Scroll Infinito': {
            'descripcion': 'Cargar m√°s contenido v√≠a AJAX',
            'ventajas': 'UX moderno, eficiente',
            'desventajas': 'Requiere JavaScript/Selenium',
            'ejemplo': 'Requests AJAX con cursores o timestamps'
        }
    }
    
    for estrategia, info in estrategias.items():
        print(f"\n{estrategia}")
        print(f"   üìã {info['descripcion']}")
        print(f"   ‚úÖ Ventajas: {info['ventajas']}")
        print(f"   ‚ùå Desventajas: {info['desventajas']}")
        print(f"   üí° Ejemplo: {info['ejemplo']}")

# Ejecutar demostraci√≥n
manejar_paginacion()

## 8. Ejercicio Pr√°ctico Avanzado: Scraper de E-commerce üõí

¬°Hora de aplicar todo lo aprendido! Vamos a crear un scraper completo para un sitio de e-commerce con m√∫ltiples p√°ginas.

In [None]:
# EJERCICIO AVANZADO: Scraper de E-commerce con Paginaci√≥n
# Objetivo: Crear un scraper completo que maneje sesiones, paginaci√≥n y datos complejos

import json
import csv
from datetime import datetime
from dataclasses import dataclass, asdict
from typing import List, Optional
import os

@dataclass
class Producto:
    """Clase para representar un producto"""
    id: str
    titulo: str
    precio: float
    precio_original: Optional[float]
    disponible: bool
    rating: float
    num_reviews: int
    imagen_url: str
    producto_url: str
    categoria: str
    fecha_scraping: str

class EcommerceScraper:
    """Scraper avanzado para sitios de e-commerce"""
    
    def __init__(self, base_url: str, max_paginas: int = 5):
        self.base_url = base_url
        self.max_paginas = max_paginas
        self.productos = []
        
        # Configurar sesi√≥n
        self.session = requests.Session()
        self.session.headers.update({
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
            'Accept-Language': 'es-ES,es;q=0.8,en-US;q=0.5,en;q=0.3',
            'Accept-Encoding': 'gzip, deflate',
            'Connection': 'keep-alive',
            'Upgrade-Insecure-Requests': '1',
        })
        
        # Estad√≠sticas
        self.stats = {
            'paginas_procesadas': 0,
            'productos_encontrados': 0,
            'errores': 0,
            'tiempo_inicio': None,
            'tiempo_total': 0
        }
    
    def extraer_producto(self, elemento_producto) -> Optional[Producto]:
        """Extrae informaci√≥n de un elemento producto"""
        try:
            # Extraer t√≠tulo
            titulo_elem = elemento_producto.find(['h2', 'h3', 'h4'], class_=re.compile(r'title|name|product-name', re.I))
            if not titulo_elem:
                titulo_elem = elemento_producto.find(['h2', 'h3', 'h4'])
            titulo = titulo_elem.get_text(strip=True) if titulo_elem else 'T√≠tulo no encontrado'
            
            # Extraer precio
            precio_elem = elemento_producto.find(class_=re.compile(r'price|cost|amount', re.I))
            if precio_elem:
                precio_texto = precio_elem.get_text(strip=True)
                # Extraer n√∫mero del precio
                precio_match = re.search(r'([\d,.]+)', precio_texto.replace('¬£', '').replace('$', ''))
                precio = float(precio_match.group(1).replace(',', '')) if precio_match else 0.0
            else:
                precio = 0.0
            
            # Extraer rating (si existe)
            rating_elem = elemento_producto.find(class_=re.compile(r'rating|star', re.I))
            rating = 0.0
            if rating_elem:
                # Buscar texto con rating
                rating_texto = rating_elem.get_text()
                rating_match = re.search(r'([\d.]+)', rating_texto)
                if rating_match:
                    rating = float(rating_match.group(1))
                # O buscar en clases CSS (ej: star-rating-4)
                else:
                    for clase in rating_elem.get('class', []):
                        rating_match = re.search(r'(\d)', clase)
                        if rating_match:
                            rating = float(rating_match.group(1))
                            break
            
            # Extraer imagen
            img_elem = elemento_producto.find('img')
            imagen_url = ''
            if img_elem:
                imagen_url = img_elem.get('src') or img_elem.get('data-src', '')
                if imagen_url and not imagen_url.startswith('http'):
                    imagen_url = urljoin(self.base_url, imagen_url)
            
            # Extraer enlace al producto
            link_elem = elemento_producto.find('a', href=True)
            producto_url = ''
            if link_elem:
                producto_url = link_elem.get('href')
                if producto_url and not producto_url.startswith('http'):
                    producto_url = urljoin(self.base_url, producto_url)
            
            # Generar ID √∫nico
            producto_id = str(hash(titulo + str(precio)))[-8:]
            
            return Producto(
                id=producto_id,
                titulo=titulo[:200],  # Limitar longitud
                precio=precio,
                precio_original=None,  # Podr√≠a implementarse
                disponible=True,  # Asumir disponible si aparece en lista
                rating=rating,
                num_reviews=0,  # Podr√≠a implementarse
                imagen_url=imagen_url,
                producto_url=producto_url,
                categoria='general',  # Podr√≠a extraerse de breadcrumbs
                fecha_scraping=datetime.now().strftime('%Y-%m-%d %H:%M:%S')
            )
            
        except Exception as e:
            print(f"   ‚ùå Error extrayendo producto: {e}")
            return None
    
    def scrape_pagina(self, url: str) -> List[Producto]:
        """Scrape una p√°gina espec√≠fica"""
        productos_pagina = []
        
        try:
            print(f"\nüîç Scraping: {url}")
            
            response = self.session.get(url, timeout=10)
            response.raise_for_status()
            
            soup = BeautifulSoup(response.content, 'html.parser')
            
            # Buscar contenedores de productos con diferentes patrones
            selectores_producto = [
                'article.product',
                '.product-item',
                '.product-card',
                '.book',  # Para books.toscrape.com
                '.product',
                '[data-product-id]'
            ]
            
            elementos_productos = []
            for selector in selectores_producto:
                elementos = soup.select(selector)
                if elementos:
                    elementos_productos = elementos
                    print(f"   ‚úÖ Usando selector: {selector} ({len(elementos)} productos)")
                    break
            
            if not elementos_productos:
                print(f"   ‚ö†Ô∏è No se encontraron productos con los selectores conocidos")
                return productos_pagina
            
            # Extraer cada producto
            for i, elemento in enumerate(elementos_productos, 1):
                producto = self.extraer_producto(elemento)
                if producto:
                    productos_pagina.append(producto)
                    print(f"   üì¶ Producto {i}: {producto.titulo[:50]}... - ${producto.precio}")
            
            print(f"   ‚úÖ Extra√≠dos {len(productos_pagina)} productos de esta p√°gina")
            
        except requests.RequestException as e:
            print(f"   ‚ùå Error de red: {e}")
            self.stats['errores'] += 1
        except Exception as e:
            print(f"   ‚ùå Error inesperado: {e}")
            self.stats['errores'] += 1
        
        return productos_pagina
    
    def encontrar_siguiente_pagina(self, soup, current_url: str) -> Optional[str]:
        """Encuentra la URL de la siguiente p√°gina"""
        
        # Patrones comunes para "siguiente p√°gina"
        patrones_next = [
            ('a', {'class': re.compile(r'next', re.I)}),
            ('li', {'class': 'next'}),
            ('a', {'title': re.compile(r'next', re.I)}),
            ('a', {'rel': 'next'})
        ]
        
        for tag, attrs in patrones_next:
            elemento = soup.find(tag, attrs)
            if elemento:
                if tag == 'li':
                    link = elemento.find('a')
                    if link and link.get('href'):
                        return urljoin(current_url, link.get('href'))
                else:
                    href = elemento.get('href')
                    if href:
                        return urljoin(current_url, href)
        
        return None
    
    def scrape_completo(self) -> List[Producto]:
        """Ejecuta el scraping completo con paginaci√≥n"""
        print("üõí INICIANDO SCRAPING DE E-COMMERCE\n")
        print("‚ïê" * 70)
        
        self.stats['tiempo_inicio'] = time.time()
        
        url_actual = self.base_url
        pagina_num = 1
        
        while pagina_num <= self.max_paginas and url_actual:
            print(f"\nüìÑ P√ÅGINA {pagina_num} de {self.max_paginas}")
            print(f"üîó URL: {url_actual}")
            
            # Scrape p√°gina actual
            productos_pagina = self.scrape_pagina(url_actual)
            self.productos.extend(productos_pagina)
            
            self.stats['paginas_procesadas'] += 1
            self.stats['productos_encontrados'] += len(productos_pagina)
            
            # Buscar siguiente p√°gina
            if pagina_num < self.max_paginas:
                try:
                    response = self.session.get(url_actual, timeout=10)
                    soup = BeautifulSoup(response.content, 'html.parser')
                    url_siguiente = self.encontrar_siguiente_pagina(soup, url_actual)
                    
                    if url_siguiente and url_siguiente != url_actual:
                        print(f"   ‚û°Ô∏è Siguiente p√°gina encontrada: {url_siguiente}")
                        url_actual = url_siguiente
                    else:
                        print(f"   üèÅ No hay m√°s p√°ginas")
                        break
                        
                except Exception as e:
                    print(f"   ‚ùå Error buscando siguiente p√°gina: {e}")
                    break
            
            # Delay entre p√°ginas
            if pagina_num < self.max_paginas and url_actual:
                delay = random.uniform(1, 3)
                print(f"   ‚è≥ Delay de {delay:.2f} segundos...")
                time.sleep(delay)
            
            pagina_num += 1
        
        self.stats['tiempo_total'] = time.time() - self.stats['tiempo_inicio']
        
        return self.productos
    
    def mostrar_estadisticas(self):
        """Muestra estad√≠sticas del scraping"""
        print("\n" + "‚ïê" * 70)
        print("üìä ESTAD√çSTICAS FINALES")
        print("‚ïê" * 70)
        
        print(f"üìÑ P√°ginas procesadas: {self.stats['paginas_procesadas']}")
        print(f"üõçÔ∏è Productos encontrados: {self.stats['productos_encontrados']}")
        print(f"‚ùå Errores: {self.stats['errores']}")
        print(f"‚è±Ô∏è Tiempo total: {self.stats['tiempo_total']:.2f} segundos")
        
        if self.productos:
            precios = [p.precio for p in self.productos if p.precio > 0]
            if precios:
                print(f"üí∞ Precio promedio: ${sum(precios)/len(precios):.2f}")
                print(f"üí∞ Precio m√≠nimo: ${min(precios):.2f}")
                print(f"üí∞ Precio m√°ximo: ${max(precios):.2f}")
            
            # Top productos por precio
            productos_ordenados = sorted([p for p in self.productos if p.precio > 0], 
                                       key=lambda x: x.precio, reverse=True)
            
            print(f"\nüèÜ TOP 3 PRODUCTOS M√ÅS CAROS:")
            for i, producto in enumerate(productos_ordenados[:3], 1):
                print(f"   {i}. {producto.titulo[:50]}... - ${producto.precio}")
    
    def guardar_datos(self, formato='json'):
        """Guarda los datos en diferentes formatos"""
        if not self.productos:
            print("‚ùå No hay productos para guardar")
            return
        
        timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
        
        # Crear directorio de datos
        os.makedirs('../data', exist_ok=True)
        
        if formato == 'json':
            filename = f'../data/productos_{timestamp}.json'
            with open(filename, 'w', encoding='utf-8') as f:
                json.dump([asdict(p) for p in self.productos], f, 
                         ensure_ascii=False, indent=2)
            print(f"üíæ Datos guardados en JSON: {filename}")
        
        elif formato == 'csv':
            filename = f'../data/productos_{timestamp}.csv'
            with open(filename, 'w', newline='', encoding='utf-8') as f:
                if self.productos:
                    writer = csv.DictWriter(f, fieldnames=asdict(self.productos[0]).keys())
                    writer.writeheader()
                    for producto in self.productos:
                        writer.writerow(asdict(producto))
            print(f"üìä Datos guardados en CSV: {filename}")

# ¬°EJECUTAR EL SCRAPER COMPLETO!
print("üöÄ EJERCICIO AVANZADO: SCRAPER DE E-COMMERCE\n")
print("‚ïê" * 70)
print("Vamos a scrapear books.toscrape.com como ejemplo de e-commerce")
print("Este scraper incluye:")
print("  ‚úÖ Manejo de sesiones HTTP")
print("  ‚úÖ Paginaci√≥n autom√°tica")
print("  ‚úÖ Extracci√≥n de datos complejos")
print("  ‚úÖ Manejo de errores robusto")
print("  ‚úÖ Estad√≠sticas detalladas")
print("  ‚úÖ Exportaci√≥n de datos")

# Crear y ejecutar scraper
scraper = EcommerceScraper(
    base_url='http://books.toscrape.com/',
    max_paginas=3  # Limitar para demostraci√≥n
)

# Ejecutar scraping
productos = scraper.scrape_completo()

# Mostrar estad√≠sticas
scraper.mostrar_estadisticas()

# Guardar datos
scraper.guardar_datos('json')
scraper.guardar_datos('csv')

print("\nüéâ ¬°EJERCICIO COMPLETADO EXITOSAMENTE!")
print(f"üìä Se scrapearon {len(productos)} productos de {scraper.stats['paginas_procesadas']} p√°ginas")
print("üíæ Datos guardados en formato JSON y CSV")
print("\nüèÜ ¬°Has creado un scraper de e-commerce profesional!")

## 9. Resumen y Pr√≥ximos Pasos üéØ

### üéì Lo que has dominado en esta lecci√≥n:

#### ‚úÖ **HTTP Avanzado**
- üåê M√©todos HTTP y sus usos apropiados
- üïµÔ∏è Headers HTTP y su importancia
- üç™ Manejo avanzado de sesiones y cookies
- üì§ POST requests y env√≠o de formularios

#### ‚úÖ **Beautiful Soup Profesional**
- üîç T√©cnicas de b√∫squeda avanzadas
- üå≥ Navegaci√≥n compleja del DOM
- üìù Extracci√≥n de texto sofisticada
- üõ†Ô∏è Modificaci√≥n del DOM

#### ‚úÖ **Contenido Complejo**
- üåç Manejo de encodings internacionales
- üìÑ Paginaci√≥n y crawling avanzado
- üîó Detecci√≥n autom√°tica de patrones
- üìä Extracci√≥n de datos estructurados

#### ‚úÖ **Proyecto Profesional**
- üõí Scraper de e-commerce completo
- üìä Manejo de datos con dataclasses
- üíæ Exportaci√≥n en m√∫ltiples formatos
- üìà Estad√≠sticas y monitoreo

### üöÄ Pr√≥xima Lecci√≥n: XPath y Selecci√≥n Avanzada

En la **Lecci√≥n 3** exploraremos:

#### üõ§Ô∏è **XPath Completo**
- Sintaxis XPath desde b√°sico hasta experto
- Funciones XPath avanzadas
- Comparaci√≥n XPath vs CSS Selectors
- Casos de uso espec√≠ficos

#### üéØ **Selecci√≥n Avanzada**
- T√©cnicas de selecci√≥n precisas
- Manejo de contenido din√°mico
- Optimizaci√≥n de selectores
- Debugging y troubleshooting

### üí™ Ejercicios para Practicar

1. **Scraper de Noticias con Login**: Crear un scraper que maneje autenticaci√≥n
2. **Monitor de Precios**: Sistema que rastrea cambios de precios
3. **Agregador Multi-sitio**: Combinar datos de m√∫ltiples fuentes

### üìö Recursos Recomendados

- [HTTP Status Codes Reference](https://httpstatuses.com/)
- [Beautiful Soup Advanced Guide](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
- [Unicode in Python](https://docs.python.org/3/howto/unicode.html)
- [Regular Expressions Guide](https://docs.python.org/3/library/re.html)

---

### üèÜ ¬°Felicidades por Completar la Lecci√≥n 2!

Ahora dominas t√©cnicas avanzadas de HTTP y Beautiful Soup. Puedes crear scrapers robustos que manejan:
- ‚ú® Sitios complejos con autenticaci√≥n
- üîÑ M√∫ltiples p√°ginas autom√°ticamente  
- üåç Contenido internacional
- üìä Datos estructurados y complejos

**¬°Tu arsenal de scraping se est√° volviendo muy poderoso! üåü**