# üéØ Lecci√≥n 9: XPath y CSS Selectors Avanzado

## üéØ Objetivos de Aprendizaje

Al finalizar esta lecci√≥n, ser√°s capaz de:
- ‚úÖ Dominar el encadenamiento de selectores XPath
- ‚úÖ Convertir entre XPath y CSS Selectors
- ‚úÖ Utilizar selectores avanzados con Scrapy
- ‚úÖ Implementar t√©cnicas de selecci√≥n complejas

---

## 1. Encadenamiento de XPath üîó

El encadenamiento de XPath es una t√©cnica poderosa que permite aplicar selectores de manera secuencial, dividiendo consultas complejas en partes m√°s manejables.

In [None]:
# Instalaci√≥n de bibliotecas necesarias
import sys
import subprocess

def instalar_scrapy():
    """Instala Scrapy si no est√° disponible"""
    try:
        import scrapy
        print("‚úÖ Scrapy ya est√° instalado")
    except ImportError:
        print("üì¶ Instalando Scrapy...")
        subprocess.check_call([sys.executable, '-m', 'pip', 'install', 'scrapy', '--quiet'])
        print("‚úÖ Scrapy instalado correctamente")

instalar_scrapy()

from scrapy import Selector
print("üéâ ¬°Listo para trabajar con selectores avanzados!")

### 1.1 Principios del Encadenamiento

Cuando usas Scrapy's `Selector` y `SelectorList`, puedes encadenar m√©todos `xpath()` aplic√°ndolos secuencialmente. La clave es usar un punto (`.`) al inicio de cada XPath subsiguiente para indicar que es relativo al contexto actual.

In [None]:
# HTML de ejemplo para demostrar encadenamiento
html_ejemplo = """
<html>
  <body>
    <div class="container">
      <div class="articulo" id="art1">
        <h2>T√≠tulo del Art√≠culo 1</h2>
        <div class="contenido">
          <p class="intro">Introducci√≥n del primer art√≠culo.</p>
          <p>Contenido principal del art√≠culo.</p>
          <span class="autor">Juan P√©rez</span>
        </div>
      </div>
      <div class="articulo" id="art2">
        <h2>T√≠tulo del Art√≠culo 2</h2>
        <div class="contenido">
          <p class="intro">Introducci√≥n del segundo art√≠culo.</p>
          <p>Otro contenido interesante.</p>
          <span class="autor">Mar√≠a Garc√≠a</span>
        </div>
      </div>
    </div>
  </body>
</html>
"""

# Crear objeto Selector
sel = Selector(text=html_ejemplo)

print("üîç DEMOSTRACI√ìN DE ENCADENAMIENTO XPATH\n")
print("="*60)

# M√©todo 1: XPath completo (sin encadenamiento)
print("\n1Ô∏è‚É£ XPath completo sin encadenamiento:")
resultado1 = sel.xpath('//div[@class="articulo"]/div[@class="contenido"]/p[@class="intro"]/text()').extract()
print(f"   Resultado: {resultado1}")

# M√©todo 2: XPath encadenado (m√°s modular)
print("\n2Ô∏è‚É£ XPath encadenado (m√°s legible y modular):")
articulos = sel.xpath('//div[@class="articulo"]')
print(f"   - Art√≠culos encontrados: {len(articulos)}")

contenidos = articulos.xpath('./div[@class="contenido"]')
print(f"   - Contenidos encontrados: {len(contenidos)}")

intros = contenidos.xpath('./p[@class="intro"]/text()')
resultado2 = intros.extract()
print(f"   - Textos de introducci√≥n: {resultado2}")

# Verificar que ambos m√©todos dan el mismo resultado
print(f"\n‚úÖ ¬øAmbos m√©todos dan el mismo resultado? {resultado1 == resultado2}")

### 1.2 Ventajas del Encadenamiento

El encadenamiento ofrece varias ventajas importantes:

In [None]:
# Ventaja 1: Reutilizaci√≥n de selectores
print("üîÑ VENTAJA 1: REUTILIZACI√ìN DE SELECTORES\n")
print("="*60)

# Seleccionar todos los art√≠culos una vez
articulos = sel.xpath('//div[@class="articulo"]')

# Reutilizar para diferentes extracciones
for i, articulo in enumerate(articulos, 1):
    titulo = articulo.xpath('./h2/text()').extract_first()
    autor = articulo.xpath('.//span[@class="autor"]/text()').extract_first()
    num_parrafos = len(articulo.xpath('.//p'))
    
    print(f"\nüìÑ Art√≠culo {i}:")
    print(f"   T√≠tulo: {titulo}")
    print(f"   Autor: {autor}")
    print(f"   P√°rrafos: {num_parrafos}")

# Ventaja 2: Debugging m√°s f√°cil
print("\n\nüêõ VENTAJA 2: DEBUGGING M√ÅS F√ÅCIL\n")
print("="*60)

# Puedes verificar cada paso del encadenamiento
paso1 = sel.xpath('//div[@class="container"]')
print(f"Paso 1 - Container encontrado: {len(paso1) > 0}")

paso2 = paso1.xpath('./div[@class="articulo"]')
print(f"Paso 2 - Art√≠culos encontrados: {len(paso2)}")

paso3 = paso2.xpath('./h2/text()')
print(f"Paso 3 - T√≠tulos extra√≠dos: {paso3.extract()}")

### 1.3 Ejercicios Pr√°cticos de Encadenamiento

In [None]:
# Ejercicio 1: Encadenar para obtener autores de art√≠culos espec√≠ficos
print("üìù EJERCICIO 1: ENCADENAMIENTO SELECTIVO\n")
print("="*60)

# Objetivo: Obtener el autor del art√≠culo con id="art1"
# Soluci√≥n con encadenamiento:
articulo1 = sel.xpath('//div[@id="art1"]')
autor1 = articulo1.xpath('.//span[@class="autor"]/text()').extract_first()
print(f"Autor del art√≠culo 1: {autor1}")

# Ejercicio 2: Encadenamiento m√∫ltiple
print("\nüìù EJERCICIO 2: ENCADENAMIENTO M√öLTIPLE\n")
print("="*60)

# Objetivo: Obtener todos los p√°rrafos que NO tienen clase "intro"
contenidos = sel.xpath('//div[@class="contenido"]')
parrafos_normales = contenidos.xpath('./p[not(@class="intro")]/text()')
print(f"P√°rrafos sin clase 'intro': {parrafos_normales.extract()}")

# Ejercicio 3: Comparaci√≥n de m√©todos
print("\nüìù EJERCICIO 3: COMPARACI√ìN DE M√âTODOS\n")
print("="*60)

# M√©todo A: XPath directo
metodo_a = sel.xpath('//div/span/p[3]')

# M√©todo B: XPath encadenado equivalente
metodo_b = sel.xpath('//div').xpath('./span/p[3]')

print("‚úÖ Ambos m√©todos son equivalentes")

## 2. Conversi√≥n entre XPath y CSS Selectors üîÑ

Aunque XPath y CSS Selectors tienen sintaxis diferentes, a menudo puedes lograr los mismos resultados con ambos. Aprender a convertir entre ellos es una habilidad valiosa.

In [None]:
# HTML para ejemplos de conversi√≥n
html_conversion = """
<html>
  <body>
    <div id="header" class="top-section">
      <h1>T√≠tulo Principal</h1>
      <nav>
        <ul class="menu">
          <li><a href="#home">Inicio</a></li>
          <li><a href="#about">Acerca de</a></li>
          <li><a href="#contact">Contacto</a></li>
        </ul>
      </nav>
    </div>
    <main>
      <article data-id="123" class="post featured">
        <h2>Art√≠culo Destacado</h2>
        <p>Primer p√°rrafo del art√≠culo.</p>
        <p>Segundo p√°rrafo del art√≠culo.</p>
      </article>
      <article data-id="124" class="post">
        <h2>Otro Art√≠culo</h2>
        <p>Contenido del segundo art√≠culo.</p>
      </article>
    </main>
  </body>
</html>
"""

sel2 = Selector(text=html_conversion)

print("üîÑ TABLA DE CONVERSIONES XPATH ‚Üî CSS\n")
print("="*80)

# Diccionario de conversiones comunes
conversiones = [
    {
        'descripcion': 'Elemento por ID',
        'xpath': '//div[@id="header"]',
        'css': 'div#header',
        'css_alt': '#header'  # Versi√≥n m√°s corta
    },
    {
        'descripcion': 'Elemento por clase',
        'xpath': '//ul[@class="menu"]',
        'css': 'ul.menu',
        'css_alt': '.menu'  # Si solo hay un elemento con esa clase
    },
    {
        'descripcion': 'Hijo directo',
        'xpath': '//nav/ul',
        'css': 'nav > ul',
        'css_alt': None
    },
    {
        'descripcion': 'Descendiente (cualquier nivel)',
        'xpath': '//div//a',
        'css': 'div a',
        'css_alt': None
    },
    {
        'descripcion': 'Primer elemento',
        'xpath': '//li[1]',
        'css': 'li:first-child',
        'css_alt': 'li:nth-child(1)'
    },
    {
        'descripcion': 'Atributo data',
        'xpath': '//article[@data-id="123"]',
        'css': 'article[data-id="123"]',
        'css_alt': None
    },
    {
        'descripcion': 'M√∫ltiples clases',
        'xpath': '//article[@class="post featured"]',
        'css': 'article.post.featured',
        'css_alt': None
    }
]

# Mostrar tabla de conversiones y verificar resultados
for conv in conversiones:
    print(f"\nüìå {conv['descripcion']}")
    print(f"   XPath: {conv['xpath']}")
    print(f"   CSS:   {conv['css']}")
    if conv['css_alt']:
        print(f"   Alt:   {conv['css_alt']}")
    
    # Verificar que ambos selectores dan el mismo resultado
    resultado_xpath = sel2.xpath(conv['xpath']).extract()
    resultado_css = sel2.css(conv['css']).extract()
    
    coinciden = len(resultado_xpath) == len(resultado_css)
    print(f"   ‚úÖ Resultados coinciden: {coinciden} (encontrados: {len(resultado_xpath)})")

### 2.1 Casos Especiales de Conversi√≥n

In [None]:
print("üéØ CASOS ESPECIALES DE CONVERSI√ìN\n")
print("="*60)

# Caso 1: XPath puede hacer cosas que CSS no puede
print("\n1Ô∏è‚É£ Capacidades √∫nicas de XPath:")
print("   XPath puede:")
print("   ‚Ä¢ Seleccionar por texto: //p[text()='Contenido']")
print("   ‚Ä¢ Navegar hacia arriba: //span/parent::div")
print("   ‚Ä¢ Usar funciones: //p[contains(@class, 'intro')]")
print("   ‚Ä¢ Seleccionar atributos: //img/@src")

# Demostraci√≥n de selecci√≥n por texto (solo XPath)
print("\n   Ejemplo - Selecci√≥n por texto:")
xpath_texto = sel2.xpath('//p[contains(text(), "Primer")]/text()').extract()
print(f"   XPath resultado: {xpath_texto}")
print("   CSS: No es posible directamente")

# Caso 2: CSS es m√°s conciso para algunas tareas
print("\n2Ô∏è‚É£ Ventajas de CSS Selectors:")
print("   CSS es m√°s conciso para:")
print("   ‚Ä¢ Pseudo-selectores: :hover, :visited, :nth-of-type")
print("   ‚Ä¢ Combinaciones de clases: .clase1.clase2")
print("   ‚Ä¢ Selectores de atributos parciales: [href^='http']")

# Ejemplo de pseudo-selectores
print("\n   Ejemplo - Pseudo-selectores:")
css_primero = sel2.css('li:first-child a::text').extract_first()
xpath_primero = sel2.xpath('//li[1]/a/text()').extract_first()
print(f"   CSS resultado: {css_primero}")
print(f"   XPath resultado: {xpath_primero}")

# Caso 3: Conversiones complejas
print("\n3Ô∏è‚É£ Conversiones Complejas:")

ejemplos_complejos = [
    {
        'caso': 'Hermano siguiente',
        'xpath': '//h2/following-sibling::p[1]',
        'css': 'h2 + p'
    },
    {
        'caso': 'Atributo que empieza con',
        'xpath': '//a[starts-with(@href, "#")]',
        'css': 'a[href^="#"]'
    },
    {
        'caso': 'Atributo que contiene',
        'xpath': '//article[contains(@class, "post")]',
        'css': 'article[class*="post"]'
    }
]

for ejemplo in ejemplos_complejos:
    print(f"\n   {ejemplo['caso']}:")
    print(f"      XPath: {ejemplo['xpath']}")
    print(f"      CSS:   {ejemplo['css']}")

## 3. Integraci√≥n con Scrapy Requests üåê

Scrapy permite combinar requests HTTP con selectores de manera eficiente.

In [None]:
import requests
from scrapy import Selector

def scraper_con_scrapy_selector(url):
    """
    Ejemplo de c√≥mo usar Scrapy Selector con requests
    para hacer web scraping sin un proyecto Scrapy completo.
    """
    print(f"üåê SCRAPING CON SCRAPY SELECTOR\n")
    print("="*60)
    print(f"URL: {url}\n")
    
    try:
        # Paso 1: Obtener el HTML con requests
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
        }
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        
        print(f"‚úÖ Respuesta recibida: {response.status_code}")
        print(f"üìè Tama√±o del HTML: {len(response.content)} bytes\n")
        
        # Paso 2: Crear Selector de Scrapy
        sel = Selector(text=response.text)
        
        # Paso 3: Extraer informaci√≥n usando XPath y CSS
        print("üìä EXTRACCI√ìN DE DATOS:\n")
        
        # T√≠tulo de la p√°gina
        titulo = sel.xpath('//title/text()').extract_first()
        print(f"üìÑ T√≠tulo: {titulo}")
        
        # Meta descripci√≥n
        descripcion = sel.xpath('//meta[@name="description"]/@content').extract_first()
        if descripcion:
            print(f"üìù Descripci√≥n: {descripcion[:100]}...")
        
        # Todos los encabezados h1
        h1s = sel.css('h1::text').extract()
        print(f"\nüî§ Encabezados H1 encontrados: {len(h1s)}")
        for i, h1 in enumerate(h1s[:3], 1):  # Primeros 3
            print(f"   {i}. {h1}")
        
        # Enlaces
        enlaces = sel.xpath('//a[@href]')
        print(f"\nüîó Total de enlaces: {len(enlaces)}")
        
        # Enlaces externos
        enlaces_externos = sel.xpath('//a[starts-with(@href, "http")]/@href').extract()
        print(f"   ‚Ä¢ Enlaces externos: {len(enlaces_externos)}")
        
        # Enlaces internos
        enlaces_internos = sel.xpath('//a[starts-with(@href, "/") or starts-with(@href, "#")]/@href').extract()
        print(f"   ‚Ä¢ Enlaces internos: {len(enlaces_internos)}")
        
        # Im√°genes
        imagenes = sel.css('img::attr(src)').extract()
        print(f"\nüñºÔ∏è Im√°genes encontradas: {len(imagenes)}")
        
        # P√°rrafos
        parrafos = sel.xpath('//p[string-length(text()) > 50]')
        print(f"\nüìù P√°rrafos con m√°s de 50 caracteres: {len(parrafos)}")
        
        return sel
        
    except requests.RequestException as e:
        print(f"‚ùå Error al obtener la p√°gina: {e}")
        return None
    except Exception as e:
        print(f"‚ùå Error inesperado: {e}")
        return None

# Probar con una p√°gina de ejemplo
url_ejemplo = "http://quotes.toscrape.com/"
selector = scraper_con_scrapy_selector(url_ejemplo)

if selector:
    print("\n" + "="*60)
    print("üéØ EJEMPLO ESPEC√çFICO: Extrayendo citas")
    print("="*60)
    
    # Extraer citas usando encadenamiento
    citas = selector.css('div.quote')
    print(f"\nüìö Citas encontradas: {len(citas)}\n")
    
    for i, cita in enumerate(citas[:3], 1):  # Primeras 3 citas
        texto = cita.css('span.text::text').extract_first()
        autor = cita.css('small.author::text').extract_first()
        tags = cita.css('a.tag::text').extract()
        
        print(f"Cita {i}:")
        print(f"   üìù Texto: {texto[:60]}...")
        print(f"   ‚úçÔ∏è Autor: {autor}")
        print(f"   üè∑Ô∏è Tags: {', '.join(tags)}")
        print()

## 4. T√©cnicas Avanzadas de Selecci√≥n üéì

### 4.1 Uso de Funciones XPath

In [None]:
# HTML con contenido diverso para t√©cnicas avanzadas
html_avanzado = """
<html>
  <body>
    <div class="productos">
      <div class="producto" data-precio="29.99" data-stock="5">
        <h3>Producto A</h3>
        <p class="descripcion">Descripci√≥n del producto A con palabras clave importantes.</p>
        <span class="precio">$29.99</span>
        <span class="disponibilidad">En stock</span>
      </div>
      <div class="producto oferta" data-precio="19.99" data-stock="0">
        <h3>Producto B - Oferta</h3>
        <p class="descripcion">Este producto B est√° en oferta especial.</p>
        <span class="precio">$19.99</span>
        <span class="disponibilidad">Agotado</span>
      </div>
      <div class="producto nuevo" data-precio="39.99" data-stock="10">
        <h3>Producto C</h3>
        <p class="descripcion">Nuevo producto C reci√©n llegado.</p>
        <span class="precio">$39.99</span>
        <span class="disponibilidad">En stock</span>
      </div>
    </div>
    <div class="comentarios">
      <div class="comentario" data-rating="5">
        <p>Excelente producto, muy recomendado.</p>
        <span class="autor">Juan</span>
      </div>
      <div class="comentario" data-rating="3">
        <p>Producto regular, cumple su funci√≥n.</p>
        <span class="autor">Mar√≠a</span>
      </div>
    </div>
  </body>
</html>
"""

sel_avanzado = Selector(text=html_avanzado)

print("üéì T√âCNICAS AVANZADAS DE SELECCI√ìN CON XPATH\n")
print("="*70)

# 1. Funci√≥n contains()
print("\n1Ô∏è‚É£ Funci√≥n contains() - Buscar texto parcial:")
productos_oferta = sel_avanzado.xpath('//h3[contains(text(), "Oferta")]/text()').extract()
print(f"   Productos con 'Oferta' en el t√≠tulo: {productos_oferta}")

descripciones_nuevo = sel_avanzado.xpath('//p[contains(@class, "descripcion")][contains(text(), "nuevo")]/text()').extract()
print(f"   Descripciones que mencionan 'nuevo': {descripciones_nuevo}")

# 2. Funci√≥n starts-with()
print("\n2Ô∏è‚É£ Funci√≥n starts-with() - Buscar inicio de texto:")
productos_p = sel_avanzado.xpath('//h3[starts-with(text(), "Producto")]/text()').extract()
print(f"   Productos que empiezan con 'Producto': {productos_p}")

# 3. Funci√≥n position() y last()
print("\n3Ô∏è‚É£ Funciones position() y last() - Selecci√≥n por posici√≥n:")
primer_producto = sel_avanzado.xpath('//div[@class="producto"][1]/h3/text()').extract_first()
ultimo_producto = sel_avanzado.xpath('//div[@class="producto"][last()]/h3/text()').extract_first()
print(f"   Primer producto: {primer_producto}")
print(f"   √öltimo producto: {ultimo_producto}")

# 4. Funci√≥n not()
print("\n4Ô∏è‚É£ Funci√≥n not() - Exclusi√≥n de elementos:")
productos_disponibles = sel_avanzado.xpath('//div[@class="producto"][not(@data-stock="0")]/h3/text()').extract()
print(f"   Productos disponibles (stock > 0): {productos_disponibles}")

# 5. Operadores de comparaci√≥n
print("\n5Ô∏è‚É£ Operadores de comparaci√≥n - Filtros num√©ricos:")
# Nota: En XPath 1.0 (usado por lxml), las comparaciones num√©ricas son limitadas
productos_baratos = sel_avanzado.xpath('//div[@data-precio < "30"]/h3/text()').extract()
print(f"   Productos con precio < $30: {productos_baratos}")

# 6. Funci√≥n normalize-space()
print("\n6Ô∏è‚É£ Funci√≥n normalize-space() - Limpiar espacios:")
textos_limpios = sel_avanzado.xpath('//p[normalize-space()]/text()').extract()
print(f"   P√°rrafos con contenido (sin espacios vac√≠os): {len(textos_limpios)} encontrados")

# 7. M√∫ltiples condiciones con and/or
print("\n7Ô∏è‚É£ Condiciones m√∫ltiples con and/or:")
productos_especiales = sel_avanzado.xpath(
    '//div[@class="producto oferta" or @class="producto nuevo"]/h3/text()'
).extract()
print(f"   Productos en oferta O nuevos: {productos_especiales}")

productos_disponibles_baratos = sel_avanzado.xpath(
    '//div[@data-stock>"0" and @data-precio<"30"]/h3/text()'
).extract()
print(f"   Productos disponibles Y baratos: {productos_disponibles_baratos}")

### 4.2 Selectores CSS Avanzados

In [None]:
print("üé® SELECTORES CSS AVANZADOS\n")
print("="*70)

# 1. Pseudo-clases estructurales
print("\n1Ô∏è‚É£ Pseudo-clases estructurales:")
primer_producto_css = sel_avanzado.css('div.producto:first-child h3::text').extract_first()
print(f"   Primer producto (CSS): {primer_producto_css}")

ultimo_producto_css = sel_avanzado.css('div.producto:last-child h3::text').extract_first()
print(f"   √öltimo producto (CSS): {ultimo_producto_css}")

segundo_producto_css = sel_avanzado.css('div.producto:nth-child(2) h3::text').extract_first()
print(f"   Segundo producto (CSS): {segundo_producto_css}")

# 2. Selectores de atributos avanzados
print("\n2Ô∏è‚É£ Selectores de atributos CSS:")
productos_con_data = sel_avanzado.css('div[data-precio] h3::text').extract()
print(f"   Productos con atributo data-precio: {productos_con_data}")

productos_stock_5 = sel_avanzado.css('div[data-stock="5"] h3::text').extract()
print(f"   Productos con stock = 5: {productos_stock_5}")

# 3. Combinadores
print("\n3Ô∏è‚É£ Combinadores CSS:")
precio_despues_h3 = sel_avanzado.css('h3 ~ span.precio::text').extract()
print(f"   Precios despu√©s de h3 (hermanos): {precio_despues_h3}")

precio_directo = sel_avanzado.css('div.producto > span.precio::text').extract()
print(f"   Precios hijos directos de producto: {precio_directo}")

# 4. M√∫ltiples clases
print("\n4Ô∏è‚É£ Selectores con m√∫ltiples clases:")
productos_oferta = sel_avanzado.css('div.producto.oferta h3::text').extract()
print(f"   Productos con clases 'producto' Y 'oferta': {productos_oferta}")

# 5. Pseudo-elementos
print("\n5Ô∏è‚É£ Pseudo-elementos ::text y ::attr():")
todos_textos = sel_avanzado.css('span.precio::text').extract()
print(f"   Todos los precios (texto): {todos_textos}")

todos_ratings = sel_avanzado.css('div.comentario::attr(data-rating)').extract()
print(f"   Ratings de comentarios (atributo): {todos_ratings}")

## 5. Mejores Pr√°cticas y Optimizaci√≥n üöÄ

In [None]:
print("üöÄ MEJORES PR√ÅCTICAS PARA SELECTORES\n")
print("="*70)

# Ejemplo de HTML complejo
html_complejo = """
<div class="container main-content" id="main">
    <article class="post featured" data-id="123">
        <header>
            <h2 class="title big-title">T√≠tulo del Art√≠culo</h2>
            <div class="meta">
                <span class="author">Autor: Juan</span>
                <span class="date">2024-01-15</span>
            </div>
        </header>
        <div class="content">
            <p>Contenido del art√≠culo...</p>
        </div>
    </article>
</div>
"""

sel_practica = Selector(text=html_complejo)

print("‚úÖ BUENAS PR√ÅCTICAS:\n")

# 1. Ser lo m√°s espec√≠fico posible
print("1Ô∏è‚É£ ESPECIFICIDAD:")
print("   ‚ùå Malo: //div//span")
print("   ‚úÖ Bueno: //div[@class='meta']/span[@class='author']")
print("   Raz√≥n: M√°s espec√≠fico = m√°s robusto a cambios\n")

# 2. Preferir IDs cuando sea posible
print("2Ô∏è‚É£ USAR IDs √öNICOS:")
print("   ‚ùå Malo: //div[@class='container main-content']")
print("   ‚úÖ Bueno: //div[@id='main']")
print("   Raz√≥n: IDs son √∫nicos y m√°s r√°pidos\n")

# 3. Evitar selectores fr√°giles
print("3Ô∏è‚É£ EVITAR POSICIONES ABSOLUTAS:")
print("   ‚ùå Malo: //div[1]/article[1]/header[1]/h2[1]")
print("   ‚úÖ Bueno: //article[@data-id='123']//h2[@class='title']")
print("   Raz√≥n: Las posiciones pueden cambiar\n")

# 4. Usar atributos data cuando est√©n disponibles
print("4Ô∏è‚É£ APROVECHAR ATRIBUTOS DATA:")
print("   ‚ùå Malo: //article[@class='post featured']")
print("   ‚úÖ Bueno: //article[@data-id='123']")
print("   Raz√≥n: Los data-* suelen ser m√°s estables\n")

# 5. Combinar XPath y CSS seg√∫n convenga
print("5Ô∏è‚É£ MEZCLAR XPATH Y CSS:")
print("   Para estructura: CSS ('article.post')")
print("   Para texto: XPath ('//span[contains(text(), "Autor")]')")
print("   Para navegaci√≥n: XPath ('//div/parent::article')\n")

# Ejemplo pr√°ctico de optimizaci√≥n
print("‚ö° EJEMPLO DE OPTIMIZACI√ìN:\n")

import time

# M√©todo lento (m√∫ltiples b√∫squedas)
start = time.time()
for _ in range(100):
    titulo = sel_practica.xpath('//h2[@class="title big-title"]/text()').extract_first()
    autor = sel_practica.xpath('//span[@class="author"]/text()').extract_first()
    fecha = sel_practica.xpath('//span[@class="date"]/text()').extract_first()
tiempo_lento = time.time() - start

# M√©todo r√°pido (una b√∫squeda, encadenamiento)
start = time.time()
for _ in range(100):
    articulo = sel_practica.xpath('//article[@data-id="123"]')[0]
    titulo = articulo.xpath('.//h2/text()').extract_first()
    autor = articulo.xpath('.//span[@class="author"]/text()').extract_first()
    fecha = articulo.xpath('.//span[@class="date"]/text()').extract_first()
tiempo_rapido = time.time() - start

print(f"‚è±Ô∏è M√©todo lento: {tiempo_lento:.4f}s")
print(f"‚ö° M√©todo r√°pido: {tiempo_rapido:.4f}s")
print(f"üöÄ Mejora: {((tiempo_lento - tiempo_rapido) / tiempo_lento * 100):.1f}% m√°s r√°pido")

## 6. Ejercicio Final: Scraper Completo üí™

In [None]:
print("üí™ EJERCICIO FINAL: SCRAPER COMPLETO\n")
print("="*70)
print("Objetivo: Crear un scraper que use todas las t√©cnicas aprendidas\n")

# HTML de un blog ficticio
html_blog = """
<html>
  <head>
    <title>Mi Blog de Tecnolog√≠a</title>
  </head>
  <body>
    <div id="content">
      <article class="post" data-id="1" data-category="python">
        <h2>Aprendiendo Web Scraping con Python</h2>
        <div class="meta">
          <span class="author">Juan P√©rez</span>
          <span class="date">2024-01-15</span>
          <span class="reading-time">5 min</span>
        </div>
        <div class="content">
          <p>El web scraping es una t√©cnica fundamental...</p>
          <p>Python ofrece herramientas poderosas como Scrapy...</p>
        </div>
        <div class="tags">
          <a href="/tag/python" class="tag">Python</a>
          <a href="/tag/scraping" class="tag">Scraping</a>
          <a href="/tag/tutorial" class="tag">Tutorial</a>
        </div>
        <div class="interactions">
          <span class="likes" data-count="42">‚ù§Ô∏è 42</span>
          <span class="comments" data-count="8">üí¨ 8</span>
        </div>
      </article>
      
      <article class="post featured" data-id="2" data-category="javascript">
        <h2>React vs Vue: Comparaci√≥n 2024</h2>
        <div class="meta">
          <span class="author">Mar√≠a Garc√≠a</span>
          <span class="date">2024-01-14</span>
          <span class="reading-time">8 min</span>
        </div>
        <div class="content">
          <p>En el mundo del desarrollo frontend...</p>
          <p>React sigue dominando el mercado...</p>
        </div>
        <div class="tags">
          <a href="/tag/javascript" class="tag">JavaScript</a>
          <a href="/tag/react" class="tag">React</a>
          <a href="/tag/vue" class="tag">Vue</a>
        </div>
        <div class="interactions">
          <span class="likes" data-count="156">‚ù§Ô∏è 156</span>
          <span class="comments" data-count="23">üí¨ 23</span>
        </div>
      </article>
    </div>
  </body>
</html>
"""

def scraper_completo(html):
    """
    Scraper que combina todas las t√©cnicas aprendidas:
    - Encadenamiento de selectores
    - Conversi√≥n XPath/CSS
    - Funciones XPath avanzadas
    - Optimizaci√≥n
    """
    sel = Selector(text=html)
    
    # Estructura para almacenar datos
    blog_data = {
        'titulo_sitio': '',
        'articulos': [],
        'estadisticas': {}
    }
    
    # 1. Informaci√≥n general del sitio
    blog_data['titulo_sitio'] = sel.xpath('//title/text()').extract_first()
    
    # 2. Extraer art√≠culos usando encadenamiento
    articulos = sel.css('article.post')
    
    for articulo in articulos:
        # Usar encadenamiento para extraer datos
        post_data = {}
        
        # Combinar XPath y CSS
        post_data['id'] = articulo.css('::attr(data-id)').extract_first()
        post_data['categoria'] = articulo.xpath('./@data-category').extract_first()
        post_data['es_destacado'] = 'featured' in articulo.css('::attr(class)').extract_first()
        
        # Informaci√≥n del post
        post_data['titulo'] = articulo.css('h2::text').extract_first()
        
        # Metadatos con XPath
        meta = articulo.xpath('.//div[@class="meta"]')
        post_data['autor'] = meta.xpath('.//span[@class="author"]/text()').extract_first()
        post_data['fecha'] = meta.xpath('.//span[@class="date"]/text()').extract_first()
        post_data['tiempo_lectura'] = meta.xpath('.//span[@class="reading-time"]/text()').extract_first()
        
        # Contenido
        parrafos = articulo.css('div.content p::text').extract()
        post_data['num_parrafos'] = len(parrafos)
        post_data['preview'] = parrafos[0][:50] + '...' if parrafos else ''
        
        # Tags con CSS
        post_data['tags'] = articulo.css('a.tag::text').extract()
        
        # Interacciones con funciones XPath
        likes = articulo.xpath('.//span[@class="likes"]/@data-count').extract_first()
        comments = articulo.xpath('.//span[@class="comments"]/@data-count').extract_first()
        post_data['likes'] = int(likes) if likes else 0
        post_data['comentarios'] = int(comments) if comments else 0
        
        # Calcular engagement
        post_data['engagement_score'] = post_data['likes'] * 2 + post_data['comentarios'] * 3
        
        blog_data['articulos'].append(post_data)
    
    # 3. Estad√≠sticas generales
    blog_data['estadisticas'] = {
        'total_articulos': len(blog_data['articulos']),
        'articulos_destacados': sum(1 for a in blog_data['articulos'] if a['es_destacado']),
        'total_likes': sum(a['likes'] for a in blog_data['articulos']),
        'total_comentarios': sum(a['comentarios'] for a in blog_data['articulos']),
        'categorias': list(set(a['categoria'] for a in blog_data['articulos'])),
        'autores': list(set(a['autor'] for a in blog_data['articulos'])),
        'tags_unicos': list(set(tag for a in blog_data['articulos'] for tag in a['tags']))
    }
    
    # Art√≠culo m√°s popular
    if blog_data['articulos']:
        mas_popular = max(blog_data['articulos'], key=lambda x: x['engagement_score'])
        blog_data['estadisticas']['articulo_mas_popular'] = mas_popular['titulo']
    
    return blog_data

# Ejecutar el scraper
resultado = scraper_completo(html_blog)

# Mostrar resultados
print(f"üìö BLOG: {resultado['titulo_sitio']}\n")

print("üì∞ ART√çCULOS EXTRA√çDOS:")
for i, art in enumerate(resultado['articulos'], 1):
    destacado = "‚≠ê" if art['es_destacado'] else "  "
    print(f"\n{destacado} {i}. {art['titulo']}")
    print(f"      ID: {art['id']} | Categor√≠a: {art['categoria']}")
    print(f"      Autor: {art['autor']} | Fecha: {art['fecha']}")
    print(f"      Tiempo de lectura: {art['tiempo_lectura']}")
    print(f"      Tags: {', '.join(art['tags'])}")
    print(f"      Engagement: {art['likes']} ‚ù§Ô∏è | {art['comentarios']} üí¨")
    print(f"      Score: {art['engagement_score']} puntos")
    print(f"      Preview: {art['preview']}")

print("\n" + "="*70)
print("üìä ESTAD√çSTICAS GENERALES:")
stats = resultado['estadisticas']
print(f"   ‚Ä¢ Total de art√≠culos: {stats['total_articulos']}")
print(f"   ‚Ä¢ Art√≠culos destacados: {stats['articulos_destacados']}")
print(f"   ‚Ä¢ Total de likes: {stats['total_likes']}")
print(f"   ‚Ä¢ Total de comentarios: {stats['total_comentarios']}")
print(f"   ‚Ä¢ Categor√≠as: {', '.join(stats['categorias'])}")
print(f"   ‚Ä¢ Autores: {', '.join(stats['autores'])}")
print(f"   ‚Ä¢ Tags √∫nicos: {', '.join(stats['tags_unicos'])}")
if 'articulo_mas_popular' in stats:
    print(f"   ‚Ä¢ Art√≠culo m√°s popular: {stats['articulo_mas_popular']}")

print("\nüéâ ¬°Scraper completo ejecutado exitosamente!")

## 7. Resumen y Conclusiones üìö

### üéØ Lo que has aprendido:

1. **Encadenamiento de XPath**
   - Dividir consultas complejas en partes manejables
   - Reutilizar selectores para m√∫ltiples extracciones
   - Debugging m√°s efectivo

2. **Conversi√≥n XPath ‚Üî CSS**
   - Equivalencias entre ambos sistemas
   - Cu√°ndo usar cada uno
   - Limitaciones y ventajas de cada m√©todo

3. **T√©cnicas Avanzadas**
   - Funciones XPath: contains(), starts-with(), position(), etc.
   - Pseudo-clases CSS: :first-child, :nth-child, etc.
   - Selectores de atributos avanzados

4. **Integraci√≥n con Scrapy**
   - Usar Scrapy Selector con requests
   - Combinar XPath y CSS en el mismo proyecto
   - Optimizaci√≥n de consultas

### üí° Mejores Pr√°cticas:

- **Especificidad**: Ser lo m√°s espec√≠fico posible sin ser fr√°gil
- **Robustez**: Preferir IDs y atributos data-* cuando sea posible
- **Modularidad**: Usar encadenamiento para c√≥digo m√°s mantenible
- **Rendimiento**: Minimizar b√∫squedas repetidas
- **Flexibilidad**: Combinar XPath y CSS seg√∫n convenga

### üöÄ Pr√≥ximos Pasos:

1. Practica con sitios web reales
2. Experimenta con selectores m√°s complejos
3. Aprende a manejar contenido din√°mico (JavaScript)
4. Explora frameworks como Scrapy en profundidad
5. Implementa manejo de errores robusto

### üìå Tabla de Referencia R√°pida:

| Tarea | XPath | CSS |
|-------|-------|-----|
| Por ID | `//div[@id="main"]` | `#main` |
| Por clase | `//div[@class="content"]` | `.content` |
| Hijo directo | `//div/p` | `div > p` |
| Descendiente | `//div//p` | `div p` |
| Por texto | `//p[contains(text(), "hello")]` | No disponible |
| Primer elemento | `//li[1]` | `li:first-child` |
| Atributo | `//a/@href` | No directamente |
| Padre | `//span/parent::div` | No disponible |

¬°Felicidades por completar esta lecci√≥n avanzada! üéâ