# 🕷️ Lección 1: Introducción a Web Scraping y HTML Básico

## 🎯 Objetivos de Aprendizaje

Al finalizar esta lección, serás capaz de:
- ✅ Comprender qué es el web scraping y sus aplicaciones
- ✅ Entender la estructura básica de HTML y el DOM
- ✅ Identificar elementos, atributos y jerarquías en HTML
- ✅ Utilizar las herramientas de desarrollo del navegador
- ✅ Escribir tu primer script de web scraping

---

## 1. ¿Qué es Web Scraping? 🤖

**Web Scraping** es la técnica de extracción automática de datos de sitios web. Es como tener un asistente digital que puede leer y recopilar información de páginas web de manera automática y estructurada.

### 🌟 Aplicaciones del Web Scraping:

| Área | Aplicación | Ejemplo |
|------|------------|----------|
| 💰 **E-commerce** | Monitoreo de precios | Comparar precios entre tiendas |
| 📊 **Investigación** | Recopilación de datos | Análisis académico y estudios |
| 📰 **Periodismo** | Extracción de información | Periodismo de datos |
| 🤖 **Machine Learning** | Creación de datasets | Entrenar modelos de IA |
| 👀 **Monitoreo** | Seguimiento de cambios | Alertas de contenido nuevo |
| 🔍 **Agregación** | Comparadores | Portales de ofertas de empleo |

### 🐍 ¿Por qué Python para Web Scraping?

Python es el lenguaje ideal porque:
- 📝 **Sintaxis simple**: Fácil de leer y escribir
- 📚 **Bibliotecas especializadas**: Beautiful Soup, Scrapy, Selenium
- 👥 **Gran comunidad**: Mucha documentación y soporte
- 🔗 **Integración**: Se conecta fácilmente con pandas, numpy, etc.

## 2. Fundamentos de HTML 📄

HTML (HyperText Markup Language) es el lenguaje de marcado que estructura las páginas web. Para hacer web scraping efectivo, necesitas entender cómo está organizado el HTML.

### 2.1 Estructura Básica de un Documento HTML

In [None]:
# Ejemplo de HTML que analizaremos durante la lección
html_ejemplo = """
<!DOCTYPE html>
<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Mi Primera Página Web</title>
    <meta name="description" content="Ejemplo para aprender web scraping">
</head>
<body>
    <header>
        <h1 id="titulo-principal" class="titulo-grande">🕷️ Bienvenido al Web Scraping</h1>
        <nav>
            <ul class="menu-navegacion">
                <li><a href="#seccion1">Introducción</a></li>
                <li><a href="#seccion2">Conceptos</a></li>
                <li><a href="#seccion3">Ejemplos</a></li>
            </ul>
        </nav>
    </header>
    
    <main>
        <section id="seccion1" class="contenido importante">
            <h2>🚀 Introducción al Web Scraping</h2>
            <p class="texto-destacado">El web scraping es una técnica <strong>poderosa</strong> para extraer datos.</p>
            <p>Permite automatizar la recopilación de información de sitios web.</p>
            <div class="estadisticas" data-tipo="metricas">
                <span class="numero">95%</span> de eficiencia
            </div>
        </section>
        
        <section id="seccion2" class="contenido">
            <h2>🔑 Conceptos Clave</h2>
            <div class="conceptos-grid">
                <article data-tema="html" class="concepto">
                    <h3>HTML</h3>
                    <p>Lenguaje de marcado para crear páginas web.</p>
                    <span class="dificultad" data-nivel="facil">⭐ Fácil</span>
                </article>
                <article data-tema="css" class="concepto">
                    <h3>CSS</h3>
                    <p>Hojas de estilo para dar formato visual.</p>
                    <span class="dificultad" data-nivel="medio">⭐⭐ Medio</span>
                </article>
                <article data-tema="javascript" class="concepto">
                    <h3>JavaScript</h3>
                    <p>Lenguaje para añadir interactividad.</p>
                    <span class="dificultad" data-nivel="dificil">⭐⭐⭐ Difícil</span>
                </article>
            </div>
        </section>
        
        <section id="seccion3" class="contenido ejemplos">
            <h2>📊 Ejemplos Prácticos</h2>
            <table class="tabla-datos" border="1">
                <thead>
                    <tr>
                        <th>Técnica</th>
                        <th>Dificultad</th>
                        <th>Uso Común</th>
                        <th>Velocidad</th>
                    </tr>
                </thead>
                <tbody>
                    <tr data-id="1">
                        <td>Beautiful Soup</td>
                        <td class="facil">🟢 Fácil</td>
                        <td>Sitios estáticos</td>
                        <td>⚡ Rápido</td>
                    </tr>
                    <tr data-id="2">
                        <td>Scrapy</td>
                        <td class="medio">🟡 Intermedio</td>
                        <td>Proyectos grandes</td>
                        <td>⚡⚡ Muy rápido</td>
                    </tr>
                    <tr data-id="3">
                        <td>Selenium</td>
                        <td class="dificil">🔴 Avanzado</td>
                        <td>Sitios dinámicos</td>
                        <td>🐌 Lento</td>
                    </tr>
                </tbody>
            </table>
            
            <div class="lista-sitios">
                <h3>🌐 Sitios Populares para Practicar:</h3>
                <ul>
                    <li><a href="http://quotes.toscrape.com" target="_blank">Quotes to Scrape</a></li>
                    <li><a href="http://books.toscrape.com" target="_blank">Books to Scrape</a></li>
                    <li><a href="https://scrapethissite.com" target="_blank">Scrape This Site</a></li>
                </ul>
            </div>
        </section>
    </main>
    
    <footer>
        <p>&copy; 2024 Curso de Web Scraping | <em>Aprende haciendo</em></p>
        <div class="redes-sociales">
            <a href="#" class="red-social" data-plataforma="twitter">🐦 Twitter</a>
            <a href="#" class="red-social" data-plataforma="github">🐙 GitHub</a>
        </div>
    </footer>
</body>
</html>
"""

print("✅ HTML de ejemplo creado exitosamente!")
print(f"📏 Tamaño del HTML: {len(html_ejemplo)} caracteres")

### 2.2 Anatomía de un Elemento HTML 🔍

Un elemento HTML tiene la siguiente estructura:

```html
<etiqueta atributo="valor" otro-atributo="otro-valor">Contenido</etiqueta>
```

**Componentes:**
- 🏷️ **Etiqueta de apertura**: `<p>`
- 🎯 **Atributos**: `class="texto"`, `id="parrafo1"`, `data-info="importante"`
- 📝 **Contenido**: El texto o elementos dentro
- 🔚 **Etiqueta de cierre**: `</p>`

### 2.3 Elementos HTML Más Importantes para Scraping

In [None]:
# Diccionario de elementos HTML más comunes en web scraping
elementos_html = {
    '🏗️ Estructura': {
        '<html>': 'Elemento raíz del documento HTML',
        '<head>': 'Metadatos que no se muestran al usuario',
        '<body>': 'Contenido visible de la página web',
        '<header>': 'Encabezado de la página o sección',
        '<main>': 'Contenido principal de la página',
        '<footer>': 'Pie de página con información adicional'
    },
    '📝 Texto y Contenido': {
        '<h1> - <h6>': 'Títulos y subtítulos (h1 es el más importante)',
        '<p>': 'Párrafos de texto normal',
        '<span>': 'Contenedor en línea para pequeñas porciones',
        '<strong>': 'Texto importante (aparece en negrita)',
        '<em>': 'Énfasis (aparece en cursiva)',
        '<br>': 'Salto de línea (no tiene cierre)'
    },
    '🔗 Enlaces y Media': {
        '<a>': 'Hipervínculos a otras páginas o secciones',
        '<img>': 'Imágenes (no tiene etiqueta de cierre)',
        '<video>': 'Contenido de video',
        '<audio>': 'Contenido de audio'
    },
    '📋 Listas': {
        '<ul>': 'Lista no ordenada (bullets)',
        '<ol>': 'Lista ordenada (números)',
        '<li>': 'Elemento individual de lista'
    },
    '📦 Contenedores': {
        '<div>': 'División genérica (muy común en scraping)',
        '<section>': 'Sección temática de contenido',
        '<article>': 'Contenido independiente',
        '<nav>': 'Navegación y menús'
    },
    '📊 Tablas': {
        '<table>': 'Contenedor principal de la tabla',
        '<thead>': 'Encabezado de la tabla',
        '<tbody>': 'Cuerpo con datos de la tabla',
        '<tr>': 'Fila de la tabla',
        '<th>': 'Celda de encabezado',
        '<td>': 'Celda con datos'
    },
    '📝 Formularios': {
        '<form>': 'Formulario para enviar datos',
        '<input>': 'Campo de entrada de datos',
        '<button>': 'Botón clicable',
        '<select>': 'Lista desplegable',
        '<option>': 'Opción dentro de select'
    }
}

# Mostrar los elementos de forma organizada
for categoria, elementos in elementos_html.items():
    print(f"\n{categoria}:")
    print("─" * 60)
    for elemento, descripcion in elementos.items():
        print(f"  {elemento:<15} → {descripcion}")

## 3. El DOM (Document Object Model) 🌳

El DOM es una representación en forma de **árbol jerárquico** de la estructura HTML. Cada elemento HTML es un **nodo** en este árbol, y entender esta estructura es fundamental para el web scraping.

In [None]:
# Visualización conceptual del DOM de nuestro ejemplo
estructura_dom = """
📄 document (raíz)
└── html (elemento raíz del HTML)
    ├── head (metadatos)
    │   ├── meta (charset)
    │   ├── title (título de la página)
    │   └── meta (descripción)
    └── body (contenido visible)
        ├── header (encabezado)
        │   ├── h1#titulo-principal (título principal)
        │   └── nav (navegación)
        │       └── ul.menu-navegacion (lista)
        │           ├── li → a (enlace 1)
        │           ├── li → a (enlace 2)
        │           └── li → a (enlace 3)
        ├── main (contenido principal)
        │   ├── section#seccion1 (primera sección)
        │   │   ├── h2 (subtítulo)
        │   │   ├── p.texto-destacado (párrafo destacado)
        │   │   ├── p (párrafo normal)
        │   │   └── div.estadisticas (métricas)
        │   ├── section#seccion2 (segunda sección)
        │   │   ├── h2 (subtítulo)
        │   │   └── div.conceptos-grid
        │   │       ├── article[data-tema="html"]
        │   │       ├── article[data-tema="css"]
        │   │       └── article[data-tema="javascript"]
        │   └── section#seccion3 (tercera sección)
        │       ├── h2 (subtítulo)
        │       ├── table.tabla-datos (tabla)
        │       │   ├── thead → tr → th (encabezados)
        │       │   └── tbody → tr → td (datos)
        │       └── div.lista-sitios (lista de sitios)
        └── footer (pie de página)
            ├── p (copyright)
            └── div.redes-sociales (enlaces sociales)
"""

print("🌳 Estructura del DOM como árbol jerárquico:")
print(estructura_dom)

# Conceptos importantes del DOM
conceptos_dom = {
    "👨‍👧‍👦 Nodo Padre (Parent)": "El elemento que contiene a otros elementos",
    "👶 Nodo Hijo (Child)": "Elemento contenido directamente dentro de otro",
    "👫 Hermanos (Siblings)": "Elementos que están al mismo nivel jerárquico",
    "👴 Ancestros (Ancestors)": "Todos los elementos padre en la cadena hacia arriba",
    "👪 Descendientes (Descendants)": "Todos los elementos contenidos (hijos, nietos, etc.)",
    "🔍 Selector": "Patrón usado para encontrar elementos específicos",
    "🏷️ Atributo": "Información adicional sobre un elemento (id, class, etc.)"
}

print("\n🔑 Conceptos Clave del DOM:")
print("═" * 70)
for concepto, descripcion in conceptos_dom.items():
    print(f"{concepto}: {descripcion}")

## 4. Atributos HTML Cruciales para Web Scraping 🎯

Los atributos son características adicionales de los elementos HTML. Son tu **herramienta principal** para localizar elementos específicos al hacer scraping.

In [None]:
# Los atributos más importantes para web scraping
atributos_scraping = {
    '🆔 id': {
        'descripcion': 'Identificador único del elemento en toda la página',
        'ejemplo': '<div id="contenido-principal">',
        'uso_scraping': '⭐⭐⭐ Perfecto para seleccionar UN elemento específico',
        'ventaja': 'Garantiza unicidad, muy confiable',
        'selector_css': '#mi-id',
        'selector_xpath': '//*[@id="mi-id"]'
    },
    '🏷️ class': {
        'descripcion': 'Clase(s) CSS para agrupar elementos similares',
        'ejemplo': '<p class="texto importante destacado">',
        'uso_scraping': '⭐⭐⭐ Ideal para seleccionar GRUPOS de elementos',
        'ventaja': 'Muy común, puede tener múltiples valores',
        'selector_css': '.mi-clase',
        'selector_xpath': '//*[@class="mi-clase"]'
    },
    '🔗 href': {
        'descripcion': 'URL de destino en enlaces',
        'ejemplo': '<a href="https://ejemplo.com">Enlace</a>',
        'uso_scraping': '⭐⭐ Para extraer URLs y navegar entre páginas',
        'ventaja': 'Esencial para crawling y navegación',
        'selector_css': 'a[href]',
        'selector_xpath': '//a[@href]'
    },
    '🖼️ src': {
        'descripcion': 'Fuente de recursos (imágenes, scripts, etc.)',
        'ejemplo': '<img src="imagen.jpg" alt="Descripción">',
        'uso_scraping': '⭐⭐ Para descargar imágenes o identificar recursos',
        'ventaja': 'Útil para multimedia y assets',
        'selector_css': 'img[src]',
        'selector_xpath': '//img[@src]'
    },
    '📊 data-*': {
        'descripcion': 'Atributos personalizados para almacenar datos',
        'ejemplo': '<div data-producto-id="12345" data-precio="99.99">',
        'uso_scraping': '⭐⭐⭐ Contienen información estructurada MUY valiosa',
        'ventaja': 'Datos limpios y estructurados',
        'selector_css': '[data-producto-id]',
        'selector_xpath': '//*[@data-producto-id]'
    },
    '📝 name': {
        'descripcion': 'Nombre de elementos de formulario',
        'ejemplo': '<input name="email" type="email">',
        'uso_scraping': '⭐ Para identificar campos de formulario',
        'ventaja': 'Útil para automatizar formularios',
        'selector_css': '[name="email"]',
        'selector_xpath': '//*[@name="email"]'
    },
    '🏷️ title': {
        'descripcion': 'Texto que aparece al hacer hover',
        'ejemplo': '<img src="foto.jpg" title="Mi foto favorita">',
        'uso_scraping': '⭐ Para obtener información adicional',
        'ventaja': 'Información extra no siempre visible',
        'selector_css': '[title]',
        'selector_xpath': '//*[@title]'
    },
    '🎨 style': {
        'descripcion': 'Estilos CSS inline',
        'ejemplo': '<div style="color: red; font-size: 16px;">',
        'uso_scraping': '⭐ Ocasionalmente útil para filtrar elementos',
        'ventaja': 'Puede contener información de estado',
        'selector_css': '[style]',
        'selector_xpath': '//*[@style]'
    }
}

# Mostrar información detallada sobre cada atributo
for atributo, info in atributos_scraping.items():
    print(f"\n{atributo}")
    print("═" * 80)
    for key, value in info.items():
        emoji_key = {
            'descripcion': '📋',
            'ejemplo': '💻',
            'uso_scraping': '🎯',
            'ventaja': '✨',
            'selector_css': '🎨',
            'selector_xpath': '🛤️'
        }.get(key, '•')
        print(f"  {emoji_key} {key.replace('_', ' ').title()}: {value}")

## 5. Tu Primer Script de Web Scraping 🚀

¡Ahora viene la parte emocionante! Vamos a escribir nuestro primer script de web scraping usando las bibliotecas más populares de Python.

In [None]:
# Instalación de bibliotecas necesarias
import sys
import subprocess

def instalar_librerias():
    """Instala las bibliotecas necesarias para web scraping"""
    librerias = ['requests', 'beautifulsoup4', 'lxml']
    
    for libreria in librerias:
        try:
            __import__(libreria.replace('-', '_').replace('4', ''))
            print(f"✅ {libreria} ya está instalada")
        except ImportError:
            print(f"📦 Instalando {libreria}...")
            subprocess.check_call([sys.executable, '-m', 'pip', 'install', libreria, '--quiet'])
            print(f"✅ {libreria} instalada correctamente")

# Ejecutar instalación
instalar_librerias()
print("\n🎉 ¡Todas las bibliotecas están listas!")

In [None]:
# Importar las bibliotecas necesarias
import requests
from bs4 import BeautifulSoup
import re
import time
from datetime import datetime

# Mi primer scraper: Extraer citas inspiradoras
def mi_primer_scraping():
    """
    Función que realiza web scraping de quotes.toscrape.com
    Extrae citas, autores y tags de forma estructurada
    """
    print("🕷️ INICIANDO MI PRIMER WEB SCRAPING")
    print("═" * 50)
    
    # PASO 1: Configurar la solicitud
    url = "http://quotes.toscrape.com/"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    print(f"🌐 Conectando a: {url}")
    print(f"🤖 User-Agent: {headers['User-Agent'][:50]}...")
    
    # PASO 2: Hacer la solicitud HTTP
    try:
        inicio = time.time()
        response = requests.get(url, headers=headers, timeout=10)
        tiempo_respuesta = time.time() - inicio
        
        # PASO 3: Verificar el estado de la respuesta
        if response.status_code == 200:
            print(f"✅ Conexión exitosa!")
            print(f"📊 Código de estado: {response.status_code}")
            print(f"⏱️ Tiempo de respuesta: {tiempo_respuesta:.2f} segundos")
            print(f"📄 Tamaño del HTML: {len(response.text):,} caracteres")
        else:
            print(f"❌ Error: Código de estado {response.status_code}")
            return None
            
    except requests.exceptions.Timeout:
        print("❌ Error: Timeout en la conexión")
        return None
    except requests.exceptions.RequestException as e:
        print(f"❌ Error en la solicitud: {e}")
        return None
    
    # PASO 4: Parsear el HTML con Beautiful Soup
    soup = BeautifulSoup(response.content, 'html.parser')
    print(f"\n🍲 HTML parseado con Beautiful Soup")
    print(f"📋 Título de la página: {soup.find('title').text}")
    
    # PASO 5: Extraer las citas
    print("\n📚 EXTRAYENDO CITAS INSPIRADORAS")
    print("─" * 50)
    
    # Encontrar todos los contenedores de citas
    quotes_containers = soup.find_all('div', class_='quote')
    print(f"🔍 Encontradas {len(quotes_containers)} citas en la página")
    
    # Lista para almacenar las citas extraídas
    citas_extraidas = []
    
    for i, quote_container in enumerate(quotes_containers[:5], 1):  # Primeras 5 citas
        try:
            # Extraer componentes de cada cita
            texto_element = quote_container.find('span', class_='text')
            autor_element = quote_container.find('small', class_='author')
            tags_elements = quote_container.find_all('a', class_='tag')
            
            # Verificar que los elementos existen
            if texto_element and autor_element:
                texto = texto_element.text.strip()
                autor = autor_element.text.strip()
                tags = [tag.text.strip() for tag in tags_elements]
                
                # Crear diccionario con la información
                cita_info = {
                    'numero': i,
                    'texto': texto,
                    'autor': autor,
                    'tags': tags,
                    'num_palabras': len(texto.split()),
                    'fecha_extraccion': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
                }
                
                citas_extraidas.append(cita_info)
                
                # Mostrar información extraída
                print(f"\n📖 Cita #{i}:")
                print(f"   📝 Texto: {texto[:60]}{'...' if len(texto) > 60 else ''}")
                print(f"   ✍️  Autor: {autor}")
                print(f"   🏷️  Tags: {', '.join(tags) if tags else 'Sin tags'}")
                print(f"   📊 Palabras: {cita_info['num_palabras']}")
            else:
                print(f"⚠️ Cita #{i}: Algunos elementos no encontrados")
                
        except Exception as e:
            print(f"❌ Error procesando cita #{i}: {e}")
            continue
    
    # PASO 6: Estadísticas finales
    print("\n" + "═" * 60)
    print("📊 ESTADÍSTICAS FINALES")
    print("═" * 60)
    print(f"✅ Citas extraídas exitosamente: {len(citas_extraidas)}")
    if citas_extraidas:
        total_palabras = sum(cita['num_palabras'] for cita in citas_extraidas)
        promedio_palabras = total_palabras / len(citas_extraidas)
        todos_los_tags = []
        for cita in citas_extraidas:
            todos_los_tags.extend(cita['tags'])
        tags_unicos = set(todos_los_tags)
        
        print(f"📝 Total de palabras: {total_palabras}")
        print(f"📈 Promedio de palabras por cita: {promedio_palabras:.1f}")
        print(f"🏷️ Tags únicos encontrados: {len(tags_unicos)}")
        print(f"🎯 Tags más comunes: {', '.join(list(tags_unicos)[:5])}")
    
    return citas_extraidas

# ¡Ejecutar nuestro primer web scraping!
print("🚀 ¡VAMOS A HACER NUESTRO PRIMER WEB SCRAPING!\n")
resultados = mi_primer_scraping()

if resultados:
    print("\n🎉 ¡FELICIDADES! Has completado tu primer web scraping exitosamente.")
    print("🎓 Ahora tienes los fundamentos para scraping más avanzado.")
else:
    print("\n🤔 Algo salió mal, pero no te preocupes. ¡Es parte del aprendizaje!")

## 6. Beautiful Soup en Profundidad 🍲

Beautiful Soup es la biblioteca más popular para parsing HTML en Python. Es intuitiva, poderosa y perfecta para principiantes.

In [None]:
# Trabajando con nuestro HTML de ejemplo usando Beautiful Soup
from bs4 import BeautifulSoup

# Crear objeto BeautifulSoup con nuestro HTML de ejemplo
soup = BeautifulSoup(html_ejemplo, 'html.parser')

print("🔍 MÉTODOS ESENCIALES DE BEAUTIFUL SOUP\n")
print("═" * 70)

# 1. find() - El método más usado
print("\n1️⃣ Método find() - Encuentra el PRIMER elemento que coincida:")
print("─" * 50)

primer_h2 = soup.find('h2')
print(f"   🎯 Primer <h2>: '{primer_h2.text.strip()}'")

primer_parrafo_destacado = soup.find('p', class_='texto-destacado')
print(f"   🎨 Primer párrafo destacado: '{primer_parrafo_destacado.text.strip()}'")

elemento_con_id = soup.find(id='titulo-principal')
print(f"   🆔 Elemento con ID 'titulo-principal': '{elemento_con_id.text.strip()}'")

# 2. find_all() - Para múltiples elementos
print("\n2️⃣ Método find_all() - Encuentra TODOS los elementos que coincidan:")
print("─" * 50)

todos_los_h2 = soup.find_all('h2')
print(f"   📝 Total de <h2> encontrados: {len(todos_los_h2)}")
for i, h2 in enumerate(todos_los_h2, 1):
    print(f"      H2 #{i}: '{h2.text.strip()}'")

todos_los_parrafos = soup.find_all('p')
print(f"\n   📄 Total de párrafos <p>: {len(todos_los_parrafos)}")
for i, p in enumerate(todos_los_parrafos, 1):
    texto = p.text.strip()[:40] + '...' if len(p.text.strip()) > 40 else p.text.strip()
    print(f"      Párrafo #{i}: '{texto}'")

# 3. Búsqueda por múltiples clases
print("\n3️⃣ Búsqueda por clase específica:")
print("─" * 50)

elementos_contenido = soup.find_all(class_='contenido')
print(f"   🎨 Elementos con clase 'contenido': {len(elementos_contenido)}")
for i, elem in enumerate(elementos_contenido, 1):
    id_elem = elem.get('id', 'sin ID')
    print(f"      Elemento #{i}: <{elem.name}> con ID '{id_elem}'")

# 4. Búsqueda por atributos personalizados
print("\n4️⃣ Búsqueda por atributos data-* (muy útil):")
print("─" * 50)

articulos_con_data = soup.find_all('article', attrs={'data-tema': True})
print(f"   📊 Articles con atributo data-tema: {len(articulos_con_data)}")
for articulo in articulos_con_data:
    tema = articulo.get('data-tema')
    titulo = articulo.find('h3').text.strip()
    dificultad = articulo.find('span', class_='dificultad').text.strip()
    print(f"      📋 Tema: {tema} | Título: '{titulo}' | {dificultad}")

# 5. Navegación del árbol DOM
print("\n5️⃣ Navegación del árbol DOM (Relaciones familiares):")
print("─" * 50)

seccion1 = soup.find('section', id='seccion1')
print(f"   👨‍👧‍👦 Padre de seccion1: <{seccion1.parent.name}>")
print(f"   👶 Hijos directos de seccion1:")
for child in seccion1.children:
    if child.name:  # Solo elementos, no texto
        texto_preview = child.text.strip()[:30] + '...' if len(child.text.strip()) > 30 else child.text.strip()
        print(f"      • <{child.name}>: '{texto_preview}'")

# 6. Hermanos (elementos al mismo nivel)
primer_h2 = soup.find('h2')
siguiente_hermano = primer_h2.find_next_sibling()
if siguiente_hermano:
    print(f"   👫 Siguiente hermano de primer H2: <{siguiente_hermano.name}>")

# 7. Extracción de atributos específicos
print("\n6️⃣ Extracción de atributos específicos:")
print("─" * 50)

todos_los_enlaces = soup.find_all('a')
print(f"   🔗 Total de enlaces encontrados: {len(todos_los_enlaces)}")
for i, enlace in enumerate(todos_los_enlaces, 1):
    href = enlace.get('href', 'Sin href')
    texto = enlace.text.strip() or '[Sin texto]'
    target = enlace.get('target', 'Misma ventana')
    print(f"      Enlace #{i}: '{texto}' → {href} ({target})")

# 8. Búsqueda con expresiones regulares
print("\n7️⃣ Búsqueda avanzada con expresiones regulares:")
print("─" * 50)

import re
elementos_con_data = soup.find_all(attrs={'data-tema': re.compile(r'.*')})
print(f"   🔍 Elementos con cualquier atributo data-tema: {len(elementos_con_data)}")

clases_que_contienen_contenido = soup.find_all(class_=re.compile(r'contenido'))
print(f"   🎨 Elementos con clases que contienen 'contenido': {len(clases_que_contienen_contenido)}")

## 7. Selectores CSS: Tu Arma Secreta 🎨

Los selectores CSS son una forma muy poderosa y elegante de encontrar elementos. Son especialmente útiles cuando ya conoces CSS.

In [None]:
print("🎯 SELECTORES CSS: PRECISIÓN Y ELEGANCIA\n")
print("═" * 70)

# Ejemplos completos de selectores CSS
selectores_css = [
    # Selectores básicos
    ('h1', '🏷️ Seleccionar todos los elementos h1'),
    ('p', '📝 Todos los párrafos'),
    
    # Selectores por ID y clase
    ('#titulo-principal', '🆔 Elemento con ID específico'),
    ('.contenido', '🎨 Elementos con clase contenido'),
    ('.texto-destacado', '⭐ Elementos con clase texto-destacado'),
    
    # Selectores combinados
    ('section.contenido', '📦 Elementos section CON clase contenido'),
    ('h2.titulo-grande', '🎯 H2 con clase específica'),
    ('p.texto-destacado', '📝 Párrafos destacados'),
    
    # Selectores de descendientes
    ('nav ul li', '🗂️ Li dentro de ul dentro de nav'),
    ('section article h3', '📋 H3 dentro de article dentro de section'),
    ('div.conceptos-grid article', '🎲 Articles dentro de div con clase específica'),
    
    # Selectores de hijos directos
    ('section > h2', '👶 H2 hijos DIRECTOS de section'),
    ('ul > li', '📋 Li hijos directos de ul'),
    
    # Selectores de atributos
    ('a[href]', '🔗 Enlaces que tienen atributo href'),
    ('article[data-tema]', '📊 Articles con atributo data-tema'),
    ('article[data-tema="html"]', '🎯 Article con data-tema="html" exacto'),
    ('span[data-nivel^="fa"]', '🔍 Span con data-nivel que empiece con "fa"'),
    ('a[href*="scrape"]', '🌐 Enlaces cuyo href contenga "scrape"'),
    
    # Pseudo-selectores
    ('li:first-child', '🥇 Primer li hijo'),
    ('li:last-child', '🏁 Último li hijo'),
    ('tr:nth-child(2)', '2️⃣ Segunda fila de tabla'),
    
    # Selectores de hermanos
    ('h2 + p', '👫 Párrafo inmediatamente después de h2'),
    ('h2 ~ p', '👥 Todos los párrafos hermanos después de h2'),
    
    # Selectores múltiples
    ('h1, h2, h3', '📊 Todos los títulos principales'),
    ('.contenido, .importante', '🎨 Elementos con cualquiera de estas clases'),
]

# Ejecutar cada selector y mostrar resultados
for selector, descripcion in selectores_css:
    try:
        elementos = soup.select(selector)
        print(f"\n{descripcion}")
        print(f"   🎯 Selector: {selector}")
        print(f"   📊 Elementos encontrados: {len(elementos)}")
        
        if elementos:
            # Mostrar información del primer resultado
            primer_elemento = elementos[0]
            texto = primer_elemento.text.strip()[:50]
            if len(primer_elemento.text.strip()) > 50:
                texto += '...'
            
            # Información adicional del elemento
            tag_name = primer_elemento.name
            elem_id = primer_elemento.get('id', '')
            elem_class = primer_elemento.get('class', [])
            
            print(f"   🔍 Primer resultado: <{tag_name}>")
            if elem_id:
                print(f"      🆔 ID: {elem_id}")
            if elem_class:
                print(f"      🎨 Clases: {', '.join(elem_class)}")
            print(f"      📝 Texto: '{texto}'")
            
            # Si hay múltiples resultados, mostrar resumen
            if len(elementos) > 1:
                tags_encontrados = [elem.name for elem in elementos]
                from collections import Counter
                conteo_tags = Counter(tags_encontrados)
                print(f"      📈 Distribución: {dict(conteo_tags)}")
        else:
            print(f"   ❌ No se encontraron elementos")
    except Exception as e:
        print(f"   ⚠️ Error con selector '{selector}': {e}")

print("\n" + "═" * 70)
print("💡 CONSEJO: Los selectores CSS son muy poderosos y expresivos.")
print("💡 Practica combinándolos para encontrar exactamente lo que necesitas.")

## 8. Extracción de Datos de Tablas 📊

Las tablas HTML son una mina de oro para los web scrapers. Contienen datos estructurados que son perfectos para análisis.

In [None]:
print("📊 EXTRACCIÓN PROFESIONAL DE DATOS DE TABLA\n")
print("═" * 70)

# Encontrar la tabla en nuestro HTML
tabla = soup.find('table', class_='tabla-datos')

if tabla:
    print("✅ Tabla encontrada exitosamente\n")
    
    # PASO 1: Extraer encabezados de la tabla
    print("1️⃣ EXTRAYENDO ENCABEZADOS:")
    print("─" * 30)
    
    thead = tabla.find('thead')
    if thead:
        encabezados_elementos = thead.find_all('th')
        encabezados = [th.text.strip() for th in encabezados_elementos]
        print(f"   📋 Encabezados encontrados: {len(encabezados)}")
        print(f"   🏷️ Columnas: {' | '.join(encabezados)}")
    else:
        print("   ❌ No se encontró thead")
        encabezados = []
    
    # PASO 2: Extraer filas de datos
    print("\n2️⃣ EXTRAYENDO FILAS DE DATOS:")
    print("─" * 30)
    
    tbody = tabla.find('tbody')
    if tbody:
        filas_elementos = tbody.find_all('tr')
        print(f"   📊 Filas de datos encontradas: {len(filas_elementos)}")
        
        datos_tabla = []
        for i, fila_elemento in enumerate(filas_elementos, 1):
            # Extraer celdas de datos (td)
            celdas_elementos = fila_elemento.find_all('td')
            celdas_datos = [td.text.strip() for td in celdas_elementos]
            
            # Extraer atributos adicionales
            fila_id = fila_elemento.get('data-id', f'fila-{i}')
            
            # Almacenar datos de la fila
            fila_completa = {
                'id': fila_id,
                'datos': celdas_datos,
                'num_celdas': len(celdas_datos)
            }
            datos_tabla.append(fila_completa)
            
            # Mostrar fila procesada
            print(f"   📝 Fila {i} (ID: {fila_id}): {' | '.join(celdas_datos)}")
    else:
        print("   ❌ No se encontró tbody")
        datos_tabla = []
    
    # PASO 3: Convertir a estructura más útil (diccionarios)
    if encabezados and datos_tabla:
        print("\n3️⃣ CONVIRTIENDO A ESTRUCTURA DE DATOS:")
        print("─" * 30)
        
        datos_estructurados = []
        for fila in datos_tabla:
            if len(fila['datos']) == len(encabezados):
                # Crear diccionario combinando encabezados con datos
                fila_dict = dict(zip(encabezados, fila['datos']))
                fila_dict['_id'] = fila['id']  # Preservar ID original
                datos_estructurados.append(fila_dict)
                
                print(f"   📋 Registro: {fila_dict}")
            else:
                print(f"   ⚠️ Fila {fila['id']}: Desajuste de columnas ({len(fila['datos'])} vs {len(encabezados)})")
    
    # PASO 4: Análisis adicional de la tabla
    print("\n4️⃣ ANÁLISIS ADICIONAL DE LA TABLA:")
    print("─" * 30)
    
    # Extraer información de clases CSS en celdas
    celdas_con_clase = tabla.find_all('td', class_=True)
    if celdas_con_clase:
        print(f"   🎨 Celdas con clases CSS: {len(celdas_con_clase)}")
        for celda in celdas_con_clase:
            clases = celda.get('class', [])
            texto = celda.text.strip()
            print(f"      • '{texto}' → Clases: {', '.join(clases)}")
    
    # Estadísticas finales
    print("\n📈 ESTADÍSTICAS DE LA TABLA:")
    print("─" * 30)
    print(f"   🔢 Total de columnas: {len(encabezados)}")
    print(f"   📊 Total de filas de datos: {len(datos_tabla)}")
    print(f"   📋 Registros estructurados: {len(datos_estructurados) if 'datos_estructurados' in locals() else 0}")
    print(f"   🎨 Celdas con estilos: {len(celdas_con_clase)}")
    
    # BONUS: Crear DataFrame si pandas está disponible
    try:
        import pandas as pd
        if 'datos_estructurados' in locals() and datos_estructurados:
            df = pd.DataFrame(datos_estructurados)
            print("\n📊 DATAFRAME DE PANDAS CREADO:")
            print("─" * 30)
            print(df)
            print(f"\n   💾 Forma del DataFrame: {df.shape}")
            print(f"   📝 Columnas: {list(df.columns)}")
    except ImportError:
        print("\n💡 SUGERENCIA: Instala pandas con 'pip install pandas' para análisis avanzado")
    
else:
    print("❌ No se encontró ninguna tabla en el HTML")

print("\n" + "═" * 70)
print("🏆 ¡Extracción de tabla completada exitosamente!")

## 9. Manejo de Errores y Scraping Robusto 🛡️

Un buen web scraper debe manejar errores graciosamente. Las conexiones fallan, los sitios cambian, y los servidores se caen.

In [None]:
import time
import random
from urllib.parse import urljoin, urlparse
import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

class ScraperRobusto:
    """
    Clase para web scraping robusto con manejo de errores,
    reintentos, rate limiting y mejores prácticas.
    """
    
    def __init__(self, max_reintentos=3, delay_base=1, timeout=10):
        self.max_reintentos = max_reintentos
        self.delay_base = delay_base
        self.timeout = timeout
        self.session = self._crear_session_con_reintentos()
        
        # Headers realistas
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Language': 'es-ES,es;q=0.8,en-US;q=0.5,en;q=0.3',
            'Accept-Encoding': 'gzip, deflate',
            'Connection': 'keep-alive',
        }
        
        # Estadísticas
        self.stats = {
            'solicitudes_exitosas': 0,
            'errores_totales': 0,
            'reintentos_usados': 0,
            'tiempo_total': 0
        }
    
    def _crear_session_con_reintentos(self):
        """Crear sesión con estrategia de reintentos automáticos"""
        session = requests.Session()
        
        # Configurar estrategia de reintentos
        retry_strategy = Retry(
            total=self.max_reintentos,
            backoff_factor=1,
            status_forcelist=[429, 500, 502, 503, 504],
            allowed_methods=["HEAD", "GET", "OPTIONS"]
        )
        
        adapter = HTTPAdapter(max_retries=retry_strategy)
        session.mount("http://", adapter)
        session.mount("https://", adapter)
        
        return session
    
    def _delay_aleatorio(self, base_delay=None):
        """Implementar delay aleatorio para parecer más humano"""
        if base_delay is None:
            base_delay = self.delay_base
        
        # Delay aleatorio entre base_delay y base_delay * 2
        delay = random.uniform(base_delay, base_delay * 2)
        print(f"   ⏳ Esperando {delay:.2f} segundos...")
        time.sleep(delay)
    
    def scrape_url(self, url, parser='html.parser'):
        """
        Realizar scraping robusto de una URL
        
        Args:
            url: URL a scrapear
            parser: Parser de BeautifulSoup a usar
            
        Returns:
            BeautifulSoup object o None si falla
        """
        print(f"\n🚀 INICIANDO SCRAPING ROBUSTO")
        print(f"🎯 URL: {url}")
        print(f"⚙️ Parser: {parser}")
        print("─" * 50)
        
        inicio_tiempo = time.time()
        
        for intento in range(self.max_reintentos + 1):
            try:
                print(f"\n🔄 Intento {intento + 1} de {self.max_reintentos + 1}")
                
                # Hacer la solicitud
                response = self.session.get(
                    url, 
                    headers=self.headers, 
                    timeout=self.timeout
                )
                
                # Verificar código de estado
                response.raise_for_status()
                
                # Verificar que tenemos contenido HTML
                content_type = response.headers.get('content-type', '').lower()
                if 'text/html' not in content_type:
                    raise ValueError(f"Contenido no HTML: {content_type}")
                
                # Parsear con Beautiful Soup
                soup = BeautifulSoup(response.content, parser)
                
                # Validar que el HTML es válido
                if not soup.find():
                    raise ValueError("HTML vacío o inválido")
                
                # Éxito!
                tiempo_transcurrido = time.time() - inicio_tiempo
                self.stats['solicitudes_exitosas'] += 1
                self.stats['tiempo_total'] += tiempo_transcurrido
                
                print(f"✅ ¡Scraping exitoso!")
                print(f"📊 Código de estado: {response.status_code}")
                print(f"📄 Tamaño del HTML: {len(response.content):,} bytes")
                print(f"⏱️ Tiempo total: {tiempo_transcurrido:.2f} segundos")
                print(f"🌐 Servidor: {urlparse(url).netloc}")
                
                # Información adicional del HTML
                title = soup.find('title')
                if title:
                    print(f"📋 Título: {title.text.strip()}")
                
                return soup
                
            except requests.exceptions.Timeout:
                print(f"⏱️ Timeout en intento {intento + 1}")
                self.stats['errores_totales'] += 1
                
            except requests.exceptions.ConnectionError:
                print(f"🔌 Error de conexión en intento {intento + 1}")
                self.stats['errores_totales'] += 1
                
            except requests.exceptions.HTTPError as e:
                status_code = e.response.status_code
                print(f"❌ Error HTTP {status_code} en intento {intento + 1}")
                self.stats['errores_totales'] += 1
                
                # Algunos errores no valen la pena reintentar
                if status_code in [404, 403, 401]:
                    print(f"   🚫 Error {status_code} - No reintentando")
                    break
                    
            except ValueError as e:
                print(f"❗ Error de validación: {e}")
                self.stats['errores_totales'] += 1
                
            except Exception as e:
                print(f"💥 Error inesperado: {type(e).__name__}: {e}")
                self.stats['errores_totales'] += 1
            
            # Si no es el último intento, esperar antes de reintentar
            if intento < self.max_reintentos:
                self.stats['reintentos_usados'] += 1
                delay = self.delay_base * (2 ** intento)  # Backoff exponencial
                print(f"⏳ Esperando {delay} segundos antes del siguiente intento...")
                time.sleep(delay)
        
        # Si llegamos aquí, todos los intentos fallaron
        tiempo_total = time.time() - inicio_tiempo
        self.stats['tiempo_total'] += tiempo_total
        
        print(f"\n💥 SCRAPING FALLIDO después de {self.max_reintentos + 1} intentos")
        print(f"⏱️ Tiempo total gastado: {tiempo_total:.2f} segundos")
        return None
    
    def mostrar_estadisticas(self):
        """Mostrar estadísticas del scraper"""
        print("\n📊 ESTADÍSTICAS DEL SCRAPER ROBUSTO")
        print("═" * 50)
        print(f"✅ Solicitudes exitosas: {self.stats['solicitudes_exitosas']}")
        print(f"❌ Errores totales: {self.stats['errores_totales']}")
        print(f"🔄 Reintentos usados: {self.stats['reintentos_usados']}")
        print(f"⏱️ Tiempo total: {self.stats['tiempo_total']:.2f} segundos")
        
        if self.stats['solicitudes_exitosas'] > 0:
            promedio = self.stats['tiempo_total'] / self.stats['solicitudes_exitosas']
            print(f"📈 Tiempo promedio por solicitud: {promedio:.2f} segundos")

# Demostración del scraper robusto
print("🛡️ DEMOSTRACIÓN DE SCRAPER ROBUSTO\n")
print("═" * 60)

# Crear instancia del scraper
scraper = ScraperRobusto(max_reintentos=2, delay_base=0.5)

# URLs para probar
urls_prueba = [
    'http://quotes.toscrape.com/',  # URL válida
    'http://quotes.toscrape.com/page/999/',  # URL que dará 404
]

resultados = []
for url in urls_prueba:
    resultado = scraper.scrape_url(url)
    resultados.append({
        'url': url,
        'exitoso': resultado is not None,
        'soup': resultado
    })

# Mostrar estadísticas finales
scraper.mostrar_estadisticas()

# Resumen de resultados
print("\n📋 RESUMEN DE RESULTADOS")
print("═" * 50)
for i, resultado in enumerate(resultados, 1):
    status = "✅ Éxito" if resultado['exitoso'] else "❌ Fallo"
    print(f"{i}. {resultado['url']} → {status}")

print("\n🎯 El manejo robusto de errores es ESENCIAL para scrapers en producción.")

## 10. Ejercicio Práctico Avanzado: Tu Turno 💪

¡Hora de poner en práctica todo lo aprendido! Completa este ejercicio desafiante.

In [None]:
# EJERCICIO AVANZADO: Scraper de Noticias Tecnológicas
# Objetivo: Crear un scraper completo que extraiga múltiples tipos de datos

# HTML de ejemplo: Portal de noticias tech
html_noticias = """
<!DOCTYPE html>
<html lang="es">
<head>
    <title>TechNews - Las Últimas Noticias de Tecnología</title>
    <meta name="description" content="Portal de noticias tecnológicas">
</head>
<body>
    <header>
        <h1>🚀 TechNews</h1>
        <nav class="main-nav">
            <ul>
                <li><a href="/ia">Inteligencia Artificial</a></li>
                <li><a href="/web">Desarrollo Web</a></li>
                <li><a href="/mobile">Apps Móviles</a></li>
            </ul>
        </nav>
    </header>
    
    <main>
        <section id="noticias-destacadas">
            <h2>📰 Noticias Destacadas</h2>
            
            <article class="noticia destacada" data-id="1" data-categoria="ia">
                <header class="noticia-header">
                    <h3 class="titulo">ChatGPT revoluciona la programación en 2024</h3>
                    <div class="metadatos">
                        <span class="autor" data-autor-id="123">María García</span>
                        <time class="fecha" datetime="2024-01-15T10:30:00">15 de Enero, 2024</time>
                        <span class="categoria">🤖 IA</span>
                        <div class="estadisticas">
                            <span class="vistas" data-count="1250">1,250 vistas</span>
                            <span class="comentarios" data-count="45">45 comentarios</span>
                        </div>
                    </div>
                </header>
                <div class="contenido">
                    <p class="resumen">La nueva versión de ChatGPT introduce capacidades avanzadas para generar código de alta calidad, transformando la manera en que los desarrolladores trabajan.</p>
                    <div class="tags">
                        <span class="tag">IA</span>
                        <span class="tag">programación</span>
                        <span class="tag">productividad</span>
                    </div>
                </div>
                <footer class="noticia-footer">
                    <a href="/noticia/1" class="leer-mas">Leer artículo completo</a>
                    <div class="acciones">
                        <button class="like" data-likes="89">❤️ 89</button>
                        <button class="share">🔗 Compartir</button>
                    </div>
                </footer>
            </article>
            
            <article class="noticia" data-id="2" data-categoria="web">
                <header class="noticia-header">
                    <h3 class="titulo">React 19: Nuevas características que cambiarán todo</h3>
                    <div class="metadatos">
                        <span class="autor" data-autor-id="456">Carlos Ruiz</span>
                        <time class="fecha" datetime="2024-01-14T16:45:00">14 de Enero, 2024</time>
                        <span class="categoria">💻 Desarrollo Web</span>
                        <div class="estadisticas">
                            <span class="vistas" data-count="890">890 vistas</span>
                            <span class="comentarios" data-count="23">23 comentarios</span>
                        </div>
                    </div>
                </header>
                <div class="contenido">
                    <p class="resumen">React 19 incluye mejoras significativas en rendimiento y nuevas APIs que simplifican el desarrollo de aplicaciones complejas.</p>
                    <div class="tags">
                        <span class="tag">React</span>
                        <span class="tag">JavaScript</span>
                        <span class="tag">frontend</span>
                    </div>
                </div>
                <footer class="noticia-footer">
                    <a href="/noticia/2" class="leer-mas">Leer artículo completo</a>
                    <div class="acciones">
                        <button class="like" data-likes="156">❤️ 156</button>
                        <button class="share">🔗 Compartir</button>
                    </div>
                </footer>
            </article>
            
            <article class="noticia" data-id="3" data-categoria="mobile">
                <header class="noticia-header">
                    <h3 class="titulo">Flutter vs React Native: Comparativa 2024</h3>
                    <div class="metadatos">
                        <span class="autor" data-autor-id="789">Ana López</span>
                        <time class="fecha" datetime="2024-01-13T09:15:00">13 de Enero, 2024</time>
                        <span class="categoria">📱 Apps Móviles</span>
                        <div class="estadisticas">
                            <span class="vistas" data-count="2100">2,100 vistas</span>
                            <span class="comentarios" data-count="78">78 comentarios</span>
                        </div>
                    </div>
                </header>
                <div class="contenido">
                    <p class="resumen">Análisis completo de las dos tecnologías más populares para desarrollo móvil multiplataforma, con ejemplos prácticos y casos de uso.</p>
                    <div class="tags">
                        <span class="tag">Flutter</span>
                        <span class="tag">React Native</span>
                        <span class="tag">mobile</span>
                    </div>
                </div>
                <footer class="noticia-footer">
                    <a href="/noticia/3" class="leer-mas">Leer artículo completo</a>
                    <div class="acciones">
                        <button class="like" data-likes="203">❤️ 203</button>
                        <button class="share">🔗 Compartir</button>
                    </div>
                </footer>
            </article>
        </section>
        
        <aside id="trending">
            <h2>🔥 Trending Topics</h2>
            <ul class="trending-list">
                <li data-trend="1">#IA <span class="count">(1,250 menciones)</span></li>
                <li data-trend="2">#React19 <span class="count">(890 menciones)</span></li>
                <li data-trend="3">#Python <span class="count">(650 menciones)</span></li>
            </ul>
        </aside>
    </main>
    
    <footer>
        <p>&copy; 2024 TechNews - Mantente actualizado</p>
        <div class="stats-globales">
            <span>👥 15,430 lectores activos</span>
            <span>📰 1,250 artículos publicados</span>
        </div>
    </footer>
</body>
</html>
"""

print("🏋️ EJERCICIO AVANZADO: SCRAPER DE NOTICIAS TECH\n")
print("═" * 60)
print("Instrucciones:")
print("1. Extrae TODA la información de cada artículo")
print("2. Procesa los metadatos y estadísticas")
print("3. Extrae trending topics")
print("4. Calcula estadísticas avanzadas")
print("5. Estructura todo en formato JSON")

def scraper_noticias_avanzado(html):
    """
    Scraper avanzado para portal de noticias.
    Debe extraer TODA la información disponible.
    """
    # PARSEAR HTML
    soup = BeautifulSoup(html, 'html.parser')
    
    # ESTRUCTURA DE DATOS COMPLETA
    portal_data = {
        'info_portal': {},
        'navegacion': [],
        'noticias': [],
        'trending': [],
        'estadisticas_globales': {},
        'resumen_scraping': {}
    }
    
    # 1. INFORMACIÓN DEL PORTAL
    title = soup.find('title')
    description = soup.find('meta', attrs={'name': 'description'})
    
    portal_data['info_portal'] = {
        'titulo': title.text if title else 'Sin título',
        'descripcion': description.get('content', 'Sin descripción') if description else 'Sin descripción',
        'nombre_sitio': soup.find('h1').text if soup.find('h1') else 'Desconocido'
    }
    
    # 2. NAVEGACIÓN
    nav = soup.find('nav', class_='main-nav')
    if nav:
        enlaces_nav = nav.find_all('a')
        portal_data['navegacion'] = [
            {
                'texto': enlace.text.strip(),
                'href': enlace.get('href', ''),
                'seccion': enlace.get('href', '').replace('/', '')
            } for enlace in enlaces_nav
        ]
    
    # 3. EXTRACCIÓN COMPLETA DE NOTICIAS
    noticias = soup.find_all('article', class_='noticia')
    
    for noticia in noticias:
        # Datos básicos
        noticia_data = {
            'id': noticia.get('data-id'),
            'categoria': noticia.get('data-categoria'),
            'es_destacada': 'destacada' in noticia.get('class', [])
        }
        
        # Título
        titulo_elem = noticia.find('h3', class_='titulo')
        noticia_data['titulo'] = titulo_elem.text.strip() if titulo_elem else 'Sin título'
        
        # Metadatos del autor
        autor_elem = noticia.find('span', class_='autor')
        if autor_elem:
            noticia_data['autor'] = {
                'nombre': autor_elem.text.strip(),
                'id': autor_elem.get('data-autor-id')
            }
        
        # Fecha
        fecha_elem = noticia.find('time', class_='fecha')
        if fecha_elem:
            noticia_data['fecha'] = {
                'texto': fecha_elem.text.strip(),
                'datetime': fecha_elem.get('datetime'),
                'timestamp': fecha_elem.get('datetime')
            }
        
        # Categoría mostrada
        categoria_elem = noticia.find('span', class_='categoria')
        noticia_data['categoria_display'] = categoria_elem.text.strip() if categoria_elem else 'Sin categoría'
        
        # Estadísticas de engagement
        vistas_elem = noticia.find('span', class_='vistas')
        comentarios_elem = noticia.find('span', class_='comentarios')
        likes_elem = noticia.find('button', class_='like')
        
        noticia_data['estadisticas'] = {
            'vistas': {
                'texto': vistas_elem.text.strip() if vistas_elem else '0',
                'count': int(vistas_elem.get('data-count', 0)) if vistas_elem else 0
            },
            'comentarios': {
                'texto': comentarios_elem.text.strip() if comentarios_elem else '0',
                'count': int(comentarios_elem.get('data-count', 0)) if comentarios_elem else 0
            },
            'likes': {
                'texto': likes_elem.text.strip() if likes_elem else '0',
                'count': int(likes_elem.get('data-likes', 0)) if likes_elem else 0
            }
        }
        
        # Contenido
        resumen_elem = noticia.find('p', class_='resumen')
        noticia_data['resumen'] = resumen_elem.text.strip() if resumen_elem else 'Sin resumen'
        
        # Tags
        tags_container = noticia.find('div', class_='tags')
        if tags_container:
            tags = [tag.text.strip() for tag in tags_container.find_all('span', class_='tag')]
            noticia_data['tags'] = tags
        else:
            noticia_data['tags'] = []
        
        # Enlaces
        leer_mas = noticia.find('a', class_='leer-mas')
        noticia_data['enlace_completo'] = leer_mas.get('href') if leer_mas else None
        
        # Métricas calculadas
        noticia_data['metricas_calculadas'] = {
            'engagement_score': (
                noticia_data['estadisticas']['likes']['count'] * 3 +
                noticia_data['estadisticas']['comentarios']['count'] * 2 +
                noticia_data['estadisticas']['vistas']['count'] * 0.01
            ),
            'palabras_titulo': len(noticia_data['titulo'].split()),
            'palabras_resumen': len(noticia_data['resumen'].split()),
            'num_tags': len(noticia_data['tags'])
        }
        
        portal_data['noticias'].append(noticia_data)
    
    # 4. TRENDING TOPICS
    trending_list = soup.find('ul', class_='trending-list')
    if trending_list:
        trending_items = trending_list.find_all('li')
        for item in trending_items:
            trend_data = {
                'posicion': item.get('data-trend'),
                'hashtag': item.text.split('(')[0].strip(),
                'menciones_texto': item.find('span', class_='count').text.strip() if item.find('span', class_='count') else '0'
            }
            # Extraer número de menciones
            import re
            menciones_match = re.search(r'\((\d+[,\d]*)', trend_data['menciones_texto'])
            if menciones_match:
                menciones_num = menciones_match.group(1).replace(',', '')
                trend_data['menciones_count'] = int(menciones_num)
            else:
                trend_data['menciones_count'] = 0
            
            portal_data['trending'].append(trend_data)
    
    # 5. ESTADÍSTICAS GLOBALES
    stats_footer = soup.find('div', class_='stats-globales')
    if stats_footer:
        stats_text = stats_footer.text
        import re
        
        # Extraer números de las estadísticas
        lectores_match = re.search(r'(\d+[,\d]*) lectores', stats_text)
        articulos_match = re.search(r'(\d+[,\d]*) artículos', stats_text)
        
        portal_data['estadisticas_globales'] = {
            'lectores_activos': int(lectores_match.group(1).replace(',', '')) if lectores_match else 0,
            'articulos_publicados': int(articulos_match.group(1).replace(',', '')) if articulos_match else 0
        }
    
    # 6. RESUMEN DEL SCRAPING
    total_vistas = sum(n['estadisticas']['vistas']['count'] for n in portal_data['noticias'])
    total_likes = sum(n['estadisticas']['likes']['count'] for n in portal_data['noticias'])
    total_comentarios = sum(n['estadisticas']['comentarios']['count'] for n in portal_data['noticias'])
    
    todos_tags = []
    for noticia in portal_data['noticias']:
        todos_tags.extend(noticia['tags'])
    
    from collections import Counter
    tags_mas_comunes = Counter(todos_tags).most_common(5)
    
    portal_data['resumen_scraping'] = {
        'total_noticias': len(portal_data['noticias']),
        'noticias_destacadas': len([n for n in portal_data['noticias'] if n['es_destacada']]),
        'categorias_unicas': len(set(n['categoria'] for n in portal_data['noticias'])),
        'autores_unicos': len(set(n['autor']['nombre'] for n in portal_data['noticias'] if 'autor' in n)),
        'engagement_total': {
            'vistas': total_vistas,
            'likes': total_likes,
            'comentarios': total_comentarios
        },
        'tags_mas_populares': tags_mas_comunes,
        'fecha_scraping': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
    }
    
    return portal_data

# ¡EJECUTAR EL SCRAPER AVANZADO!
print("\n🚀 EJECUTANDO SCRAPER AVANZADO...\n")

datos_extraidos = scraper_noticias_avanzado(html_noticias)

# MOSTRAR RESULTADOS DE FORMA ORGANIZADA
import json

print("📊 RESULTADOS DEL SCRAPING AVANZADO")
print("═" * 60)

# Info del portal
print(f"\n🌐 PORTAL: {datos_extraidos['info_portal']['nombre_sitio']}")
print(f"📋 Título: {datos_extraidos['info_portal']['titulo']}")
print(f"📝 Descripción: {datos_extraidos['info_portal']['descripcion']}")

# Navegación
print(f"\n🧭 NAVEGACIÓN ({len(datos_extraidos['navegacion'])} secciones):")
for nav in datos_extraidos['navegacion']:
    print(f"   • {nav['texto']} → {nav['href']}")

# Noticias
print(f"\n📰 NOTICIAS EXTRAÍDAS ({len(datos_extraidos['noticias'])} artículos):")
for i, noticia in enumerate(datos_extraidos['noticias'], 1):
    destacada = "⭐" if noticia['es_destacada'] else "  "
    print(f"\n{destacada} {i}. {noticia['titulo']}")
    print(f"      👤 Autor: {noticia.get('autor', {}).get('nombre', 'Desconocido')}")
    print(f"      📅 Fecha: {noticia.get('fecha', {}).get('texto', 'Sin fecha')}")
    print(f"      🏷️ Categoría: {noticia['categoria_display']}")
    print(f"      📊 Engagement: {noticia['estadisticas']['vistas']['count']} vistas, {noticia['estadisticas']['likes']['count']} likes")
    print(f"      🏷️ Tags: {', '.join(noticia['tags']) if noticia['tags'] else 'Sin tags'}")
    print(f"      💯 Score: {noticia['metricas_calculadas']['engagement_score']:.1f}")

# Trending
print(f"\n🔥 TRENDING TOPICS ({len(datos_extraidos['trending'])} temas):")
for trend in datos_extraidos['trending']:
    print(f"   {trend['posicion']}. {trend['hashtag']} - {trend['menciones_count']:,} menciones")

# Estadísticas globales
print(f"\n📈 ESTADÍSTICAS GLOBALES:")
print(f"   👥 Lectores activos: {datos_extraidos['estadisticas_globales']['lectores_activos']:,}")
print(f"   📰 Artículos publicados: {datos_extraidos['estadisticas_globales']['articulos_publicados']:,}")

# Resumen del scraping
resumen = datos_extraidos['resumen_scraping']
print(f"\n📋 RESUMEN DEL SCRAPING:")
print(f"   📰 Total de noticias: {resumen['total_noticias']}")
print(f"   ⭐ Noticias destacadas: {resumen['noticias_destacadas']}")
print(f"   🗂️ Categorías únicas: {resumen['categorias_unicas']}")
print(f"   ✍️ Autores únicos: {resumen['autores_unicos']}")
print(f"   👀 Total de vistas: {resumen['engagement_total']['vistas']:,}")
print(f"   ❤️ Total de likes: {resumen['engagement_total']['likes']:,}")
print(f"   💬 Total de comentarios: {resumen['engagement_total']['comentarios']:,}")
print(f"   🏷️ Tags más populares: {', '.join([f'{tag} ({count})' for tag, count in resumen['tags_mas_populares']])}")

print("\n" + "═" * 60)
print("🎉 ¡EJERCICIO AVANZADO COMPLETADO EXITOSAMENTE!")
print("🏆 Has demostrado dominio avanzado de web scraping.")
print(f"📅 Scraping realizado: {resumen['fecha_scraping']}")

# Guardar en JSON para análisis posterior
print("\n💾 Datos también disponibles en formato JSON para análisis posterior.")

## 11. Herramientas del Navegador para Web Scraping 🛠️

Las herramientas de desarrollo del navegador son tu **mejor amigo** para el web scraping. Te permiten inspeccionar, probar y entender la estructura de cualquier sitio web.

### 🚀 Accesos Rápidos a DevTools

| Acción | Windows/Linux | Mac | Descripción |
|--------|---------------|-----|-------------|
| **Abrir DevTools** | `F12` o `Ctrl+Shift+I` | `Cmd+Option+I` | Abre las herramientas de desarrollador |
| **Inspeccionar elemento** | `Ctrl+Shift+C` | `Cmd+Shift+C` | Activa el selector de elementos |
| **Consola JavaScript** | `Ctrl+Shift+J` | `Cmd+Option+J` | Abre directamente la consola |
| **Ver código fuente** | `Ctrl+U` | `Cmd+U` | Muestra el HTML completo |
| **Buscar en página** | `Ctrl+F` | `Cmd+F` | Buscar texto en la página actual |

### 🕵️ Técnicas de Inspección Avanzadas

#### 1. **Inspector de Elementos**
```
• Click derecho en cualquier elemento → "Inspeccionar"
• Navega por la jerarquía HTML
• Ve estilos CSS aplicados en tiempo real
• Observa cambios dinámicos en el DOM
```

#### 2. **Consola JavaScript para Testing**
```javascript
// Probar selectores CSS
document.querySelectorAll('.clase')
document.querySelector('#mi-id')

// Probar XPath
$x('//div[@class="ejemplo"]')
$x('//a[contains(@href, "scrape")]')

// Obtener texto de elementos
document.querySelector('h1').textContent

// Ver atributos
document.querySelector('img').getAttribute('src')
```

#### 3. **Pestaña Network (Red)**
```
✅ Ve todas las solicitudes HTTP
✅ Examina headers y cookies
✅ Identifica APIs y endpoints
✅ Analiza tiempos de respuesta
✅ Detecta llamadas AJAX/fetch
```

#### 4. **Copiar Selectores Automáticamente**
```
• Click derecho en elemento en Inspector
• Copy → Copy selector (CSS)
• Copy → Copy XPath
• Copy → Copy full XPath
```

### 🎯 Trucos Profesionales

#### **Buscar en todo el HTML**
- `Ctrl+F` en la pestaña Elements
- Busca por: texto, selectores CSS, XPath
- Ejemplo: buscar `class="noticia"` encuentra todos los elementos con esa clase

#### **Variables especiales en consola**
- `$0`: Último elemento seleccionado en Inspector
- `$1`, `$2`, etc.: Elementos seleccionados anteriormente
- `$$('selector')`: Equivale a `querySelectorAll`
- `$('selector')`: Equivale a `querySelector`

#### **Monitorear cambios dinámicos**
- Click derecho en elemento → "Break on..." → "Subtree modifications"
- Pausa cuando JavaScript modifica el contenido
- Útil para sitios con contenido que cambia dinámicamente

### 🔍 Estrategias de Investigación

#### **Para encontrar el selector perfecto:**
1. **Inspecciona** el elemento que te interesa
2. **Mira los atributos** disponibles (`id`, `class`, `data-*`)
3. **Prueba selectores** en la consola
4. **Verifica unicidad** - ¿selecciona solo lo que quieres?
5. **Considera la estabilidad** - ¿seguirá funcionando si el diseño cambia?

#### **Para sitios dinámicos:**
1. **Network tab** para ver llamadas AJAX
2. **Buscar APIs JSON** en lugar de scraping HTML
3. **Observar patrones** en URLs de datos
4. **Identificar headers necesarios** para las peticiones

### ⚡ Workflow Eficiente

```
1. 🌐 Abrir página objetivo
2. 🔍 Inspeccionar elementos de interés
3. 📝 Anotar selectores y estructura
4. 🧪 Probar selectores en consola
5. 📊 Verificar en Network si hay APIs
6. 💻 Implementar en Python
7. 🐛 Debuggear y refinar
```

### 💡 Consejos Pro

- **Usa el modo Responsive** para ver cómo cambia el HTML en móvil
- **Simula conexiones lentas** en Network para probar timeouts
- **Deshabilita JavaScript** para ver el HTML básico
- **Usa Screenshots** para documentar elementos importantes
- **Guarda HAR files** para analizar tráfico de red offline

## 12. Resumen y Próximos Pasos 🎯

### 🎓 Lo que has dominado en esta lección:

#### ✅ **Conceptos Fundamentales**
- ✨ Qué es el web scraping y sus aplicaciones en el mundo real
- 🏗️ Estructura completa de HTML y el DOM
- 🎯 Elementos y atributos HTML más importantes para scraping
- 🌳 Navegación por la jerarquía del DOM

#### ✅ **Habilidades Técnicas Avanzadas**
- 🌐 Realizar solicitudes HTTP robustas con `requests`
- 🍲 Dominio completo de Beautiful Soup
- 🎨 Selectores CSS avanzados y precisos
- 📊 Extracción profesional de datos de tablas
- 🛡️ Manejo de errores y scraping robusto
- 🧪 Testing y debugging con DevTools

#### ✅ **Herramientas Profesionales**
- 📦 Beautiful Soup para parsing HTML/XML
- 🌐 Requests para comunicación HTTP
- 🛠️ DevTools del navegador para investigación
- 🔍 Técnicas de inspección y análisis

#### ✅ **Mejores Prácticas**
- 🤖 Headers realistas y User-Agents
- ⏱️ Rate limiting y delays apropiados
- 🔄 Estrategias de reintentos
- 📊 Estructuración de datos extraídos

### 🚀 Próxima Lección: HTTP Requests y Beautiful Soup Avanzado

En la **Lección 2** profundizaremos en:

#### 🌐 **HTTP Avanzado**
- 📋 Headers HTTP personalizados y cookies
- 🔐 Sesiones persistentes y autenticación
- 📤 POST requests y manejo de formularios
- 🔄 Redirects y códigos de estado

#### 🍲 **Beautiful Soup Profesional**
- 🎯 Técnicas de parsing avanzadas
- 🔍 Búsquedas complejas con expresiones regulares
- 🌳 Navegación avanzada del árbol DOM
- ⚡ Optimización de rendimiento

#### 📄 **Manejo de Contenido Complejo**
- 📋 Paginación y navegación entre páginas
- 🔗 Crawling y seguimiento de enlaces
- 📊 Procesamiento de diferentes formatos
- 🛡️ Detección y manejo de anti-scraping

### 💪 Desafíos para Practicar

#### 🥉 **Nivel Básico**
1. Scraping de un blog personal simple
2. Extracción de productos de una tienda online básica
3. Recopilación de noticias de un portal sencillo

#### 🥈 **Nivel Intermedio**
1. Comparador de precios entre múltiples tiendas
2. Agregador de ofertas de empleo
3. Monitor de cambios en páginas web

#### 🥇 **Nivel Avanzado**
1. Scraper de redes sociales (datos públicos)
2. Análisis de sentimientos de reseñas de productos
3. Sistema de alertas en tiempo real

### 📚 Recursos para Seguir Aprendiendo

#### 📖 **Documentación Oficial**
- [Beautiful Soup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
- [Requests Documentation](https://docs.python-requests.org/)
- [Python HTML Parsing Libraries](https://docs.python.org/3/library/html.parser.html)

#### 🌐 **Sitios de Práctica**
- [Quotes to Scrape](http://quotes.toscrape.com/) - Perfecto para principiantes
- [Books to Scrape](http://books.toscrape.com/) - Catálogo con paginación
- [Scrape This Site](https://scrapethissite.com/) - Desafíos progresivos

#### 🛠️ **Herramientas Útiles**
- [XPath Tester](https://www.freeformatter.com/xpath-tester.html)
- [CSS Selector Tester](https://www.w3schools.com/cssref/trysel.asp)
- [Regex101](https://regex101.com/) - Testing de expresiones regulares
- [Postman](https://www.postman.com/) - Testing de APIs

---

### 🏆 ¡Felicidades por Completar la Lección 1!

Has dado el primer paso importante en tu viaje hacia el dominio del web scraping. Los fundamentos que has aprendido aquí son la base sólida sobre la cual construirás habilidades más avanzadas.

#### 🎯 **Recuerda siempre:**
- 🤝 **Sé respetuoso** con los sitios web y sus recursos
- 📜 **Lee los términos de servicio** antes de hacer scraping
- 🤖 **Revisa robots.txt** para conocer las reglas
- ⏱️ **Implementa delays** apropiados entre requests
- 🛡️ **Maneja errores** graciosamente

#### 🚀 **Tu próxima misión:**
1. 💻 **Practica** con los ejercicios de esta lección
2. 🔍 **Explora** sitios web simples por tu cuenta
3. 🧪 **Experimenta** con diferentes selectores
4. 📝 **Documenta** tus hallazgos y aprendizajes
5. ➡️ **Continúa** con la Lección 2 cuando te sientas cómodo

**¡El mundo de los datos web te está esperando! 🌟**