# Selenium para Ciencia de Datos

#### Borja Barber Lead Instructor DS

##  √çndice
1. [Introducci√≥n](#introduccion)
2. [Instalaci√≥n y Configuraci√≥n](#instalacion)
3. [Conceptos B√°sicos](#conceptos-basicos)
4. [Navegaci√≥n Web](#navegacion)
5. [Localizaci√≥n de Elementos](#localizacion)
6. [Extracci√≥n de Datos](#extraccion)
7. [Web Scraping Avanzado](#scraping-avanzado)
8. [Caso Pr√°ctico Completo](#caso-practico)
9. [Mejores Pr√°cticas](#mejores-practicas)

---

## 1. Introducci√≥n <a name="introduccion"></a>

### ¬øQu√© es Selenium?

Selenium es una herramienta de automatizaci√≥n de navegadores web que permite:
- **Automatizar** interacciones con p√°ginas web
- **Extraer datos** de sitios web din√°micos (JavaScript)
- **Simular** comportamiento humano (clicks, scroll, formularios)
- **Recopilar datos** para an√°lisis y ciencia de datos

### ¬øPor qu√© usar Selenium en Ciencia de Datos?

- Muchas p√°ginas web modernas cargan datos con JavaScript (AJAX)
- BeautifulSoup y requests no pueden ejecutar JavaScript
- Selenium permite acceder a datos que se cargan din√°micamente
- Ideal para crear datasets personalizados mediante web scraping

---

## 2. Instalaci√≥n y Configuraci√≥n <a name="instalacion"></a>

### Paso 1: Instalar Selenium

Ejecuta el siguiente comando para instalar Selenium:

In [None]:
# ========================================
# CELDA 1: INSTALACI√ìN DE SELENIUM
# ========================================

# El s√≠mbolo ! ejecuta comandos del sistema operativo desde Jupyter
# pip es el gestor de paquetes de Python que instala librer√≠as

# Instalar Selenium - La librer√≠a principal para automatizar navegadores
# Selenium permite controlar Chrome, Firefox, Safari, etc. mediante c√≥digo Python
!pip install selenium

# Instalar Pandas - Para manipular y analizar datos en formato tabular (DataFrames)
# Pandas es esencial en ciencia de datos para trabajar con datos estructurados
!pip install pandas

# Instalar NumPy - Para operaciones num√©ricas y arrays
# NumPy es la base del ecosistema cient√≠fico de Python
!pip install numpy

# NOTA PEDAG√ìGICA:
# Estas instalaciones solo necesitan ejecutarse UNA VEZ en tu entorno.
# Si ya las tienes instaladas, ver√°s un mensaje indicando que ya existen.

### Paso 2: Instalar WebDriver Manager

WebDriver Manager descarga autom√°ticamente el driver del navegador:

**‚ö†Ô∏è NOTA IMPORTANTE SOBRE SELECTORES:**
Los sitios web cambian frecuentemente su estructura HTML. Si encuentras errores como `NoSuchElementException`, significa que el selector CSS o XPath ya no es v√°lido. En el tutorial aprender√°s c√≥mo:
- Usar try-except para manejar estos casos
- Tener selectores alternativos como plan B
- Verificar selectores usando las DevTools del navegador (F12)

In [None]:
# ========================================
# CELDA 2: INSTALACI√ìN DE WEBDRIVER MANAGER
# ========================================

# WebDriver Manager es una herramienta que SIMPLIFICA enormemente trabajar con Selenium
# 
# ¬øQU√â PROBLEMA RESUELVE?
# Antes, ten√≠as que:
# 1. Descargar manualmente el driver del navegador (chromedriver.exe)
# 2. Colocarlo en una ruta espec√≠fica
# 3. Actualizar manualmente cada vez que el navegador se actualiza
#
# WebDriver Manager hace todo esto AUTOM√ÅTICAMENTE por ti
# Detecta tu navegador, descarga el driver correcto y lo gestiona

!pip install webdriver-manager

# VENTAJAS PARA CIENCIA DE DATOS:
# - C√≥digo portable: funciona en cualquier m√°quina sin configuraci√≥n manual
# - Siempre actualizado: descarga la versi√≥n compatible con tu navegador
# - Menos errores: evita problemas de incompatibilidad de versiones

### Paso 3: Importar librer√≠as necesarias

In [None]:
# ========================================
# CELDA 3: IMPORTAR LIBRER√çAS NECESARIAS
# ========================================

# --- IMPORTACIONES DE SELENIUM ---

# webdriver: El m√≥dulo principal que controla el navegador
from selenium import webdriver

# By: Clase que define C√ìMO buscar elementos en la p√°gina
# Ejemplo: By.ID, By.CSS_SELECTOR, By.XPATH, etc.
from selenium.webdriver.common.by import By

# Keys: Simula teclas del teclado (Enter, Tab, flechas, etc.)
# √ötil para enviar formularios o navegar con teclado
from selenium.webdriver.common.keys import Keys

# WebDriverWait: Implementa ESPERAS INTELIGENTES
# Espera hasta que se cumpla una condici√≥n (elemento visible, clickeable, etc.)
from selenium.webdriver.support.ui import WebDriverWait

# expected_conditions (EC): Condiciones predefinidas para usar con WebDriverWait
# Ejemplo: element_to_be_clickable, presence_of_element_located, etc.
from selenium.webdriver.support import expected_conditions as EC

# Service: Maneja el servicio del driver del navegador
from selenium.webdriver.chrome.service import Service

# ChromeDriverManager: Descarga y configura autom√°ticamente el driver de Chrome
from webdriver_manager.chrome import ChromeDriverManager

# --- IMPORTACIONES PARA CIENCIA DE DATOS ---

# pandas: Manipulaci√≥n de datos en formato tabular (DataFrames)
# Lo usaremos para almacenar y procesar los datos scrapeados
import pandas as pd

# numpy: Operaciones num√©ricas y arrays
# Complementa pandas para an√°lisis num√©rico
import numpy as np

# time: Control de tiempos y pausas
# √ötil para dar tiempo a que las p√°ginas carguen completamente
import time

print("Todas las librer√≠as importadas correctamente")

# CONSEJO PEDAG√ìGICO:
# Si alguna importaci√≥n falla, significa que la librer√≠a no est√° instalada.
# Vuelve a las celdas anteriores y ejecuta los pip install correspondientes.

---

## 3. Conceptos B√°sicos <a name="conceptos-basicos"></a>

### 3.1 Inicializar el navegador

El primer paso es crear una instancia del navegador:

In [None]:
# ========================================
# CELDA 4: INICIALIZAR EL NAVEGADOR CHROME
# ========================================

# PASO 1: Configurar las opciones de Chrome
# ChromeOptions() permite personalizar c√≥mo se ejecuta el navegador
options = webdriver.ChromeOptions()

# OPCI√ìN 1: Modo headless (sin interfaz gr√°fica)
# Descomenta la siguiente l√≠nea si quieres que el navegador se ejecute en segundo plano
# √ötil para servidores o cuando no necesitas ver el navegador
# options.add_argument('--headless')

# OPCI√ìN 2: Desactivar detecci√≥n de automatizaci√≥n
# Algunos sitios detectan que Selenium est√° controlando el navegador
# Esta opci√≥n ayuda a que el navegador parezca "normal"
options.add_argument('--disable-blink-features=AutomationControlled')

# OPCI√ìN 3: Iniciar maximizado
# Abre el navegador en pantalla completa
# √ötil para asegurar que todos los elementos sean visibles
options.add_argument('--start-maximized')

# PASO 2: Inicializar el driver (el controlador del navegador)
# Esto ABRE el navegador Chrome y te da control sobre √©l
driver = webdriver.Chrome(
    # Service: Configura el servicio del driver
    # ChromeDriverManager().install(): Descarga autom√°ticamente el driver correcto
    service=Service(ChromeDriverManager().install()),
    
    # Aplica las opciones que configuramos arriba
    options=options
)

print("‚úÖ Navegador Chrome iniciado correctamente")

# QU√â EST√Å PASANDO EN SEGUNDO PLANO:
# 1. ChromeDriverManager verifica tu versi√≥n de Chrome
# 2. Descarga el chromedriver compatible (si no lo tiene)
# 3. Chrome se abre y queda bajo control de Python
# 4. Ahora puedes enviar comandos al navegador usando 'driver'

# IMPORTANTE PARA LA CLASE:
# - 'driver' es tu ROBOT que controla el navegador
# - Todo lo que hagas con Selenium usa este objeto 'driver'
# - Ejemplo: driver.get(), driver.find_element(), etc.

### 3.2 Abrir una p√°gina web

In [None]:
# ========================================
# CELDA 5: NAVEGAR A UNA P√ÅGINA WEB
# ========================================

# PASO 1: Definir la URL que queremos visitar
# En este caso, vamos a Wikipedia (sitio perfecto para practicar web scraping)
url = "https://www.wikipedia.org"

# PASO 2: Usar driver.get() para navegar a la URL
# Esto es equivalente a escribir la URL en la barra de direcciones y presionar Enter
driver.get(url)

# QU√â HACE driver.get():
# 1. Navega a la URL especificada
# 2. Espera a que la p√°gina cargue completamente (carga inicial del HTML)
# 3. Devuelve el control una vez cargada

# PASO 3: Obtener el t√≠tulo de la p√°gina
# La propiedad driver.title devuelve el contenido de la etiqueta <title> del HTML
# Esto es √∫til para verificar que estamos en la p√°gina correcta
print(f"T√≠tulo de la p√°gina: {driver.title}")

# PASO 4: Obtener la URL actual
# driver.current_url devuelve la URL en la que estamos ahora
# Puede ser diferente a la URL original si hubo redirecciones
print(f"URL actual: {driver.current_url}")

# APLICACI√ìN EN CIENCIA DE DATOS:
# Verificar el t√≠tulo y URL nos ayuda a:
# - Confirmar que la navegaci√≥n fue exitosa
# - Detectar redirecciones inesperadas
# - Validar que estamos en la p√°gina correcta antes de extraer datos
# - Debugging: si algo falla, sabemos d√≥nde estamos realmente

### 3.3 Cerrar el navegador

**Importante:** Siempre cierra el navegador al terminar para liberar recursos.

In [None]:
# Cerrar la pesta√±a actual
# driver.close()

# Cerrar el navegador completamente
# driver.quit()

print("üí° No ejecutes esto a√∫n, lo usaremos al final")

---

## 4. Navegaci√≥n Web <a name="navegacion"></a>

### 4.1 Operaciones b√°sicas de navegaci√≥n

In [None]:
# Reiniciar el driver si es necesario
driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=options
)

# Navegar a diferentes p√°ginas
driver.get("https://www.wikipedia.org")
time.sleep(2)

driver.get("https://www.python.org")
time.sleep(2)

# Retroceder
driver.back()
time.sleep(1)
print(f"Despu√©s de retroceder: {driver.title}")

# Avanzar
driver.forward()
time.sleep(1)
print(f"Despu√©s de avanzar: {driver.title}")

# Refrescar la p√°gina
driver.refresh()
print("P√°gina refrescada")

### 4.2 Capturas de pantalla

In [None]:
# Tomar una captura de pantalla
driver.get("https://www.wikipedia.org")
time.sleep(2)

driver.save_screenshot("captura_wikipedia.png")
print("‚úÖ Captura de pantalla guardada como 'captura_wikipedia.png'")

---

## 5. Localizaci√≥n de Elementos <a name="localizacion"></a>

### 5.1 M√©todos de localizaci√≥n

Selenium ofrece varias formas de encontrar elementos en una p√°gina:

| M√©todo | Descripci√≥n | Ejemplo |
|--------|-------------|----------|
| `By.ID` | Por el atributo id | `driver.find_element(By.ID, "search")` |
| `By.NAME` | Por el atributo name | `driver.find_element(By.NAME, "q")` |
| `By.CLASS_NAME` | Por la clase CSS | `driver.find_element(By.CLASS_NAME, "btn")` |
| `By.TAG_NAME` | Por la etiqueta HTML | `driver.find_element(By.TAG_NAME, "h1")` |
| `By.CSS_SELECTOR` | Por selector CSS | `driver.find_element(By.CSS_SELECTOR, "div.container")` |
| `By.XPATH` | Por expresi√≥n XPath | `driver.find_element(By.XPATH, "//div[@id='content']")` |

### 5.2 Ejemplos pr√°cticos de localizaci√≥n

In [None]:
# ========================================
# CELDA 6: LOCALIZAR ELEMENTOS EN LA P√ÅGINA
# ========================================

# CONTEXTO: Estamos en la p√°gina principal de Wikipedia
# Ahora vamos a aprender a ENCONTRAR elementos espec√≠ficos en la p√°gina

# Navegar a Wikipedia
driver.get("https://www.wikipedia.org")
time.sleep(2)  # Pausa de 2 segundos para asegurar que la p√°gina carg√≥

# --- EJEMPLO 1: Localizar por ID ---
# El ID es √∫nico en toda la p√°gina, es la forma M√ÅS R√ÅPIDA y CONFIABLE
# Equivale a: document.getElementById("searchInput") en JavaScript

search_box = driver.find_element(By.ID, "searchInput")
print(f"‚úÖ Caja de b√∫squeda encontrada: {search_box.tag_name}")

# EXPLICACI√ìN:
# - find_element() busca UN SOLO elemento (el primero que encuentre)
# - By.ID indica que buscaremos por el atributo 'id' del HTML
# - "searchInput" es el valor del id que buscamos: <input id="searchInput">
# - tag_name nos dice qu√© tipo de elemento HTML es (probablemente 'input')


# --- EJEMPLO 2: Localizar por CSS Selector ---
# Los selectores CSS son muy potentes y flexibles
# Si conoces CSS, este m√©todo te resultar√° familiar

try:
    # Intentar varios selectores que Wikipedia usa
    logo = driver.find_element(By.CSS_SELECTOR, ".central-featured")
    print(f"‚úÖ Secci√≥n central encontrada")
except:
    print("‚ö†Ô∏è Selector espec√≠fico no encontrado (la estructura puede variar)")

# EXPLICACI√ìN:
# - ".central-featured" busca elementos con la clase CSS "central-featured"
# - El punto (.) indica que es una clase
# - CSS Selector puede ser muy espec√≠fico: "div.clase #id > p"
# - IMPORTANTE: Los selectores pueden cambiar si el sitio actualiza su dise√±o


# --- EJEMPLO 3: Localizar M√öLTIPLES elementos ---
# find_elements() (plural) encuentra TODOS los elementos que coinciden

# Buscar todos los enlaces en la p√°gina principal
language_links = driver.find_elements(By.CSS_SELECTOR, "a.link-box")
if len(language_links) > 0:
    print(f"‚úÖ Se encontraron {len(language_links)} enlaces de idiomas")
else:
    # Plan B: buscar todos los enlaces en general
    all_links = driver.find_elements(By.TAG_NAME, "a")
    print(f"‚úÖ Se encontraron {len(all_links)} enlaces en total en la p√°gina")

# DIFERENCIA CLAVE:
# - find_element()  -> Devuelve 1 elemento (o error si no existe)
# - find_elements() -> Devuelve una LISTA de elementos (puede ser vac√≠a)

# APLICACI√ìN EN CIENCIA DE DATOS:
# - Usar find_elements() para extraer m√∫ltiples productos, art√≠culos, precios, etc.
# - Luego iterar sobre la lista para procesar cada elemento
# - Ejemplo: extraer todos los t√≠tulos de noticias, todos los precios de productos

# CONSEJO PEDAG√ìGICO:
# Para encontrar el selector correcto:
# 1. Abre las DevTools del navegador (F12)
# 2. Click en el inspector de elementos (icono de flecha)
# 3. Click en el elemento que quieres
# 4. Click derecho en el HTML -> Copy -> Copy selector

# IMPORTANTE: Siempre usa try-except cuando busques elementos espec√≠ficos
# porque los sitios web cambian frecuentemente su estructura

### 5.3 Interactuar con elementos

In [None]:
# ========================================
# CELDA 7: INTERACTUAR CON ELEMENTOS (ESCRIBIR)
# ========================================

# Una vez que ENCONTRAMOS un elemento, podemos INTERACTUAR con √©l
# Las interacciones m√°s comunes son: escribir texto, hacer click, enviar formularios

# PASO 1: Localizar el campo de b√∫squeda
search_box = driver.find_element(By.ID, "searchInput")

# PASO 2: Limpiar el campo (por si tiene texto previo)
search_box.clear()
# clear() vac√≠a completamente el campo de texto
# Buena pr√°ctica: siempre limpiar antes de escribir

# PASO 3: Escribir texto en el campo
search_box.send_keys("Python programming")
print("‚úÖ Texto ingresado en la b√∫squeda")

# EXPLICACI√ìN de send_keys():
# - Simula que un usuario escribe en el teclado
# - Escribe car√°cter por car√°cter (como un humano)
# - Puede recibir texto normal o teclas especiales (Keys.ENTER, Keys.TAB, etc.)
# - Es m√°s realista que simplemente cambiar el valor del campo


# PASO 4: Enviar el formulario presionando Enter
search_box.send_keys(Keys.RETURN)
# Keys.RETURN simula presionar la tecla Enter
# Esto env√≠a el formulario de b√∫squeda

time.sleep(3)  # Esperar 3 segundos para que cargue la p√°gina de resultados

print(f"Navegado a: {driver.title}")

# ALTERNATIVAS para enviar formularios:
# 1. send_keys(Keys.RETURN) - Presionar Enter (lo que usamos aqu√≠)
# 2. elemento.submit() - Enviar el formulario directamente
# 3. Hacer click en el bot√≥n de b√∫squeda

# APLICACI√ìN EN CIENCIA DE DATOS:
# - Automatizar b√∫squedas: buscar m√∫ltiples t√©rminos y recopilar resultados
# - Rellenar formularios: extraer datos de sitios que requieren login
# - Filtrar datos: seleccionar fechas, categor√≠as, etc. antes de extraer
# 
# EJEMPLO DE USO REAL:
# for termino in ["Python", "Machine Learning", "Data Science"]:
#     search_box.clear()
#     search_box.send_keys(termino)
#     search_box.send_keys(Keys.RETURN)
#     # ... extraer resultados ...
#     # ... guardar en DataFrame ...

### 5.4 Hacer click en elementos

In [None]:
# Regresar a la p√°gina principal
driver.get("https://www.wikipedia.org")
time.sleep(2)

# Encontrar y hacer click en el enlace de espa√±ol
try:
    # M√©todo 1: Intentar por ID espec√≠fico
    spanish_link = driver.find_element(By.XPATH, "//a[@id='js-link-box-es']")
    spanish_link.click()
    time.sleep(2)
    print(f"‚úÖ Click exitoso. Ahora en: {driver.title}")
except:
    try:
        # M√©todo 2: Buscar el enlace que contiene "Espa√±ol"
        spanish_link = driver.find_element(By.XPATH, "//a[contains(@href, 'es.wikipedia.org')]")
        spanish_link.click()
        time.sleep(2)
        print(f"‚úÖ Click exitoso usando m√©todo alternativo. Ahora en: {driver.title}")
    except Exception as e:
        print(f"‚ö†Ô∏è No se pudo hacer click en el enlace: {e}")
        print("Esto puede pasar si Wikipedia cambi√≥ su estructura HTML")

# EXPLICACI√ìN DE LOS M√âTODOS:
# M√©todo 1: Busca por ID exacto (m√°s espec√≠fico pero puede cambiar)
# M√©todo 2: Busca cualquier enlace que contenga 'es.wikipedia.org' (m√°s flexible)
#
# LECCI√ìN IMPORTANTE:
# Siempre ten un Plan B cuando trabajes con selectores
# Los sitios web actualizan su c√≥digo HTML frecuentemente

---

## 6. Extracci√≥n de Datos <a name="extraccion"></a>

### 6.1 Extraer texto de elementos

In [None]:
# Navegar a la Wikipedia en espa√±ol
driver.get("https://es.wikipedia.org")
time.sleep(2)

# Extraer el t√≠tulo principal
try:
    # Intentar m√©todo 1: por clase espec√≠fica
    titulo = driver.find_element(By.CSS_SELECTOR, "img.central-featured-logo")
    print(f"T√≠tulo (alt text): {titulo.get_attribute('alt')}")
except:
    try:
        # M√©todo 2: por el t√≠tulo de la p√°gina
        print(f"T√≠tulo de la p√°gina: {driver.title}")
    except Exception as e:
        print(f"‚ö†Ô∏è Error al extraer t√≠tulo: {e}")

# Extraer art√≠culos destacados
# NOTA: La estructura de Wikipedia cambia, usaremos selectores m√°s gen√©ricos
try:
    # Buscar en la secci√≥n de art√≠culo destacado
    featured_section = driver.find_element(By.ID, "mp-tfa")
    # Buscar enlaces dentro de esa secci√≥n
    featured_articles = featured_section.find_elements(By.TAG_NAME, "a")
    
    print("\nüì∞ Enlaces en art√≠culo destacado:")
    for article in featured_articles[:3]:  # Primeros 3 enlaces
        if article.text.strip():  # Solo mostrar si tiene texto
            print(f"  - {article.text}")
except:
    print("\n‚ö†Ô∏è No se encontr√≥ la secci√≥n de art√≠culos destacados")
    print("Esto es normal: Wikipedia cambia su estructura frecuentemente")

# LECCI√ìN IMPORTANTE PARA LA CLASE:
# En web scraping real, SIEMPRE debes:
# 1. Usar try-except para manejar cambios en la estructura
# 2. Tener m√©todos alternativos de extracci√≥n
# 3. Verificar peri√≥dicamente que tus scrapers sigan funcionando
# 4. Usar selectores lo m√°s gen√©ricos posible (cuando sea apropiado)

### 6.2 Extraer atributos de elementos

In [None]:
# ========================================
# EXTRAER ENLACES Y ATRIBUTOS
# ========================================

# Buscar enlaces en la secci√≥n principal de Wikipedia
try:
    # Buscar en la secci√≥n de art√≠culo destacado
    tfa_section = driver.find_element(By.ID, "mp-tfa")
    links = tfa_section.find_elements(By.TAG_NAME, "a")
except:
    # Si no encuentra esa secci√≥n, buscar en toda la p√°gina
    links = driver.find_elements(By.CSS_SELECTOR, "#content a")

print("üîó Enlaces encontrados:")

# Contador para limitar la salida
count = 0
for link in links:
    texto = link.text.strip()
    url = link.get_attribute("href")
    
    # Solo mostrar enlaces con texto y URL v√°lida
    if texto and url and count < 5:  # Limitar a 5 para no saturar la salida
        print(f"  Texto: {texto}")
        print(f"  URL: {url}\n")
        count += 1

if count == 0:
    print("  ‚ö†Ô∏è No se encontraron enlaces con texto en esta secci√≥n")

# CONCEPTOS CLAVE:
# - .text -> Obtiene el TEXTO VISIBLE del elemento
# - .get_attribute("href") -> Obtiene el ATRIBUTO href (la URL del enlace)
# - Otros atributos √∫tiles: "class", "id", "src" (para im√°genes), "value" (para inputs)

# APLICACI√ìN EN CIENCIA DE DATOS:
# Extraer:
# - URLs de productos para visitar despu√©s
# - Precios de elementos (get_attribute("data-price"))
# - IDs √∫nicos para seguimiento
# - Clases CSS para categorizaci√≥n

### 6.3 Esperas expl√≠citas (muy importante)

Las esperas expl√≠citas son cruciales para trabajar con contenido din√°mico:

In [None]:
# ========================================
# CELDA 8: ESPERAS EXPL√çCITAS (MUY IMPORTANTE)
# ========================================

# ‚ö†Ô∏è PROBLEMA CON time.sleep():
# - time.sleep(5) siempre espera 5 segundos, aunque la p√°gina cargue en 1 segundo
# - Si la p√°gina tarda m√°s de 5 segundos, el c√≥digo fallar√°
# - Es INEFICIENTE y NO CONFIABLE

# ‚úÖ SOLUCI√ìN: ESPERAS EXPL√çCITAS (WebDriverWait)
# - Espera SOLO hasta que se cumpla una condici√≥n
# - Si la condici√≥n se cumple antes, contin√∫a inmediatamente
# - Si no se cumple en el tiempo l√≠mite, lanza una excepci√≥n
# - Es EFICIENTE y CONFIABLE

driver.get("https://es.wikipedia.org")

try:
    # EJEMPLO 1: Esperar hasta que un elemento EXISTA en el DOM
    # WebDriverWait(driver, 10) -> Espera M√ÅXIMO 10 segundos
    # until() -> Espera hasta que la condici√≥n sea True
    # presence_of_element_located -> El elemento existe en el HTML
    
    search_input = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "searchInput"))
    )
    print("‚úÖ Elemento de b√∫squeda encontrado con espera expl√≠cita")
    
    # QU√â HACE ESTO:
    # 1. Busca el elemento cada 0.5 segundos (por defecto)
    # 2. Si lo encuentra, devuelve el elemento inmediatamente
    # 3. Si pasan 10 segundos y no lo encuentra, lanza TimeoutException
    
    
    # EJEMPLO 2: Esperar hasta que un elemento sea CLICKEABLE
    # element_to_be_clickable verifica que:
    # - El elemento existe
    # - Es visible
    # - Est√° habilitado (no disabled)
    
    search_button = WebDriverWait(driver, 10).until(
        EC.element_to_be_clickable((By.CSS_SELECTOR, "button[type='submit']"))
    )
    print("‚úÖ Bot√≥n de b√∫squeda es clickeable")
    
except Exception as e:
    print(f"Error en espera: {e}")

# OTRAS CONDICIONES √öTILES:
# - visibility_of_element_located: Elemento visible (no oculto con CSS)
# - invisibility_of_element_located: Elemento NO visible
# - text_to_be_present_in_element: Texto espec√≠fico presente
# - element_to_be_selected: Checkbox/radio seleccionado
# - staleness_of: Elemento ya no est√° en el DOM

# POR QU√â ES CRUCIAL EN CIENCIA DE DATOS:
# - Sitios modernos cargan datos con JavaScript (AJAX)
# - Los datos pueden tardar tiempo en aparecer
# - Sin esperas expl√≠citas, extraer√°s datos incompletos o vac√≠os
# - Las esperas expl√≠citas garantizan que los datos est√©n listos

# REGLA DE ORO:
# ‚ùå NO uses time.sleep() para esperar elementos
# ‚úÖ USA WebDriverWait con expected_conditions

---

## 7. Web Scraping Avanzado <a name="scraping-avanzado"></a>

### 7.1 Scroll en la p√°gina

Muchas p√°ginas cargan contenido al hacer scroll:

In [None]:
# Navegar a una p√°gina
# Abre la URL de Wikipedia sobre Python en el navegador controlado por Selenium
driver.get("https://es.wikipedia.org/wiki/Python")
# Pausa la ejecuci√≥n durante 2 segundos para permitir que la p√°gina cargue completamente
time.sleep(2)

# Scroll hacia abajo
# Ejecuta c√≥digo JavaScript que desplaza la ventana hasta el final de la p√°gina
# scrollHeight obtiene la altura total del documento
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
# Espera 1 segundo despu√©s del desplazamiento
time.sleep(1)
print("‚úÖ Scroll hacia abajo completado")

# Scroll hacia arriba
# Ejecuta JavaScript para volver al inicio de la p√°gina (posici√≥n 0,0)
driver.execute_script("window.scrollTo(0, 0);")
# Pausa de 1 segundo para visualizar el movimiento
time.sleep(1)
print("‚úÖ Scroll hacia arriba completado")

# Scroll a un elemento espec√≠fico
try:
    # Intenta localizar un elemento HTML con el ID "Historia"
    elemento = driver.find_element(By.ID, "Historia")
    # Ejecuta JavaScript para hacer scroll hasta que el elemento sea visible
    # scrollIntoView(true) alinea el elemento en la parte superior de la ventana
    driver.execute_script("arguments[0].scrollIntoView(true);", elemento)
    # Espera 1 segundo despu√©s del desplazamiento
    time.sleep(1)
    print("‚úÖ Scroll a elemento espec√≠fico completado")
except:
    # Si el elemento no existe o hay alg√∫n error, muestra este mensaje
    print("Elemento no encontrado")

### 7.2 Manejar m√∫ltiples pesta√±as

In [None]:
# Abrir una nueva pesta√±a
driver.execute_script("window.open('https://www.python.org', '_blank');")
time.sleep(2)

# Obtener todas las pesta√±as
tabs = driver.window_handles
print(f"N√∫mero de pesta√±as abiertas: {len(tabs)}")

# Cambiar a la segunda pesta√±a
driver.switch_to.window(tabs[1])
print(f"Pesta√±a activa: {driver.title}")
time.sleep(2)

# Volver a la primera pesta√±a
driver.switch_to.window(tabs[0])
print(f"Pesta√±a activa: {driver.title}")

# Cerrar la segunda pesta√±a
driver.switch_to.window(tabs[1])
driver.close()
driver.switch_to.window(tabs[0])
print("‚úÖ Segunda pesta√±a cerrada")

### 7.3 Extraer tablas HTML a DataFrame

In [None]:
# ========================================
# CELDA 9: EXTRAER TABLAS HTML A DATAFRAME
# ========================================

# üéØ OBJETIVO: Convertir una tabla HTML en un DataFrame de pandas
# Esto es FUNDAMENTAL en ciencia de datos porque muchos datos est√°n en tablas web

# PASO 1: Navegar a una p√°gina con tablas
driver.get("https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_por_poblaci%C3%B3n")
time.sleep(3)  # Dar tiempo a que cargue la tabla

try:
    # PASO 2: Localizar la tabla usando CSS Selector
    # "table.wikitable" busca una tabla con la clase "wikitable"
    tabla = driver.find_element(By.CSS_SELECTOR, "table.wikitable")
    
    # PASO 3: Extraer los ENCABEZADOS de la tabla
    encabezados = []
    # Las etiquetas <th> contienen los encabezados de las columnas
    headers = tabla.find_elements(By.TAG_NAME, "th")
    
    for header in headers[:5]:  # Solo los primeros 5 encabezados
        # .strip() elimina espacios en blanco al inicio y final
        encabezados.append(header.text.strip())
    
    # QU√â HICIMOS:
    # - Encontramos todos los <th> dentro de la tabla
    # - Extraemos el texto de cada uno
    # - Los guardamos en una lista que ser√° el header del DataFrame
    
    
    # PASO 4: Extraer las FILAS de datos
    filas = []
    # Las etiquetas <tr> representan filas (table row)
    rows = tabla.find_elements(By.TAG_NAME, "tr")
    
    # Iteramos sobre las filas (saltamos la primera que son encabezados)
    for row in rows[1:11]:  # Filas 1 a 10 (primeros 10 pa√≠ses)
        # Las etiquetas <td> son las celdas de datos (table data)
        celdas = row.find_elements(By.TAG_NAME, "td")
        
        # Verificar que la fila tiene suficientes celdas
        if len(celdas) >= 3:
            # Extraer el texto de cada celda (primeras 5 columnas)
            fila_datos = [celda.text.strip() for celda in celdas[:5]]
            # A√±adir la fila a nuestra lista
            filas.append(fila_datos)
    
    # ESTRUCTURA HTML DE UNA TABLA:
    # <table>
    #   <tr>                    <- Fila
    #     <th>Encabezado 1</th> <- Celda de encabezado
    #     <th>Encabezado 2</th>
    #   </tr>
    #   <tr>
    #     <td>Dato 1</td>        <- Celda de datos
    #     <td>Dato 2</td>
    #   </tr>
    # </table>
    
    
    # PASO 5: Crear el DataFrame de pandas
    df = pd.DataFrame(filas, columns=encabezados if encabezados else None)
    
    print("‚úÖ Tabla extra√≠da exitosamente\\n")
    print(df.head())
    
    # AHORA TIENES UN DATAFRAME CON LOS DATOS DE LA TABLA WEB!
    # Puedes hacer an√°lisis, limpiar datos, exportar a CSV, etc.
    
except Exception as e:
    print(f"Error al extraer tabla: {e}")

# APLICACIONES EN CIENCIA DE DATOS:
# 1. Extraer tablas de estad√≠sticas deportivas
# 2. Recopilar datos financieros de sitios de bolsa
# 3. Obtener rankings de universidades, empresas, etc.
# 4. Compilar datos demogr√°ficos de m√∫ltiples fuentes
# 5. Crear datasets para Machine Learning

# SIGUIENTE PASO T√çPICO:
# df.to_csv('paises_poblacion.csv', index=False)  # Guardar a CSV
# df.describe()  # An√°lisis estad√≠stico
# df.plot()  # Visualizaci√≥n

---

## 8. Caso Pr√°ctico Completo <a name="caso-practico"></a>

### Proyecto: Extraer datos de b√∫squeda de Wikipedia

Vamos a crear un scraper que:
1. Busca un t√©rmino en Wikipedia
2. Extrae informaci√≥n de los resultados
3. Guarda los datos en un DataFrame
4. Exporta a CSV

In [None]:
def buscar_wikipedia(termino_busqueda, num_resultados=5):
    """
    ========================================
    CASO PR√ÅCTICO COMPLETO: SCRAPER DE WIKIPEDIA
    ========================================
    
    Esta funci√≥n demuestra un FLUJO COMPLETO de web scraping para ciencia de datos:
    1. Configurar el navegador
    2. Navegar a un sitio web
    3. Realizar una b√∫squeda
    4. Extraer datos estructurados
    5. Limpiar y organizar los datos
    6. Retornar un DataFrame listo para an√°lisis
    
    Args:
        termino_busqueda (str): T√©rmino que queremos investigar
        num_resultados (int): Cantidad de resultados a extraer (no usado en esta versi√≥n)
    
    Returns:
        pd.DataFrame: DataFrame con informaci√≥n estructurada del art√≠culo
    """
    
    # ==========================================
    # PASO 1: CONFIGURACI√ìN DEL NAVEGADOR
    # ==========================================
    
    options = webdriver.ChromeOptions()
    
    # Opci√≥n anti-detecci√≥n: algunos sitios bloquean bots
    options.add_argument('--disable-blink-features=AutomationControlled')
    
    # Maximizar ventana para asegurar que todos los elementos sean visibles
    options.add_argument('--start-maximized')
    
    # Inicializar el driver con configuraci√≥n autom√°tica
    driver = webdriver.Chrome(
        service=Service(ChromeDriverManager().install()),
        options=options
    )
    
    try:
        # ==========================================
        # PASO 2: NAVEGACI√ìN Y B√öSQUEDA
        # ==========================================
        
        # Navegar a Wikipedia en espa√±ol
        driver.get("https://es.wikipedia.org")
        print(f"üîç Buscando: {termino_busqueda}")
        
        # ESPERA EXPL√çCITA: Asegurar que el campo de b√∫squeda existe
        # Esto es M√ÅS CONFIABLE que time.sleep()
        search_box = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, "searchInput"))
        )
        
        # Limpiar y escribir el t√©rmino de b√∫squeda
        search_box.clear()
        search_box.send_keys(termino_busqueda)
        search_box.send_keys(Keys.RETURN)  # Enviar formulario
        
        # Esperar a que la p√°gina de resultados cargue
        time.sleep(3)
        
        # ==========================================
        # PASO 3: EXTRACCI√ìN DE DATOS
        # ==========================================
        
        # Inicializar lista para almacenar los datos
        datos = []
        
        # --- EXTRAER T√çTULO DEL ART√çCULO ---
        try:
            # El t√≠tulo principal est√° en un <h1> con id "firstHeading"
            titulo = driver.find_element(By.ID, "firstHeading").text
        except:
            # Si no se encuentra, usar valor por defecto
            titulo = "No disponible"
        
        
        # --- EXTRAER PRIMER P√ÅRRAFO (RESUMEN) ---
        try:
            # Encontrar TODOS los p√°rrafos en el contenido principal
            parrafos = driver.find_elements(By.CSS_SELECTOR, "#mw-content-text p")
            primer_parrafo = ""
            
            # Buscar el primer p√°rrafo con contenido significativo
            for p in parrafos:
                texto = p.text.strip()
                # Filtrar p√°rrafos vac√≠os o muy cortos
                if len(texto) > 50:
                    # Limitar a 200 caracteres para mantener el DataFrame manejable
                    primer_parrafo = texto[:200] + "..."
                    break
        except:
            primer_parrafo = "No disponible"
        
        
        # --- EXTRAER N√öMERO DE SECCIONES ---
        try:
            # Los encabezados de secci√≥n tienen la clase "mw-headline"
            secciones = driver.find_elements(By.CSS_SELECTOR, ".mw-headline")
            num_secciones = len(secciones)
            # Este dato nos indica la "profundidad" del art√≠culo
        except:
            num_secciones = 0
        
        
        # --- EXTRAER CATEGOR√çAS ---
        try:
            # Las categor√≠as est√°n en la parte inferior del art√≠culo
            categorias = driver.find_elements(By.CSS_SELECTOR, "#mw-normal-catlinks ul li")
            # Extraer solo las primeras 3 categor√≠as
            lista_categorias = [cat.text for cat in categorias[:3]]
            # Unirlas en un string separado por comas
            categorias_texto = ", ".join(lista_categorias)
        except:
            categorias_texto = "No disponible"
        
        
        # ==========================================
        # PASO 4: ESTRUCTURAR LOS DATOS
        # ==========================================
        
        # Crear un diccionario con los datos extra√≠dos
        # Esto facilita la conversi√≥n a DataFrame
        datos.append({
            'T√≠tulo': titulo,
            'Descripci√≥n': primer_parrafo,
            'N√∫mero de secciones': num_secciones,
            'Categor√≠as': categorias_texto,
            'URL': driver.current_url  # URL final (puede haber habido redirecci√≥n)
        })
        
        
        # ==========================================
        # PASO 5: CONVERTIR A DATAFRAME
        # ==========================================
        
        # pandas.DataFrame convierte nuestra lista de diccionarios en una tabla
        df = pd.DataFrame(datos)
        
        print(f"‚úÖ Extracci√≥n completada: {len(datos)} resultados")
        
        return df
        
    except Exception as e:
        # MANEJO DE ERRORES: Si algo falla, mostrar el error
        print(f"‚ùå Error: {e}")
        # Retornar DataFrame vac√≠o para evitar que el programa se detenga
        return pd.DataFrame()
    
    finally:
        # ==========================================
        # PASO 6: LIMPIEZA (SIEMPRE SE EJECUTA)
        # ==========================================
        
        # IMPORTANTE: Siempre cerrar el navegador para liberar recursos
        # finally: se ejecuta SIEMPRE, incluso si hubo un error
        driver.quit()

# ==========================================
# EJECUTAR LA FUNCI√ìN
# ==========================================

# Buscar informaci√≥n sobre "Inteligencia Artificial"
df_resultados = buscar_wikipedia("Inteligencia Artificial")

print("\\nüìä Resultados:")
print(df_resultados)

# EXPLICACI√ìN PEDAG√ìGICA DEL FLUJO:
# 1. Configuramos el navegador con opciones espec√≠ficas
# 2. Navegamos a Wikipedia y realizamos una b√∫squeda
# 3. Esperamos a que cargue la p√°gina (con esperas expl√≠citas)
# 4. Extraemos m√∫ltiples tipos de datos del art√≠culo
# 5. Estructuramos los datos en un diccionario
# 6. Convertimos a DataFrame para an√°lisis
# 7. Cerramos el navegador (limpieza de recursos)

# PR√ìXIMOS PASOS:
# - Guardar el DataFrame en CSV
# - Analizar los datos con pandas
# - Crear visualizaciones
# - Escalar para buscar m√∫ltiples t√©rminos

### Guardar los resultados en CSV

In [None]:
# Guardar en CSV
if not df_resultados.empty:
    df_resultados.to_csv('resultados_wikipedia.csv', index=False, encoding='utf-8-sig')
    print("‚úÖ Datos guardados en 'resultados_wikipedia.csv'")
    
    # Mostrar informaci√≥n del DataFrame
    print("\nüìà Informaci√≥n del dataset:")
    print(df_resultados.info())
else:
    print("‚ùå No hay datos para guardar")

---

## 9. Mejores Pr√°cticas <a name="mejores-practicas"></a>

### 9.1 Consejos importantes

1. **Siempre usa esperas expl√≠citas** en lugar de `time.sleep()`
2. **Cierra el navegador** al terminar con `driver.quit()`
3. **Usa try-except** para manejar errores
4. **Respeta los robots.txt** de los sitios web
5. **No sobrecargues los servidores** - a√±ade pausas razonables
6. **Usa headless mode** para mejor rendimiento en producci√≥n

### 9.2 Funci√≥n completa con mejores pr√°cticas

In [None]:
# ========================================
# MEJORES PR√ÅCTICAS: CONTEXT MANAGER
# ========================================

# PROBLEMA COM√öN:
# Si olvidas llamar driver.quit(), el navegador queda abierto consumiendo memoria
# Si hay un error en el c√≥digo, driver.quit() puede no ejecutarse

# SOLUCI√ìN PROFESIONAL: Context Manager (with statement)

from contextlib import contextmanager

@contextmanager
def selenium_driver(headless=False):
    """
    Context Manager para gestionar autom√°ticamente el ciclo de vida del driver.
    
    ¬øQU√â ES UN CONTEXT MANAGER?
    Es un patr√≥n de dise√±o que garantiza:
    - Inicializaci√≥n: Se ejecuta al entrar en el bloque 'with'
    - Limpieza: Se ejecuta SIEMPRE al salir, incluso si hay errores
    
    VENTAJAS:
    - No puedes olvidar cerrar el navegador
    - El navegador se cierra autom√°ticamente, incluso con errores
    - C√≥digo m√°s limpio y profesional
    - Previene fugas de memoria
    
    Args:
        headless (bool): Si True, ejecuta Chrome sin interfaz gr√°fica (m√°s r√°pido)
    
    Yields:
        webdriver: Instancia del driver de Chrome lista para usar
    """
    
    # CONFIGURACI√ìN DE OPCIONES
    options = webdriver.ChromeOptions()
    
    # Si headless=True, el navegador se ejecuta en segundo plano (sin ventana)
    if headless:
        options.add_argument('--headless')
        # VENTAJA: M√°s r√°pido, ideal para producci√≥n o servidores
        # DESVENTAJA: No puedes ver qu√© est√° haciendo
    
    # Opciones adicionales para mayor estabilidad
    options.add_argument('--disable-blink-features=AutomationControlled')
    options.add_argument('--start-maximized')
    options.add_argument('--disable-gpu')  # Desactivar GPU (√∫til en servidores)
    options.add_argument('--no-sandbox')   # Mayor compatibilidad en Linux
    
    # INICIALIZAR EL DRIVER
    driver = webdriver.Chrome(
        service=Service(ChromeDriverManager().install()),
        options=options
    )
    
    try:
        # YIELD: Devuelve el driver al bloque 'with'
        # El c√≥digo dentro del 'with' se ejecuta aqu√≠
        yield driver
        
    finally:
        # LIMPIEZA: Se ejecuta SIEMPRE al salir del bloque 'with'
        # Incluso si hubo una excepci√≥n en el c√≥digo
        driver.quit()
        print("‚úÖ Navegador cerrado correctamente")


# ==========================================
# EJEMPLO DE USO
# ==========================================

# USO TRADICIONAL (menos seguro):
# driver = webdriver.Chrome(...)
# driver.get("https://...")
# # ... hacer cosas ...
# driver.quit()  # ¬øY si hay un error antes de esto?

# USO CON CONTEXT MANAGER (recomendado):
with selenium_driver(headless=False) as driver:
    driver.get("https://www.wikipedia.org")
    print(f"T√≠tulo: {driver.title}")
    # Al salir del bloque 'with', driver.quit() se llama autom√°ticamente

# FLUJO DE EJECUCI√ìN:
# 1. Se ejecuta el c√≥digo antes de 'yield' (inicializaci√≥n)
# 2. Se ejecuta el c√≥digo dentro del bloque 'with'
# 3. Se ejecuta el c√≥digo en 'finally' (limpieza)
# 4. El navegador SIEMPRE se cierra, no importa qu√© pase

# ANALOG√çA PEDAG√ìGICA:
# Es como abrir un archivo:
# with open('archivo.txt', 'r') as f:
#     contenido = f.read()
# # El archivo se cierra autom√°ticamente

# APLICACI√ìN EN CIENCIA DE DATOS:
# - Ejecutar m√∫ltiples scrapers sin preocuparte por la limpieza
# - Automatizar procesos en servidores (headless=True)
# - C√≥digo m√°s robusto y mantenible
# - Prevenir errores de recursos no liberados

### 9.3 Manejo robusto de errores

In [None]:
# ========================================
# MANEJO ROBUSTO DE ERRORES
# ========================================

# En web scraping, MUCHAS cosas pueden salir mal:
# - El elemento no existe
# - La p√°gina tarda en cargar
# - El sitio cambi√≥ su estructura
# - Problemas de conexi√≥n

# Es CRUCIAL manejar estos errores correctamente

from selenium.common.exceptions import (
    NoSuchElementException,      # Elemento no encontrado
    TimeoutException,             # Tiempo de espera agotado
    ElementNotInteractableException  # Elemento no interactuable
)

def extraer_elemento_seguro(driver, by, value, timeout=10):
    """
    Funci√≥n ROBUSTA para extraer elementos con manejo profesional de errores.
    
    FILOSOF√çA:
    - "Espera lo mejor, prep√°rate para lo peor"
    - Nunca asumas que un elemento existir√°
    - Siempre ten un plan B (valor por defecto)
    
    Args:
        driver: WebDriver de Selenium
        by: M√©todo de localizaci√≥n (By.ID, By.CSS_SELECTOR, etc.)
        value: Valor del localizador (el selector espec√≠fico)
        timeout: Tiempo m√°ximo de espera en segundos (default: 10)
    
    Returns:
        str: Texto del elemento o mensaje de error descriptivo
    """
    try:
        # INTENTO 1: Esperar hasta que el elemento est√© presente
        # WebDriverWait es m√°s inteligente que time.sleep()
        elemento = WebDriverWait(driver, timeout).until(
            EC.presence_of_element_located((by, value))
        )
        return elemento.text
        
    except TimeoutException:
        # ERROR 1: El elemento no apareci√≥ en el tiempo l√≠mite
        # Posibles causas:
        # - Selector incorrecto
        # - P√°gina muy lenta
        # - Elemento cargado con JavaScript que tard√≥ m√°s de lo esperado
        return f"‚è±Ô∏è Timeout: Elemento no encontrado en {timeout} segundos"
        
    except NoSuchElementException:
        # ERROR 2: El elemento definitivamente no existe
        # Posibles causas:
        # - Selector err√≥neo
        # - Estructura del sitio cambi√≥
        # - Estamos en la p√°gina equivocada
        return "‚ùå Elemento no existe en la p√°gina"
        
    except Exception as e:
        # ERROR 3: Cualquier otro error inesperado
        # Siempre es buena pr√°ctica tener un catch-all
        return f"‚ùå Error inesperado: {str(e)}"


# ==========================================
# DEMOSTRACI√ìN DE USO
# ==========================================

with selenium_driver() as driver:
    driver.get("https://es.wikipedia.org")
    
    # --- CASO 1: Elemento que S√ç existe ---
    resultado1 = extraer_elemento_seguro(driver, By.ID, "searchInput")
    print(f"Resultado 1 (existe): {resultado1[:50] if len(resultado1) > 50 else resultado1}")
    
    # --- CASO 2: Elemento que NO existe ---
    resultado2 = extraer_elemento_seguro(driver, By.ID, "elemento_inexistente", timeout=3)
    print(f"Resultado 2 (no existe): {resultado2}")

# ==========================================
# PATR√ìN TRY-EXCEPT EN WEB SCRAPING
# ==========================================

# PATR√ìN RECOMENDADO para extracci√≥n de datos:

# datos = []
# for item in items:
#     try:
#         titulo = item.find_element(By.CSS_SELECTOR, "h2").text
#     except:
#         titulo = "No disponible"
#     
#     try:
#         precio = item.find_element(By.CSS_SELECTOR, ".precio").text
#     except:
#         precio = "No disponible"
#     
#     datos.append({
#         'titulo': titulo,
#         'precio': precio
#     })

# VENTAJAS DE ESTE ENFOQUE:
# 1. El scraper NO se detiene si falta un elemento
# 2. Recopilas TODOS los datos disponibles, aunque algunos falten
# 3. Puedes identificar patrones en los datos faltantes
# 4. En ciencia de datos, datos parciales > sin datos

# PRINCIPIOS CLAVE:
# ‚úÖ Siempre usa try-except para extracciones
# ‚úÖ Proporciona valores por defecto sensatos
# ‚úÖ Registra los errores para debugging
# ‚úÖ No dejes que un error detenga toda la recopilaci√≥n
# ‚úÖ Valida los datos despu√©s de extraerlos

# COMPARACI√ìN:
# C√≥digo SIN manejo de errores:
#   precio = elemento.find_element(By.CLASS_NAME, "precio").text
#   -> Se detiene si el elemento no existe
#
# C√≥digo CON manejo de errores:
#   try:
#       precio = elemento.find_element(By.CLASS_NAME, "precio").text
#   except:
#       precio = "No disponible"
#   -> Contin√∫a incluso si el elemento no existe

---

##  Ejercicios Propuestos

1. **Ejercicio 1:** Crea un scraper que extraiga los t√≠tulos de las noticias principales de un sitio de noticias

2. **Ejercicio 2:** Extrae una tabla de datos de Wikipedia y realiza un an√°lisis b√°sico con pandas

3. **Ejercicio 3:** Automatiza una b√∫squeda en Google y extrae los primeros 10 resultados

4. **Ejercicio 4:** Crea un scraper que navegue por m√∫ltiples p√°ginas y compile datos en un CSV

---

##  Recursos Adicionales

- [Documentaci√≥n oficial de Selenium](https://www.selenium.dev/documentation/)
- [Selenium con Python](https://selenium-python.readthedocs.io/)
- [XPath Cheat Sheet](https://devhints.io/xpath)
- [CSS Selectors Reference](https://www.w3schools.com/cssref/css_selectors.asp)

---

##  Conclusi√≥n

¬°Felicidades! Has completado el tutorial de Selenium para Ciencia de Datos. Ahora conoces:

- ‚úÖ Configuraci√≥n y uso b√°sico de Selenium
- ‚úÖ Localizaci√≥n e interacci√≥n con elementos web
- ‚úÖ Extracci√≥n de datos para an√°lisis
- ‚úÖ T√©cnicas avanzadas de web scraping
- ‚úÖ Mejores pr√°cticas y manejo de errores

### Pr√≥ximos pasos:

1. Practica con diferentes sitios web
2. Combina Selenium con BeautifulSoup para parsing m√°s eficiente
3. Aprende sobre proxies y rotaci√≥n de user agents
4. Explora Scrapy para proyectos m√°s grandes

**¬°Happy Scraping! **