# Introducción al Web Scraping con Selenium

El web scraping es una técnica utilizada para extraer información de sitios web automáticamente. Selenium es una herramienta poderosa para automatizar navegadores web y es muy útil para realizar tareas de web scraping dinámico.

Es importante realizar el scraping de manera ética y respetar los términos de servicio de los sitios web.

## Instalación y Configuración de Selenium

Para usar Selenium, primero necesitamos instalar la biblioteca de Python.

### Instalación de Selenium

Puedes instalar Selenium utilizando pip:

```sh
pip install selenium
```

## Navegación Básica y Extracción de Datos con Selenium

Vamos a revisar que todo este funcionando correctamente, en el siguiente ejemplo vamos a iniciar un navegador, abrir una página web y extraer algunos datos básicos.

In [None]:
from selenium import webdriver

# Iniciar el navegador
driver = webdriver.Chrome()

# Abrir la página web de ejemplo
driver.get("http://books.toscrape.com")

# Obtener el título de la página
titulo = driver.title
print(f"Título de la página: {titulo}")

In [None]:
# Cerrar el navegador
driver.quit()

## Conceptos Básicos de HTML y XPaths

### Estructura Básica de un Documento HTML

HTML (HyperText Markup Language) es el lenguaje estándar utilizado para crear páginas web. La estructura básica de un documento HTML es la siguiente:

```html
<!DOCTYPE html>
<html>
<head>
    <title>Mi Página Web</title>
</head>
<body>
    <h1>Encabezado Principal</h1>
    <p>Este es un párrafo.</p>
    <a href="https://www.ejemplo.com">Este es un enlace</a>
</body>
</html>
```

- `<!DOCTYPE html>`: Declara el tipo de documento como HTML5.
- `<html>`: La raíz del documento HTML.
- `<head>`: Contiene metadatos sobre el documento, como el título.
- `<body>`: Contiene el contenido visible de la página web, como encabezados, párrafos y enlaces.

### Selección de Elementos con XPaths

XPath (XML Path Language) es un lenguaje para seleccionar nodos en un documento XML, que también puede ser utilizado en HTML. XPath proporciona una manera flexible de navegar a través de la estructura del documento.

#### Ejemplos de XPaths:

1. Selección de un elemento por su etiqueta:
    ```xpath
    //h1
    ```
    Selecciona todos los elementos `<h1>` en el documento.

2. Selección de un elemento por su atributo `id`:
    ```xpath
    //p[@id='mi_id']
    ```
    Selecciona el elemento `<p>` con el atributo `id` igual a `mi_id`.

3. Selección de un elemento por su texto:
    ```xpath
    //a[text()='Este es un enlace']
    ```
    Selecciona el elemento `<a>` cuyo texto visible es "Este es un enlace".

4. Selección de un elemento anidado:
    ```xpath
    //div[@class='contenedor']//a
    ```
    Selecciona todos los elementos `<a>` dentro de un `<div>` con la clase `contenedor`.

### Selección de Elementos con Selectores CSS

Los selectores CSS se utilizan para seleccionar elementos HTML basándose en sus atributos, id, clases, tipos, etc. Son comúnmente utilizados en estilos CSS y también son compatibles con Selenium.

#### Ejemplos de Selectores CSS:

1. Selección de un elemento por su etiqueta:
    ```css
    h1
    ```
    Selecciona todos los elementos `<h1>` en el documento.

2. Selección de un elemento por su `id`:
    ```css
    #mi_id
    ```
    Selecciona el elemento con el `id` igual a `mi_id`.

3. Selección de un elemento por su clase:
    ```css
    .mi_clase
    ```
    Selecciona todos los elementos con la clase `mi_clase`.

4. Selección de un elemento anidado:
    ```css
    div.contenedor a
    ```
    Selecciona todos los elementos `<a>` dentro de un `<div>` con la clase `contenedor`.

### Resumen

- **HTML**: La estructura básica de un documento web.
- **XPath**: Un lenguaje flexible para seleccionar elementos en documentos XML y HTML.
- **Selectores CSS**: Utilizados para seleccionar elementos HTML basados en atributos, id, clases, y más.

Entender estos conceptos es fundamental para utilizar eficazmente las funciones de búsqueda de Selenium, como `find_element` y `find_elements`, para localizar y manipular elementos en una página web.

## Métodos de Búsqueda en Selenium

Selenium proporciona varios métodos para encontrar elementos en una página web. El método principal es `find_element`, que se utiliza para localizar un solo elemento, y `find_elements` para localizar múltiples elementos. A continuación, se describen las variantes más comunes de estos métodos.

### `find_element`

El método `find_element` se utiliza para localizar un solo elemento en la página. Utiliza diferentes estrategias de localización a través de la clase `By`. Algunas de las variantes más comunes son:

- **`By.ID`**: Encuentra un elemento por su atributo `id`.
    ```python
    elemento = driver.find_element(By.ID, "mi_id")
    ```

- **`By.NAME`**: Encuentra un elemento por su atributo `name`.
    ```python
    elemento = driver.find_element(By.NAME, "mi_nombre")
    ```

- **`By.XPATH`**: Encuentra un elemento utilizando una expresión XPath.
    ```python
    elemento = driver.find_element(By.XPATH, "//input[@id='mi_id']")
    ```

- **`By.CSS_SELECTOR`**: Encuentra un elemento utilizando un selector CSS.
    ```python
    elemento = driver.find_element(By.CSS_SELECTOR, ".mi_clase")
    ```

- **`By.CLASS_NAME`**: Encuentra un elemento por su atributo `class`.
    ```python
    elemento = driver.find_element(By.CLASS_NAME, "mi_clase")
    ```

- **`By.TAG_NAME`**: Encuentra un elemento por su nombre de etiqueta.
    ```python
    elemento = driver.find_element(By.TAG_NAME, "button")
    ```

- **`By.LINK_TEXT`**: Encuentra un enlace (`<a>`) por su texto visible.
    ```python
    elemento = driver.find_element(By.LINK_TEXT, "Haga clic aquí")
    ```

- **`By.PARTIAL_LINK_TEXT`**: Encuentra un enlace (`<a>`) por una coincidencia parcial de su texto visible.
    ```python
    elemento = driver.find_element(By.PARTIAL_LINK_TEXT, "Haga clic")
    ```

### `find_elements`

El método `find_elements` funciona de manera similar a `find_element`, pero en lugar de devolver un solo elemento, devuelve una lista de todos los elementos que coinciden con la estrategia de localización especificada.

Estos métodos permiten localizar y manipular elementos de una página web de manera efectiva, lo cual es fundamental para la automatización de tareas con Selenium.

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By

# Iniciar el navegador
driver = webdriver.Chrome()

# Abrir la página web de ejemplo
driver.get("http://books.toscrape.com")

# Hacer clic en la categoría "Travel"
categoria_travel = driver.find_element(By.LINK_TEXT, "Travel")
categoria_travel.click()

# Extraer nombres y precios de los libros
libros = driver.find_elements(By.CSS_SELECTOR, ".product_pod")

for libro in libros:
    titulo = libro.find_element(By.TAG_NAME, "h3").text
    precio = libro.find_element(By.CLASS_NAME, "price_color").text
    print(f"Libro: {titulo}, Precio: {precio}")

In [None]:
# Cerrar el navegador
driver.quit()

## Métodos de Interacción en Selenium

Cuando interactuamos con formularios web utilizando Selenium, uno de los casos más comunes es llenar cajas de texto. Para esto, necesitamos entender algunos conceptos básicos:

- **Localización del Elemento**: Primero, necesitamos encontrar la caja de texto en el DOM utilizando métodos como `find_element`.
- **Enviar Texto al Elemento**: Una vez que hemos localizado la caja de texto, podemos utilizar el método `send_keys` para ingresar el texto.
- **Simular la Acción de Envío**: Para enviar el formulario, podemos utilizar la tecla ENTER o localizar y hacer clic en el botón de búsqueda.

### Métodos Principales Utilizados

- **`find_element`**: Para localizar la caja de texto.
- **`send_keys`**: Para ingresar texto en la caja de texto.
- **`Keys.RETURN`**: Para simular la tecla ENTER.

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

# Iniciar el navegador
driver = webdriver.Chrome()

# Abrir la página web de Google
driver.get("https://www.google.com")

# Encontrar la caja de texto de búsqueda por su nombre
caja_busqueda = driver.find_element(By.NAME, "q")

# Ingresar texto en la caja de texto
caja_busqueda.send_keys("Selenium WebDriver")

# Simular presionar la tecla ENTER
caja_busqueda.send_keys(Keys.RETURN)

# Esperar unos segundos para ver los resultados (opcional)
time.sleep(5)

# Cerrar el navegador
driver.quit()

## Esperas Implícitas y Explícitas

### Esperas Implícitas

**Esperas Implícitas**: Configuran un tiempo de espera máximo en el que Selenium buscará elementos antes de lanzar una excepción de no encontrado. Es una espera global que afecta a todas las operaciones de búsqueda de elementos.

### Esperas Explícitas

**Esperas Explícitas**: Esperan hasta que una condición específica se cumpla antes de proceder. Utilizan la clase `WebDriverWait` y condiciones de espera específicas de `expected_conditions`.

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# Iniciar el navegador
driver = webdriver.Chrome()

# Establecer una espera implícita de 10 segundos
driver.implicitly_wait(10)

# Abrir la página "AJAX Data"
driver.get("http://uitestingplayground.com/ajax")

# Hacer clic en el botón de carga
boton_carga = driver.find_element(By.ID, "ajaxButton")
boton_carga.click()

# Intentar encontrar el mensaje cargado con una espera implícita
try:
    mensaje = driver.find_element(By.CSS_SELECTOR, "p.bg-success")
    print("Mensaje encontrado con espera implícita.")
except:
    print("No se pudo encontrar el mensaje con espera implícita.")

# Esperar unos segundos para ver los resultados (opcional)
time.sleep(5)

# Cerrar el navegador
driver.quit()

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# Iniciar el navegador
driver = webdriver.Chrome()

# Abrir la página "AJAX Data"
driver.get("http://uitestingplayground.com/ajax")

# Hacer clic en el botón de carga
boton_carga = driver.find_element(By.ID, "ajaxButton")
boton_carga.click()

# Esperar explícitamente hasta que el mensaje esté presente
try:
    mensaje = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "p.bg-success"))
    )
    print("Mensaje encontrado con espera explícita.")
except:
    print("No se pudo encontrar el mensaje con espera explícita.")

# Esperar unos segundos para ver los resultados (opcional)
time.sleep(5)

# Cerrar el navegador
driver.quit()

## Manejo de Eventos Mouseover y Clics Consecutivos con Selenium

### Contexto

En algunas páginas web, los elementos pueden cambiar dinámicamente después de una interacción, como un clic. Este comportamiento puede complicar la automatización de pruebas si no se maneja adecuadamente.

En este ejemplo, usaremos la página "Mouse Over" del "UI Testing Playground". El escenario es que hay un enlace que cambia de estado cuando se hace clic en él. Si intentamos hacer clic en el enlace dos veces seguidas sin manejar el cambio de estado, el segundo clic fallará.

### Escenario

1. Antes de hacer clic:
    ```html
    <a class="text-primary" title="Click me" onmouseenter="linkActive(this)" onmouseleave="" onclick="">Click me</a>
    ```

2. Después de hacer clic:
    ```html
    <a class="text-warning" title="Active Link" onmouseenter="" onmouseleave="linkInactive(this)" onclick="linkClicked(this)">Click me</a>
    ```

### Objetivo

Mostrar dos ejemplos:
1. Intentar hacer clic en el enlace dos veces seguidas sin manejar el cambio de estado, lo que resultará en un fallo.
2. Manejar el cambio de estado del enlace entre los clics para que ambos clics se registren correctamente.

### Código Ejemplo


In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# Iniciar el navegador
driver = webdriver.Chrome()

# Abrir la página "Mouse Over"
driver.get("http://uitestingplayground.com/mouseover")

# Intentar hacer clic en el enlace dos veces seguidas sin manejar el cambio de estado
try:
    link = driver.find_element(By.CLASS_NAME, "text-primary")
    link.click()
    print("Primer clic en el enlace.")

    # Intentar hacer clic nuevamente sin manejar el cambio de estado
    link.click()
    print("Segundo clic en el enlace.")
except Exception as e:
    print(f"No se pudo hacer clic en el enlace dos veces: {e}")

# Cerrar el navegador
# driver.quit()

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# Iniciar el navegador
driver = webdriver.Chrome()

# Abrir la página "Mouse Over"
driver.get("http://uitestingplayground.com/mouseover")

# Hacer clic en el enlace, manejar el cambio de estado, y hacer clic nuevamente
try:
    # Hacer el primer clic
    link = driver.find_element(By.CLASS_NAME, "text-primary")
    link.click()
    print("Primer clic en el enlace.")

    # Esperar un momento para que el estado del enlace cambie
    time.sleep(1)

    # Hacer el segundo clic después de actualizar la referencia del enlace
    link = driver.find_element(By.CLASS_NAME, "text-warning")
    link.click()
    print("Segundo clic en el enlace después de manejar el cambio de estado.")

    # Realizar más clics para incrementar el contador
    for _ in range(3):
        time.sleep(1)
        link = driver.find_element(By.CLASS_NAME, "text-warning")
        link.click()
        print("Clic adicional en el enlace.")

except Exception as e:
    print(f"No se pudo hacer clic en el enlace: {e}")

# Cerrar el navegador
# driver.quit()

## Ejercicio de Web Scraping

A continuación, vamos a realizar scraping del sitio [Books to Scrape](http://books.toscrape.com/).

### Objetivos

1. **Navegar por el sitio**: Recorreremos varias páginas de productos utilizando el botón de "Siguiente".
2. **Extraer datos de cada producto**: Para cada producto, extraeremos la siguiente información:
   - Título
   - Precio
   - Disponibilidad
   - Descripción
   - Categoría
   - Rating
3. **Almacenar los datos**: Guardaremos los datos extraídos en un archivo Excel para su análisis posterior.

### Esperamos

- Obtener un archivo Excel (`datos_productos.xlsx`) con los datos de los productos de las primeras 3 páginas del sitio.
- Entender cómo automatizar la navegación y extracción de datos de un sitio web utilizando Selenium.

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import pandas as pd

driver = webdriver.Chrome()

# URL de la página principal
base_url = "http://books.toscrape.com/"


# Cerrar el navegador
#driver.quit()