| **Inicio** | **atrás 4** | **Siguiente 6** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./4.Varias_Paginas_del_mismo_dominio.ipynb)| [⏩](./6.Web_Scraping_de_APIs_iFrames_y_Scripts.ipynb)|

# **5. Paginas Dinámicas**

## **Introducción: SELENIUM**

Selenium es un conjunto de herramientas de código abierto diseñadas para automatizar pruebas y tareas en aplicaciones web. Es una de las herramientas más populares y ampliamente utilizadas para realizar pruebas automatizadas en aplicaciones web, así como para realizar tareas de web scraping.

Selenium proporciona una interfaz de programación de aplicaciones (API) que permite a los desarrolladores interactuar con navegadores web de manera automatizada. Esto significa que puedes controlar un navegador web real, como Chrome, Firefox o Safari, y simular interacciones humanas como hacer clic en botones, llenar formularios, navegar por páginas y extraer información.

A continuación, te mostraré una explicación detallada de Selenium con ejemplos:

1. **Instalación:**

Primero, necesitarás instalar Selenium en tu entorno de desarrollo. Puedes instalarlo utilizando pip, el gestor de paquetes de Python. Ejecuta el siguiente comando en tu terminal:

`pip install selenium`

También necesitarás descargar los controladores de navegador correspondientes a los navegadores que deseas controlar con Selenium. Por ejemplo, si quieres controlar Chrome, necesitarás descargar el controlador de Chrome (ChromeDriver). Asegúrate de descargar la versión compatible con tu versión del navegador.

2. **Configuración inicial:**

Antes de comenzar a usar Selenium, debes importar los módulos necesarios y configurar el controlador del navegador. Aquí tienes un ejemplo utilizando Chrome:

In [None]:
from selenium import webdriver

# Configurar el controlador de Chrome
driver = webdriver.Chrome('/ruta/al/chromedriver')

En este ejemplo, importamos el módulo `webdriver` de Selenium y luego configuramos el controlador de Chrome especificando la ubicación del archivo del controlador (`chromedriver`).

3. **Interacción con el navegador:**

Una vez que hayas configurado el controlador del navegador, puedes interactuar con el navegador y realizar acciones automatizadas. Aquí tienes algunos ejemplos de interacciones comunes:

In [None]:
# Abrir una página web
driver.get('https://www.example.com')

# Hacer clic en un elemento
element = driver.find_element_by_id('my_button')
element.click()

# Llenar un formulario
input_field = driver.find_element_by_name('username')
input_field.send_keys('mi_usuario')

# Obtener el contenido de un elemento
heading = driver.find_element_by_tag_name('h1')
print(heading.text)

# Capturar una captura de pantalla
driver.save_screenshot('screenshot.png')

En estos ejemplos, estamos abriendo una página web, haciendo clic en un botón, llenando un formulario, obteniendo el contenido de un elemento y capturando una captura de pantalla.

4. **Web scraping con Selenium:**

Selenium también se puede utilizar para realizar web scraping, es decir, extraer información de páginas web. Puedes buscar elementos utilizando selectores CSS o XPath y extraer su contenido.

In [None]:
# Extraer el texto de todos los enlaces en una página
links = driver.find_elements_by_css_selector('a')
for link in links:
    print(link.text)

En este ejemplo, estamos buscando todos los elementos `<a>` en una página y extrayendo su texto.

5. **Cierre del navegador:**

Una vez que hayas terminado de interactuar con el navegador, es importante cerrarlo adecuadamente para liberar recursos.

In [None]:
# Cerrar el navegador
driver.quit()

Esto cerrará el navegador y liberará cualquier recurso utilizado por Selenium.

Selenium ofrece una amplia gama de funcionalidades y opciones de configuración para adaptarse a tus necesidades específicas. Puedes explorar la documentación oficial de Selenium para obtener más información sobre todas las capacidades que ofrece.

Es importante tener en cuenta que Selenium es una herramienta poderosa pero también puede ser lenta debido a la interacción con el navegador real. Si estás realizando web scraping en grandes volúmenes de datos, es posible que desees considerar otras opciones más eficientes, como el uso de bibliotecas de web scraping basadas en solicitudes HTTP.

Recuerda siempre ser respetuoso y ético al utilizar Selenium y asegúrate de cumplir con los términos de servicio de los sitios web que estás automatizando o raspando.

## **Carga de Datos por clicks (Extracción de OLX)**

Para extraer datos de OLX utilizando Selenium, a menudo es necesario interactuar con la página web haciendo clic en elementos para cargar más datos. A continuación, te proporcionaré una explicación detallada de cómo realizar esta tarea con ejemplos.

1. **Configuración inicial:**

Antes de comenzar, asegúrate de tener Selenium instalado y configurado correctamente en tu entorno de desarrollo, como se mencionó anteriormente en la respuesta anterior.

2. **Importar módulos y configurar el controlador del navegador:**

En primer lugar, importa los módulos necesarios de Selenium y configura el controlador del navegador. Asegúrate de tener el controlador correspondiente a tu navegador instalado y configurado.

In [None]:
from selenium import webdriver

# Configurar el controlador de Chrome
driver = webdriver.Chrome('/ruta/al/chromedriver')

3. **Abrir la página web de OLX:**

Utiliza el método `get()` para abrir la página principal de OLX.

In [None]:
# Abrir la página principal de OLX
driver.get('https://www.olx.com')

4. **Interacción con la página web:**

Ahora, necesitaremos interactuar con la página web haciendo clic en los elementos correspondientes para cargar más datos. Puedes encontrar los selectores CSS o XPath adecuados inspeccionando los elementos en la página web.

In [None]:
# Hacer clic en el botón "Cargar más resultados" hasta que no haya más resultados disponibles
while True:
    try:
        # Buscar y hacer clic en el botón "Cargar más resultados"
        load_more_button = driver.find_element_by_css_selector('.ver-mas-btn')
        load_more_button.click()
        time.sleep(2)  # Esperar unos segundos para que se carguen los nuevos resultados
    except NoSuchElementException:
        # No se encuentra el botón, no hay más resultados para cargar
        break

En este ejemplo, estamos buscando el botón "`Cargar más resultados`" utilizando un selector CSS y haciendo clic en él. Luego, esperamos unos segundos para que se carguen los nuevos resultados antes de continuar con el siguiente clic. Esto se realiza en un bucle infinito hasta que no haya más resultados disponibles.

5. **Extraer datos:**

Una vez que hayas cargado todos los datos necesarios, puedes extraer la información deseada utilizando los selectores adecuados y los métodos de Selenium.

In [None]:
# Extraer información de los anuncios
ads = driver.find_elements_by_css_selector('.ad-list-item')
for ad in ads:
    title = ad.find_element_by_css_selector('.title').text
    price = ad.find_element_by_css_selector('.price').text
    location = ad.find_element_by_css_selector('.location').text
    print(f'Título: {title}, Precio: {price}, Ubicación: {location}')

En este ejemplo, estamos extrayendo información de cada anuncio en la página web, como el título, el precio y la ubicación.

6. **Cierre del navegador:**

Al finalizar la extracción de datos, asegúrate de cerrar correctamente el navegador para liberar recursos.

In [None]:
# Cerrar el navegador
driver.quit()

Esto es solo un ejemplo básico para cargar datos por clics en OLX utilizando Selenium. Puedes personalizar y expandir este código según tus necesidades específicas, como realizar búsquedas específicas, aplicar filtros adicionales, etc.

Recuerda siempre ser respetuoso y ético al utilizar Selenium y asegúrate de cumplir con los términos de servicio del sitio web que estás raspando.

## **Web Scraping Dinámico Horizontal y Vertical (Extracción de MERCADO LIBRE)**

El web scraping dinámico se utiliza cuando una página web utiliza tecnologías como JavaScript para cargar y mostrar datos de forma dinámica. En este caso, utilizaremos Selenium para interactuar con la página web de Mercado Libre y extraer datos tanto en sentido horizontal como vertical. A continuación, te proporcionaré una explicación detallada con ejemplos de cómo realizar esta tarea.

1. **Configuración inicial:**

Antes de comenzar, asegúrate de tener Selenium instalado y configurado correctamente en tu entorno de desarrollo, como se mencionó anteriormente en la respuesta anterior.

2. **Importar módulos y configurar el controlador del navegador:**

En primer lugar, importa los módulos necesarios de Selenium y configura el controlador del navegador. Asegúrate de tener el controlador correspondiente a tu navegador instalado y configurado.

In [None]:
from selenium import webdriver

# Configurar el controlador de Chrome
driver = webdriver.Chrome('/ruta/al/chromedriver')

3. **Abrir la página web de Mercado Libre:**

Utiliza el método `get()` para abrir la página principal de Mercado Libre.

In [None]:
# Abrir la página principal de Mercado Libre
driver.get('https://www.mercadolibre.com')

4. **Interacción con la página web:**

Ahora, necesitaremos interactuar con la página web de Mercado Libre para cargar y mostrar más datos. Utilizaremos el método `execute_script()` para ejecutar código JavaScript y realizar acciones como hacer clic en botones, desplazarse hacia abajo, etc.

In [None]:
import time

# Hacer clic en el botón "Aceptar" de las cookies
accept_button = driver.find_element_by_xpath("//button[contains(text(), 'Aceptar')]")
accept_button.click()

# Desplazarse hacia abajo para cargar más resultados
for _ in range(5):
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(2)  # Esperar unos segundos para que se carguen los nuevos resultados

En este ejemplo, estamos haciendo clic en el botón "`Aceptar`" de las cookies utilizando un selector `XPath` y luego nos desplazamos hacia abajo en la página web para cargar más resultados. Repetimos este proceso cinco veces, esperando unos segundos después de cada desplazamiento para permitir que se carguen los nuevos resultados.

5. **Extraer datos:**

Una vez que hayas cargado todos los datos necesarios, puedes extraer la información deseada utilizando los selectores adecuados y los métodos de Selenium.

In [None]:
# Extraer información de los productos
products = driver.find_elements_by_css_selector('.ui-search-layout__item')
for product in products:
    title = product.find_element_by_css_selector('.ui-search-item__title').text
    price = product.find_element_by_css_selector('.ui-search-price__second-line span:last-child').text
    location = product.find_element_by_css_selector('.ui-search-item__location').text
    print(f'Título: {title}, Precio: {price}, Ubicación: {location}')

En este ejemplo, estamos extrayendo información de cada producto en la página web de Mercado Libre, como el título, el precio y la ubicación.

6. **Cierre del navegador:**

Al finalizar la extracción de datos, asegúrate de cerrar correctamente el navegador para liberar los recursos.

In [None]:
# Cerrar el navegador
driver.quit()

Con estos pasos, puedes realizar web scraping dinámico tanto en sentido horizontal como vertical en la página web de Mercado Libre utilizando Selenium. Recuerda que es importante ser respetuoso y ético al realizar web scraping y cumplir con los términos de servicio del sitio web.

Ten en cuenta que la estructura y los selectores utilizados en el ejemplo pueden variar dependiendo de la versión y el diseño de la página web de Mercado Libre en el momento de tu consulta. Asegúrate de inspeccionar los elementos de la página y ajustar los selectores según sea necesario.

Espero que esta explicación te sea útil para realizar web scraping en Mercado Libre utilizando Selenium

## **Scrolling y Manejo de Tabs (Extracción de GOOGLE PLACES)**

En este ejemplo, utilizaremos Selenium para extraer información de la página de Google Places. Veremos cómo hacer scrolling para cargar más resultados y cómo manejar las pestañas del navegador para obtener información detallada sobre cada lugar. A continuación, te proporcionaré una explicación detallada con ejemplos de cómo realizar esta tarea.

1. **Configuración inicial:**

Asegúrate de tener Selenium instalado y configurado correctamente en tu entorno de desarrollo, como se mencionó anteriormente en respuestas anteriores. También necesitarás el controlador del navegador correspondiente.

2. **Importar módulos y configurar el controlador del navegador:**

Importa los módulos necesarios de Selenium y configura el controlador del navegador.

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

# Configurar el controlador de Chrome
driver = webdriver.Chrome('/ruta/al/chromedriver')

3. **Abrir la página de Google Places:**

Utiliza el método `get()` para abrir la página de Google Places.

In [None]:
# Abrir la página de Google Places
driver.get('https://www.google.com/maps')

4. **Buscar lugares:**

Introduce la consulta de búsqueda en el campo de búsqueda y presiona la tecla "`Enter`" para obtener resultados.

In [None]:
# Buscar lugares en la ubicación deseada
search_box = driver.find_element_by_xpath("//input[@autofocus='autofocus']")
search_box.send_keys('restaurantes en Ciudad de México')
search_box.send_keys(Keys.ENTER)

5. **Hacer scrolling para cargar más resultados:**

Dado que los resultados en Google Places se cargan dinámicamente a medida que haces scrolling, necesitamos hacer scrolling para obtener más resultados.

In [None]:
import time

# Hacer scrolling para cargar más resultados
SCROLL_PAUSE_TIME = 2

while True:
    # Scroll hasta el final de la página
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    # Esperar a que se carguen los nuevos resultados
    time.sleep(SCROLL_PAUSE_TIME)

    # Verificar si se han cargado todos los resultados
    load_more_button = driver.find_element_by_xpath("//button[contains(@aria-label, 'Más resultados')]")
    if load_more_button:
        load_more_button.click()
    else:
        break

En este ejemplo, hacemos scrolling en la página para cargar más resultados. Utilizamos un bucle `while` para seguir haciendo scrolling hasta que no haya más botón "`Más resultados`" para cargar.

6. **Obtener información detallada de cada lugar:**

Una vez que hemos cargado todos los resultados, podemos hacer clic en cada lugar para obtener información detallada.

In [None]:
# Obtener información detallada de cada lugar
places = driver.find_elements_by_css_selector('.section-result')
for place in places:
    place.click()
    time.sleep(2)  # Esperar a que se cargue la información detallada

    # Extraer información detallada del lugar
    name = driver.find_element_by_css_selector('.section-hero-header-title-title').text
    address = driver.find_element_by_css_selector('.section-info-text span').text
    rating = driver.find_element_by_css_selector('.section-star-display').text

    print(f'Nombre: {name}, Dirección: {address}, Calificación: {rating}')

    # Cerrar la pestaña actual y volver a la página de resultados
    driver.close()
    driver.switch_to.window(driver.window_handles[0])

En este ejemplo, utilizamos el selector CSS "`.section-result`" para obtener una lista de todos los lugares en los resultados. Luego, hacemos clic en cada lugar para abrir una nueva pestaña con información detallada. Extraemos la información deseada, como el nombre, la dirección y la calificación del lugar, y luego cerramos la pestaña y volvemos a la página de resultados.

7. **Cerrar el navegador:**

No olvides cerrar el navegador al finalizar.

In [None]:
# Cerrar el navegador
driver.quit()

Con estos pasos, puedes utilizar Selenium para realizar scrolling y manejar las pestañas del navegador al extraer información de Google Places. Recuerda que es importante ser respetuoso y ético al realizar web scraping y cumplir con los términos de servicio del sitio web.

Espero que esta explicación detallada te sea útil para realizar web scraping dinámico en Google Places utilizando Selenium.

## **Formularios y Login (Extracción de TWITTER)**

En este ejemplo, utilizaremos Selenium para extraer información de Twitter, lo que incluye iniciar sesión en la plataforma. Veremos cómo interactuar con formularios y realizar un proceso de login para acceder a los datos requeridos. A continuación, te proporcionaré una explicación detallada con ejemplos de cómo realizar esta tarea.

1. **Configuración inicial:**

Asegúrate de tener Selenium instalado y configurado correctamente en tu entorno de desarrollo, como se mencionó anteriormente en respuestas anteriores. También necesitarás el controlador del navegador correspondiente.

2. **Importar módulos y configurar el controlador del navegador:**

Importa los módulos necesarios de Selenium y configura el controlador del navegador.

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

# Configurar el controlador de Chrome
driver = webdriver.Chrome('/ruta/al/chromedriver')

3. **Abrir la página de Twitter:**

Utiliza el método `get()` para abrir la página de Twitter.

In [None]:
# Abrir la página de Twitter
driver.get('https://www.twitter.com')

4. **Interactuar con el formulario de login:**

Localiza los elementos del formulario de login y completa los campos requeridos.

In [None]:
# Introducir credenciales de acceso
username_field = driver.find_element_by_name('session[username_or_email]')
password_field = driver.find_element_by_name('session[password]')

username_field.send_keys('nombre_de_usuario')
password_field.send_keys('contraseña')

5. **Enviar el formulario de login:**

Utiliza el método `submit()` o `send_keys(Keys.RETURN)` para enviar el formulario y realizar el login.

In [None]:
# Enviar formulario de login
password_field.send_keys(Keys.RETURN)

6. **Esperar a que la página cargue y extraer información:**

Una vez que hayas iniciado sesión, puedes esperar a que la página cargue completamente y luego extraer la información que necesites.

In [None]:
import time

# Esperar a que la página cargue completamente
time.sleep(5)

# Extraer información deseada
tweets = driver.find_elements_by_css_selector('.tweet-text')
for tweet in tweets:
    print(tweet.text)

En este ejemplo, esperamos 5 segundos para asegurarnos de que la página se haya cargado completamente. Luego, utilizamos un selector CSS para encontrar todos los elementos que contienen los tweets y los imprimimos en la consola.

7. **Cerrar el navegador:**

No olvides cerrar el navegador al finalizar.

In [None]:
# Cerrar el navegador
driver.quit()

Con estos pasos, puedes utilizar Selenium para interactuar con formularios y realizar el login en Twitter para extraer información deseada. Recuerda que es importante ser respetuoso y ético al realizar web scraping y cumplir con los términos de servicio del sitio web.

Espero que esta explicación detallada te sea útil para realizar web scraping en Twitter utilizando Selenium.

## **Detectando carga dinámica (¿Cuándo utilizar Selenium?)**

Selenium es una herramienta poderosa para automatizar interacciones en un navegador web. Una de las principales ventajas de Selenium es su capacidad para interactuar con contenido dinámico en páginas web. En esta explicación detallada, veremos cuándo es apropiado utilizar Selenium para detectar carga dinámica y cómo hacerlo.

1. **Qué es la carga dinámica:**

La carga dinámica se refiere a la actualización y modificación del contenido de una página web después de que se haya cargado inicialmente. Esto puede incluir elementos como actualizaciones en tiempo real, carga de datos adicionales mediante la interacción del usuario, cambios en la estructura de la página, etc.

2. **Cuándo utilizar Selenium:**

Selenium es especialmente útil cuando la carga dinámica se produce a través de la interacción del usuario con la página web. Por ejemplo, cuando es necesario hacer clic en un botón para cargar más contenido, desplazarse hacia abajo para revelar más elementos o interactuar con formularios para realizar búsquedas o filtrar resultados.

Si la carga dinámica se produce mediante llamadas AJAX, actualizaciones en tiempo real o manipulaciones del DOM sin la necesidad de interactuar directamente con la página, puede ser más adecuado utilizar otras herramientas como BeautifulSoup o Scrapy.

3. **Ejemplo de detección de carga dinámica con Selenium:**

Supongamos que queremos extraer información de una página web que carga más contenido al hacer clic en un botón "`Cargar más`". Utilizaremos Selenium para detectar esta carga dinámica y extraer toda la información.

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# Configurar el controlador de Chrome
driver = webdriver.Chrome('/ruta/al/chromedriver')

# Abrir la página web
driver.get('https://www.example.com')

# Esperar a que aparezca el botón "Cargar más"
button = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, 'load-more-button')))

# Hacer clic en el botón "Cargar más" varias veces para cargar todo el contenido
while button.is_displayed():
    button.click()
    button = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, 'load-more-button')))

# Extraer la información deseada
data = driver.find_elements_by_css_selector('.data-element')
for element in data:
    print(element.text)

# Cerrar el navegador
driver.quit()

En este ejemplo, utilizamos Selenium para abrir la página web y esperar a que aparezca el botón "`Cargar más`". Luego, hacemos clic en el botón repetidamente hasta que ya no esté visible, lo que indica que se ha cargado todo el contenido. Después, extraemos la información deseada utilizando un selector CSS.

Es importante tener en cuenta que Selenium puede ser más lento que otras herramientas de web scraping cuando se trata de grandes cantidades de datos o páginas complejas. Sin embargo, es extremadamente útil para casos en los que se requiere interactuar con la página para cargar contenido dinámico.

4. **Consideraciones adicionales:**

Al utilizar Selenium para detectar carga dinámica, es importante tener en cuenta las siguientes consideraciones:

* Asegúrate de que el controlador del navegador esté configurado correctamente y sea compatible con la versión del navegador que estás utilizando.
* Utiliza las esperas explícitas de Selenium, como `WebDriverWait`, para esperar a que los elementos deseados estén presentes antes de interactuar con ellos.
* Ten en cuenta el rendimiento y la eficiencia al hacer múltiples clics para cargar contenido adicional. En algunos casos, puede ser más eficiente cargar todo el contenido desde la API o utilizar técnicas de desplazamiento suave en lugar de hacer clic repetidamente.
* Considera utilizar técnicas de extracción de datos más específicas, como localizar elementos por su atributo data o utilizar selectores CSS avanzados, para obtener solo la información necesaria y evitar recorrer elementos innecesarios.

Con esta explicación detallada y el ejemplo proporcionado, deberías tener una comprensión sólida de cuándo utilizar Selenium para detectar carga dinámica y cómo hacerlo. Recuerda que es importante utilizar herramientas de web scraping de manera ética y respetar los términos de servicio del sitio web que estás extrayendo.

| **Inicio** | **atrás 4** | **Siguiente 6** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./4.Varias_Paginas_del_mismo_dominio.ipynb)| [⏩](./6.Web_Scraping_de_APIs_iFrames_y_Scripts.ipynb)|