| **Inicio** | **atr√°s 5** | **Siguiente 7** |
|----------- |-------------- |---------------|
| [üè†](../../README.md) | [‚è™](./5.Paginas_Dinamicas.ipynb)| [‚è©](./7.Autenticaci%C3%B3n_y_Captchas.ipynb)|

# **6. Web Scraping de APIs, iFrames y Scripts**

## **Introducci√≥n**

Web Scraping es una t√©cnica utilizada para extraer datos de sitios web de manera automatizada. Sin embargo, existen casos especiales en los que el contenido que se desea extraer no est√° directamente disponible en el HTML de la p√°gina. En estas situaciones, es necesario abordar t√©cnicas espec√≠ficas para realizar el scraping. A continuaci√≥n, se explica cada una de estas t√©cnicas:

1. **Web Scraping de APIs:**

Muchas aplicaciones y sitios web ofrecen una API (Interfaz de Programaci√≥n de Aplicaciones) que permite el intercambio de datos de manera estructurada. Estas APIs suelen proporcionar acceso a datos en tiempo real o informaci√≥n espec√≠fica. Para realizar Web Scraping de APIs, es necesario realizar solicitudes HTTP a trav√©s de la API y analizar las respuestas para extraer los datos deseados. Algunas APIs requieren autenticaci√≥n, como la inclusi√≥n de una clave de API en la solicitud.

Ejemplo de Web Scraping de una API con Python utilizando la biblioteca `requests`:

In [None]:
import requests

url = 'https://api.example.com/data'
response = requests.get(url)

if response.status_code == 200:
    data = response.json()
    # Procesar y extraer los datos necesarios de 'data'
    print(data)

En este ejemplo, se realiza una solicitud `GET` a la URL de la API, y si la respuesta es exitosa (c√≥digo de estado `200`), se procesa la respuesta en formato `JSON` y se extraen los datos necesarios.

2. **Web Scraping de iFrames:**

Los iFrames son elementos HTML que permiten incrustar contenido de otros sitios web dentro de una p√°gina. En ocasiones, los datos que se desean extraer est√°n contenidos dentro de un iFrame en lugar del propio HTML principal de la p√°gina. Para extraer datos de iFrames, se debe acceder y analizar el contenido del iFrame por separado.

Ejemplo de Web Scraping de un iFrame con Selenium en Python:

In [None]:
from selenium import webdriver

driver = webdriver.Chrome('/ruta/al/chromedriver')
driver.get('https://www.example.com')

# Cambiar al contexto del iFrame
driver.switch_to.frame('iframe_id')

# Extraer los datos del iFrame
data = driver.find_element_by_css_selector('.data-element').text
print(data)

# Cambiar de nuevo al contexto principal
driver.switch_to.default_content()

# Continuar con el resto del scraping
# ...

driver.quit()

En este ejemplo, se utiliza Selenium para abrir la p√°gina web y luego se cambia al contexto del iFrame utilizando el m√©todo `switch_to.frame()`. Una vez dentro del iFrame, se puede utilizar Selenium para extraer los datos deseados. Despu√©s de extraer los datos del iFrame, se puede cambiar al contexto principal utilizando `switch_to.default_content()` para continuar con el resto del scraping.

3. **Web Scraping de Scripts:**

A veces, los datos en una p√°gina web se generan din√°micamente mediante scripts JavaScript que se ejecutan despu√©s de que se ha cargado el HTML inicial. Estos scripts pueden realizar solicitudes adicionales a servidores o manipular el contenido de la p√°gina. Para extraer datos generados por scripts, es necesario ejecutar el JavaScript y luego analizar el contenido resultante.

Ejemplo de Web Scraping de contenido generado por JavaScript con Selenium en Python:

In [None]:
from selenium import webdriver

driver = webdriver.Chrome('/ruta/al/chromedriver')
driver.get('https://www.example.com')

# Ejecutar el JavaScript en la p√°gina
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

# Extraer los datos generados por el JavaScript
data = driver.find_element_by_css_selector('.data-element').text
print(data)

# Continuar con el resto del scraping
# ...

driver.quit()

En este ejemplo, se utiliza Selenium para abrir la p√°gina web y luego se ejecuta el JavaScript utilizando el m√©todo `execute_script()`. Despu√©s de ejecutar el JavaScript, se puede utilizar Selenium para extraer los datos generados por el JavaScript.

Estas t√©cnicas, Web Scraping de APIs, iFrames y Scripts, son √∫tiles cuando los datos que se desean extraer no est√°n directamente disponibles en el HTML de la p√°gina. Cada t√©cnica requiere un enfoque diferente para acceder y extraer los datos deseados. Es importante tener en cuenta que el scraping de sitios web debe realizarse de manera √©tica y cumpliendo los t√©rminos de servicio del sitio web objetivo.

## **¬øQu√© es una API?**

Una API (Application Programming Interface) es un conjunto de reglas y protocolos que permite la comunicaci√≥n entre diferentes aplicaciones de software. Es una interfaz que define c√≥mo los componentes de software deben interactuar entre s√≠, especificando los m√©todos, formatos de datos y convenciones que se deben seguir.

Las API permiten que las aplicaciones se conecten y compartan datos o funcionalidades de manera estandarizada y segura. Proporcionan una capa de abstracci√≥n que oculta los detalles internos de implementaci√≥n de una aplicaci√≥n, permitiendo que otras aplicaciones interact√∫en con ella de manera controlada.

Existen diferentes tipos de APIs, pero en este contexto nos centraremos en las API web, que se basan en protocolos HTTP para la comunicaci√≥n. Las API web permiten que las aplicaciones cliente realicen solicitudes a un servidor y obtengan una respuesta en un formato espec√≠fico, generalmente JSON o XML.

Aqu√≠ tienes un ejemplo sencillo para ilustrar el funcionamiento de una API:

Supongamos que deseas desarrollar una aplicaci√≥n que muestre informaci√≥n meteorol√≥gica actualizada. En lugar de recopilar los datos meteorol√≥gicos directamente desde su fuente, puedes utilizar una API meteorol√≥gica para obtener los datos de forma m√°s conveniente.

1. **Registrarse y obtener una clave de API:**

Primero, deber√°s registrarte en el servicio de la API meteorol√≥gica y obtener una clave de API √∫nica. Esta clave se utilizar√° para autenticar tus solicitudes a la API y garantizar que solo las personas autorizadas puedan acceder a los datos.

2. **Realizar una solicitud a la API:**

Utilizando la clave de API, puedes realizar solicitudes a la API para obtener informaci√≥n meteorol√≥gica. Por ejemplo, puedes realizar una solicitud HTTP GET a la siguiente URL:

`GET https://api.weather.com/forecast?key=YOUR_API_KEY&location=NewYork`

En esta solicitud, se incluye la clave de API y la ubicaci√≥n para la que se desea obtener el pron√≥stico del tiempo (en este caso, Nueva York). La API responder√° con los datos meteorol√≥gicos en un formato espec√≠fico, como JSON.

3. **Procesar la respuesta de la API:**

Una vez que recibas la respuesta de la API, puedes procesar los datos en tu aplicaci√≥n. Por ejemplo, puedes extraer la temperatura actual, la descripci√≥n del clima y otros detalles relevantes para mostrarlos en tu interfaz de usuario.

4. **Actualizar los datos peri√≥dicamente:**

Puedes configurar tu aplicaci√≥n para realizar solicitudes a la API peri√≥dicamente y mantener actualizados los datos meteorol√≥gicos en tiempo real.

Las APIs no solo se utilizan para obtener datos, sino tambi√©n para realizar operaciones espec√≠ficas en una aplicaci√≥n. Por ejemplo, una API de pago en l√≠nea permite a los comerciantes procesar transacciones de forma segura, mientras que una API de redes sociales permite a las aplicaciones publicar contenido en plataformas sociales.

En resumen, una API es una interfaz que permite la comunicaci√≥n entre aplicaciones. Facilita la integraci√≥n de diferentes sistemas y el intercambio de datos y funcionalidades. Al utilizar una API, puedes aprovechar servicios externos sin tener que implementar todo desde cero, lo que acelera el desarrollo de aplicaciones y mejora la interoperabilidad.

![API](../imagenes%20Web%20Scraping/API-REST.png "API")

## **¬øQu√© es una JSON?**

JSON (JavaScript Object Notation) es un formato ligero y legible por humanos para el intercambio de datos. Se utiliza ampliamente en aplicaciones web y servicios web para transmitir datos entre un servidor y un cliente. JSON se basa en la sintaxis de los objetos en JavaScript, pero es un formato independiente de lenguaje y se puede utilizar con varios lenguajes de programaci√≥n.

Una estructura JSON se compone de pares de clave-valor, donde la clave es una cadena de texto y el valor puede ser de varios tipos de datos, como cadenas de texto, n√∫meros, booleanos, listas, objetos anidados o valores nulos. Estos pares de clave-valor se agrupan entre llaves `{}` para formar un objeto JSON. Veamos un ejemplo:

```
{
  "nombre": "Juan",
  "edad": 30,
  "ciudad": "Barcelona",
  "intereses": ["programaci√≥n", "viajes", "m√∫sica"],
  "activo": true,
  "direccion": {
    "calle": "Calle Mayor",
    "numero": 123,
    "codigo_postal": "08001"
  },
  "trabajo": null
}
```

En este ejemplo, tenemos un objeto `JSON` que representa informaci√≥n sobre una persona. Cada clave est√° seguida por dos puntos (`:`), y luego se proporciona el valor correspondiente. Los valores de cadena de texto se deben incluir entre comillas dobles, mientras que los valores num√©ricos, booleanos y nulos no necesitan comillas.

Las listas se representan utilizando corchetes `[]` y los elementos de la lista est√°n separados por comas. En el ejemplo, la clave "`intereses`" tiene una lista de tres elementos.

Los objetos anidados se pueden incluir como valores de otras claves, como el caso de la clave "`direccion`" que contiene otro objeto JSON con detalles de la direcci√≥n.

JSON proporciona una forma estructurada y f√°cil de transmitir datos entre diferentes sistemas. Es ampliamente utilizado en servicios web y APIs, ya que se puede serializar y deserializar f√°cilmente en objetos en lenguajes de programaci√≥n como JavaScript, Python, Java, entre otros. Adem√°s, su legibilidad humana facilita la depuraci√≥n y comprensi√≥n de los datos transmitidos.

En resumen, JSON es un formato de intercambio de datos estructurado y legible por humanos que se utiliza ampliamente en aplicaciones web y servicios web. Permite representar datos complejos utilizando una sintaxis sencilla basada en pares de clave-valor.

## **¬øQu√© es una RESTful API?**

Una RESTful API (Application Programming Interface) es una interfaz de programaci√≥n de aplicaciones que sigue los principios y est√°ndares del estilo arquitect√≥nico REST (Representational State Transfer). REST es un enfoque utilizado para dise√±ar sistemas distribuidos en la web, donde los recursos se identifican mediante URLs (Uniform Resource Locators) y se accede a ellos a trav√©s de m√©todos HTTP est√°ndar, como GET, POST, PUT y DELETE.

Una RESTful API permite a los desarrolladores interactuar con una aplicaci√≥n o servicio web mediante solicitudes y respuestas HTTP. Estas solicitudes se realizan a trav√©s de URLs espec√≠ficas que representan los recursos y se pueden utilizar para realizar operaciones como leer, crear, actualizar o eliminar datos.

A continuaci√≥n, se presentan los principales conceptos y caracter√≠sticas de una RESTful API:

1. **Recursos:** Los recursos son las entidades que se pueden acceder a trav√©s de la API. Cada recurso tiene una URL √∫nica que lo identifica. Por ejemplo, en una API de redes sociales, los recursos pueden ser usuarios, publicaciones, comentarios, etc.

2. **M√©todos HTTP:** Los m√©todos HTTP se utilizan para indicar la acci√≥n que se realizar√° en un recurso. Los principales m√©todos utilizados en una RESTful API son:

* **GET:** Se utiliza para obtener informaci√≥n de un recurso. Por ejemplo, obtener los detalles de un usuario mediante una solicitud `GET` a la URL `/users/1`.

* **POST:** Se utiliza para crear un nuevo recurso. Por ejemplo, crear una nueva publicaci√≥n mediante una solicitud `POST` a la URL `/posts`.

* **PUT:** Se utiliza para actualizar un recurso existente. Por ejemplo, actualizar los datos de un usuario mediante una solicitud `PUT` a la URL `/users/1`.

* **DELETE:** Se utiliza para eliminar un recurso. Por ejemplo, eliminar un comentario mediante una solicitud `DELETE` a la URL `/comments/1`.

3. **Formato de datos:** Los datos transmitidos a trav√©s de una RESTful API se suelen intercambiar en formatos comunes como JSON (JavaScript Object Notation) o XML (eXtensible Markup Language). JSON es el formato m√°s utilizado debido a su simplicidad y legibilidad.

4. **Estado de la aplicaci√≥n:** Una API RESTful es stateless, lo que significa que cada solicitud debe contener toda la informaci√≥n necesaria para entender y procesar la solicitud. No se mantiene informaci√≥n sobre el estado de la aplicaci√≥n en el servidor entre solicitudes.

5. **C√≥digos de estado HTTP:** Las respuestas de una API RESTful incluyen c√≥digos de estado HTTP para indicar el resultado de la solicitud. Algunos c√≥digos de estado comunes son:

* **200 OK:** La solicitud se ha procesado correctamente.

* **201 Created:** Se ha creado un nuevo recurso.

* **400 Bad Request:** La solicitud contiene datos incorrectos o mal formados.

* **404 Not Found:** El recurso solicitado no existe.

* **500 Internal Server Error:** Se produjo un error interno en el servidor.

A continuaci√≥n se muestra un ejemplo de c√≥mo se ver√≠a una solicitud `GET` a una API RESTful utilizando la URL `/users/1` para obtener los detalles de un usuario:

```
GET /users/1 HTTP/1.1
Host: api.example.com
```

La respuesta correspondiente podr√≠a ser:

```
HTTP/1.1 200 OK
Content-Type: application/json

{
  "id": 1,
  "name": "John Doe",
  "email": "john.doe@example.com"
}
```

En resumen, una RESTful API es una interfaz de programaci√≥n de aplicaciones que sigue los principios REST y permite a los desarrolladores interactuar con una aplicaci√≥n o servicio web mediante solicitudes y respuestas HTTP. Proporciona una forma est√°ndar y eficiente de acceder y manipular recursos utilizando m√©todos HTTP y formatos de datos como JSON.

## **Extracci√≥n de datos de APIs**

La extracci√≥n de datos de APIs (Application Programming Interfaces) con Python es un proceso mediante el cual se obtienen datos de servicios web a trav√©s de solicitudes HTTP y se procesan para su posterior uso o an√°lisis. Python proporciona varias bibliotecas que simplifican la interacci√≥n con APIs y facilitan la extracci√≥n de datos.

A continuaci√≥n, te proporcionar√© una explicaci√≥n detallada del proceso de extracci√≥n de datos de APIs utilizando Python, junto con ejemplos de c√≥digo:

* **Paso 1:** Importar las bibliotecas necesarias

In [1]:
import requests
import json

En este ejemplo, importamos las bibliotecas `requests` para realizar las solicitudes HTTP y json para trabajar con los datos en formato JSON.

* **Paso 2:** Hacer una solicitud a la API

In [None]:
url = 'https://api.example.com/data'
response = requests.get(url)

Definimos la URL de la API que deseamos consultar y utilizamos el m√©todo `get` de la biblioteca `requests` para hacer la solicitud HTTP. El resultado de la solicitud se almacena en la variable `response`.

* **Paso 3:** Procesar la respuesta de la API

In [None]:
if response.status_code == 200:
    data = response.json()
    # Procesar los datos obtenidos
else:
    print('Error en la solicitud:', response.status_code)

Verificamos si la solicitud fue exitosa mediante el c√≥digo de estado HTTP. Si es `200 (OK)`, utilizamos el m√©todo `json()` para obtener los datos en formato JSON y los almacenamos en la variable data. A partir de aqu√≠, podemos procesar los datos de acuerdo a nuestras necesidades. Si la solicitud no fue exitosa, se muestra un mensaje de error con el c√≥digo de estado.

* **Paso 4:** Trabajar con los datos obtenidos

In [None]:
for item in data['results']:
    print(item['name'])

En este ejemplo, asumimos que los datos obtenidos est√°n en formato JSON y contienen una lista de resultados. Recorremos la lista e imprimimos el nombre de cada elemento.

Este es solo un ejemplo b√°sico de c√≥mo se puede extraer y procesar datos de una API utilizando Python. Dependiendo de la API espec√≠fica, es posible que necesites proporcionar par√°metros adicionales en la solicitud, como claves de autenticaci√≥n, filtros o paginaci√≥n.

Es importante leer la documentaci√≥n de la API que deseas utilizar para comprender c√≥mo hacer las solicitudes adecuadas y c√≥mo procesar los datos devueltos.

Recuerda que algunas APIs pueden requerir autenticaci√≥n mediante tokens o claves de API. En esos casos, tendr√°s que incluir esos datos en la solicitud para acceder a la API.

Espero que esta explicaci√≥n te haya ayudado a comprender c√≥mo realizar la extracci√≥n de datos de APIs con Python. ¬°No dudes en hacer m√°s preguntas si tienes alguna duda adicional!

## **Web Scraping y Pandas**

El web scraping es el proceso de extracci√≥n de datos de p√°ginas web de forma automatizada. Una vez que los datos se extraen, es com√∫n utilizar bibliotecas de Python como Pandas para realizar el procesamiento y an√°lisis de los datos obtenidos.

Pandas es una biblioteca de Python ampliamente utilizada para el an√°lisis de datos. Proporciona estructuras de datos y herramientas de manipulaci√≥n de datos eficientes y flexibles. A continuaci√≥n, te proporcionar√© una explicaci√≥n detallada de c√≥mo combinar el web scraping con Pandas utilizando ejemplos.

* **Paso 1:** Realizar el web scraping

Antes de usar Pandas, necesitas extraer los datos de la p√°gina web deseada. Esto se puede hacer utilizando bibliotecas como `BeautifulSoup` o `Scrapy`. Estas bibliotecas te permiten analizar la estructura HTML de la p√°gina y extraer los datos necesarios. Aqu√≠ hay un ejemplo utilizando `BeautifulSoup`:

In [None]:
import requests
from bs4 import BeautifulSoup

# Realizar la solicitud HTTP
url = 'https://www.example.com'
response = requests.get(url)

# Analizar el HTML
soup = BeautifulSoup(response.text, 'html.parser')

# Encontrar los elementos deseados
data = []
items = soup.find_all('div', class_='item')
for item in items:
    title = item.find('h2').text
    price = item.find('span', class_='price').text
    data.append({'Title': title, 'Price': price})

En este ejemplo, se realiza una solicitud HTTP a la URL deseada y se analiza el HTML utilizando `BeautifulSoup`. Luego, se encuentran los elementos deseados (en este caso, t√≠tulos y precios) y se almacenan en una lista de diccionarios llamada data.

* **Paso 2: Crear un DataFrame de Pandas**

Una vez que tienes los datos extra√≠dos, puedes crear un `DataFrame` de `Pandas` para facilitar su manipulaci√≥n y an√°lisis. Un `DataFrame` es una estructura de datos tabular similar a una tabla de una base de datos o una hoja de c√°lculo de Excel. Aqu√≠ est√° el ejemplo de c√≥mo crear un `DataFrame` utilizando los datos extra√≠dos anteriormente:

In [None]:
import pandas as pd

df = pd.DataFrame(data)
print(df)

El c√≥digo anterior crea un DataFrame a partir de la lista de diccionarios data. Luego, se imprime el DataFrame, lo que mostrar√° los datos en una tabla con columnas '`Title`' y '`Price`'.

* **Paso 3:**  Manipular y analizar los datos con Pandas

Una vez que tienes el `DataFrame`, puedes utilizar las diversas funciones y m√©todos de Pandas para manipular y analizar los datos seg√∫n tus necesidades. Por ejemplo, puedes realizar operaciones de filtrado, ordenamiento, c√°lculo de estad√≠sticas y visualizaci√≥n de los datos. Aqu√≠ hay algunos ejemplos:

In [None]:
# Filtrar por precio
filtered_df = df[df['Price'] > 10]

# Ordenar por t√≠tulo
sorted_df = df.sort_values('Title')

# Calcular estad√≠sticas
mean_price = df['Price'].mean()

# Visualizar los datos
df.plot.bar(x='Title', y='Price')

Estos son solo ejemplos b√°sicos de c√≥mo manipular y analizar datos utilizando Pandas. La biblioteca ofrece una amplia gama de funcionalidades que te permiten realizar tareas m√°s complejas y sofisticadas con tus datos extra√≠dos.

Es importante destacar que, antes de utilizar Pandas, debes asegurarte de tener los datos extra√≠dos en una estructura adecuada, como una lista de diccionarios o una lista de listas, para poder crear el `DataFrame` correctamente.

Espero que esta explicaci√≥n te haya sido √∫til para comprender c√≥mo combinar el web scraping con Pandas para el procesamiento y an√°lisis de datos. Recuerda que el web scraping debe realizarse de manera √©tica y respetando los t√©rminos de servicio de los sitios web que est√°s raspando.

## **Extracci√≥n de datos de iframes (W3SCHOOLS)**

La extracci√≥n de datos de iframes puede resultar un poco m√°s complicada que extraer datos de elementos HTML regulares, ya que los iframes son ventanas incrustadas dentro de una p√°gina web. Sin embargo, con las herramientas adecuadas como `Selenium`, es posible realizar esta tarea. A continuaci√≥n, te proporcionar√© una explicaci√≥n detallada con ejemplos de c√≥mo extraer datos de iframes en la p√°gina web de W3Schools utilizando Python y `Selenium`.

* **Paso 1:** Configuraci√≥n del entorno

Para comenzar, debes asegurarte de tener instaladas las siguientes herramientas:

1. **Python:** El lenguaje de programaci√≥n que utilizaremos.
2. **Selenium:** Una biblioteca de Python que nos permite automatizar navegadores web.

Un controlador de navegador: Dependiendo del navegador que desees utilizar, necesitar√°s descargar el controlador correspondiente. Para este ejemplo, utilizaremos Chrome y el controlador "ChromeDriver".
Adem√°s, aseg√∫rate de tener el archivo HTML de la p√°gina web de W3Schools en tu directorio de trabajo.

* **Paso 2:** Importar las bibliotecas necesarias

Importa las bibliotecas de `Selenium` y las herramientas necesarias:

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

* **Paso 3:** Configurar y abrir el navegador

Configura el controlador del navegador y abre el navegador:

In [None]:
# Configurar el controlador del navegador
driver = webdriver.Chrome('ruta_al_chromedriver')

# Abrir el navegador y navegar a la p√°gina web
driver.get('ruta_al_archivo_html')

Aseg√∫rate de reemplazar '`ruta_al_chromedriver`' con la ubicaci√≥n real del controlador de Chrome y '`ruta_al_archivo_html`' con la ubicaci√≥n real del archivo HTML de W3Schools.

* **Paso 4:** Cambiar al iframe

Dado que los iframes son ventanas incrustadas, debemos cambiar al iframe correcto antes de extraer los datos. Para hacerlo, utiliza el m√©todo `switch_to.frame()` de Selenium:

In [None]:
# Cambiar al iframe
iframe = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, 'myframe')))
driver.switch_to.frame(iframe)

En este ejemplo, el iframe tiene el atributo ID establecido en '`myframe`'. Puedes ajustar esto seg√∫n el atributo espec√≠fico que tenga el iframe que deseas seleccionar.

* **Paso 5:** Extraer los datos

Una vez que est√°s dentro del iframe, puedes utilizar las herramientas habituales de Selenium para extraer los datos deseados. Por ejemplo, para extraer el t√≠tulo de la p√°gina dentro del iframe, puedes utilizar el siguiente c√≥digo:

In [None]:
# Extraer el t√≠tulo de la p√°gina dentro del iframe
title = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, 'h1')))
print(title.text)

En este ejemplo, estamos buscando un elemento `<h1>` dentro del iframe y extrayendo su texto utilizando el atributo text.

* **Paso 6:** Volver al contexto principal

Despu√©s de extraer los datos del iframe, es posible que desees volver al contexto principal de la p√°gina. Puedes hacerlo utilizando el m√©todo `switch_to.default_content()` de Selenium:

In [None]:
# Volver al contexto principal
driver.switch_to.default_content()

Esto te permitir√° interactuar con otros elementos fuera del iframe, si es necesario.

* **Paso 7:** Cerrar el navegador

Finalmente, no olvides cerrar el navegador cuando hayas terminado de extraer los datos:

In [None]:
# Cerrar el navegador
driver.quit()

Con esto, has completado la extracci√≥n de datos de un iframe en la p√°gina web de W3Schools utilizando Selenium.

Recuerda que al utilizar web scraping con Selenium, debes asegurarte de cumplir con los t√©rminos de servicio del sitio web y no realizar solicitudes excesivas o abusivas que puedan afectar su rendimiento.

## **Extracci√≥n de Datos de Tag Script (EJEMPLO 1 - GOB.PE)**

La extracci√≥n de datos de la etiqueta `<script>` puede ser √∫til cuando los datos se generan din√°micamente mediante JavaScript y se insertan en el c√≥digo fuente de la p√°gina. En este ejemplo, explicar√© c√≥mo extraer datos de la etiqueta `<script>` en el sitio web del gobierno de Per√∫ (gob.pe) utilizando Python y la biblioteca `BeautifulSoup`.

* **Paso 1:** Configuraci√≥n del entorno

Aseg√∫rate de tener instaladas las siguientes herramientas:

1. **Python:** El lenguaje de programaci√≥n que utilizaremos.
2. **BeautifulSoup:** Una biblioteca de Python para analizar y extraer datos de HTML y XML.

* **Paso 2:** Importar las bibliotecas necesarias

Importa la biblioteca `requests` para realizar la solicitud HTTP al sitio web, y la biblioteca `BeautifulSoup` para analizar el HTML de la p√°gina:

In [3]:
import requests
from bs4 import BeautifulSoup

* **Paso 3:** Realizar la solicitud HTTP y analizar el HTML

Realiza una solicitud HTTP al sitio web y analiza el HTML de la p√°gina utilizando `BeautifulSoup`:

In [4]:
# Realizar la solicitud HTTP
url = 'https://www.gob.pe/'
response = requests.get(url)

# Analizar el HTML de la p√°gina
soup = BeautifulSoup(response.text, 'html.parser')

En este ejemplo, estamos realizando una solicitud `GET` al sitio web del gobierno de Per√∫ y obteniendo la respuesta. Luego, pasamos el contenido HTML de la respuesta a `BeautifulSoup` para que lo analice.

* **Paso 4:** Encontrar la etiqueta `<script>`

Una vez que tenemos el objeto `soup`, podemos buscar la etiqueta `<script>` en el HTML. Utilizaremos el m√©todo `find_all()` para encontrar todas las etiquetas `<script>`:

In [5]:
# Encontrar la etiqueta <script>
script_tags = soup.find_all('script')

Esto devolver√° una lista de todas las etiquetas `<script>` presentes en el HTML de la p√°gina.

* **Paso 5:** Extraer los datos de la etiqueta `<script>`

Ahora que tenemos las etiquetas `<script>`, podemos extraer los datos que nos interesan. Dependiendo del contenido de la etiqueta `<script>`, deber√°s analizar su contenido y extraer los datos relevantes. Aqu√≠ hay un ejemplo simple para extraer el contenido de una etiqueta `<script>` espec√≠fica:

In [6]:
# Extraer el contenido de la etiqueta <script> espec√≠fica
script_content = script_tags[0].string

En este ejemplo, estamos extrayendo el contenido de la primera etiqueta `<script>` en la lista `script_tags` utilizando el atributo `string`. Puedes ajustar esto seg√∫n la etiqueta `<script>` espec√≠fica que desees extraer.

* **Paso 6:** Procesar los datos extra√≠dos

Una vez que hayas extra√≠do el contenido de la etiqueta `<script>`, puedes procesarlo seg√∫n tus necesidades. Por ejemplo, puedes utilizar expresiones regulares o t√©cnicas de manipulaci√≥n de cadenas para extraer datos espec√≠ficos de ese contenido.

* **Paso 7:** Cerrar el navegador

Recuerda cerrar el navegador utilizando el m√©todo `quit()` de Selenium:

In [None]:
# Cerrar el navegador
driver.quit()

Con esto, has completado la extracci√≥n de datos de la etiqueta `<script>` en el sitio web del gobierno de Per√∫ utilizando `BeautifulSoup`.

Recuerda que al utilizar web scraping, debes asegurarte de cumplir con los t√©rminos de servicio del sitio web y no realizar solicitudes excesivas o abusivas que puedan afectar su rendimiento.

## **Extracci√≥n de Datos de Tag Script (EJEMPLO 2 - FootDistrict)**

Por favor, ten en cuenta que el web scraping de sitios web puede ser una actividad sensible y debe realizarse de manera √©tica y respetando los t√©rminos de servicio del sitio web objetivo. Adem√°s, los sitios web pueden tener medidas de seguridad o pol√≠ticas que proh√≠ben el scraping de sus datos. Aseg√∫rate de obtener el permiso adecuado antes de realizar cualquier extracci√≥n de datos.

Dicho esto, a continuaci√≥n te proporcionar√© una explicaci√≥n general sobre c√≥mo extraer datos de la etiqueta `<script>` en un sitio web utilizando Python y `BeautifulSoup`. Sin embargo, ten en cuenta que no puedo acceder a sitios web espec√≠ficos en tiempo real debido a las limitaciones de mi entorno. Por lo tanto, no puedo proporcionarte un ejemplo detallado del sitio web FootDistrict. Pero te explicar√© el enfoque general.

* **Paso 1:** Configurar el entorno

Aseg√∫rate de tener instaladas las siguientes herramientas:

1. **Python:** El lenguaje de programaci√≥n que utilizaremos.
2. **BeautifulSoup:** Una biblioteca de Python para analizar y extraer datos de HTML y XML.

* **Paso 2:** Importar las bibliotecas necesarias

Importa la biblioteca `requests` para realizar la solicitud HTTP al sitio web, y la biblioteca `BeautifulSoup` para analizar el HTML de la p√°gina:

In [8]:
import requests
from bs4 import BeautifulSoup

* **Paso 3:** Realizar la solicitud HTTP y analizar el HTML

Realiza una solicitud HTTP al sitio web y analiza el HTML de la p√°gina utilizando BeautifulSoup:

In [9]:
# Realizar la solicitud HTTP
url = 'https://www.footdistrict.com/'
response = requests.get(url)

# Analizar el HTML de la p√°gina
soup = BeautifulSoup(response.text, 'html.parser')

* **Paso 4:** Encontrar la etiqueta `<script>`

Una vez que tenemos el objeto `soup`, podemos buscar la etiqueta `<script>` en el HTML. Utilizaremos el m√©todo `find_all()` para encontrar todas las etiquetas `<script>`:

In [10]:
# Encontrar la etiqueta <script>
script_tags = soup.find_all('script')

Esto devolver√° una lista de todas las etiquetas `<script>` presentes en el HTML de la p√°gina.

* **Paso 5:** Extraer los datos de la etiqueta `<script>`

Ahora que tenemos las etiquetas `<script>`, podemos extraer los datos que nos interesan. Dependiendo del contenido de la etiqueta `<script>`, deber√°s analizar su contenido y extraer los datos relevantes. Aqu√≠ hay un ejemplo simple para extraer el contenido de una etiqueta `<script>` espec√≠fica:

In [11]:
# Extraer el contenido de la etiqueta <script> espec√≠fica
script_content = script_tags[0].string

En este ejemplo, estamos extrayendo el contenido de la primera etiqueta `<script>` en la lista `script_tags` utilizando el atributo string. Puedes ajustar esto seg√∫n la etiqueta `<script>` espec√≠fica que desees extraer.

* **Paso 6:** Procesar los datos extra√≠dos

Una vez que hayas extra√≠do el contenido de la etiqueta `<script>`, puedes procesarlo seg√∫n tus necesidades. Puedes utilizar expresiones regulares, t√©cnicas de manipulaci√≥n de cadenas u otras bibliotecas (como json) para extraer datos espec√≠ficos de ese contenido.

Recuerda que al utilizar web scraping, debes asegurarte de cumplir con los t√©rminos de servicio del sitio web y no realizar solicitudes excesivas o abusivas que puedan afectar su rendimiento.

Espero que esta explicaci√≥n general te haya sido √∫til para comprender c√≥mo extraer datos de la etiqueta `<script>` en un sitio web utilizando Python y `BeautifulSoup`. Recuerda adaptar el c√≥digo y los pasos seg√∫n el sitio web espec√≠fico que est√©s utilizando.

| **Inicio** | **atr√°s 5** | **Siguiente 7** |
|----------- |-------------- |---------------|
| [üè†](../../README.md) | [‚è™](./5.Paginas_Dinamicas.ipynb)| [‚è©](./7.Autenticaci%C3%B3n_y_Captchas.ipynb)|