# Web Scraping

Actualmente, se estima que existen más de 1.13 mil millones de sitios web activos en todo el mundo, según datos de Internet Live Stats. Esta vasta infraestructura digital genera y almacena cantidades masivas de información, que en su conjunto superan los 94 zettabytes de datos en la web, de acuerdo con proyecciones recientes de Statista para 2025.

En este mar de datos conviven sitios de todo tipo: desde simples catálogos de productos hasta plataformas científicas que publican resultados de experimentos complejos, como simulaciones de colisiones de partículas. Dado el volumen y la diversidad de la información disponible, la recopilación manual resulta inviable para la mayoría de los casos prácticos. Por ello, uno de los desafíos actuales más importantes es el desarrollo de herramientas y técnicas para extraer automáticamente información útil y estructurada desde páginas web.

En este contexto, una de las técnicas más utilizadas es el web scraping, que permite recolectar datos de sitios web de forma automatizada, facilitando tareas como análisis de mercado, monitoreo de precios, minería de datos científicos, entre otros.

El web scraping no se refiere simplemente a la extracción de datos desde la web, sino específicamente a la extracción automatizada de información mediante el uso de software. Esta técnica permite recolectar grandes volúmenes de datos de forma eficiente, sin intervención manual.

En las siguientes sesiones, aprenderemos a implementar esta automatización utilizando el lenguaje Python, uno de los más populares para este tipo de tareas gracias a sus potentes bibliotecas como requests, BeautifulSoup y Selenium.

### Mecanismos para obtener datos de la web  

Existen dos enfoques principales para obtener datos de sitios web: métodos formales y métodos informales.  

1. Métodos formales: APIs (Application Programming Interfaces): Una API es una interfaz oficial proporcionada por un sitio web o plataforma que permite acceder a sus datos de forma estructurada y segura. Por lo general, las APIs:

* Requieren una clave de autenticación (API key).

* Proveen datos en formatos estándar como JSON o XML.

* Tienen documentación clara y estable.

* Imponen límites de uso (por número de consultas o por frecuencia).

* Ejemplo: la API de Twitter (X), la API de Google Maps, o la de OpenWeather.

**Ventajas:**

* Estabilidad y legalidad.

* Eficiencia en el acceso a datos.

* Menor riesgo de bloqueo.

2. Métodos informales: Web Scraping: Cuando un sitio no ofrece una API o cuando se necesitan datos que no están disponibles oficialmente, se recurre al web scraping. Este método consiste en:

* Hacer peticiones HTTP directamente a las páginas web.

* Extraer el contenido HTML y procesarlo para obtener la información deseada.

* Usar herramientas como requests, BeautifulSoup, Scrapy o Selenium.

**Desventajas:**

* Más frágil ante cambios en el sitio web.

* Puede violar los términos de uso del sitio si no se hace con precaución.

* Algunos sitios usan medidas anti-bots (como CAPTCHAs o verificación de actividad humana).

## Ética

La ética en el web scraping es un tema fundamental en la era del acceso masivo a la información digital. Aunque técnicamente es posible extraer datos de casi cualquier sitio web, no todo lo que es posible es necesariamente correcto o legal. El scraping debe realizarse respetando los términos y condiciones de uso del sitio web, así como las leyes de protección de datos, derechos de autor y propiedad intelectual. Extraer información sin consentimiento, sobrecargar servidores con múltiples peticiones o recopilar datos personales sin autorización puede considerarse una práctica invasiva e irresponsable. Además, el uso de los datos obtenidos debe hacerse con transparencia y respeto hacia los usuarios y los propietarios del contenido. La ética en el web scraping implica actuar con responsabilidad, limitarse a datos públicos, no interferir con el funcionamiento normal del sitio, identificar claramente al scraper (cuando sea posible mediante headers), y, de ser necesario, contactar al administrador del sitio para obtener permiso. En contextos académicos, empresariales o de investigación, aplicar principios éticos no solo previene conflictos legales, sino que también promueve la confianza en el uso y análisis responsable de la información digital.

### Buenas prácticas éticas en el web scraping:
* Revisar los Términos y Condiciones del sitio web:
Antes de realizar scraping, lee la política del sitio. Algunos sitios prohíben explícitamente la automatización o la recolección de datos sin autorización.

* Preferir APIs oficiales cuando estén disponibles:
Si el sitio ofrece una API, úsala en lugar de hacer scraping directo. Es la forma más segura, legal y estable de acceder a sus datos.

* No extraer datos personales sensibles:
Evita recolectar información como nombres, direcciones, correos electrónicos o datos financieros si no tienes consentimiento explícito. Esto puede violar leyes como el RGPD (UE) o la LFPDPPP (México).  


* No hacer scraping masivo ni agresivo:
Respeta los recursos del servidor. Usa mecanismos como sleep() entre peticiones y limita la frecuencia de acceso. No sobrecargues los sitios web con múltiples consultas por segundo.  

* Revisar y respetar el archivo robots.txt:
Este archivo indica qué partes del sitio pueden o no ser accedidas por bots. Aunque no es legalmente vinculante, seguir sus directrices es una señal de respeto hacia el sitio.  

* Identificar tu scraper adecuadamente:
Configura un User-Agent en tus peticiones que indique que se trata de un scraper, idealmente con información de contacto. Esto ayuda a mantener la transparencia.  

* No plagiar ni reutilizar contenido con fines comerciales sin permiso:
Si vas a usar los datos públicamente (p. ej., para un blog, producto o investigación), cita la fuente, y en caso de uso extensivo, solicita autorización.  

* No replicar funcionalidades completas de un sitio:
Hacer scraping para construir un servicio que imite total o parcialmente otro sitio (por ejemplo, para competir directamente) suele considerarse antiético y puede tener consecuencias legales.  

* Usar los datos con responsabilidad y transparencia:
Informa claramente para qué se están usando los datos y asegúrate de que su uso sea justo, honesto y no manipule ni perjudique a otros usuarios.  
 
* Contactar al administrador si tienes dudas:
Si el uso del scraping no es claro o planeas hacer una recolección frecuente o amplia, es recomendable contactar al dueño del sitio para pedir permiso o negociar condiciones.  

[Documentacion Xpath](https://devhints.io/xpath)

##  Xpath: accediendo a la web

In [1]:
!pip install lxml



In [2]:
html_code = """
<html>
  <body>
    <h1>Tienda</h1>
    <ul>
      <li class="producto">Laptop - $1000</li>
      <li class="producto">Tablet - $500</li>
      <li class="producto destacado">Smartphone - $800</li>
    </ul>
  </body>
  <li class="producto">Laptop - $1000</li>
</html>
"""

In [3]:
<li  atributos> Contenido </li>

SyntaxError: invalid syntax (2077608423.py, line 1)

In [4]:
from lxml import html

In [5]:
# Parseamos el HTML
tree = html.fromstring(html_code)

In [6]:
tree.text_content()

'\n  \n    Tienda\n    \n      Laptop - $1000\n      Tablet - $500\n      Smartphone - $800\n    \n  \n  Laptop - $1000\n'

In [7]:
# 1 Ejes

//li


SyntaxError: invalid syntax (1784633321.py, line 3)

In [8]:
[ x.text_content() for x in tree.xpath('//li')]

['Laptop - $1000', 'Tablet - $500', 'Smartphone - $800', 'Laptop - $1000']

In [9]:
tree.xpath('//li')[2].text_content()

'Smartphone - $800'

In [10]:
# Seleccionamos todos los <li>
items = tree.xpath('//li')

for item in items:
    print(item.text_content())


Laptop - $1000
Tablet - $500
Smartphone - $800
Laptop - $1000


In [11]:
//li[@nombredelatributo= "algo"]

//li[@class = "X"]

//li[@id=" C"]

//li[@typeof="x"]

SyntaxError: invalid syntax (2888188894.py, line 1)

In [12]:
//li[contains(@class,"X")]

SyntaxError: invalid syntax (1042955752.py, line 1)

In [13]:
# Seleccionamos solo los <li> con clase 'producto'
productos = tree.xpath('//li[@class="producto"]')

for prod in productos:
    print("Producto simple:", prod.text_content())


Producto simple: Laptop - $1000
Producto simple: Tablet - $500
Producto simple: Laptop - $1000


In [14]:
# Seleccionamos <li> con clase 'destacado'
destacados = tree.xpath('//li[contains(@class, "destacado")]')

for d in destacados:
    print("Producto destacado:", d.text_content())

Producto destacado: Smartphone - $800


In [15]:
 """ <section>
      <p class="note importante">Nota importante</p>
      <p class="note">Nota secundaria</p>
      <div class="footer">Pie de página 2</div>
    </section>
    
     """

' <section>\n     <p class="note importante">Nota importante</p>\n     <p class="note">Nota secundaria</p>\n     <div class="footer">Pie de página 2</div>\n   </section>\n   \n    '

In [16]:
## Ejemplo 2

html_code = """
<html>
  <body>
    <div id="top-pane" class="header">Encabezado</div>
    <div class="Split content">Contenido dividido</div>
    <div class="Split content">Otra sección</div>
    <div class="footer">Pie de página</div>
    <section>
      <p class="note importante">Nota importante</p>
      <p class="note">Nota secundaria</p>
      <div class="footer">Pie de página 2</div>
    </section>
  </body>
</html>
"""

In [17]:
# Parsear el HTML
tree = html.fromstring(html_code)

In [18]:

# 1. Búsqueda desde cualquier parte: //

divs_todos = tree.xpath('//div')
print("Todos los <div> del documento:")
for d in divs_todos:
    print(" -", d.text_content())


Todos los <div> del documento:
 - Encabezado
 - Contenido dividido
 - Otra sección
 - Pie de página
 - Pie de página 2


In [19]:
 tree.xpath('//div')

[<Element div at 0x1d438dd3980>,
 <Element div at 0x1d438dd34d0>,
 <Element div at 0x1d438dd2bc0>,
 <Element div at 0x1d438dd3020>,
 <Element div at 0x1d438dd3a70>]

In [20]:
 tree2 = tree.xpath('/html/body/section/p')[0]

In [21]:
tree2.xpath("./p")

[]

In [22]:
[x.text_content() for x in  tree.xpath('/html/body/section/p')]

['Nota importante', 'Nota secundaria']

In [23]:

# 2. Búsqueda desde la raíz: /
solo_html = tree.xpath('/html')
print("\nRaíz del documento:", solo_html[0].tag)



Raíz del documento: html


In [24]:
tree.xpath('/html')[0].text_content()

'\n  \n    Encabezado\n    Contenido dividido\n    Otra sección\n    Pie de página\n    \n      Nota importante\n      Nota secundaria\n      Pie de página 2\n    \n  \n'

In [25]:


# 3. Búsqueda relativa: ./
body = tree.xpath('/html/body')[0]

p_relativos = body.xpath('./section/p')
print("\nPárrafos dentro de <section> usando búsqueda relativa:")
for p in p_relativos:
    print(" -", p.text_content())



Párrafos dentro de <section> usando búsqueda relativa:
 - Nota importante
 - Nota secundaria


In [26]:


# 4. Igualdad: buscar div con id="top-pane"

div_top = tree.xpath('//div[@id="top-pane"]')

print("\n<div> con id='top-pane':", div_top[0].text_content())


<div> con id='top-pane': Encabezado


In [27]:

# 5. No igualdad: divs con class distinto de "Split content"
divs_distintos = tree.xpath('//div[@class!="Split content"]')

print("\n<div> con class distinto de 'Split content':")
for d in divs_distintos:
    print(" -", d.text_content())


<div> con class distinto de 'Split content':
 - Encabezado
 - Pie de página
 - Pie de página 2


In [None]:


# 6. Predicado: párrafos cuya clase contenga "note"
parrafos_note = tree.xpath('//p[contains(@class, "note")]')


print("\nPárrafos con clase que contiene 'note':")
for p in parrafos_note:
    print(" -", p.text_content())

In [None]:
# ejemplo 3

html_code = """
<html>
  <body>
    <div id="top-pane" class="header">Encabezado</div>
    <div class="Split content">Contenido dividido</div>
    <div class="Split content">Otra sección</div>
    <div class="container">
      <ul>
        <li><span class="dato" data-id="1">Item 1</span></li>
        <li><span class="dato" data-id="2">Item 2</span></li>
        <li><span class="dato especial" data-id="3">Item 3</span></li>
      </ul>
    </div>
    <h1 class="titulo">This is a test header</h1>
  </body>
</html>
"""

In [None]:
tree = html.fromstring(html_code)


In [None]:
# 1. Igualdad combinada con AND / OR
ejemplo_and = tree.xpath('//span[(@class="dato" and @data-id="2")]')

print("1. Span con class='dato' y data-id='2':", ejemplo_and[0].text_content())

In [None]:

# 2. Dos búsquedas encadenadas

ejemplo_encadenado = tree.xpath('//div[@class="container"]//span[@data-id="1"]')

print("2. Búsqueda en dos niveles encadenados:", ejemplo_encadenado[0].text_content())

In [None]:

# 3. Ruta completa y específica

ejemplo_ruta = tree.xpath('//div[@class="container"]/ul/li[1]/span[@data-id="1"]')
print("3. Primer <li> dentro de .container:", ejemplo_ruta[0].text_content())


In [None]:


# 4. Uso de last()
ultimo_item = tree.xpath('//li[last()]/span')
print("4. Último <li>:", ultimo_item[0].text_content())

In [None]:

# 5. Uso de position() = 2
segundo_item = tree.xpath('//li[position()=2]/span')
print("5. Segundo <li>:", segundo_item[0].text_content())


In [None]:
# 6. contains() en atributos
contiene_especial = tree.xpath('//span[contains(@class, "especial")]')
print("6. Span con 'especial' en class:", contiene_especial[0].text_content())

In [None]:
# 7. not() en atributo
sin_especial = tree.xpath('//span[not(contains(@class, "especial"))]')
print("7. Span que NO tiene 'especial':")
for s in sin_especial:
    print(" -", s.text_content())


In [None]:
tree.xpath('//span[not(contains(@class, "especial"))]/@class')

In [None]:

# 8. text() para obtener texto dentro de etiquetas

textos_h1 = tree.xpath('//h1[contains(text(), "This is")]/text()')
print("8. Texto dentro de <h1>:", textos_h1[0])


In [None]:

# 9. @atributo de una etiqueta con cierto texto
clase_h1 = tree.xpath('//h1[contains(text(), "This is")]/@class')
print("9. Clase del <h1> con texto 'This is':", clase_h1[0])

### Anidando

In [None]:
text = """<html>
              <body>
                <div>
                  <li>Producto A</li>X
                  <li>Producto B</li>X
                  <ul>
                    <li>Producto C</li>X
                  </ul>
                </div>
              </body>
            </html>"""

In [None]:
tree = html.fromstring(text)

In [None]:
tree.xpath('/html/body/div/li/text()')

#### Práctica Real

In [1]:
import requests


In [2]:
url = "https://books.toscrape.com/"

response = requests.get(url)



In [3]:
response

<Response [200]>

In [4]:
response.content



In [7]:
# Convertimos a árbol lxml
tree = html.fromstring(response.content)


In [8]:
tree2 = tree.xpath("//ol[@class='row']")[0]

In [9]:
tree2.xpath("./li[1]//h3/a/text()")

['A Light in the ...']

In [10]:
tree2.xpath("./li[1]//h3/a/@href")

['catalogue/a-light-in-the-attic_1000/index.html']

In [11]:
tree2.xpath("./li//h3/a/@href")

['catalogue/a-light-in-the-attic_1000/index.html',
 'catalogue/tipping-the-velvet_999/index.html',
 'catalogue/soumission_998/index.html',
 'catalogue/sharp-objects_997/index.html',
 'catalogue/sapiens-a-brief-history-of-humankind_996/index.html',
 'catalogue/the-requiem-red_995/index.html',
 'catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html',
 'catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html',
 'catalogue/the-boys-in-the-boat-nine-americans-and-their-epic-quest-for-gold-at-the-1936-berlin-olympics_992/index.html',
 'catalogue/the-black-maria_991/index.html',
 'catalogue/starving-hearts-triangular-trade-trilogy-1_990/index.html',
 'catalogue/shakespeares-sonnets_989/index.html',
 'catalogue/set-me-free_988/index.html',
 'catalogue/scott-pilgrims-precious-little-life-scott-pilgrim-1_987/index.html',
 'catalogue/rip-it-up-and-start-again_986/index.html',
 'catalogue/our-band-could-be-your-life-scene

In [12]:
tree2.xpath("./li//h3/a/text()")

['A Light in the ...',
 'Tipping the Velvet',
 'Soumission',
 'Sharp Objects',
 'Sapiens: A Brief History ...',
 'The Requiem Red',
 'The Dirty Little Secrets ...',
 'The Coming Woman: A ...',
 'The Boys in the ...',
 'The Black Maria',
 'Starving Hearts (Triangular Trade ...',
 "Shakespeare's Sonnets",
 'Set Me Free',
 "Scott Pilgrim's Precious Little ...",
 'Rip it Up and ...',
 'Our Band Could Be ...',
 'Olio',
 'Mesaerion: The Best Science ...',
 'Libertarianism for Beginners',
 "It's Only the Himalayas"]

# Extraer info de una pagina estática


# Requests and lxml

[Documentacion requests](https://docs.python-requests.org/en/master/)  
[Documentacion lxml](https://lxml.de/lxmlhtml.html)

Para la extracción de la informacion haremos uso de la libreria request la cual se enacrgara de brindarnos el dom de las pags web, con el fin de extraer informacion que se encuentre disponible en este.

In [5]:
import requests   #Hacer el requerimiento del servidor
import warnings
warnings.filterwarnings("ignore")

In [6]:
url = 'https://www.wikipedia.org/'   #es nuestra url semilla

Es importante destacar que cada vez que realizamos una solicitud a una página web mediante código, estamos replicando las mismas peticiones que un navegador hace al servidor cuando un usuario accede de forma normal. Sin embargo, estos navegadores están diseñados para operar a un ritmo "humano", con tiempos de espera naturales entre acciones. Si nuestras extracciones se realizan de forma demasiado rápida o repetitiva, corremos el riesgo de ser detectados como bots, lo que puede llevar a bloqueos temporales o permanentes por parte del servidor. Para evitar esto, una primera línea de defensa consiste en configurar nuestras solicitudes para que se asemejen lo más posible a las de un navegador real, incluyendo parámetros como los encabezados (headers), el User-Agent y tiempos de espera entre peticiones.

In [7]:
# Definimos el encabezado (headers), específicamente el 'User-Agent',
# que identifica el navegador y el sistema operativo del cliente.
# Si no lo especificamos, algunas páginas pueden asumir que somos un bot y bloquear la solicitud.

encabezado = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 Safari/537.36'
}


* El 'User-Agent' simula que la petición viene de un navegador real.

* Muchos servidores tienen filtros automáticos que bloquean peticiones con el user-agent por defecto de Python, que puede ser algo como Python-urllib/3.x.

* Definir este header es una práctica ética y técnica básica para evitar ser bloqueado prematuramente.

Ejemplo:  
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 Safari/537.36


Donde:  

Mozilla/5.0: Token histórico. Originalmente representaba al navegador Mozilla. Ahora es un estándar en UA.  

(X11; Linux x86_64): Información del sistema operativo y arquitectura. Aquí indica un sistema Linux de 64 bits.  

AppleWebKit/537.36: Motor de renderizado usado, WebKit (con versión).  

(KHTML, like Gecko): Indica compatibilidad con motores KHTML y Gecko (Firefox).  

Ubuntu Chromium/71.0.3578.80:  Nombre y versión del navegador específico o su derivado (en este caso Chromium en Ubuntu).  

Chrome/71.0.3578.80: Navegador real y versión usada.	

Safari/537.36: Compatible con Safari (otra capa de compatibilidad).  

## Windows + Google Chrome  
- Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36  
- Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36  
- Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36  
- Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36  

## Mac OS + Safari 11.1  
- Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/11.1.2 Safari/605.1.15  

## Linux + Chrome 44  
- Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36  


### Por qué no debemos usar cualquier User-Agent sin límite?  

* Restricciones legales y términos de servicio: Algunos sitios web prohíben el acceso automatizado o el uso de User-Agents falsificados en sus políticas. Usar un User-Agent sin permiso puede violar esas reglas.

* Bloqueos por comportamiento sospechoso: Si usas repetidamente un User-Agent (por ejemplo, el de Chrome en Windows) haciendo muchas peticiones rápidas, el servidor puede detectarte como bot y bloquear tu IP o suspender el acceso.

* Respeto al sitio web: Los servidores esperan un comportamiento humano: navegar con pausas, respetar límites y no saturar sus recursos. Usar el User-Agent de un navegador real no te da carta blanca para hacer scraping masivo sin restricciones.

* Implicaciones éticas: Fingir ser otro navegador o dispositivo para evitar bloqueos o engañar al servidor puede ser considerado poco ético.



### Método get

La función requests.get(url, headers=encabezado) envía una solicitud HTTP de tipo GET al servidor ubicado en la dirección especificada por url, incluyendo en la petición los encabezados personalizados definidos en encabezado (como el User-Agent que indica el tipo de navegador o cliente). Al ejecutar esta llamada, el servidor recibe la solicitud, la procesa y responde enviando de vuelta la información solicitada, que puede ser el contenido de una página web, un archivo o datos en otro formato. Esta respuesta queda almacenada en un objeto que permite acceder tanto al contenido recibido como a detalles adicionales, como el estado de la solicitud o los encabezados de respuesta.

In [8]:
respuesta = requests.get(url,headers = encabezado)   #aqui se tiene el arbol html que nos devuelve la url

In [9]:
respuesta

<Response [200]>

El código de estado HTTP es un número que indica el resultado de una solicitud al servidor. Por ejemplo, el código 200 significa que la solicitud fue exitosa y el servidor entregó la información solicitada. Otros códigos comunes incluyen el 301, que indica que el recurso fue movido permanentemente a otra dirección; el 404, que significa que no se encontró la página o recurso solicitado; el 403, que indica que el acceso está prohibido; y el 500, que señala un error interno del servidor. Además, el código 429 advierte que se han hecho demasiadas solicitudes en poco tiempo y el servidor está limitando el acceso. Estos códigos ayudan a los programas y navegadores a entender cómo proceder tras hacer una petición web.

In [10]:
#Tenemos el texto plano
print(respuesta.text)

<!DOCTYPE html>
<html lang="en" class="no-js">
<head>
<meta charset="utf-8">
<title>Wikipedia</title>
<meta name="description" content="Wikipedia is a free online encyclopedia, created and edited by volunteers around the world and hosted by the Wikimedia Foundation.">
<script>
document.documentElement.className = document.documentElement.className.replace( /(^|\s)no-js(\s|$)/, "$1js-enabled$2" );
</script>
<meta name="viewport" content="initial-scale=1,user-scalable=yes">
<link rel="apple-touch-icon" href="/static/apple-touch/wikipedia.png">
<link rel="shortcut icon" href="/static/favicon/wikipedia.ico">
<link rel="license" href="//creativecommons.org/licenses/by-sa/4.0/">
<style>
.sprite{background-image:linear-gradient(transparent,transparent),url(portal/wikipedia.org/assets/img/sprite-e49fbf32.svg);background-repeat:no-repeat;display:inline-block;vertical-align:middle}.svg-Commons-logo_sister{background-position:0 0;width:47px;height:47px}.svg-MediaWiki-logo_sister{background-positi

Los pasos anteriores lo que generan es la extraccion del dom en forma de texto, para poder analizarlo requeriremos de un parseador que nos convierta nuestro dom a formato html.

In [11]:
from lxml import html  #esto nos parseará nuestro texto para buscar dentro del arbol

In [12]:
parser = html.fromstring(respuesta.text)

In [13]:
parser

<Element html at 0x286b11fbde0>

In [22]:
ingles = parser.get_element_by_id("js-link-box-en")    #con esto obtenemos el nodo

In [23]:
ingles.xpath("./strong/text()")

['English']

In [None]:
print(ingles.text_content())     #obtenemos el contenido 

In [27]:
ingles2 = parser.xpath("//a[@id='js-link-box-en']/strong/text()")

In [28]:
print(ingles2)    

['English']


In [None]:
# Sacar todos los idiomas o multiples elementos con xpath

In [32]:
bloque2 = parser.xpath('//nav[@class="central-featured"]')[0]

In [36]:
bloque2.xpath(".//a/strong/text()")

['English',
 'æ\x97¥æ\x9c¬èª\x9e',
 'Ð\xa0Ñ\x83Ñ\x81Ñ\x81ÐºÐ¸Ð¹',
 'Deutsch',
 'FranÃ§ais',
 'EspaÃ±ol',
 'ä¸\xadæ\x96\x87',
 'Italiano',
 'Polski',
 'PortuguÃªs']

In [37]:
idiomas = parser.xpath('//div[contains(@class,"central-featured-lang")]//strong/text()')

In [39]:
idiomas

['English',
 'æ\x97¥æ\x9c¬èª\x9e',
 'Ð\xa0Ñ\x83Ñ\x81Ñ\x81ÐºÐ¸Ð¹',
 'Deutsch',
 'FranÃ§ais',
 'EspaÃ±ol',
 'ä¸\xadæ\x96\x87',
 'Italiano',
 'Polski',
 'PortuguÃªs']

In [42]:
len(parser.xpath('//div[contains(@class,"central-featured-lang")]'))

10

## modos de busqueda con el parseador

In [None]:
parser.find_class
parser.base_url
parser.find_rel_links
parser.findall

In [43]:
idiomas2 = parser.find_class("central-featured-lang")

In [44]:
idiomas2

[<Element div at 0x1eeafd80a00>,
 <Element div at 0x1eeafd80a50>,
 <Element div at 0x1eeafd80730>,
 <Element div at 0x1eeafd80870>,
 <Element div at 0x1eeafd80c30>,
 <Element div at 0x1eeafd80be0>,
 <Element div at 0x1eeafd80c80>,
 <Element div at 0x1eeafd80cd0>,
 <Element div at 0x1eeafd80d20>,
 <Element div at 0x1eeafd80d70>]

In [45]:
print(idiomas2[0].text_content())



English
7,069,000+ articles




In [46]:
for i in idiomas2:
    print(i.text_content())



English
7,069,000+ articles




æ¥æ¬èª
1,475,000+ è¨äº




Ð ÑÑÑÐºÐ¸Ð¹
2Â 065Â 000+ ÑÑÐ°ÑÐµÐ¹




Deutsch
3.056.000+ Artikel




FranÃ§ais
2â¯712â¯000+ articles




EspaÃ±ol
2.065.000+ artÃ­culos




ä¸­æ
1,503,000+ æ¡ç® / æ¢ç®




Italiano
1.938.000+ voci




Polski
1Â 670Â 000+ haseÅ




PortuguÃªs
1.156.000+ artigos




# buscador de xpath gral

### importamos librerias

In [47]:
import requests   #Hacer el requerimiento del servidor
from lxml import html  #esto nos parseará nuestro texto para buscar dentro del arbol

### hacemos nuestro requerimiento

In [48]:
url = 'https://www.wikipedia.org/'   #es nuestra url semilla
encabezado = {
    'user-agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'
}
respuesta = requests.get(url,headers = encabezado)   #aqui se tiene el arbol html que nos devuelve la url

In [49]:
respuesta

<Response [200]>

### Parceamos y definidmos busqueda como xpath

In [50]:
parser = html.fromstring(respuesta.text)

In [51]:
parser.xpath('//div')

[<Element div at 0x1eeafd819a0>,
 <Element div at 0x1eeafd82580>,
 <Element div at 0x1eeafd82620>,
 <Element div at 0x1eeafd82670>,
 <Element div at 0x1eeafd826c0>,
 <Element div at 0x1eeafd82710>,
 <Element div at 0x1eeafd82760>,
 <Element div at 0x1eeafd827b0>,
 <Element div at 0x1eeafd82800>,
 <Element div at 0x1eeafd82850>,
 <Element div at 0x1eeafd828a0>,
 <Element div at 0x1eeafd828f0>,
 <Element div at 0x1eeafd82940>,
 <Element div at 0x1eeafd82990>,
 <Element div at 0x1eeafd829e0>,
 <Element div at 0x1eeafd82a30>,
 <Element div at 0x1eeafd82a80>,
 <Element div at 0x1eeafd82ad0>,
 <Element div at 0x1eeafd82b20>,
 <Element div at 0x1eeafd82b70>,
 <Element div at 0x1eeafd82bc0>,
 <Element div at 0x1eeafd82c10>,
 <Element div at 0x1eeafd82c60>,
 <Element div at 0x1eeafd82cb0>,
 <Element div at 0x1eeafd82d00>,
 <Element div at 0x1eeafd82d50>,
 <Element div at 0x1eeafd82da0>,
 <Element div at 0x1eeafd82df0>,
 <Element div at 0x1eeafd82e40>,
 <Element div at 0x1eeafd82e90>,
 <Element 

In [None]:
parser.xpath('//div[contains(@class,"central-featured-lang")]//strong/text()')

# Otro método de parseo

# Beautiful Soup

Beautiful Soup es una biblioteca de Python diseñada para facilitar la extracción y el análisis de datos de archivos HTML y XML. Permite navegar, buscar y modificar fácilmente la estructura del documento, incluso si está mal formado o tiene errores comunes, lo que la hace muy útil para tareas de web scraping. Con Beautiful Soup, puedes extraer texto, atributos, enlaces y otros elementos específicos de una página web de manera sencilla, gracias a una interfaz intuitiva que trabaja con los árboles de etiquetas del HTML.


In [52]:
import requests 

In [53]:
encabezado = {
    'user-agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'
}

In [54]:
url = 'https://stackoverflow.com/questions'   #es nuestra url semilla

In [55]:
respuesta = requests.get(url,headers = encabezado)

In [57]:
respuesta.text

'<!DOCTYPE html><html lang="en-US"><head><title>Just a moment...</title><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta name="robots" content="noindex,nofollow"><meta name="viewport" content="width=device-width,initial-scale=1"><style>*{box-sizing:border-box;margin:0;padding:0}html{line-height:1.15;-webkit-text-size-adjust:100%;color:#313131;font-family:system-ui,-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,"Helvetica Neue",Arial,"Noto Sans",sans-serif,"Apple Color Emoji","Segoe UI Emoji","Segoe UI Symbol","Noto Color Emoji"}body{display:flex;flex-direction:column;height:100vh;min-height:100vh}.main-content{margin:8rem auto;padding-left:1.5rem;max-width:60rem}@media (width <= 720px){.main-content{margin-top:4rem}}.h2{line-height:2.25rem;font-size:1.5rem;font-weight:500}@media (width <= 720px){.h2{line-height:1.5rem;font-size:1.25rem}}#challenge-error-text{background-image:url("data:image/svg+xml;base64,

#### cloudscraper

cloudscraper es una librería de Python diseñada para realizar solicitudes HTTP a sitios web protegidos por Cloudflare u otros servicios de seguridad que bloquean el tráfico automatizado. A diferencia de requests, que envía peticiones simples y fácilmente identificables como generadas por un script, cloudscraper simula el comportamiento de un navegador real (por ejemplo, resolviendo desafíos JavaScript o gestionando cookies) para evitar ser bloqueado con errores como el 403. Mientras requests sirve para acceder a páginas abiertas o APIs públicas, cloudscraper es útil cuando el sitio web tiene mecanismos de protección que impiden el acceso directo desde scripts automatizados.

cloudscraper actúa a nivel HTTP: simula cabeceras, maneja cookies y resuelve ciertos desafíos anti-bot (ej. comprobaciones Cloudflare) para obtener el HTML de la página sin abrir una ventana de navegador ni ejecutar todo el JavaScript de la página.

cloudscraper fue creado específicamente para evadir las protecciones automáticas de Cloudflare y servicios similares, que intentan bloquear bots o scrapers simples como los que usan requests.  


In [None]:
!pip install cloudscraper

In [58]:
import cloudscraper

scraper = cloudscraper.create_scraper()  
url = "https://stackoverflow.com/questions"

response = scraper.get(url)


In [59]:
response.text



### importamos beautiful soup

In [None]:
# Instalación
!pip install beautifulsoup4 

In [60]:
from bs4 import BeautifulSoup
#por pip  !pip install beautifulsoup4--user 

In [61]:
# Parseamos
soup = BeautifulSoup(response.text)

In [62]:
soup

<!DOCTYPE html>
<html class="html__responsive" lang="en">
<head>
<title>Newest Questions - Stack Overflow</title>
<link href="https://cdn.sstatic.net/Sites/stackoverflow/Img/favicon.ico?v=ec617d715196" rel="shortcut icon"/>
<link href="https://cdn.sstatic.net/Sites/stackoverflow/Img/apple-touch-icon.png?v=c78bd457575a" rel="apple-touch-icon"/>
<link href="https://cdn.sstatic.net/Sites/stackoverflow/Img/apple-touch-icon.png?v=c78bd457575a" rel="image_src"/>
<link href="/opensearch.xml" rel="search" title="Stack Overflow" type="application/opensearchdescription+xml"/>
<meta content="width=device-width, height=device-height, initial-scale=1.0, minimum-scale=1.0" name="viewport"/>
<meta content="website" property="og:type"/>
<meta content="https://stackoverflow.com/questions" property="og:url"/>
<meta content="Stack Overflow" property="og:site_name"/>
<meta content="https://cdn.sstatic.net/Sites/stackoverflow/Img/apple-touch-icon@2.png?v=73d79a89bded" itemprop="image primaryImageOfPage" pr

### Tendremos que ir buscando por contenedores

In [63]:
soup.find(id="questions")

<div class="flush-left" id="questions">
<div class="s-post-summary js-post-summary" data-post-id="79789749" data-post-type-id="1" id="question-summary-79789749">
<div class="s-post-summary--stats js-post-summary-stats">
<div class="s-post-summary--stats-item s-post-summary--stats-item__emphasized" title="Score of 0">
<span class="s-post-summary--stats-item-number">0</span>
<span class="s-post-summary--stats-item-unit">votes</span>
</div>
<div class="s-post-summary--stats-item" title="0 answers">
<span class="s-post-summary--stats-item-number">0</span>
<span class="s-post-summary--stats-item-unit">answers</span>
</div>
<div class="s-post-summary--stats-item" title="10 views">
<span class="s-post-summary--stats-item-number">10</span>
<span class="s-post-summary--stats-item-unit">views</span>
</div>
</div>
<div class="s-post-summary--content">
<h3 class="s-post-summary--content-title">
<a class="s-link" href="/questions/79789749/which-is-the-best-way-to-develop-my-video-player-app">which 

In [64]:
contenedorpreguntas = soup.find(id="questions")  #solo devuelve un elemento find   

In [65]:
contenedorpreguntas

<div class="flush-left" id="questions">
<div class="s-post-summary js-post-summary" data-post-id="79789749" data-post-type-id="1" id="question-summary-79789749">
<div class="s-post-summary--stats js-post-summary-stats">
<div class="s-post-summary--stats-item s-post-summary--stats-item__emphasized" title="Score of 0">
<span class="s-post-summary--stats-item-number">0</span>
<span class="s-post-summary--stats-item-unit">votes</span>
</div>
<div class="s-post-summary--stats-item" title="0 answers">
<span class="s-post-summary--stats-item-number">0</span>
<span class="s-post-summary--stats-item-unit">answers</span>
</div>
<div class="s-post-summary--stats-item" title="10 views">
<span class="s-post-summary--stats-item-number">10</span>
<span class="s-post-summary--stats-item-unit">views</span>
</div>
</div>
<div class="s-post-summary--content">
<h3 class="s-post-summary--content-title">
<a class="s-link" href="/questions/79789749/which-is-the-best-way-to-develop-my-video-player-app">which 

### como ya tenemos guardado nuestro primer contenedor, ya no se busca en todo el arbol sino unicamente en el nuevo contenedor

In [66]:
contenedorpreguntas.find_all("div",class_="s-post-summary--content")

[<div class="s-post-summary--content">
 <h3 class="s-post-summary--content-title">
 <a class="s-link" href="/questions/79789749/which-is-the-best-way-to-develop-my-video-player-app">which is the best way to develop my video player app?</a>
 </h3>
 <div class="s-post-summary--content-excerpt">
                 I want to write an application for a VMS Client (video management system- Security Cameras), windows Server  app is done by some others (recording videos), they make an API that I can use for live ...
             </div>
 <div class="s-post-summary--meta">
 <div class="s-post-summary--meta-tags d-inline-block tags js-tags t-cñ t-aspûnet t-web">
 <ul class="ml0 list-ls-none js-post-tag-list-wrapper d-inline"><li class="d-inline mr4 js-post-tag-list-item"><a aria-label="show questions tagged 'c#'" aria-labelledby="tag-c#-tooltip-container" class="s-tag post-tag flex--item mt0 js-tagname-cñ" data-tag-menu-origin="Unknown" href="/questions/tagged/c%23" rel="tag" title="show questions 

In [67]:
listapreg = contenedorpreguntas.find_all("div",class_="s-post-summary--content")  #findall busca todas las coincidencias

In [72]:
listapreg[0].find("h3").find("a").text

'which is the best way to develop my video player app?'

In [73]:
listapreg[0].find("h3").find("a").text

'which is the best way to develop my video player app?'

In [74]:
print(listapreg[0].find(class_="s-post-summary--content-excerpt").text)


                I want to write an application for a VMS Client (video management system- Security Cameras), windows Server  app is done by some others (recording videos), they make an API that I can use for live ...
            


In [75]:
for i in listapreg:   #cada i es un elemento html
    textop = i.find("h3").find("a").text
    print(textop)
    
   

which is the best way to develop my video player app?
Big-O notation if n is a constant
How can I convert a cubemap stripe to a 'little planet' projection
How do I make a frame update and a time update?
Data aggregated from ad level metrics doesn't equate to account level metrics
Why do underscore-prefixed functions exist?
Pandas/polars async read sql database
Singularity error in a fully nested linear mixed effects model
Corrupted Kafka state after rsync: Record for partition offset 1202515169851212184 is invalid, Invalid magic found in record: 53
git bash: unable to properly install packages with pip using python 2.7
Compilation error for 'terra' in Rstudio v 4.1.1
Autoplay embeded video and/or slideshow
Live Server extension for VS Code stopped working ONLY in folders where I recently used Copilot Chat. Why?
Reversing a linked list returns only the head
Accessing values from Angular object defined with TypeScript index signature using bracket notation


In [76]:
for i in listapreg:
    descrip = i.find(class_="s-post-summary--content-excerpt").text
    descrip = descrip.replace("\n","").replace("\r","").strip()
    print(descrip)
    print()

I want to write an application for a VMS Client (video management system- Security Cameras), windows Server  app is done by some others (recording videos), they make an API that I can use for live ...

Good day to all.Let's say I have this code:int n = 100for (int i = 1; i<=n; i++) System.out.println("Hello!");  for (int j = 1; j<=n; j++)   System.out.println("World!!!&...

I have some images in cubemap format which I'm using with photo-sphere-viewer (see my repo). I've made a simple Apple Shortcut that converts six separate cubemap angles to one stripe. For example:I ...

I am making a game (HTML/JS/CSS) where you have things that update every second, but also other things (e.g. keypresses) that need to be updated every frame. So far I have a setTimeout() in a ...

I'm trying to fetch data for each ad for a given account and aggregate it at the adset/campaign/account level internally so we don't have to make multiple calls to the Meta API. However, while doing ...


As many of you, th

In [79]:
arreglo = [x.find(class_="s-post-summary--content-excerpt").text.replace("\n","").replace("\r","").strip() for x in listapreg]

In [82]:
arreglo[2]

"I have some images in cubemap format which I'm using with photo-sphere-viewer (see my repo). I've made a simple Apple Shortcut that converts six separate cubemap angles to one stripe. For example:I ..."

In [None]:
[x for x in lista]

In [77]:
for i in listapreg:
    descrip = i.find(class_="s-post-summary--content-excerpt").text
    descrip = descrip.replace("\n","").replace("\r","").strip()
    textop = i.find("h3").find("a").text
    print(textop)
    print(descrip)
    print()

which is the best way to develop my video player app?
I want to write an application for a VMS Client (video management system- Security Cameras), windows Server  app is done by some others (recording videos), they make an API that I can use for live ...

Big-O notation if n is a constant
Good day to all.Let's say I have this code:int n = 100for (int i = 1; i<=n; i++) System.out.println("Hello!");  for (int j = 1; j<=n; j++)   System.out.println("World!!!&...

How can I convert a cubemap stripe to a 'little planet' projection
I have some images in cubemap format which I'm using with photo-sphere-viewer (see my repo). I've made a simple Apple Shortcut that converts six separate cubemap angles to one stripe. For example:I ...

How do I make a frame update and a time update?
I am making a game (HTML/JS/CSS) where you have things that update every second, but also other things (e.g. keypresses) that need to be updated every frame. So far I have a setTimeout() in a ...

Data aggregated from

# Ejemplo
### Extraer de la pagina de bbva, los links de sus prospectos de sus fondos de inversión

In [None]:
urls = ['https://www.bbva.mx/personas/productos/inversion/normativa-de-fondos/fondos-renta-variable.html','https://www.bbva.mx/personas/productos/inversion/normativa-de-fondos/fondos-de-deuda.html',
          'https://www.bbva.mx/personas/productos/inversion/normativa-de-fondos/fondos-de-estrategias.html','https://www.bbva.mx/personas/productos/inversion/normativa-de-fondos/fondos-de-multiestrategias.html']

In [83]:
url='https://www.bbva.mx/personas/productos/inversion/normativa-de-fondos/fondos-renta-variable.html'

encabezado = {
        'user-agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 Safari/537.36'
}

respuesta = requests.get(url,headers=encabezado)




In [84]:
respuesta

<Response [200]>

In [85]:
parser = html.fromstring(respuesta.text)

In [127]:
parser.xpath("//tbody")[1].xpath("//tr//td[1]")

[<Element td at 0x1eeb03ffa20>,
 <Element td at 0x1eeb183c910>,
 <Element td at 0x1eeb183caa0>,
 <Element td at 0x1eeb183cc30>,
 <Element td at 0x1eeb183cd70>,
 <Element td at 0x1eeb183cf00>,
 <Element td at 0x1eeb183d090>,
 <Element td at 0x1eeb183d220>,
 <Element td at 0x1eeb183d3b0>,
 <Element td at 0x1eeb183d540>,
 <Element td at 0x1eeb183d6d0>,
 <Element td at 0x1eeb183d860>,
 <Element td at 0x1eeb183d9f0>,
 <Element td at 0x1eeb183db80>,
 <Element td at 0x1eeb183dd10>,
 <Element td at 0x1eeb183dea0>,
 <Element td at 0x1eeb183e030>,
 <Element td at 0x1eeb183e1c0>,
 <Element td at 0x1eeb183e350>,
 <Element td at 0x1eeb183e4e0>,
 <Element td at 0x1eeb183e670>,
 <Element td at 0x1eeb183e800>,
 <Element td at 0x1eeb183e990>,
 <Element td at 0x1eeb183eb20>,
 <Element td at 0x1eeb183ecb0>]

In [132]:
nombres = parser.xpath("//tbody//tr//td[1]//div//text()")

In [135]:
nombres

['\n     ',
 'Fondo',
 ' ',
 '\n     ',
 '\n    ',
 '\n     B+RVUS2\n    ',
 '\n     BBVARFG\n    ',
 '\n     BBVARFL\n    ',
 '\n     BBVACAP\n    ',
 '\n     BBVACRE\n    ',
 '\n     BBVARVE\n    ',
 '\n     BBVAEMG\n    ',
 '\n     BBVAESG\n    ',
 '\n     BBVANDQ\n    ',
 '\n     BBVARV\n    ',
 '\n     BBVADIG\n    ',
 '\n     BBVASIC\n    ',
 '\n     BBVAUS\n    ',
 '\n     BBVANSH\n    ',
 '\n     ',
 'BBVAGL3',
 '\n    ',
 '\n     ',
 'BBVAGL4',
 '\n    ',
 '\n     ',
 'BBVAGL5',
 '\n    ',
 '\n     ',
 'BBVAMA2',
 '\n    ',
 '\n     ',
 'BBVAMA3',
 '\n    ',
 '\n     ',
 'BBVAMLT',
 '\n    ',
 '\n     BBVACR\n    ',
 '\n     BBVAGF\n    ',
 '\n     BBVACRD\n     ',
 '\n    ',
 '\n     BBVAGFD\n    ']

In [136]:
nombres = [x for x in list(map(lambda x: x.replace("\n","").strip(),nombres)) if x!='']

In [139]:
nombres = nombres[1:]

In [140]:
len(nombres)

24

In [101]:
links = parser.xpath("//tbody//tr//td[3]//a/@href")

In [103]:
import pandas as pd

In [144]:
pd.concat([pd.DataFrame(nombres),pd.DataFrame(links)],axis=1)

Unnamed: 0,0,0.1
0,B+RVUS2,https://portal.bbva.mx/siabinternet/Repositori...
1,BBVARFG,https://portal.bbva.mx/siabinternet/Repositori...
2,BBVARFL,https://portal.bbva.mx/siabinternet/Repositori...
3,BBVACAP,https://portal.bbva.mx/siabinternet/Repositori...
4,BBVACRE,https://portal.bbva.mx/siabinternet/Repositori...
5,BBVARVE,https://portal.bbva.mx/siabinternet/Repositori...
6,BBVAEMG,https://portal.bbva.mx/siabinternet/Repositori...
7,BBVAESG,https://portal.bbva.mx/siabinternet/Repositori...
8,BBVANDQ,https://portal.bbva.mx/siabinternet/Repositori...
9,BBVARV,https://portal.bbva.mx/siabinternet/Repositori...


In [111]:
len(nombres)

18

In [None]:
("//div[@class='table__container table--data-gridlines']//tr//td[position()=2]//a/@href")

In [112]:
parser.xpath("//div[@class='table__container table--data-gridlines']//tr//td[position()=2]//a/@href")

['https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00004192.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00004826.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00006012.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00018047.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00003937.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00004509.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00009278.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00027565.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00007831.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00009637.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00012310.pdf',
 'https://portal.bbva.mx/siabint

In [None]:
parser.xpath("//div[@class='table__container table--data-gridlines']//tr//td[position()=2]//div[@class='table--value']")

In [None]:
parser.xpath('//div[@class="table__container table--data-gridlines"]//tr//td[position()=1]//div[@class="table--value"]/text()')

In [113]:

linksprospec =parser.xpath('//div[@class="table__container table--data-gridlines"]//tr//td[position()=2]//div[@class="table--value"]//a/@href')

fondos =parser.xpath('//div[@class="table__container table--data-gridlines"]//tr//td[position()=1]//div[@class="table--value"]/text()')


In [None]:
linksprospec

In [114]:
fondos   #limpiar texto

['\n     ',
 '\n     ',
 '\n    ',
 '\n     B+RVUS2\n    ',
 '\n     BBVARFG\n    ',
 '\n     BBVARFL\n    ',
 '\n     BBVACAP\n    ',
 '\n     BBVACRE\n    ',
 '\n     BBVARVE\n    ',
 '\n     BBVAEMG\n    ',
 '\n     BBVAESG\n    ',
 '\n     BBVANDQ\n    ',
 '\n     BBVARV\n    ',
 '\n     BBVADIG\n    ',
 '\n     BBVASIC\n    ',
 '\n     BBVAUS\n    ',
 '\n     BBVANSH\n    ',
 '\n     ',
 '\n    ',
 '\n     ',
 '\n    ',
 '\n     ',
 '\n    ',
 '\n     ',
 '\n    ',
 '\n     ',
 '\n    ',
 '\n     ',
 '\n    ',
 '\n     BBVACR\n    ',
 '\n     BBVAGF\n    ',
 '\n     BBVACRD\n     ',
 '\n    ',
 '\n     BBVAGFD\n    ']

In [115]:
fontot= [x for x in list(map(lambda x: x.replace("\n","").strip(),fondos)) if x!='']

In [117]:
len(fontot)

18

In [None]:
f=[x.replace("\n","").strip() for x in fondos]

list(filter(None,f))

In [None]:
#Tarea moral : hacer una rutina que automatice esto en los 4 links

# Automatización de rutinas

# Selenium

En sus inicios, Selenium fue desarrollado para facilitar la automatización de pruebas en entornos que utilizan navegadores web como interfaz, permitiendo verificar cada cambio en un entorno controlado y automático. Aunque en proyectos pequeños las pruebas manuales pueden ser suficientes, el creciente número de navegadores y la complejidad de las aplicaciones hacen que la automatización sea cada vez más necesaria. Selenium ofrece un conjunto de funciones que permiten definir pruebas automáticas, ejecutar interacciones paso a paso con una página web y evaluar cómo responde el navegador ante diferentes cambios, facilitando así la detección automática de resultados y validando si el comportamiento cumple con las expectativas.

Para un uso efectivo de Selenium, es recomendable tener conocimientos básicos de desarrollo front-end, especialmente del DOM (Document Object Model).

En el contexto de este curso, Selenium se empleará para automatizar tareas repetitivas que, combinadas con técnicas de web scraping vistas previamente, constituyen una herramienta poderosa para manejar páginas web dinámicas que requieren interacciones de usuario para acceder a ciertos elementos del DOM.

Para usar Selenium en Python, básicamente necesitaremos dos componentes: la biblioteca de Selenium y un driver, que es el navegador que se utilizará para ejecutar las pruebas. Para este curso utilizaremos Chrome, por lo que descargaremos el driver correspondiente desde la página oficial de Selenium.

[Descarga de WebDriver](https://googlechromelabs.github.io/chrome-for-testing/)  

Una vez descargado lo guardaremos en una carpeta donde nos direccionaremos cada vez que lo usemos

In [None]:
!pip install selenium

First import the webdriver and Keys classes from Selenium.

In [147]:
from selenium import webdriver
#from selenium.webdriver.common.keys import Keys

La clase webdriver lo conectará a la instancia de un navegador( el webDriver). La clase Keys le permite emular el trazo de las teclas del teclado, incluidas teclas especiales como "Shift" y "Return" con lo que podremos presioanr, rellenar campos, hacer checks, etc.

A continuación, se debe crear una instancia de Chrome con la ruta del controlador que descargó a través de los sitios web del navegador respectivo. .

In [146]:
webdriver.Chrome()

<selenium.webdriver.chrome.webdriver.WebDriver (session="8dc40551b96149a0d657a2e025b7d7b0")>

In [150]:
driver = webdriver.Chrome()

In [151]:
driver.maximize_window()

A partir de ahora podremos acceder a las paginas que deseemos y extraer elementos del doom como conocemos apoyandonos de las clases, etiquetas, ids, etc.

In [152]:
urls="https://www.scotiabank.com.mx/scotia-fondos/terceros-distribuidores.aspx"

In [153]:
driver.get(urls)

Hay que recordar que algunas paginas presentan protocolos de seguridad con lo que detectan cuando se esta generando un proceso de forma automatizada, por lo que para realizar una simulacion más "humana", usaremos el modulo sleep con el cual detendremos por algunos segundos algunos procesos, con lo cual no se realizara simultaneamente todas las tareas

In [154]:
from time import sleep

In [155]:
print("hola mundo")
print("adios mundo")

hola mundo
adios mundo


In [156]:
print("hola mundo")
sleep(5)
print("adios mundo")

hola mundo
adios mundo


Una vez teniendo nuestro driver funcional , tenemos acceso a todas las propeidades de la pag asi como su contenido HTML

In [157]:
print(driver.title)

Terceros Distribuidores | Fondos de Inversión | Scotiabank México


### HTML en selenium

Elementos únicos  
* find_element(By.ID, "id")
* find_element(By.NAME, "name")
* find_element(By.XPATH, "xpath")
* find_element(By.LINK_TEXT, "link text")
* find_element(By.PARTIAL_LINK_TEXT, "partial link text")
* find_element(By.TAG_NAME, "tag name")
* find_element(By.CLASS_NAME, "class name")
* find_element(By.CSS_SELECTOR, "css selector")

Elementos múltiples  
* find_elements(By.ID, "id")
* find_elements(By.NAME, "name")
* find_elements(By.XPATH, "xpath")
* find_elements(By.LINK_TEXT, "link text")
* find_elements(By.PARTIAL_LINK_TEXT, "partial link text")
* find_elements(By.TAG_NAME, "tag name")
* find_elements(By.CLASS_NAME, "class name")
* find_elements(By.CSS_SELECTOR, "css selector")

In [158]:
from selenium.webdriver.common.by import By

In [160]:
driver.find_element(By.CLASS_NAME,"block-noBttm")

<selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.28")>

In [161]:
driver.find_elements(By.CLASS_NAME,"block-noBttm")

[<selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.28")>,
 <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.30")>]

In [162]:
# se guardan en variables los contenedores
x = driver.find_elements(By.CLASS_NAME,"block-noBttm")

In [163]:
x   #es una lista , no el elemento web

[<selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.28")>,
 <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.30")>]

In [164]:
x.find_element(By.CLASS_NAME,"green-list")

AttributeError: 'list' object has no attribute 'find_element'

In [165]:
x[0]

<selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.28")>

In [166]:
x[0].find_element(By.CLASS_NAME,"green-list")

<selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.29")>

In [None]:
x

In [167]:
[y.find_elements(By.CLASS_NAME,"green-list") for y in x]

[[<selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.29")>,
  <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.31")>,
  <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.32")>],
 []]

Veamos como utilizar estos elementos


In [168]:
contTipos = x[0].find_element(By.CLASS_NAME,"green-list")

In [170]:
contTipos.find_elements(By.TAG_NAME,"li")

[<selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.33")>,
 <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.34")>,
 <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.35")>,
 <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.36")>,
 <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.37")>,
 <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6

entrar a los links y regresar

In [171]:
contTipos.find_elements(By.TAG_NAME,"a")

[<selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.40")>,
 <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.41")>,
 <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.42")>,
 <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.43")>,
 <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.44")>,
 <selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6

In [172]:
links=contTipos.find_elements(By.TAG_NAME,"a")

In [173]:
links[0]

<selenium.webdriver.remote.webelement.WebElement (session="05fba8138ee46e3d184b539e6f1f8793", element="f.265B41822B23ADE91AA453B481F660A2.d.E3A696B8C05A4B48C155E5246A4EE0E7.e.40")>

In [174]:
links[0].click()   # dar click en enlases, deben estar en el elemento web que contiene el link

In [175]:
driver.current_url 

'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos.aspx'

In [176]:
driver.back()   #regresar a la pagina anterior

In [177]:
driver.current_url    # obtener la url actual

'https://www.scotiabank.com.mx/scotia-fondos/terceros-distribuidores.aspx'

In [178]:
driver.forward()   # ir a pagina adelante

In [179]:
driver.current_url 

'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos.aspx'

In [180]:
driver.close() 

# Como podemos convinar selenium con requests

In [181]:
driver = webdriver.Chrome()

In [182]:
driver.maximize_window()

In [183]:
urls="https://www.scotiabank.com.mx/scotia-fondos/terceros-distribuidores.aspx"

In [184]:
driver.get(urls)

In [185]:
x= driver.find_elements(By.CLASS_NAME,"block-noBttm")

In [186]:
contTipos=x[0].find_element(By.CLASS_NAME,"green-list")

In [187]:
links=contTipos.find_elements(By.TAG_NAME,"a")

In [188]:
[x.get_attribute("href") for x in links]

['https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/deuda-internacional.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/estrategicos.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/perspectivas.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/futuro-retiro.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/acciones-mexico.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/acciones-internacionales.aspx']

In [189]:
links[0].get_attribute("href")

'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos.aspx'

In [190]:
links[0].click()

In [194]:
driver.find_elements(By.CLASS_NAME,"cardWrapper")[0].find_elements(By.CLASS_NAME,"card-found")

[<selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.124")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.125")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.126")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.127")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.128")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc80261

In [195]:
driver.find_elements(By.CLASS_NAME,"cardWrapper")[0].find_elements(By.CLASS_NAME,"card-found")[0]

<selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.124")>

In [None]:
driver.find_elements(By.CLASS_NAME,"card-found")

In [None]:
len(driver.find_elements(By.CLASS_NAME,"card-found"))

In [196]:
tarjeta= driver.find_elements(By.CLASS_NAME,"card-found")

In [197]:
tarjeta

[<selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.124")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.125")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.126")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.127")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.128")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc80261

In [198]:
[x.find_element(By.TAG_NAME,"a") for x in tarjeta]

[<selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.136")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.137")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.138")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.139")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.140")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc80261

In [None]:
tarjeta.find_elements(By.TAG_NAME,"a")

In [199]:
links=[x.find_element(By.TAG_NAME,"a") for x in tarjeta]

In [201]:
[x.get_attribute("href") for x in links]

['https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotiag.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotia1.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/sbankcp.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotia2.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scoti10.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/sbankmp.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scot-tr.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotilp.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotimb.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotudi.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotlpg.aspx',
 'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scot200.aspx']

In [207]:
links

[<selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.136")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.137")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.138")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.139")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc802615f24cf2cdc74", element="f.E616166382250552FC1BDA64225B381B.d.F4CBDF30843A5CAE49ADAF63DFC9F1EB.e.140")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2bf10de1c0b77cc80261

In [202]:
driver.close()

In [200]:
links[0].get_attribute("href")

'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotiag.aspx'

In [None]:
links[0].get_attribute("href")

In [None]:
links[0].get_attribute("href")

In [None]:
# si quisieramos el texto de las cartas

In [None]:
[x.get_attribute("innerHTML") for x in tarjeta]

In [None]:
[x.get_attribute("href") for x in links]

In [206]:
linkf=links[0].get_attribute("href")

InvalidSessionIdException: Message: invalid session id
Stacktrace:
	GetHandleVerifier [0x00007FF7C285AD02+56930]
	(No symbol) [0x00007FF7C27CF602]
	(No symbol) [0x00007FF7C268419D]
	(No symbol) [0x00007FF7C26BCEB7]
	(No symbol) [0x00007FF7C26EBB49]
	(No symbol) [0x00007FF7C26E612B]
	(No symbol) [0x00007FF7C26E5AF6]
	(No symbol) [0x00007FF7C26582C5]
	GetHandleVerifier [0x00007FF7C2BD6F8D+3711213]
	GetHandleVerifier [0x00007FF7C2C304CD+4077101]
	GetHandleVerifier [0x00007FF7C2C2865F+4044735]
	GetHandleVerifier [0x00007FF7C28F9736+706710]
	(No symbol) [0x00007FF7C27DB8DF]
	(No symbol) [0x00007FF7C26573A2]
	GetHandleVerifier [0x00007FF7C2C78FA8+4374792]
	BaseThreadInitThunk [0x00007FF92E4FE8D7+23]
	RtlUserThreadStart [0x00007FF92F868D9C+44]


In [None]:
linkf

In [209]:
driver = webdriver.Chrome()

In [210]:
driver.maximize_window()

In [211]:
driver.get("https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotiag.aspx")

In [212]:
 driver.find_element(By.CLASS_NAME,"documents")

<selenium.webdriver.remote.webelement.WebElement (session="3c09b2bd0bb97b1da3f8a0b63f959835", element="f.DD787B20F6E91B4F31A85328087203E5.d.F265F9BE8D916FC5F155378191988925.e.63")>

In [213]:
documentos= driver.find_element(By.CLASS_NAME,"documents")

In [None]:
documentos

In [214]:
documentos.find_elements(By.TAG_NAME,"a")

[<selenium.webdriver.remote.webelement.WebElement (session="3c09b2bd0bb97b1da3f8a0b63f959835", element="f.DD787B20F6E91B4F31A85328087203E5.d.F265F9BE8D916FC5F155378191988925.e.64")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3c09b2bd0bb97b1da3f8a0b63f959835", element="f.DD787B20F6E91B4F31A85328087203E5.d.F265F9BE8D916FC5F155378191988925.e.65")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3c09b2bd0bb97b1da3f8a0b63f959835", element="f.DD787B20F6E91B4F31A85328087203E5.d.F265F9BE8D916FC5F155378191988925.e.66")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3c09b2bd0bb97b1da3f8a0b63f959835", element="f.DD787B20F6E91B4F31A85328087203E5.d.F265F9BE8D916FC5F155378191988925.e.67")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3c09b2bd0bb97b1da3f8a0b63f959835", element="f.DD787B20F6E91B4F31A85328087203E5.d.F265F9BE8D916FC5F155378191988925.e.68")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3c09b2bd0bb97b1da3f8a0b63

In [215]:
documentos2=documentos.find_elements(By.TAG_NAME,"a")

In [216]:
documentos2

[<selenium.webdriver.remote.webelement.WebElement (session="3c09b2bd0bb97b1da3f8a0b63f959835", element="f.DD787B20F6E91B4F31A85328087203E5.d.F265F9BE8D916FC5F155378191988925.e.64")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3c09b2bd0bb97b1da3f8a0b63f959835", element="f.DD787B20F6E91B4F31A85328087203E5.d.F265F9BE8D916FC5F155378191988925.e.65")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3c09b2bd0bb97b1da3f8a0b63f959835", element="f.DD787B20F6E91B4F31A85328087203E5.d.F265F9BE8D916FC5F155378191988925.e.66")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3c09b2bd0bb97b1da3f8a0b63f959835", element="f.DD787B20F6E91B4F31A85328087203E5.d.F265F9BE8D916FC5F155378191988925.e.67")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3c09b2bd0bb97b1da3f8a0b63f959835", element="f.DD787B20F6E91B4F31A85328087203E5.d.F265F9BE8D916FC5F155378191988925.e.68")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3c09b2bd0bb97b1da3f8a0b63

In [None]:
[carros for carros in documentos2]

In [217]:
[z.get_attribute("innerHTML") for z in documentos2]

['Precios Diarios',
 'Cartera Semanal',
 'Rendimientos históricos',
 'Información Clave (DICI)',
 'Cartera Mensual',
 'Prospecto de Información']

In [218]:
[z.get_attribute("href") for z in documentos2]

['https://cdn.aglty.io/scotia-bank-mexico/pdf/scotia-fondos/precios/Precios.pdf?v=1760414162058',
 'https://cdn.aglty.io/scotia-bank-mexico/spanish/pdf/personas/fondos-de-inversion/carteras/CARTERA_SCOTIAG.pdf?v=1760414162058',
 'https://www.scotiabank.com.mx/scotia-fondos/informacion.aspx',
 'https://cdn.aglty.io/scotia-bank-mexico/spanish/pdf/personas/fondos-de-inversion/dici/DICI_SCOTIAG.pdf?v=1760414162058',
 'https://cdn.aglty.io/scotia-bank-mexico/spanish/pdf/personas/fondos-de-inversion/carteras/CM_SCOTIAG.pdf?v=1760414162058',
 'https://cdn.aglty.io/scotia-bank-mexico/pdf/scotia-fondos/prospectos/Prospecto_SCOTIAG.pdf?v=1760414162058']

In [None]:
[ x for x in list if ]

In [220]:
[z.get_attribute("href") for z in documentos2 if "dici" in z.get_attribute("innerHTML").lower()]

['https://cdn.aglty.io/scotia-bank-mexico/spanish/pdf/personas/fondos-de-inversion/dici/DICI_SCOTIAG.pdf?v=1760414162058']

In [221]:
#uso de request
import requests as rq

In [222]:
url=[z.get_attribute("href") for z in documentos2 if "dici" in z.get_attribute("innerHTML").lower()][0]

page = rq.get(url)

In [223]:
page

<Response [200]>

In [224]:
import os
os.chdir("C:\\Users\\ortca\\Downloads")

In [225]:
with open("Pruebafer.pdf", "wb") as f:
    f.write(page.content)