# Web Scraping

Actualmente, se estima que existen más de 1.13 mil millones de sitios web activos en todo el mundo, según datos de Internet Live Stats. Esta vasta infraestructura digital genera y almacena cantidades masivas de información, que en su conjunto superan los 94 zettabytes de datos en la web, de acuerdo con proyecciones recientes de Statista para 2025.

En este mar de datos conviven sitios de todo tipo: desde simples catálogos de productos hasta plataformas científicas que publican resultados de experimentos complejos, como simulaciones de colisiones de partículas. Dado el volumen y la diversidad de la información disponible, la recopilación manual resulta inviable para la mayoría de los casos prácticos. Por ello, uno de los desafíos actuales más importantes es el desarrollo de herramientas y técnicas para extraer automáticamente información útil y estructurada desde páginas web.

En este contexto, una de las técnicas más utilizadas es el web scraping, que permite recolectar datos de sitios web de forma automatizada, facilitando tareas como análisis de mercado, monitoreo de precios, minería de datos científicos, entre otros.

El web scraping no se refiere simplemente a la extracción de datos desde la web, sino específicamente a la extracción automatizada de información mediante el uso de software. Esta técnica permite recolectar grandes volúmenes de datos de forma eficiente, sin intervención manual.

En las siguientes sesiones, aprenderemos a implementar esta automatización utilizando el lenguaje Python, uno de los más populares para este tipo de tareas gracias a sus potentes bibliotecas como requests, BeautifulSoup y Selenium.

### Mecanismos para obtener datos de la web  

Existen dos enfoques principales para obtener datos de sitios web: métodos formales y métodos informales.  

1. Métodos formales: APIs (Application Programming Interfaces): Una API es una interfaz oficial proporcionada por un sitio web o plataforma que permite acceder a sus datos de forma estructurada y segura. Por lo general, las APIs:

* Requieren una clave de autenticación (API key).

* Proveen datos en formatos estándar como JSON o XML.

* Tienen documentación clara y estable.

* Imponen límites de uso (por número de consultas o por frecuencia).

* Ejemplo: la API de Twitter (X), la API de Google Maps, o la de OpenWeather.

**Ventajas:**

* Estabilidad y legalidad.

* Eficiencia en el acceso a datos.

* Menor riesgo de bloqueo.

2. Métodos informales: Web Scraping: Cuando un sitio no ofrece una API o cuando se necesitan datos que no están disponibles oficialmente, se recurre al web scraping. Este método consiste en:

* Hacer peticiones HTTP directamente a las páginas web.

* Extraer el contenido HTML y procesarlo para obtener la información deseada.

* Usar herramientas como requests, BeautifulSoup, Scrapy o Selenium.

**Desventajas:**

* Más frágil ante cambios en el sitio web.

* Puede violar los términos de uso del sitio si no se hace con precaución.

* Algunos sitios usan medidas anti-bots (como CAPTCHAs o verificación de actividad humana).

## Ética

La ética en el web scraping es un tema fundamental en la era del acceso masivo a la información digital. Aunque técnicamente es posible extraer datos de casi cualquier sitio web, no todo lo que es posible es necesariamente correcto o legal. El scraping debe realizarse respetando los términos y condiciones de uso del sitio web, así como las leyes de protección de datos, derechos de autor y propiedad intelectual. Extraer información sin consentimiento, sobrecargar servidores con múltiples peticiones o recopilar datos personales sin autorización puede considerarse una práctica invasiva e irresponsable. Además, el uso de los datos obtenidos debe hacerse con transparencia y respeto hacia los usuarios y los propietarios del contenido. La ética en el web scraping implica actuar con responsabilidad, limitarse a datos públicos, no interferir con el funcionamiento normal del sitio, identificar claramente al scraper (cuando sea posible mediante headers), y, de ser necesario, contactar al administrador del sitio para obtener permiso. En contextos académicos, empresariales o de investigación, aplicar principios éticos no solo previene conflictos legales, sino que también promueve la confianza en el uso y análisis responsable de la información digital.

### Buenas prácticas éticas en el web scraping:
* Revisar los Términos y Condiciones del sitio web:
Antes de realizar scraping, lee la política del sitio. Algunos sitios prohíben explícitamente la automatización o la recolección de datos sin autorización.

* Preferir APIs oficiales cuando estén disponibles:
Si el sitio ofrece una API, úsala en lugar de hacer scraping directo. Es la forma más segura, legal y estable de acceder a sus datos.

* No extraer datos personales sensibles:
Evita recolectar información como nombres, direcciones, correos electrónicos o datos financieros si no tienes consentimiento explícito. Esto puede violar leyes como el RGPD (UE) o la LFPDPPP (México).  


* No hacer scraping masivo ni agresivo:
Respeta los recursos del servidor. Usa mecanismos como sleep() entre peticiones y limita la frecuencia de acceso. No sobrecargues los sitios web con múltiples consultas por segundo.  

* Revisar y respetar el archivo robots.txt:
Este archivo indica qué partes del sitio pueden o no ser accedidas por bots. Aunque no es legalmente vinculante, seguir sus directrices es una señal de respeto hacia el sitio.  

* Identificar tu scraper adecuadamente:
Configura un User-Agent en tus peticiones que indique que se trata de un scraper, idealmente con información de contacto. Esto ayuda a mantener la transparencia.  

* No plagiar ni reutilizar contenido con fines comerciales sin permiso:
Si vas a usar los datos públicamente (p. ej., para un blog, producto o investigación), cita la fuente, y en caso de uso extensivo, solicita autorización.  

* No replicar funcionalidades completas de un sitio:
Hacer scraping para construir un servicio que imite total o parcialmente otro sitio (por ejemplo, para competir directamente) suele considerarse antiético y puede tener consecuencias legales.  

* Usar los datos con responsabilidad y transparencia:
Informa claramente para qué se están usando los datos y asegúrate de que su uso sea justo, honesto y no manipule ni perjudique a otros usuarios.  
 
* Contactar al administrador si tienes dudas:
Si el uso del scraping no es claro o planeas hacer una recolección frecuente o amplia, es recomendable contactar al dueño del sitio para pedir permiso o negociar condiciones.  

[Documentacion Xpath](https://devhints.io/xpath)

##  Xpath: accediendo a la web

In [None]:
!pip install lxml

In [24]:
html_code = """
<html>
  <body>
    <h1>Tienda</h1>
    <ul>
      <li class="producto">Laptop - $1000</li>
      <li class="producto">Tablet - $500</li>
      <li class="producto destacado">Smartphone - $800</li>
    </ul>
  </body>
</html>
"""

In [None]:
#parseamos para distinguir las anidaciones del html
# lxml nos permite convertir el texto en un bloque jerárquico

In [15]:
from lxml import html

In [25]:
# Parseamos el HTML (traducir)
tree = html.fromstring(html_code)

In [26]:
tree #objeto html

<Element html at 0x10613cbe0>

In [29]:
# 1 Ejes de acuerdo con el indexado; cada eje tiene elementos de acuerdo con el no. de lineas en el mismo indexado
# // significa busca en todo el documento, no ejes particulares; se pierde en que eje está
# /li busca en el nodo inmediato siguiente
# <> etiqueta de apertura, </> etiqueta de clausura
# el CSS le da el formato para la visualización - se crea archivo con terminación CSS
# el html es un cascarón que tiene etiquetas adentro
# head es para la metadata, no aparece en la pagina; lo que esté dentro de body sí se verá en la pagina web
# div es la parte mas importante de segmentación; img - src - imagen; a - href - links

tree.xpath('//li[@id = "C"]')
#/li[contains(@class, "destacado")]

[]

In [22]:
tree = html/body/ul #nuevo dome

NameError: name 'body' is not defined

In [21]:
tree.xpath('//li')
#cada uno es un documento; una lista de elementos web

[<Element li at 0x1060ca300>,
 <Element li at 0x1060ca800>,
 <Element li at 0x1060ca120>]

In [32]:
[x.text_content() for x in tree.xpath('//li')]

['Laptop - $1000', 'Tablet - $500', 'Smartphone - $800']

In [5]:
# Seleccionamos todos los <li>
items = tree.xpath('//li')
for item in items:
    print(item.text_content())


Laptop - $1000
Tablet - $500
Smartphone - $800


In [33]:
# Seleccionamos solo los <li> con clase 'producto'
productos = tree.xpath('//li[@class="producto"]')
for prod in productos:
    print("Producto simple:", prod.text_content())


Producto simple: Laptop - $1000
Producto simple: Tablet - $500


In [34]:
# Seleccionamos <li> con clase 'destacado'
destacados = tree.xpath('//li[contains(@class, "destacado")]')
for d in destacados:
    print("Producto destacado:", d.text_content())

Producto destacado: Smartphone - $800


In [35]:
## Ejemplo 2

html_code = """
<html>
  <body>
    <div id="top-pane" class="header">Encabezado</div>
    <div class="Split content">Contenido dividido</div>
    <div class="Split content">Otra sección</div>
    <div class="footer">Pie de página</div>
    <section>
      <p class="note importante">Nota importante</p>
      <p class="note">Nota secundaria</p>
    </section>
  </body>
</html>
"""

In [None]:
# El código tiene 4 ejes, section es padre de p, body es padre de div y section, html es padre de body

In [36]:
# Parsear el HTML
tree = html.fromstring(html_code)

In [37]:

# 1. Búsqueda desde cualquier parte: //
divs_todos = tree.xpath('//div')
print("Todos los <div> del documento:")
for d in divs_todos:
    print(" -", d.text_content())


Todos los <div> del documento:
 - Encabezado
 - Contenido dividido
 - Otra sección
 - Pie de página


In [None]:
#generalmente los divs no tienen texto que se ve en las pags, sirven para generalizar la informacion
#estudiar a qué se refiere con los ejes, jerarquías, búsquedas
# los id's son únicos, podemos usar los atributos también para

In [38]:

# 2. Búsqueda desde la raíz: /
solo_html = tree.xpath('/html') #eje donde estoy parado
print("\nRaíz del documento:", solo_html[0].tag)



Raíz del documento: html


In [40]:
tree.xpath('/html')[0].text_content()

'\n  \n    Encabezado\n    Contenido dividido\n    Otra sección\n    Pie de página\n    \n      Nota importante\n      Nota secundaria\n    \n  \n'

In [43]:


# 3. Búsqueda relativa: ./
body = tree.xpath('/html/body')[0]
p_relativos = body.xpath('./section/p')
print("\nPárrafos dentro de <section> usando búsqueda relativa:")
for p in p_relativos:
    print(" -", p.text_content())

#brincamos un eje jerarquico


Párrafos dentro de <section> usando búsqueda relativa:
 - Nota importante
 - Nota secundaria


In [44]:


# 4. Igualdad: buscar div con id="top-pane"
div_top = tree.xpath('//div[@id="top-pane"]')
print("\n<div> con id='top-pane':", div_top[0].text_content())


<div> con id='top-pane': Encabezado


In [45]:

# 5. No igualdad: divs con class distinto de "Split content"
divs_distintos = tree.xpath('//div[@class!="Split content"]')
print("\n<div> con class distinto de 'Split content':")
for d in divs_distintos:
    print(" -", d.text_content())

#un id también puede tener clase


<div> con class distinto de 'Split content':
 - Encabezado
 - Pie de página


In [46]:


# 6. Predicado: párrafos cuya clase contenga "note"
parrafos_note = tree.xpath('//p[contains(@class, "note")]')
print("\nPárrafos con clase que contiene 'note':")
for p in parrafos_note:
    print(" -", p.text_content())


Párrafos con clase que contiene 'note':
 - Nota importante
 - Nota secundaria


In [47]:
# ejemplo 3

html_code = """
<html>
  <body>
    <div id="top-pane" class="header">Encabezado</div>
    <div class="Split content">Contenido dividido</div>
    <div class="Split content">Otra sección</div>
    <div class="container">
      <ul>
        <li><span class="dato" data-id="1">Item 1</span></li>
        <li><span class="dato" data-id="2">Item 2</span></li>
        <li><span class="dato especial" data-id="3">Item 3</span></li>
      </ul>
    </div>
    <h1 class="titulo">This is a test header</h1>
  </body>
</html>
"""

In [48]:
tree = html.fromstring(html_code)


In [49]:
# 1. Igualdad combinada con AND / OR
ejemplo_and = tree.xpath('//span[@class="dato" and @data-id="2"]')
print("1. Span con class='dato' y data-id='2':", ejemplo_and[0].text_content())

1. Span con class='dato' y data-id='2': Item 2


In [50]:

# 2. Dos búsquedas encadenadas
ejemplo_encadenado = tree.xpath('//div[@class="container"]//span[@data-id="3"]')
print("2. Búsqueda en dos niveles encadenados:", ejemplo_encadenado[0].text_content())

2. Búsqueda en dos niveles encadenados: Item 3


In [58]:

# 3. Ruta completa y específica
ejemplo_ruta = tree.xpath('//div[@class="container"]/ul/li[1]/span[@data-id="1"]')
print("3. Primer <li> dentro de .container:", ejemplo_ruta[0].text_content())


3. Primer <li> dentro de .container: Item 1


In [59]:


# 4. Uso de last()
ultimo_item = tree.xpath('//li[last()]/span')
print("4. Último <li>:", ultimo_item[0].text_content())

4. Último <li>: Item 3


In [60]:

# 5. Uso de position() = 2
segundo_item = tree.xpath('//li[position()=2]/span')
print("5. Segundo <li>:", segundo_item[0].text_content())


5. Segundo <li>: Item 2


In [54]:
# 6. contains() en atributos
contiene_especial = tree.xpath('//span[contains(@class, "especial")]')
print("6. Span con 'especial' en class:", contiene_especial[0].text_content())

6. Span con 'especial' en class: Item 3


In [55]:
# 7. not() en atributo
sin_especial = tree.xpath('//span[not(contains(@class, "especial"))]')
print("7. Span que NO tiene 'especial':")
for s in sin_especial:
    print(" -", s.text_content())


7. Span que NO tiene 'especial':
 - Item 1
 - Item 2


In [61]:

# 8. text() para obtener texto dentro de etiquetas
textos_h1 = tree.xpath('//h1[contains(text(), "This is")]/text()')
print("8. Texto dentro de <h1>:", textos_h1[0])


8. Texto dentro de <h1>: This is a test header


In [62]:
# 8. text() para obtener texto dentro de etiquetas - SIN utilizar la función text
textos_h1 = tree.xpath('//h1[contains(text(), "This is")]')
print("8. Texto dentro de <h1>:", textos_h1[0])


8. Texto dentro de <h1>: <Element h1 at 0x106175950>


In [63]:

# 9. @atributo de una etiqueta con cierto texto
clase_h1 = tree.xpath('//h1[contains(text(), "This is")]/@class')
print("9. Clase del <h1> con texto 'This is':", clase_h1[0])

9. Clase del <h1> con texto 'This is': titulo


#### Práctica Real

In [64]:
import requests
#un request es cuando damos enter a una página de internet

In [65]:
url = "https://books.toscrape.com/"
response = requests.get(url)

# Convertimos a árbol lxml
tree = html.fromstring(response.content)


In [67]:
response.content



In [76]:
#especifico y seguro para extraer los títulos
tree.xpath('//ol/li//h3/a/text()')

['A Light in the ...',
 'Tipping the Velvet',
 'Soumission',
 'Sharp Objects',
 'Sapiens: A Brief History ...',
 'The Requiem Red',
 'The Dirty Little Secrets ...',
 'The Coming Woman: A ...',
 'The Boys in the ...',
 'The Black Maria',
 'Starving Hearts (Triangular Trade ...',
 "Shakespeare's Sonnets",
 'Set Me Free',
 "Scott Pilgrim's Precious Little ...",
 'Rip it Up and ...',
 'Our Band Could Be ...',
 'Olio',
 'Mesaerion: The Best Science ...',
 'Libertarianism for Beginners',
 "It's Only the Himalayas"]

In [72]:
# Extraemos los títulos de los libros
titulos = tree.xpath('//h3/a/@title')

for t in titulos:
    print(t)

# Extraer info de una pagina estática


# Requests and lxml

[Documentacion requests](https://docs.python-requests.org/en/master/)  
[Documentacion lxml](https://lxml.de/lxmlhtml.html)

Para la extracción de la informacion haremos uso de la libreria request la cual se enacrgara de brindarnos el dom de las pags web, con el fin de extraer informacion que se encuentre disponible en este.

In [77]:
import requests   #Hacer el requerimiento del servidor
import warnings
warnings.filterwarnings("ignore")

In [78]:
url = 'https://www.wikipedia.org/'   #es nuestra url semilla

Es importante destacar que cada vez que realizamos una solicitud a una página web mediante código, estamos replicando las mismas peticiones que un navegador hace al servidor cuando un usuario accede de forma normal. Sin embargo, estos navegadores están diseñados para operar a un ritmo "humano", con tiempos de espera naturales entre acciones. Si nuestras extracciones se realizan de forma demasiado rápida o repetitiva, corremos el riesgo de ser detectados como bots, lo que puede llevar a bloqueos temporales o permanentes por parte del servidor. Para evitar esto, una primera línea de defensa consiste en configurar nuestras solicitudes para que se asemejen lo más posible a las de un navegador real, incluyendo parámetros como los encabezados (headers), el User-Agent y tiempos de espera entre peticiones.

In [79]:
# Definimos el encabezado (headers), específicamente el 'User-Agent',
# que identifica el navegador y el sistema operativo del cliente.
# Si no lo especificamos, algunas páginas pueden asumir que somos un bot y bloquear la solicitud.

encabezado = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/139.0.0.0 Safari/537.36'
}


* El 'User-Agent' simula que la petición viene de un navegador real.

* Muchos servidores tienen filtros automáticos que bloquean peticiones con el user-agent por defecto de Python, que puede ser algo como Python-urllib/3.x.

* Definir este header es una práctica ética y técnica básica para evitar ser bloqueado prematuramente.

Ejemplo:  
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 Safari/537.36


Donde:  

Mozilla/5.0: Token histórico. Originalmente representaba al navegador Mozilla. Ahora es un estándar en UA.  

(X11; Linux x86_64): Información del sistema operativo y arquitectura. Aquí indica un sistema Linux de 64 bits.  

AppleWebKit/537.36: Motor de renderizado usado, WebKit (con versión).  

(KHTML, like Gecko): Indica compatibilidad con motores KHTML y Gecko (Firefox).  

Ubuntu Chromium/71.0.3578.80:  Nombre y versión del navegador específico o su derivado (en este caso Chromium en Ubuntu).  

Chrome/71.0.3578.80: Navegador real y versión usada.	

Safari/537.36: Compatible con Safari (otra capa de compatibilidad).  

## Windows + Google Chrome  
- Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36  
- Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36  
- Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36  
- Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36  

## Mac OS + Safari 11.1  
- Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/11.1.2 Safari/605.1.15  

## Linux + Chrome 44  
- Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36  


### Por qué no debemos usar cualquier User-Agent sin límite?  

* Restricciones legales y términos de servicio: Algunos sitios web prohíben el acceso automatizado o el uso de User-Agents falsificados en sus políticas. Usar un User-Agent sin permiso puede violar esas reglas.

* Bloqueos por comportamiento sospechoso: Si usas repetidamente un User-Agent (por ejemplo, el de Chrome en Windows) haciendo muchas peticiones rápidas, el servidor puede detectarte como bot y bloquear tu IP o suspender el acceso.

* Respeto al sitio web: Los servidores esperan un comportamiento humano: navegar con pausas, respetar límites y no saturar sus recursos. Usar el User-Agent de un navegador real no te da carta blanca para hacer scraping masivo sin restricciones.

* Implicaciones éticas: Fingir ser otro navegador o dispositivo para evitar bloqueos o engañar al servidor puede ser considerado poco ético.



### Método get

La función requests.get(url, headers=encabezado) envía una solicitud HTTP de tipo GET al servidor ubicado en la dirección especificada por url, incluyendo en la petición los encabezados personalizados definidos en encabezado (como el User-Agent que indica el tipo de navegador o cliente). Al ejecutar esta llamada, el servidor recibe la solicitud, la procesa y responde enviando de vuelta la información solicitada, que puede ser el contenido de una página web, un archivo o datos en otro formato. Esta respuesta queda almacenada en un objeto que permite acceder tanto al contenido recibido como a detalles adicionales, como el estado de la solicitud o los encabezados de respuesta.

In [81]:
respuesta = requests.get(url,headers = encabezado)   #aqui se tiene el arbol html que nos devuelve la url

In [82]:
respuesta

<Response [200]>

El código de estado HTTP es un número que indica el resultado de una solicitud al servidor. Por ejemplo, el código 200 significa que la solicitud fue exitosa y el servidor entregó la información solicitada. Otros códigos comunes incluyen el 301, que indica que el recurso fue movido permanentemente a otra dirección; el 404, que significa que no se encontró la página o recurso solicitado; el 403, que indica que el acceso está prohibido; y el 500, que señala un error interno del servidor. Además, el código 429 advierte que se han hecho demasiadas solicitudes en poco tiempo y el servidor está limitando el acceso. Estos códigos ayudan a los programas y navegadores a entender cómo proceder tras hacer una petición web.

In [83]:
#Tenemos el texto plano
print(respuesta.text)

<!DOCTYPE html>
<html lang="en" class="no-js">
<head>
<meta charset="utf-8">
<title>Wikipedia</title>
<meta name="description" content="Wikipedia is a free online encyclopedia, created and edited by volunteers around the world and hosted by the Wikimedia Foundation.">
<script>
document.documentElement.className = document.documentElement.className.replace( /(^|\s)no-js(\s|$)/, "$1js-enabled$2" );
</script>
<meta name="viewport" content="initial-scale=1,user-scalable=yes">
<link rel="apple-touch-icon" href="/static/apple-touch/wikipedia.png">
<link rel="shortcut icon" href="/static/favicon/wikipedia.ico">
<link rel="license" href="//creativecommons.org/licenses/by-sa/4.0/">
<style>
.sprite{background-image:linear-gradient(transparent,transparent),url(portal/wikipedia.org/assets/img/sprite-e49fbf32.svg);background-repeat:no-repeat;display:inline-block;vertical-align:middle}.svg-Commons-logo_sister{background-position:0 0;width:47px;height:47px}.svg-MediaWiki-logo_sister{background-positi

Los pasos anteriores lo que generan es la extraccion del dom en forma de texto, para poder analizarlo requeriremos de un parseador que nos convierta nuestro dom a formato html.

In [84]:
from lxml import html  #esto nos parseará nuestro texto para buscar dentro del arbol

In [85]:
parser = html.fromstring(respuesta.text)

In [86]:
ingles = parser.get_element_by_id("js-link-box-en")    #con esto obtenemos el nodo

In [87]:
print(ingles.text_content())     #obtenemos el contenido 


English
7,050,000+ articles



In [88]:
# replicando con xpath
ingles2 = parser.xpath("//a[@id='js-link-box-en']/strong/text()")

In [89]:
print(ingles2)

['English']


In [None]:
# este es mas fino porque no trae tooodo el texto contenido en el ID

In [13]:
# Sacar todos los idiomas o multiples elementos con xpath

In [90]:
idiomas = parser.xpath('//div[contains(@class,"central-featured-lang")]//strong/text()')

In [91]:
print(idiomas)

['English', 'æ\x97¥æ\x9c¬èª\x9e', 'Ð\xa0Ñ\x83Ñ\x81Ñ\x81ÐºÐ¸Ð¹', 'Deutsch', 'FranÃ§ais', 'EspaÃ±ol', 'ä¸\xadæ\x96\x87', 'Italiano', 'Polski', 'PortuguÃªs']


## modos de busqueda con el parseador

In [38]:
parser.find_class
parser.base_url
parser.find_rel_links
parser.findall

<bound method _Element.findall of <Element html at 0x212d4df8370>>

In [92]:
idiomas2 = parser.find_class("central-featured-lang")

In [93]:
print(idiomas2[0].text_content())



English
7,050,000+ articles




In [94]:
for i in idiomas2:
    print(i.text_content())



English
7,050,000+ articles




æ¥æ¬èª
1,471,000+ è¨äº




Ð ÑÑÑÐºÐ¸Ð¹
2Â 061Â 000+ ÑÑÐ°ÑÐµÐ¹




Deutsch
3.046.000+ Artikel




FranÃ§ais
2â¯706â¯000+ articles




EspaÃ±ol
2.058.000+ artÃ­culos




ä¸­æ
1,497,000+ æ¡ç® / æ¢ç®




Italiano
1.933.000+ voci




Polski
1Â 667Â 000+ haseÅ




PortuguÃªs
1.154.000+ artigos




# buscador de xpath gral

### importamos librerias

In [95]:
import requests   #Hacer el requerimiento del servidor
from lxml import html  #esto nos parseará nuestro texto para buscar dentro del arbol

### hacemos nuestro requerimiento

In [96]:
url = 'https://www.wikipedia.org/'   #es nuestra url semilla
encabezado = {
    'user-agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 Safari/537.36'
}
respuesta = requests.get(url,headers = encabezado)   #aqui se tiene el arbol html que nos devuelve la url

### Parceamos y definidmos busqueda como xpath

In [97]:
parser = html.fromstring(respuesta.text)

In [45]:
parser.xpath('//div')

[<Element div at 0x212d4debfc0>,
 <Element div at 0x212d4deaa80>,
 <Element div at 0x212d4de9d60>,
 <Element div at 0x212d4df80a0>,
 <Element div at 0x212d4df80f0>,
 <Element div at 0x212d4df8050>,
 <Element div at 0x212d4df97c0>,
 <Element div at 0x212d4df9a90>,
 <Element div at 0x212d4df9ae0>,
 <Element div at 0x212d4df8410>,
 <Element div at 0x212d4df9270>,
 <Element div at 0x212d4df9400>,
 <Element div at 0x212d4df94f0>,
 <Element div at 0x212d4df8c80>,
 <Element div at 0x212d4df9c70>,
 <Element div at 0x212d4df9cc0>,
 <Element div at 0x212d4df9d10>,
 <Element div at 0x212d4df9d60>,
 <Element div at 0x212d4df9db0>,
 <Element div at 0x212d4df9e00>,
 <Element div at 0x212d4df9e50>,
 <Element div at 0x212d4df9ea0>,
 <Element div at 0x212d4df9ef0>,
 <Element div at 0x212d4dfa030>,
 <Element div at 0x212d4dfa080>,
 <Element div at 0x212d4dfa0d0>,
 <Element div at 0x212d4dfa120>,
 <Element div at 0x212d4dfa170>,
 <Element div at 0x212d4dfa1c0>,
 <Element div at 0x212d4dfa210>,
 <Element 

In [46]:
parser.xpath('//div[contains(@class,"central-featured-lang")]//strong/text()')

['English',
 'æ\x97¥æ\x9c¬èª\x9e',
 'Ð\xa0Ñ\x83Ñ\x81Ñ\x81ÐºÐ¸Ð¹',
 'Deutsch',
 'EspaÃ±ol',
 'FranÃ§ais',
 'ä¸\xadæ\x96\x87',
 'Italiano',
 'PortuguÃªs']

# Otro método de parseo

# Beautiful Soup

Beautiful Soup es una biblioteca de Python diseñada para facilitar la extracción y el análisis de datos de archivos HTML y XML. Permite navegar, buscar y modificar fácilmente la estructura del documento, incluso si está mal formado o tiene errores comunes, lo que la hace muy útil para tareas de web scraping. Con Beautiful Soup, puedes extraer texto, atributos, enlaces y otros elementos específicos de una página web de manera sencilla, gracias a una interfaz intuitiva que trabaja con los árboles de etiquetas del HTML.


In [98]:
import requests 

In [99]:
encabezado = {
    'user-agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 Safari/537.36'
}

In [100]:
url = 'https://es.stackoverflow.com/questions'   #es nuestra url semilla

In [101]:
respuesta = requests.get(url,headers = encabezado)

In [102]:
respuesta

<Response [200]>

### importamos beautiful soup

In [103]:
# Instalación
!pip install beautifulsoup4 --user


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [104]:
from bs4 import BeautifulSoup
#por pip  !pip install beautifulsoup4--user 

In [105]:
# Parseamos
soup = BeautifulSoup(respuesta.text)

### Tendremos que ir buscando por contenedores

In [106]:
contenedorpreguntas = soup.find(id="questions")  #solo devuelve un elemento find - el primero que encuentra

In [107]:
contenedorpreguntas

<div class="flush-left" id="questions">
<div class="s-post-summary js-post-summary" data-post-id="632560" data-post-type-id="1" id="question-summary-632560">
<div class="s-post-summary--stats js-post-summary-stats">
<div class="s-post-summary--stats-item s-post-summary--stats-item__emphasized" title="Puntuación de 0">
<span class="s-post-summary--stats-item-number">0</span>
<span class="s-post-summary--stats-item-unit">votos</span>
</div>
<div class="s-post-summary--stats-item" title="0 respuestas">
<span class="s-post-summary--stats-item-number">0</span>
<span class="s-post-summary--stats-item-unit">respuestas</span>
</div>
<div class="s-post-summary--stats-item" title="11 vistas">
<span class="s-post-summary--stats-item-number">11</span>
<span class="s-post-summary--stats-item-unit">vistas</span>
</div>
</div>
<div class="s-post-summary--content">
<h3 class="s-post-summary--content-title">
<a class="s-link" href="/questions/632560/c%c3%b3mo-manejo-las-cookies-desde-mi-backend-node-js

### como ya tenemos guardado nuestro primer contenedor, ya no se busca en todo el arbol sino unicamente en el nuevo contenedor

In [108]:
listapreg = contenedorpreguntas.find_all("div",class_="s-post-summary--content")
#findall busca todas las coincidencias; lleva _ porque class es propio de python
# es una lista, cada entrada corresponde a una pregunta de la pagina

In [112]:
print(listapreg[0].find("h3").text)


cómo manejo las cookies desde mi backend node.js?



In [114]:
listapreg[0].find("h3").find("a").text #da lo mismo porque no hay mas texto

'cómo manejo las cookies desde mi backend node.js?'

In [110]:
print(listapreg[0].find(class_="s-post-summary--content-excerpt").text)


                Les comento mi problema:
Me encuentro desarrollando una página web con angular 20 y node.js v24.5.0. Para ella, estoy construyendo el sistema de logIn, es por eso que confeccioné un back-end, el cual ...
            


In [115]:
for i in listapreg:   #cada i es un elemento html
    textop = i.find("h3").text
    print(textop)


cómo manejo las cookies desde mi backend node.js?


Ocultar el boton de Nuevo en la vista Lista odoo 17


AWS EC2, no puedo conectar a través de SSH como lo hacia antes


error al importar mi base de datos


Error al ejecutar `as.POSIXlt("1994-01-01")` en R


Uso de la función CURLCMDOPT_ENGINE en CURL IMPERSONATE en PHP


Guardar imagen base 64 en un formato de imagen 'convencional' en php


soy un aprendiz de programacion estoy trabajando con visual code desarrolando un app mediante instrucciones alguna sigerencia de AI para trabajar? [cerrada]


Uso del togglePassword en formulario HTML con Bootstrap 5 [cerrada]


Problema al Iniciar la cámara en el movil, .NET9 con MAUI Blazor


Problemas al abrir un scheduler de IEvent en DevExpress XAF Blazor


quien me puede terminar mi bot de trading [cerrada]


¿Cómo liberar memoria RAM ocupada por procesos en segundo plano en Windows usando Python?


Inconveniente en la creación de un contenedor para PhpMyAdmin (Mysql) en Docker usando Power

In [116]:
for i in listapreg:
    descrip = i.find(class_="s-post-summary--content-excerpt").text
    descrip = descrip.replace("\n","").replace("\r","").strip()
    print(descrip)
    print()

Les comento mi problema:Me encuentro desarrollando una página web con angular 20 y node.js v24.5.0. Para ella, estoy construyendo el sistema de logIn, es por eso que confeccioné un back-end, el cual ...

Amigos de la comunidad tengo una problema necesito ocultar en odoo 17 el boton de nuevo de la vista lista (tree) pero con el ocultamiento del botón también la opcion de importar y necesito poder dejar ...

Formulo está pregunta acá debido a que ya busque en la ayuda de AWS y también en Google. Todos coinciden que es problema de Key, par de de claves, .ppk, .pem, user, etc. Ya agoté todo cree nuevo .ppk ...

Soy nuevo en php y mysql, y al tratar de importar una base de datos me aparece el siguiente error:Fatal error: Maximum execution time of 300 seconds exceeded in C:\xampp\phpMyAdmin\vendor\phpmyadmin\...

¿A alguien más le devuelve este error luego de ejecutar as.POSIXlt("1994-01-01")?Error en as.POSIXlt.character(x, tz, ...):   la cadena de caracteres no está en un formato estándar 

In [None]:
#utilizar listas de compresión [x in listapreg for x in listapreg]

In [117]:
for i in listapreg:
    descrip = i.find(class_="s-post-summary--content-excerpt").text
    descrip = descrip.replace("\n","").replace("\r","").strip()
    textop = i.find("h3").text
    print(textop)
    print(descrip)
    print()


cómo manejo las cookies desde mi backend node.js?

Les comento mi problema:Me encuentro desarrollando una página web con angular 20 y node.js v24.5.0. Para ella, estoy construyendo el sistema de logIn, es por eso que confeccioné un back-end, el cual ...


Ocultar el boton de Nuevo en la vista Lista odoo 17

Amigos de la comunidad tengo una problema necesito ocultar en odoo 17 el boton de nuevo de la vista lista (tree) pero con el ocultamiento del botón también la opcion de importar y necesito poder dejar ...


AWS EC2, no puedo conectar a través de SSH como lo hacia antes

Formulo está pregunta acá debido a que ya busque en la ayuda de AWS y también en Google. Todos coinciden que es problema de Key, par de de claves, .ppk, .pem, user, etc. Ya agoté todo cree nuevo .ppk ...


error al importar mi base de datos

Soy nuevo en php y mysql, y al tratar de importar una base de datos me aparece el siguiente error:Fatal error: Maximum execution time of 300 seconds exceeded in C:\xampp\phpMyAd

In [119]:
[x.find(class_="s-post-summary--content-excerpt").text.replace("\n","").replace("\r","").strip() for x in listapreg]

['Les comento mi problema:Me encuentro desarrollando una página web con angular 20 y node.js v24.5.0. Para ella, estoy construyendo el sistema de logIn, es por eso que confeccioné un back-end, el cual ...',
 'Amigos de la comunidad tengo una problema necesito ocultar en odoo 17 el boton de nuevo de la vista lista (tree) pero con el ocultamiento del botón también la opcion de importar y necesito poder dejar ...',
 'Formulo está pregunta acá debido a que ya busque en la ayuda de AWS y también en Google. Todos coinciden que es problema de Key, par de de claves, .ppk, .pem, user, etc. Ya agoté todo cree nuevo .ppk ...',
 'Soy nuevo en php y mysql, y al tratar de importar una base de datos me aparece el siguiente error:Fatal error: Maximum execution time of 300 seconds exceeded in C:\\xampp\\phpMyAdmin\\vendor\\phpmyadmin\\...',
 '¿A alguien más le devuelve este error luego de ejecutar as.POSIXlt("1994-01-01")?Error en as.POSIXlt.character(x, tz, ...):   la cadena de caracteres no está en u

# Ejemplo
### Extraer de la pagina de bbva, los links de sus prospectos de sus fondos de inversión

In [62]:
urls = ['https://www.bbva.mx/personas/productos/inversion/normativa-de-fondos/fondos-renta-variable.html','https://www.bbva.mx/personas/productos/inversion/normativa-de-fondos/fondos-de-deuda.html',
          'https://www.bbva.mx/personas/productos/inversion/normativa-de-fondos/fondos-de-estrategias.html','https://www.bbva.mx/personas/productos/inversion/normativa-de-fondos/fondos-de-multiestrategias.html']

In [63]:
url='https://www.bbva.mx/personas/productos/inversion/normativa-de-fondos/fondos-renta-variable.html'

encabezado = {
        'user-agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 Safari/537.36'
}

respuesta = requests.get(url,headers=encabezado)
parser = html.fromstring(respuesta.text)


linksprospec =parser.xpath('//div[@class="table__container table--data-gridlines"]//tr//td[position()=2]//div[@class="table--value"]//a/@href')
fondos =parser.xpath('//div[@class="table__container table--data-gridlines"]//tr//td[position()=1]//div[@class="table--value"]/text()')


In [64]:
linksprospec

['https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00004192.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00004826.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00006012.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00018047.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00003937.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00004509.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00009278.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00027565.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00007831.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00009637.pdf',
 'https://portal.bbva.mx/siabinternet/Repositorio/import/doctos/analisis/00012310.pdf',
 'https://portal.bbva.mx/siabint

In [65]:
fondos   #limpiar texto

['\n     ',
 '\n     ',
 '\n    ',
 '\n     B+RVUS2\n    ',
 '\n     BBVARFG\n    ',
 '\n     BBVARFL\n    ',
 '\n     BBVACAP\n    ',
 '\n     BBVACRE\n    ',
 '\n     BBVARVE\n    ',
 '\n     BBVAEMG\n    ',
 '\n     BBVAESG\n    ',
 '\n     BBVANDQ\n    ',
 '\n     BBVARV\n    ',
 '\n     BBVADIG\n    ',
 '\n     BBVASIC\n    ',
 '\n     BBVAUS\n    ',
 '\n     BBVANSH\n    ']

In [66]:
fontot= [x for x in list(map(lambda x: x.replace("\n","").strip(),fondos)) if x!='']

In [67]:
f=[x.replace("\n","").strip() for x in fondos]
list(filter(None,f))

['B+RVUS2',
 'BBVARFG',
 'BBVARFL',
 'BBVACAP',
 'BBVACRE',
 'BBVARVE',
 'BBVAEMG',
 'BBVAESG',
 'BBVANDQ',
 'BBVARV',
 'BBVADIG',
 'BBVASIC',
 'BBVAUS',
 'BBVANSH']

# Automatización de rutinas

# Selenium

En sus inicios, Selenium fue desarrollado para facilitar la automatización de pruebas en entornos que utilizan navegadores web como interfaz, permitiendo verificar cada cambio en un entorno controlado y automático. Aunque en proyectos pequeños las pruebas manuales pueden ser suficientes, el creciente número de navegadores y la complejidad de las aplicaciones hacen que la automatización sea cada vez más necesaria. Selenium ofrece un conjunto de funciones que permiten definir pruebas automáticas, ejecutar interacciones paso a paso con una página web y evaluar cómo responde el navegador ante diferentes cambios, facilitando así la detección automática de resultados y validando si el comportamiento cumple con las expectativas.

Para un uso efectivo de Selenium, es recomendable tener conocimientos básicos de desarrollo front-end, especialmente del DOM (Document Object Model).

En el contexto de este curso, Selenium se empleará para automatizar tareas repetitivas que, combinadas con técnicas de web scraping vistas previamente, constituyen una herramienta poderosa para manejar páginas web dinámicas que requieren interacciones de usuario para acceder a ciertos elementos del DOM.

Para usar Selenium en Python, básicamente necesitaremos dos componentes: la biblioteca de Selenium y un driver, que es el navegador que se utilizará para ejecutar las pruebas. Para este curso utilizaremos Chrome, por lo que descargaremos el driver correspondiente desde la página oficial de Selenium.

[Descarga de WebDriver](https://googlechromelabs.github.io/chrome-for-testing/)  

Una vez descargado lo guardaremos en una carpeta donde nos direccionaremos cada vez que lo usemos

In [None]:
!pip install selenium

First import the webdriver and Keys classes from Selenium.

In [68]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

La clase webdriver lo conectará a la instancia de un navegador( el webDriver). La clase Keys le permite emular el trazo de las teclas del teclado, incluidas teclas especiales como "Shift" y "Return" con lo que podremos presioanr, rellenar campos, hacer checks, etc.

A continuación, se debe crear una instancia de Chrome con la ruta del controlador que descargó a través de los sitios web del navegador respectivo. .

In [69]:
webdriver.Chrome()

<selenium.webdriver.chrome.webdriver.WebDriver (session="fed839b34276051a7a49614adce1d4af")>

In [70]:
driver = webdriver.Chrome()

In [71]:
driver.maximize_window()

A partir de ahora podremos acceder a las paginas que deseemos y extraer elementos del doom como conocemos apoyandonos de las clases, etiquetas, ids, etc.

In [72]:
urls="https://www.scotiabank.com.mx/scotia-fondos/terceros-distribuidores.aspx"

In [73]:
driver.get(urls)

Hay que recordar que algunas paginas presentan protocolos de seguridad con lo que detectan cuando se esta generando un proceso de forma automatizada, por lo que para realizar una simulacion más "humana", usaremos el modulo sleep con el cual detendremos por algunos segundos algunos procesos, con lo cual no se realizara simultaneamente todas las tareas

In [74]:
from time import sleep

In [None]:
print("hola mundo")
print("adios mundo")

In [None]:
print("hola mundo")
sleep(5)
print("adios mundo")

Una vez teniendo nuestro driver funcional , tenemos acceso a todas las propeidades de la pag asi como su contenido HTML

In [75]:
print(driver.title)

Terceros Distribuidores | Fondos de Inversión | Scotiabank México


### HTML en selenium

Elementos únicos  
* find_element(By.ID, "id")
* find_element(By.NAME, "name")
* find_element(By.XPATH, "xpath")
* find_element(By.LINK_TEXT, "link text")
* find_element(By.PARTIAL_LINK_TEXT, "partial link text")
* find_element(By.TAG_NAME, "tag name")
* find_element(By.CLASS_NAME, "class name")
* find_element(By.CSS_SELECTOR, "css selector")

Elementos múltiples  
* find_elements(By.ID, "id")
* find_elements(By.NAME, "name")
* find_elements(By.XPATH, "xpath")
* find_elements(By.LINK_TEXT, "link text")
* find_elements(By.PARTIAL_LINK_TEXT, "partial link text")
* find_elements(By.TAG_NAME, "tag name")
* find_elements(By.CLASS_NAME, "class name")
* find_elements(By.CSS_SELECTOR, "css selector")

In [76]:
from selenium.webdriver.common.by import By

In [77]:
driver.find_element(By.CLASS_NAME,"block-noBttm")

<selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.6")>

In [78]:
driver.find_elements(By.CLASS_NAME,"block-noBttm")

[<selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.6")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.7")>]

In [79]:
# se guardan en variables los contenedores
x = driver.find_elements(By.CLASS_NAME,"block-noBttm")

In [80]:
x   #es una lista , no el elemento web

[<selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.6")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.7")>]

In [81]:
x.find_element(By.CLASS_NAME,"green-list")

AttributeError: 'list' object has no attribute 'find_element'

In [83]:
x[0]

<selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.6")>

In [82]:
x[0].find_element(By.CLASS_NAME,"green-list")

<selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.8")>

In [84]:
x

[<selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.6")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.7")>]

In [85]:
[y.find_elements(By.CLASS_NAME,"green-list") for y in x]

[[<selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.8")>,
  <selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.9")>,
  <selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.10")>],
 []]

Veamos como utilizar estos elementos


In [86]:
contTipos = x[0].find_element(By.CLASS_NAME,"green-list")

In [87]:
contTipos # como contenedor con el elemento

<selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.8")>

entrar a los links y regresar

In [88]:
contTipos.find_elements(By.TAG_NAME,"a")

[<selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.11")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.12")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.13")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.14")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.15")>,
 <selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d8

In [89]:
links=contTipos.find_elements(By.TAG_NAME,"a")

In [90]:
links[0]

<selenium.webdriver.remote.webelement.WebElement (session="24d1df88730a002a0c003f3d82ddb79c", element="f.2BB6FD3244A2D8167DF7CDF7CD0A7FD6.d.479E6DA98DB5666B4173C3914A7B719F.e.11")>

In [91]:
links[0].click()   # dar click en enlases, deben estar en el elemento web que contiene el link

In [92]:
driver.back()   #regresar a la pagina anterior

In [93]:
driver.current_url    # obtener la url actual

'https://www.scotiabank.com.mx/scotia-fondos/terceros-distribuidores.aspx'

In [94]:
driver.forward()   # ir a pagina adelante

In [95]:
driver.current_url 

'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos.aspx'

In [96]:
driver.close() 

# Como podemos convinar selenium con requests

In [107]:
driver = webdriver.Chrome()

In [108]:
driver.maximize_window()

In [109]:
urls="https://www.scotiabank.com.mx/scotia-fondos/terceros-distribuidores.aspx"

In [110]:
driver.get(urls)

In [111]:
x= driver.find_elements(By.CLASS_NAME,"block-noBttm")

In [112]:
contTipos=x[0].find_element(By.CLASS_NAME,"green-list")

In [113]:
links=contTipos.find_elements(By.TAG_NAME,"a")

In [114]:
links

[<selenium.webdriver.remote.webelement.WebElement (session="8f25e6b619b5cba42688233255dfbdae", element="f.312D36A53EB3A6E7E0EAB7A89C08CF33.d.9CE2EEB854DF72CC9E237A326EEA7320.e.62")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8f25e6b619b5cba42688233255dfbdae", element="f.312D36A53EB3A6E7E0EAB7A89C08CF33.d.9CE2EEB854DF72CC9E237A326EEA7320.e.63")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8f25e6b619b5cba42688233255dfbdae", element="f.312D36A53EB3A6E7E0EAB7A89C08CF33.d.9CE2EEB854DF72CC9E237A326EEA7320.e.64")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8f25e6b619b5cba42688233255dfbdae", element="f.312D36A53EB3A6E7E0EAB7A89C08CF33.d.9CE2EEB854DF72CC9E237A326EEA7320.e.65")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8f25e6b619b5cba42688233255dfbdae", element="f.312D36A53EB3A6E7E0EAB7A89C08CF33.d.9CE2EEB854DF72CC9E237A326EEA7320.e.66")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8f25e6b619b5cba4268823325

In [115]:
links[0].click()

In [116]:
len(driver.find_elements(By.CLASS_NAME,"card-found"))

12

In [117]:
tarjeta= driver.find_elements(By.CLASS_NAME,"card-found")

In [118]:
tarjeta.find_elements(By.TAG_NAME,"a")

AttributeError: 'list' object has no attribute 'find_elements'

In [119]:
links=[x.find_element(By.TAG_NAME,"a") for x in tarjeta]

In [120]:
links[0].get_attribute("href")

'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotiag.aspx'

In [121]:
links[0].get_attribute("href")

'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotiag.aspx'

In [122]:
# si quisieramos el texto de las cartas

In [123]:
[x.get_attribute("innerHTML") for x in tarjeta]

['\n<div>Scotia Deuda Gubernamental Corto Plazo</div>\n<div>SCOTIAG</div>\n<div>El fondo invierte 100% en valores gubernamentales de corto plazo</div>\n<div><a href="https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotiag.aspx"><img alt="flecha derecha" src="https://cdn.aglty.io/scotia-bank-mexico/digital-factory/fi/img/arrowR.svg"></a></div>\n',
 '\n<div>Scotia Deuda Corto Plazo Plus</div>\n<div>SCOTIA1</div>\n<div>El fondo invierte en instrumentos corporativos, bancarios y gubernamentales de corto y mediano plazo</div>\n<div><a href="https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotia1.aspx"><img alt="flecha derecha" src="https://cdn.aglty.io/scotia-bank-mexico/digital-factory/fi/img/arrowR.svg"></a></div>\n',
 '\n<div>Scotia Deuda Corto Plazo</div>\n<div>SBANKCP</div>\n<div>El fondo invierte en instrumentos corporativos, bancarios y gubernamentales de corto y mediano plazo</div>\n<div><a href="https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/sbankcp.aspx

In [124]:
linkf=links[0].get_attribute("href")

In [125]:
linkf

'https://www.scotiabank.com.mx/scotia-fondos/deuda-plazos/scotiag.aspx'

In [126]:
driver.get(linkf)

In [127]:
documentos= driver.find_element(By.CLASS_NAME,"documents")

In [128]:
documentos

<selenium.webdriver.remote.webelement.WebElement (session="8f25e6b619b5cba42688233255dfbdae", element="f.312D36A53EB3A6E7E0EAB7A89C08CF33.d.338CE054570209F9AAF3319C139F100A.e.152")>

In [129]:
documentos2=documentos.find_elements(By.TAG_NAME,"a")

In [130]:
documentos2

[<selenium.webdriver.remote.webelement.WebElement (session="8f25e6b619b5cba42688233255dfbdae", element="f.312D36A53EB3A6E7E0EAB7A89C08CF33.d.338CE054570209F9AAF3319C139F100A.e.153")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8f25e6b619b5cba42688233255dfbdae", element="f.312D36A53EB3A6E7E0EAB7A89C08CF33.d.338CE054570209F9AAF3319C139F100A.e.154")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8f25e6b619b5cba42688233255dfbdae", element="f.312D36A53EB3A6E7E0EAB7A89C08CF33.d.338CE054570209F9AAF3319C139F100A.e.155")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8f25e6b619b5cba42688233255dfbdae", element="f.312D36A53EB3A6E7E0EAB7A89C08CF33.d.338CE054570209F9AAF3319C139F100A.e.156")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8f25e6b619b5cba42688233255dfbdae", element="f.312D36A53EB3A6E7E0EAB7A89C08CF33.d.338CE054570209F9AAF3319C139F100A.e.157")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8f25e6b619b5cba42688

In [131]:
[z.get_attribute("innerHTML") for z in documentos2]

['Precios Diarios',
 'Cartera Semanal',
 'Rendimientos históricos',
 'Información Clave (DICI)',
 'Cartera Mensual',
 'Prospecto de Información']

In [132]:
[z.get_attribute("href") for z in documentos2]

['https://cdn.aglty.io/scotia-bank-mexico/pdf/scotia-fondos/precios/Precios.pdf?v=1754347656119',
 'https://cdn.aglty.io/scotia-bank-mexico/spanish/pdf/personas/fondos-de-inversion/carteras/CARTERA_SCOTIAG.pdf?v=1754347656119',
 'https://www.scotiabank.com.mx/scotia-fondos/informacion.aspx',
 'https://cdn.aglty.io/scotia-bank-mexico/spanish/pdf/personas/fondos-de-inversion/dici/DICI_SCOTIAG.pdf?v=1754347656119',
 'https://cdn.aglty.io/scotia-bank-mexico/spanish/pdf/personas/fondos-de-inversion/carteras/CM_SCOTIAG.pdf?v=1754347656119',
 'https://cdn.aglty.io/scotia-bank-mexico/pdf/scotia-fondos/prospectos/Prospecto_SCOTIAG.pdf?v=1754347656119']

In [133]:
[z.get_attribute("href") for z in documentos2 if "prospecto" in z.get_attribute("innerHTML").lower()]

['https://cdn.aglty.io/scotia-bank-mexico/pdf/scotia-fondos/prospectos/Prospecto_SCOTIAG.pdf?v=1754347656119']

In [134]:
#uso de request
import requests as rq

In [135]:
url=[z.get_attribute("href") for z in documentos2 if "prospecto" in z.get_attribute("innerHTML").lower()][0]

page = rq.get(url)

In [136]:
page

<Response [200]>

In [137]:
import os
os.chdir("C:\\Users\\ortca\\Downloads")

In [None]:
with open("Prueba2fer.pdf", "wb") as f:
    f.write(page.content)

    #guarda el contenido binario del pdf

In [None]:
#hacer un try para identificar errores y que siga adelante si alguno falla
try:
    flujo
except:
    error.append(nombre_fondo)

#para utilizar el buscador usar sent_keys
