# Ejercicios Clase Tema 12

## BeautifulSoup

In [None]:
# Para instalar Beautiful Soup, ejecutamos el siguiente comando:
!pip install beautifulsoup4

# Para instalar el parser lxml y html5lib, ejecuta el siguiente comando:
!pip install lxml

!pip install html5lib

BeautifulSoup es un objeto, que representa al árbol de objetos Python resultante de parsear el documento HTML de entrada, este será nuestro punto de partida para navegar a través de los elementos del árbol, así como para realizar las búsquedas necesarias en el mismo.  Vamos  a ver los distintos objetos que podemos encontrar en un árbol de Beautiful Soup.

<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
    <div id="main" class="full-width">
        <h1>El título de la página</h1>
        <p>Este es el primer párrafo de nuestra página de prueba</p>
        ...
    </div>
</body>
</html>


In [None]:
from bs4 import BeautifulSoup

contenido = """
<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
<div id="main" class="full-width">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo de nuestra página de prueba</p>
    ...
</div>
</body>
</html>
"""
soup = BeautifulSoup(contenido, 'html.parser') # 'html.parser' 'lxml' 'html5lib'
soup

In [None]:
type(soup)

In [None]:
from bs4 import BeautifulSoup

contenido = """
<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
<div id="main" class="full-width">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo de nuestra página de prueba</p>
    ...
</div>
</body>
</html>
"""
soup = BeautifulSoup(contenido, 'html5lib') # 'lxml'
soup

In [None]:
type(soup)

Tag: Este objeto se corresponde con una etiqueta HTML o XML. Por ejemplo, dado el objeto soup, podemos acceder al objeto tag que representa al título de la página usando la etiqueta title:

In [None]:
soup.title # tag title

In [None]:
soup.body # tag body

In [None]:
soup.h1 # tag h1

In [None]:
soup.p # tag p

In [None]:
soup.meta  # tag meta

In [None]:
soup.meta["charset"]

In [None]:
cuerpo = soup.body # tag body
cuerpo

In [None]:
type(cuerpo)

In [None]:
cuerpo.name # nombre de la etiqueta

In [None]:
soup.div

In [None]:
div_main = soup.div # tag div
div_main

In [None]:
div_main['id'] # atributo id

In [None]:
div_main['class'] # atributo class

Dado un objeto de tipo Tag, podemos acceder a sus atributos tratando al objeto como si fuera un diccionario. Además, se puede acceder a ese diccionario por medio del atributo attrs

In [None]:
div_main.attrs # muestra los atributos del tag div

In [None]:
soup.div.attrs

In [None]:
soup

In [None]:
soup.meta

In [None]:
soup.meta.attrs

### NavigableString

    NavigableString: Un objeto de este tipo representa la cadena de texto que hay contenida en una etiqueta.
    Se accede por medio de la propiedad string:

In [None]:
soup.p

In [None]:
soup.p.string

In [None]:
parrafo = soup.p
texto = parrafo.string
texto

In [None]:
parrafo = soup.p
texto = parrafo.strings
for t in texto:
    print(t)

In [None]:
type(texto)

In [None]:
soup.h1

In [None]:
soup.h1.string

In [None]:
titulos = soup.h1
texto = titulos.string
texto

### Navegar a través de los elementos

    Lo importante en este punto es entender que un objeto de tipo Tag puede contener otros objetos de tipo Tag u 
    objetos de tipo NavegableString.

    Hemos visto que es posible acceder a los objetos del árbol utilizando los nombres de las etiquetas como atributos.
    Esta es la forma más simple de navegar a través del árbol. 


<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
<div id="main" class="full-width">
    <h1>El título de la página</h1>
    <h2>El subtítulo de la página</h2>
    <p>Este es el primer párrafo</p>
    <p>Este es el segundo párrafo</p>
    <div id="innerDiv">
        <div class="links">
            <a href="https://pagina1.xyz/">Enlace 1</a>
            <a href="https://pagina2.xyz/">Enlace 2</a>
        </div>
        <div class="right">
            <div class="links">
                <a href="https://pagina3.xyz/">Enlace 3</a>
                <a href="https://pagina4.xyz/">Enlace 4</a>
            </div>
        </div>
    </div>
    <div id="footer">
        <!-- El footer -->
        <p>Este párrafo está en el footer</p>
        <div class="links footer-links">
            <a href="https://pagina5.xyz/">Enlace 5</a>
        </div>
    </div>
</div>
</body>
</html>

In [None]:
from bs4 import BeautifulSoup

contenido = """
<html lang="es">
<head>
    <meta charset="UTF-8">
    <title>Página de prueba</title>
</head>
<body>
<div id="main" class="full-width">
    <h1>El título de la página</h1>
    <p>Este es el primer párrafo</p>
    <p>Este es el segundo párrafo</p>
    <div id="innerDiv">
        <div class="links">
            <a href="https://pagina1.xyz/">Enlace 1</a>
            <a href="https://pagina2.xyz/">Enlace 2</a>
        </div>
        <div class="right">
            <div class="links">
                <a href="https://pagina3.xyz/">Enlace 3</a>
                <a href="https://pagina4.xyz/">Enlace 4</a>
            </div>
        </div>
    </div>
    <div id="footer">
        <!-- El footer -->
        <p>Este párrafo está en el footer</p>
        <div class="links footer-links">
            <a href="https://pagina5.xyz/">Enlace 5</a>
        </div>
    </div>
</div>
</body>
</html>
"""
soup = BeautifulSoup(contenido, 'lxml') # 'html.parser'
soup

In [None]:
soup.meta['charset'] # obtener el atributo 'charset' de la etiqueta meta

In [None]:
soup.div

In [None]:
soup.div.div.div

In [None]:
soup.div.div

Hay otras formas de acceder a los hijos de un objeto, además de a través de las etiquetas:

      •	El atributo contents: Devuelve una lista con todos los hijos de primer nivel de un objeto.
      •	Usando el generador children: Devuelve un iterador para recorrer los hijos de primer nivel de un objeto.
      •	Por medio del generador descendants: Este atributo devuelve un iterador que permite recorrer todos los hijos de un objeto. No importa el nivel de anidamiento.


In [None]:
# Acceder a todos los hijos del bloque div con id="innerDiv" usando contents

inner_div = soup.div.div
hijos = inner_div.contents

In [None]:
hijos

In [None]:
print(type(hijos)) # lista

In [None]:
for child in hijos:
    print(child)

In [None]:
for child in hijos:
    if child.name:  # Ignoramos los saltos de línea
        print(f'{child}')
        #print(f'{child.name}') # nombre de la etiqueta

In [None]:
hijos

In [None]:
inner_div = soup.div.div
hijos = inner_div.contents

for child in hijos:
    if child.name:  # Ignoramos los saltos de línea
        print(f'{child}')
        #print(f'{child.name}')

In [None]:
# Acceder a todos los hijos del bloque div con id="innerDiv" usando children

inner_div = soup.div.div
hijos = inner_div.children  
print(type(hijos))

for child in hijos:
     if child.name:  # Ignoramos los saltos de línea
        print(f'{child.name}')
        print(f'{child}')

In [None]:
# Acceder a todos los hijos del bloque div con id="innerDiv" usando descendants
inner_div = soup.div.div
hijos = inner_div.descendants  
print(type(hijos))
print("------------------")
for child in hijos:
     if child.name:  # Ignoramos los saltos de línea
        # print(f'{child.name}')
        print(f'{child}')

In [None]:
hijos = soup.descendants  
print(type(hijos))

for child in hijos:
     if child.name:  
        print(f'{child.name}')

Además de a los hijos, es posible navegar hacia arriba en el árbol accediendo a los objetos padre de un elemento. Para ello, podemos usar las propiedades parent y parents:

    •	parent referencia al objeto padre de un elemento (Tag o NavigableString).
    •	parents es un generador que permite recorrer recursivamente todos los elementos padre de uno dado.


In [None]:
titulo = soup.title
titulo

In [None]:
titulo.parent

In [None]:
titulo.parent.meta

In [None]:
titulo.parent.title.string

In [None]:
titulo.parent.meta

In [None]:
titulo.parent.meta["charset"]

In [None]:
for parent in titulo.parents:
    print(parent.name)

In [None]:
soup.p

In [None]:
soup.p.parent

In [None]:
for parent in soup.p.parents:
    print(parent.name)

In [None]:
soup.p.parent.div.a

In [None]:
soup.p.parent.div.a.string

Buscar elementos en Beautiful Soup

    Las búsquedas y filtros, es quizás una de las partes más importantes de esta librería.  

    Beautiful Soup cuenta con diferentes métodos para buscar elementos en el árbol. Sin embargo, dos de los 
    principales son find_all() y find().

    Ambos métodos trabajan de forma similar. 
    
    Básicamente, buscan entre los descendientes de un objeto de tipo Tag y recuperan todos aquellos que cumplan
    una serie de filtros.


In [None]:
# Filtro por nombre de etiqueta

In [None]:
soup.find_all("a") 

In [None]:
soup("a")

In [None]:
# Filtro por nombre de etiqueta <a>

links = soup.find_all('a')
for link in links:
    print(link)

In [None]:
type(links)

In [None]:
# Filtro por atributos

footer = soup.find_all(id='footer')
print(footer)

In [None]:
# Filtro por clases CSS
# buscar todos los bloques div que tengan la clase links

links_divs = soup.find_all('div', class_="links")
print(links_divs)

In [None]:
# Filtro por clases CSS
# para buscar una cadena exacta

footer_links = soup.find_all(class_="links")
print(footer_links)

In [None]:
# Filtro por clases CSS
# para buscar una cadena exacta

footer_links = soup.find_all(class_="links footer-links")
print(footer_links)

In [None]:
# Filtro por clases CSS
# las variaciones en este caso no funcionan

footer_links = soup.find_all(class_="footer") # "footer-links links"
print(footer_links)

In [None]:
soup.title.find_all(string=True)

In [None]:
soup.title(string=True)

In [None]:
soup.p(string=True)

In [None]:
soup.p.find_all(string=True)

In [None]:
texto = soup.find_all(string=True)
for t in texto:
    if len(t.strip()) > 0:
        print(t.string)

In [None]:
soup.find_all('a')

In [None]:
soup.find_all('a', limit=1)

In [None]:
soup.find_all('a', limit=3)

In [None]:
soup.find('a')  # solo trae el primero

In [None]:
soup.head.title

In [None]:
soup.find("head").find("title")

In [None]:
import re

tags = soup.find_all("img", {"src": re.compile(".*\.png")})
tags

In [None]:
tags = soup.find_all("a", {"href": re.compile(".*\.xyz")})
tags

In [None]:
tags = soup.find_all(re.compile("^b"))
tags

### CSS selector


BeautifulSoup tiene un método .select() que utiliza el paquete SoupSieve para ejecutar un selector CSS 
contra un documento analizado y devolver todos los elementos coincidentes. Tag tiene un método similar que ejecuta un selector CSS contra el contenido de una sola etiqueta.

La documentación de SoupSieve enumera todos los selectores CSS soportados actualmente, pero aquí mencionamremos algunos de los conceptos básicos:

    •	Para buscar por el atributo id se utiliza una almohadilla #ids
    •	Para buscar por el atributo class se utiliza un punto .classes
    •	Para buscar por atributo – valor  [atributes=values]. 
    •	Para buscar por padres e hijos parent child o parent > child

https://pypi.org/project/soupsieve/#:~:text=Soup%20Sieve%20is%20a%20CSS%20selector%20library%20designed,and%20beyond%20%28though%20some%20are%20not%20yet%20implemented%29.


In [None]:
soup.select("a") # etiqueta

In [None]:
soup.select("title")

In [None]:
soup.select("h1")

In [None]:
soup.select("body a") # Encuentra etiquetas debajo de otras etiquetas

In [None]:
# Encuentra etiquetas directamente debajo de otras etiquetas
soup.select("head > title")

In [None]:
soup.select("head > meta")

In [None]:
soup.select("body > div > p")

In [None]:
soup.select(".links") # . especifica que es una clase

In [None]:
soup.select("#innerDiv") # el # especifica que es un id

In [None]:
soup.select("div#innerDiv") # etiqueta div # -> id="innerDiv"

In [None]:
soup.select('a[href]')

In [None]:
soup.select('a[href^="https://pagina1"]') # atributo = value ^ que comience en

In [None]:
soup.select('a[href$=".xyz/"]') # atributo - value $ que termine en

In [None]:
soup.select('a[href*="pagina"]') # atributo - value * todo

### Extraer valor de los atributos

In [None]:
tag = soup.select("a")
tag

In [None]:
tag = soup.select("a")
for t in tag:
    print(t.get("href"))

In [None]:
tag = soup.select("a")
for t in tag:
    print(t.get_attribute_list("href")) # retorna cada elemento en una lista

In [None]:
tag = soup.select("a")
for t in tag:
    print(t.get_text("href"))

In [None]:
# ^ acento cicurflejo

### Extraer Tablas

In [None]:
from bs4 import BeautifulSoup
import requests

In [None]:
url = "https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial"
r = requests.get(url)

res = BeautifulSoup(r.text, "html") # parse "html5lib"
res.select("table > tbody") 

In [None]:
url = "https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial"
r = requests.get(url)

res = BeautifulSoup(r.text, "html")
tags = res.table.tbody

cabeceras = tags.select("th")

cabecera = []

for i in cabeceras:
    cabecera.append(i.get_text().strip())
cabecera

In [None]:
url = "https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial"
r = requests.get(url)

res = BeautifulSoup(r.text, "html")
tags = res.table.tbody

resultados = tags.select("td")
poblacion = []

for i in resultados:
    poblacion.append(i.get_text().strip())
poblacion

In [None]:
p_mundial = []
lista = []
i=0
for j in range(6):
    for x in range(6):
        lista.append(poblacion[i])
        i += 1
    p_mundial.append(lista)
    lista = []
    if j != 0:
        i = j * 6
p_mundial

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(p_mundial, columns = cabecera)
df

### Extraer tablas desde una web con pandas

In [None]:
import pandas as pd

url = "https://es.wikipedia.org/wiki/Poblaci%C3%B3n_mundial"

# Crea un dataframe con todas las tablas

df = pd.read_html(url)
df

In [None]:
# Verificamos la cantidad de tablas generadas
len(df)

In [None]:
type(df)

In [None]:
# Creamos un nuevo DataFrame para cada tabla

df_p_continente = df[0]
df_p_continente

In [None]:
df_p_hist_mundial = df[1]
df_p_hist_mundial

In [None]:
df[2]

### Manejo de errores

    Un error HTTPError es provocado por un código de respuesta de error
    Un error URLError es provocado porque no existe conexión o el dominio es incorrecto.
    
    En una consulta con BeatifulSoup puede ocurrir que el elemento solicitado no exista. 
    En este caso no se lanzará una excepción, sino que obtendremos el valor None como respuesta


In [None]:
from urllib.request import urlopen
from urllib.error import HTTPError, URLError

from bs4 import BeautifulSoup

try:
    html = urlopen("https://www.python.org/")
except HTTPError as ex:
    print(ex)
except URLError:
    print("Servidor caído o dominio incorrecto.")
else:
    res = BeautifulSoup(html.read(), "html5lib")
if res.title is None:
    print("Etiqueta no encontrada.")
else:
    print(res.title) # Imprime el título de la página

### Ejemplo

In [None]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.amazon.es/gp/most-wished-for/books?ref_=Oct_d_omwf_S&pd_rd_w=7jREM&pf_rd_p=dbaa2a38-774d-404a-bd20-b06321c0935b&pf_rd_r=NGR7FBC1SC600T2EF2G5&pd_rd_r=5ace16a8-104a-4e6b-a156-46c619f88b4f&pd_rd_wg=Kfb6F'
r = requests.get(url)

soup = BeautifulSoup(r.text,"html" ) #'lxml'
soup

In [None]:
 soup.title

In [None]:
soup.title.string

In [None]:
soup.meta

In [None]:
enlaces = soup.find_all('a')
for enlace in enlaces:
    print(enlace)

In [None]:
footer = soup.find_all(id='skippedLink')
footer

In [None]:
import re
tags = soup.find_all("img", {"src": re.compile(".*\.jpg")})
tags

In [None]:
import re
tags = soup.find_all("img", {"src": re.compile(".*\.jpg")})

for i in tags:
    print(i["src"])


In [None]:
soup.select('a[href]')

In [None]:
soup.find_all('div', class_="_cDEzb_p13n-sc-css-line-clamp-1_1Fn1y")

### Extraer los titulos de los libros

In [None]:
import re
titulos = soup.find_all("img", {"alt": re.compile("(.*?)")})
l_titulos = []

for i in titulos:
    if len(i["alt"].strip()) > 0:
        l_titulos.append(i["alt"].strip())
        
l_titulos 


In [None]:
autores = soup.find_all('span', class_="a-size-small a-color-base")
l_autores = []

for i in autores:
    l_autores.append(i.text.strip())
    
l_autores


In [None]:
tapa = soup.find_all('span', class_="a-size-small a-color-secondary")
l_tapa = []

for i in tapa:
    l_tapa.append(i.text.strip())

l_tapa

In [None]:
precios = soup.find_all('span', class_="p13n-sc-price")
l_precios = []

for i in precios:
    l_precios.append(i.text[:-1].strip() ) #+ i.text[-1].strip() 

l_precios

In [None]:
# Creamos un diccionario

libros = {}
pos = 0
for titulo in l_titulos[1:40]:
    libros[titulo] = {l_autores[pos],  l_precios[pos]}
    pos += 1
    
libros

In [None]:
libros['Invisible (Nube de Tinta)']

In [None]:
libros['El Hombre en busca de Sentido']

In [None]:
# Crearemos un DataFrame

In [None]:
libros_amazon = {}
libros_amazon["autores"] = l_autores[:40]

In [None]:
libros_amazon

In [None]:
libros_amazon["titulos"] = l_titulos[1:41]

In [None]:
libros_amazon

In [None]:
#libros_amazon["tapa"] = l_tapa[:40]
libros_amazon["precio"] = l_precios[:40]

In [None]:
libros_amazon

In [None]:
import pandas as pd

df_libros_amazon = pd.DataFrame(libros_amazon)
df_libros_amazon

# Selenium

    Selenium es un framework portátil que permite automatizar las funcionalidades de los navegadores web utilizando una
    amplia gama de lenguajes de programación. Mientras que se utiliza principalmente para probar aplicaciones web 
    automáticamente, también se puede utilizar para extraer datos en línea.

In [None]:
# Instalar instalar la librería Python para Selenium
!pip install selenium

## Instalar el WebDriver para Chrome

Pasos:

1. Verificar la version de Chrome: ... - Ayuda - Acerca de

![image-6.png](attachment:image-6.png)

2. Obtener el driver de acuerdo a nuestra version de Chrome

    https://sites.google.com/chromium.org/driver/
    
    https://sites.google.com/a/chromium.org/chromedriver/downloads
    
![image-5.png](attachment:image-5.png)

3. Crear una carpeta C:\Program Files (x86)\Chromedriver y copiar el fichero 
    
Para mas información:

    https://www.selenium.dev/documentation/en/webdriver/driver_requirements/

In [None]:
# Importar los modulos

from selenium import webdriver # inicializar el browser
from selenium.webdriver.common.keys import Keys # Emula el teclado
from selenium.webdriver.common.by import By # buscar items
from selenium.webdriver.support.ui import WebDriverWait # carga la página
from selenium.webdriver.support import expected_conditions as EC # emite instrucciones para esperar al resto del código

In [None]:
# Inicializar el WebDriver de Chrome, abre el navegador con una ventana en blanco

PATH = "C:\Program Files (x86)\Chromedriver\chromedriver.exe"
driver = webdriver.Chrome(PATH)
driver

In [None]:
# Navegar en la página web https://www.reddit.com/

driver.get("https://www.reddit.com/")

In [None]:
# Localizar el cuadro de búsqueda

search = driver.find_element_by_name("q")
search

In [None]:
# Introducimos el término de búsqueda "scraping"

search.send_keys("scraping")
search.send_keys(Keys.RETURN)

In [None]:
# Buscamos dentro del código de la página web la clase que contiene todos los encabezados
# en nuestro caso "_3Up38k81YNBWQoW1ovMU88"

 <div class="_3Up38k81YNBWQoW1ovMU88"><div><div data-testid="search-results-nav" class="_3ZVtna7z8ubZ_0xlkz8Ciq"><div class="_17ENg3CVcX9h4tizklzbBA" role="tablist"><a class="_3VRnVFcuw-VlyOQOYOl2aT" aria-selected="true" role="tab" href="/search/?q=scraping&amp;type="><button class="cmR5BF4NpBUm3DBMZCmJS _2jNQT-6WbFOjX2hdDWV56w _2dj14FxV-bfkwopj1jV_fF">Publicaciones</button></a><a class="_3VRnVFcuw-VlyOQOYOl2aT" aria-selected="false" role="tab" href="/search/?q=scraping&amp;type=sr%2Cuser"><button class="cmR5BF4NpBUm3DBMZCmJS _2jNQT-6WbFOjX2hdDWV56w _1g3g98ViMb36cM-peU17Jk">Comunidades y gente</button></a></div></div><div data-testid="search-results-subnav" class="XZK-LTFT5CgGo9MvPQQsy _26jxFFm8Z3TxPyZxoddAGy"><div class="_22_pCIPvWXgGDvfV4Hi_RZ"><button data-testid="search-results-filter-sort" class="cmR5BF4NpBUm3DBMZCmJS _2jNQT-6WbFOjX2hdDWV56w _1g3g98ViMb36cM-peU17Jk _2RO66v7UQZQ1jiF36lZdHr">Ordenar<i class="_26YOIiLM0ZScbbxLq0o7I0 icon icon-caret_down"></i></button><div id="search-results-sort"></div></div><div class="_22_pCIPvWXgGDvfV4Hi_RZ"><button data-testid="search-results-filter-time" class="cmR5BF4NpBUm3DBMZCmJS _2jNQT-6WbFOjX2hdDWV56w _1g3g98ViMb36cM-peU17Jk _2RO66v7UQZQ1jiF36lZdHr">Hora<i class="_26YOIiLM0ZScbbxLq0o7I0 icon icon-caret_down"></i></button><div id="search-results-time"></div></div></div></div><div class="_2lzCpzHH0OvyFsvuESLurr _3SktesklDBwXt2pEl0sHY8"><div class="_1BJGsKulUQfhJyO19XsBph _3SktesklDBwXt2pEl0sHY8"><div tabindex="0"></div><div class="EmAI60CZ6hqtjh7kIC2SS"><div class="QBfRw7Rj8UkxybFpX-USO"><div><div><div class="_1oQyIsiPHYt6nx7VOmd1sz _2dkUkgRYbhbpU_2O2Wc5am _28efb5XEIggTEMzT5v9i61 scrollerItem Post t3_qgdx1z " data-testid="post-container" id="t3_qgdx1z" tabindex="-1" style="color: rgb(135, 138, 140); cursor: pointer; fill: rgb(135, 138, 140);"><div class="_1poyrkZ7g36PawDueRza-J" data-click-id="background" style="background: rgb(255, 255, 255);"><div class="_2i5O0KNpb9tDq0bsNOZB_Q " data-click-id="body"><div class="_37TF67KpZQl9SHbiAhz3mf _3xeOZ4NlqvpwzbB5E8QC6r"><div class="_2mHuuvyV9doV3zwbZPtIPG _3Wz607wX-KXslTUjYvTZWi _3Wz607wX-KXslTUjYvTZWi"><a href="/r/Python/"><img alt="Icono de subreddit" role="presentation" src="https://styles.redditmedia.com/t5_2qh0y/styles/communityIcon_h9cdwd9m75a51.png?width=256&amp;s=d4d1eb25f0a6853d76836ca30184fc9a67a57464" class="_34CfAAowTqdbNDYXz5tBTW _33bYVIxJlbFcqiiYlexnqp id5ExZR7GqiUypGICnSYs" style="background-color: rgb(34, 58, 85);"></a><a data-testid="subreddit-name" data-click-id="subreddit" class="_3ryJoIoycVkA88fy40qNJc _305seOZmrgus3clHOXCmfs" href="/r/Python/">r/Python</a><div class="_3Wz607wX-KXslTUjYvTZWi _3Wz607wX-KXslTUjYvTZWi" id="SubredditInfoTooltip--t3_qgdx1z--Python"></div></div><span class="_3LS4zudUBagjFS7HjWJYxo _37gsGHa8DMRAxBmQS-Ppg8" role="presentation">•</span><div class="_3AStxql1mQsrZuUIFP9xSg _1wxi9M8fCejzbsH0YGSer2"><span class="_2fCzxBE1dlMh4OFc7B3Dun" style="color: rgb(120, 124, 126);">Publicado por</span><div class="_2mHuuvyV9doV3zwbZPtIPG"><a class="_2tbHP6ZydRpjI44J3syuqC  _23wugcdiaj44hdfugIAlnX oQctV4n0yUb0uiHDdGnmE" href="/user/backdoorman9/" style="color: rgb(120, 124, 126);">u/backdoorman9</a><div id="UserInfoTooltip--t3_qgdx1z"></div></div><a class="_3jOxDPIQ0KaOWpzvSQo-1s" data-click-id="timestamp" href="https://www.reddit.com/r/Python/comments/qgdx1z/web_scraping_in_a_professional_setting_selenium/" target="_blank" rel="nofollow noopener noreferrer" style="color: rgb(120, 124, 126);">hace 1 mes</a></div></div><div class="_19FzInkloQSdrf0rh3Omen"><div><div class="_2FCtq-QzlfuN-SwVMUZMM3 t3_qgdx1z"><div class="y8HYJ-y_lTUHkQIc1mdCq _2INHSNB8V5eaWp4P0rY_mE"><a data-click-id="body" class="SQnoC3ObvgnGjWt90zD9Z _2INHSNB8V5eaWp4P0rY_mE" href="/r/Python/comments/qgdx1z/web_scraping_in_a_professional_setting_selenium/"><div class="_2SdHzo12ISmrC8H86TgSCp _1zpZYP8cFNLfLDexPY65Y7 " style="--posttitletextcolor:#222222;"><h3 class="_eYtD2XCVieq6emjKBH3m">Web <span class="_1Nh8xLEUG3orjY1k1aijj">Scraping</span> in a professional setting: Selenium vs. BeautifulSoup</h3></div></a></div><div class="_2xu1HuBz1Yx6SP10AGVx_I" data-ignore-click="false"><div class="lrzZ8b0L6AzLkQj5Ww7H1"></div><div class="lrzZ8b0L6AzLkQj5Ww7H1"><a href="/r/Python/?f=flair_name%3A%22Discussion%22"><div class="_2X6EB3ZhEeXCh1eIVA64XM _2hSecp_zkPm_s5ddV2htoj _2VqfzH0dZ9dIl3XWNxs42y aJrgrewN9C8x1Fusdx4hh " style="background-color: rgb(237, 239, 241); color: rgb(26, 26, 27);"><span>Discussion</span></div></a></div></div><div class="_1hLrLjnE1G_RBCNcN9MVQf">
              <img alt="" src="https://www.redditstatic.com/desktop2x/img/renderTimingPixel.png" style="width: 1px; height: 1px;" onload="(__markFirstPostVisible || function(){})();">
            </div><style>
        .t3_qgdx1z ._2FCtq-QzlfuN-SwVMUZMM3 {
          --postTitle-VisitedLinkColor: #9b9b9b;
          --postTitleLink-VisitedLinkColor: #9b9b9b;
       
        }
      </style></div></div><div class="Gk-MlLujgqsaX1n-sGa_O"><div class="_2MkcR85HDnYngvlVW2gMMa"><a href="https://i.redd.it/dbps4tnypsx71.jpg" rel="noopener nofollow ugc" target="_blank"><div aria-label="It is called &quot;Comming home from work, seeing a stuffed hotend scraping the metal plate&quot; STL anyone?😬😬😬" class="_2c1ElNxHftd8W_nZtcG9zf _33Pa96SGhFVpZeI6a7Y_Pl _2r9BZFotuBbLYnijAaskeZ " data-click-id="image" role="img" style="background-image: url(&quot;https://b.thumbs.redditmedia.com/aJJ9xSM7oGo1IG4i8OLLvXvp2UPOMOaQBvikQkMGiyQ.jpg&quot;); border-color: rgb(237, 239, 241);"><img alt="It is called &quot;Comming home from work, seeing a stuffed hotend scraping the metal plate&quot; STL anyone?😬😬😬" class="_25ZOvQhQdAqwdxPd5z-KFB hiddenImg"></div></a></div></div></div><div class="_2IpBiHtzKzIxk2fKI4UOv1 HNL__wz5plDpzJe5Lnn"><span class="_vaFo96phV6L5Hltvwcox">288 upvotes</span><span class="_vaFo96phV6L5Hltvwcox">77 comentarios</span><span class="_vaFo96phV6L5Hltvwcox">0 premios</span></div></div></div></div></div></div></div><div class="FohHGMokxXLkon1aacMoi"><div class="_3tBFh6Ty3gSaxW4gcm6hZ_"><div class="_2486DvSWPD-F9xM1LaS9AZ"><div class="-epve_JNERIUWcWNKZJF6"><div class="_2dzkHWoQ7wLdDsEAwyw1NL"><div class="_1cE9WBao1CSNnKKQd97erN _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="dXH0UqIq_Mtkd24573Rs5 _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div><div class="_1NHO6pCrlHfrC6Q-_d-3kZ"><div class="aHlABuIzfJ3NbabTwjGN8 _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="_22TlQsT52A1DMzjuJNEb7b"><div class="_1wEL9K8jt2pgaYL1hhQt_P _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div></div><div class="_2ztqeqAwKeO-Fwjjpm3ou2"><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div></div></div><div class="_2486DvSWPD-F9xM1LaS9AZ"><div class="-epve_JNERIUWcWNKZJF6"><div class="_2dzkHWoQ7wLdDsEAwyw1NL"><div class="_1cE9WBao1CSNnKKQd97erN _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="dXH0UqIq_Mtkd24573Rs5 _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div><div class="_1NHO6pCrlHfrC6Q-_d-3kZ"><div class="aHlABuIzfJ3NbabTwjGN8 _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="_22TlQsT52A1DMzjuJNEb7b"><div class="_1wEL9K8jt2pgaYL1hhQt_P _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div></div><div class="_2ztqeqAwKeO-Fwjjpm3ou2"><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div></div></div><div class="_2486DvSWPD-F9xM1LaS9AZ"><div class="-epve_JNERIUWcWNKZJF6"><div class="_2dzkHWoQ7wLdDsEAwyw1NL"><div class="_1cE9WBao1CSNnKKQd97erN _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="dXH0UqIq_Mtkd24573Rs5 _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div><div class="_1NHO6pCrlHfrC6Q-_d-3kZ"><div class="aHlABuIzfJ3NbabTwjGN8 _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="_22TlQsT52A1DMzjuJNEb7b"><div class="_1wEL9K8jt2pgaYL1hhQt_P _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div></div><div class="_2ztqeqAwKeO-Fwjjpm3ou2"><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div><div class="hKjLaaNx-nWjCGihE3wwZ _3giTODNeZ-Po90u8Ghs4aI fzTkuBRFT8iIn1XnJX_Yn "></div></div></div></div></div></div></div></div><div class="_2iRJ8DI-3RTbsXRSDXE5ZG"><div data-testid="search-results-sidebar" class="_1FUNcfOeszr8eruqLxCMcR _35ky2Wm3TP6kFdIh-DOxmA"><div class="_2JPypBjLPFQo1pLekHV0qq" data-testid="communities-list"><h4 class="_1yTIcK7yas2a1pWJ4dACIl">Communities and People</h4><div><div><div><a class="_3K_3Lkp9Y0UOvx4jLCEO1t _2DUH3f7VrWC1DqRH4885YM _12I4LEbhoIMSoIIXC_OHwT" data-testid="subreddit-link" href="/r/scraping/"><div><i class="_3NNJELf9FmGhKjI7UZ8cia _1xvdfUtOPDANqHjxzxKX5b  icon icon-community_fill" style="color: rgb(0, 121, 211);"></i></div><div class="_1P9xc8Vuhfh3gnFtpZ8Re4"><div class="CCriDGNZMkvnfCBh2RHK4 _2qMwaXWIn_m8Wdxt7k-zJc"><h6 class="_2aQkt7SngMSaKmFJN0J64X">r/scraping</h6><p class="_37cCjYJHqjK_4BJSpMj0h_">786 Miembros</p></div></div><div class="_2arN9o-oddMZY7RpPcYD-9"><button role="button" tabindex="0" class="_1LHxa-yaHJwrPK8kuyv_Y4 _2iuoyPiKHN3kfOoeIQalDT _4Glnzr5LA7bNBGMWGW4pU HNozj_dKjQZ59ZsfEegz8 ">Unirse</button></div></a></div></div><div><div><a class="_3K_3Lkp9Y0UOvx4jLCEO1t _12I4LEbhoIMSoIIXC_OHwT" data-testid="subreddit-link" href="/r/learnpython/"><div><img alt="Icono de subreddit" role="presentation" src="https://styles.redditmedia.com/t5_2r8ot/styles/communityIcon_jwr5s7l5ici61.png?width=256&amp;s=45deb6f123031525835c1ab234a53be00bdbc207" class="_34CfAAowTqdbNDYXz5tBTW _3NNJELf9FmGhKjI7UZ8cia" style="background-color: rgb(0, 121, 211);"></div><div class="_1P9xc8Vuhfh3gnFtpZ8Re4"><div class="CCriDGNZMkvnfCBh2RHK4 _2qMwaXWIn_m8Wdxt7k-zJc"><h6 class="_2aQkt7SngMSaKmFJN0J64X">r/learnpython</h6><p class="_37cCjYJHqjK_4BJSpMj0h_">572k Miembros</p></div></div><div class="_2arN9o-oddMZY7RpPcYD-9"><button role="button" tabindex="0" class="_1LHxa-yaHJwrPK8kuyv_Y4 _2iuoyPiKHN3kfOoeIQalDT _4Glnzr5LA7bNBGMWGW4pU HNozj_dKjQZ59ZsfEegz8 ">Unirse</button></div></a></div></div><div><div><a class="_3K_3Lkp9Y0UOvx4jLCEO1t _12I4LEbhoIMSoIIXC_OHwT" data-testid="subreddit-link" href="/r/oddlysatisfying/"><div><img alt="Icono de subreddit" role="presentation" src="https://styles.redditmedia.com/t5_2x93b/styles/communityIcon_eefpey65pli21.png?width=256&amp;s=6e82b7aa9e7d1760f3327620dba3dc09ee7b54f1" class="_34CfAAowTqdbNDYXz5tBTW _3NNJELf9FmGhKjI7UZ8cia" style="background-color: rgb(0, 166, 165);"></div><div class="_1P9xc8Vuhfh3gnFtpZ8Re4"><div class="CCriDGNZMkvnfCBh2RHK4 _2qMwaXWIn_m8Wdxt7k-zJc"><h6 class="_2aQkt7SngMSaKmFJN0J64X">r/oddlysatisfying</h6><p class="_37cCjYJHqjK_4BJSpMj0h_">6.3m Miembros</p></div></div><div class="_2arN9o-oddMZY7RpPcYD-9"><button role="button" tabindex="0" class="_1LHxa-yaHJwrPK8kuyv_Y4 _2iuoyPiKHN3kfOoeIQalDT _4Glnzr5LA7bNBGMWGW4pU HNozj_dKjQZ59ZsfEegz8 ">Unirse</button></div></a></div></div><div><div><a class="_3K_3Lkp9Y0UOvx4jLCEO1t _12I4LEbhoIMSoIIXC_OHwT" data-testid="subreddit-link" href="/r/Python/"><div><img alt="Icono de subreddit" role="presentation" src="https://styles.redditmedia.com/t5_2qh0y/styles/communityIcon_h9cdwd9m75a51.png?width=256&amp;s=d4d1eb25f0a6853d76836ca30184fc9a67a57464" class="_34CfAAowTqdbNDYXz5tBTW _3NNJELf9FmGhKjI7UZ8cia" style="background-color: rgb(34, 58, 85);"></div><div class="_1P9xc8Vuhfh3gnFtpZ8Re4"><div class="CCriDGNZMkvnfCBh2RHK4 _2qMwaXWIn_m8Wdxt7k-zJc"><h6 class="_2aQkt7SngMSaKmFJN0J64X">r/Python</h6><p class="_37cCjYJHqjK_4BJSpMj0h_">882k Miembros</p></div></div><div class="_2arN9o-oddMZY7RpPcYD-9"><button role="button" tabindex="0" class="_1LHxa-yaHJwrPK8kuyv_Y4 _2iuoyPiKHN3kfOoeIQalDT _4Glnzr5LA7bNBGMWGW4pU HNozj_dKjQZ59ZsfEegz8 ">Unirse</button></div></a></div></div><div><div><a class="_3K_3Lkp9Y0UOvx4jLCEO1t _12I4LEbhoIMSoIIXC_OHwT" data-testid="subreddit-link" href="/r/asmr/"><div><img alt="Icono de subreddit" role="presentation" src="https://b.thumbs.redditmedia.com/wn0QcDU3LaR8vTcHiNqtHdNT7UF7yEeOhOJ_A18PcxQ.png" class="_34CfAAowTqdbNDYXz5tBTW _3NNJELf9FmGhKjI7UZ8cia" style="background-color: rgb(0, 121, 211);"></div><div class="_1P9xc8Vuhfh3gnFtpZ8Re4"><div class="CCriDGNZMkvnfCBh2RHK4 _2qMwaXWIn_m8Wdxt7k-zJc"><h6 class="_2aQkt7SngMSaKmFJN0J64X">r/asmr</h6><p class="_37cCjYJHqjK_4BJSpMj0h_">243k Miembros</p></div></div><div class="_2arN9o-oddMZY7RpPcYD-9"><button role="button" tabindex="0" class="_1LHxa-yaHJwrPK8kuyv_Y4 _2iuoyPiKHN3kfOoeIQalDT _4Glnzr5LA7bNBGMWGW4pU HNozj_dKjQZ59ZsfEegz8 ">Unirse</button></div></a></div></div></div><a href="/search/?q=scraping&amp;type=sr%2Cuser"><p class="bu5zz8fSZ1Co_SUENbJO0">See more communities and people</p></a></div><div class="_1oRQu-aolgpPPJDblUGTw5"><div class=""><div class="_2wqyhtudP4weVGsZdVXJgt _1G4yU68P50vRZ4USXfaceV " data-redditstyle="false"><div class="_3RPJ8hHnfFohktLZca18J6 " style="max-height: none;"><div class="_1KrMye71CT332tKKKUWAj6"><div class="_3f2nSSsPBqVDV6Sz82qgrR"><a href="https://www.reddithelp.com" class="_3Eyh3vRo5o4IfzVZXhaWAG">ayuda</a><a href="https://www.reddit.com/coins" class="_3Eyh3vRo5o4IfzVZXhaWAG">Monedas de Reddit</a><a href="https://www.reddit.com/premium" class="_3Eyh3vRo5o4IfzVZXhaWAG">Reddit Premium</a><a href="https://redditgifts.com/" class="_3Eyh3vRo5o4IfzVZXhaWAG">Reddit gifts</a></div><div class="_3f2nSSsPBqVDV6Sz82qgrR"><a href="https://about.reddit.com" class="_3Eyh3vRo5o4IfzVZXhaWAG">acerca de</a><a href="https://about.reddit.com/careers/" class="_3Eyh3vRo5o4IfzVZXhaWAG">empleo</a><a href="https://about.reddit.com/press/" class="_3Eyh3vRo5o4IfzVZXhaWAG">prensa</a><a href="https://www.redditinc.com/advertising" class="_3Eyh3vRo5o4IfzVZXhaWAG">anunciarse</a><a href="http://www.redditblog.com/" class="_3Eyh3vRo5o4IfzVZXhaWAG">blog</a><a href="https://www.redditinc.com/policies/user-agreement" class="_3Eyh3vRo5o4IfzVZXhaWAG">Términos</a><a href="https://www.redditinc.com/policies/content-policy" class="_3Eyh3vRo5o4IfzVZXhaWAG">Política de contenido</a><a href="https://www.redditinc.com/policies/privacy-policy" class="_3Eyh3vRo5o4IfzVZXhaWAG">Política de privacidad</a><a href="https://www.reddit.com/help/healthycommunities/" class="_3Eyh3vRo5o4IfzVZXhaWAG">Política de moderación</a></div></div><div class="_34dh2eyzMvJfjCBLeoWiDD">Reddit Inc © 2021. Todos los derechos reservados</div></div></div></div><div class="_3Tc8YYRhVDX9vlR0XePZfH _365FiUZ11efXHV7l7fNp6K" style="top: calc(100vh - 8px);"><button role="button" tabindex="0" class="_1m03hmspTHlre1O1CXbY9Y _2iuoyPiKHN3kfOoeIQalDT _10BQ7pjWbeYP63SAPNS8Ts HNozj_dKjQZ59ZsfEegz8 ">Volver hacia arriba</button></div></div></div></div></div></div>
 <h3 class="_eYtD2XCVieq6emjKBH3m">Web <span class="_1Nh8xLEUG3orjY1k1aijj">Scraping</span> in a professional setting: Selenium vs. BeautifulSoup</h3>

In [None]:
# Localizar los resultados de búsqueda

search_results = WebDriverWait(driver, 20).until(
EC.presence_of_element_located((By.CLASS_NAME, "_3Up38k81YNBWQoW1ovMU88"))) 
search_results

In [None]:
# Buscamos en el código de la web el encabezado de una noticia
# para obtener las etiqueta que contienen el encabezado y la noticia h3 y span

# <h3 class="_eYtD2XCVieq6emjKBH3m"><span style="font-weight: normal;"><em style="font-weight: 700;">Scraping</em> ice off power lines</span></h3>

In [None]:
# Raspar los encabezados de los post’s
posts = search_results.find_elements_by_css_selector("h3._eYtD2XCVieq6emjKBH3m")

In [None]:
# Extraer el contenido de cada post

for post in posts:
    print(post.text)


In [None]:
# Salir del navegador
driver.quit()

### Selenium con PhantomJS

    Existe una herramienta, llamada PhantomJS, que carga las páginas y ejecuta su código sin abrir ningún navegador.  
    Con PhantomJS podemos incluso interactuar con las cookies de las páginas descargadas y el JavaScript sin mayores 
    problemas. También podemos para hacer raspado o scraper de páginas y elementos dentro de estas páginas.
    
    Podemos descargar PhantomJS desde la dirección http://phantomjs.org/download.html
    en C:\Program Files (x86)\
    
    Extraer el contenido en la  carpeta 
    
    C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe

In [None]:
import warnings

warnings.filterwarnings('ignore')

In [None]:
!pip show -V selenium

In [None]:
!pip freeze

In [None]:
!pip uninstall selenium
!pip install -U selenium

In [None]:
# Selenium con PhantomJS

from selenium import webdriver
import platform

# Inicializar el web Driver

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)

browser.get("https://www.python.org/")

Los métodos find_ retornan objetos de tipo 
selenium.webdriver.remote.webelement.WebElement
que representan un elemento DOM de la página. Sobre estos objetos podemos seguir realizando consultas con los métodos find_().


In [None]:
browser.find_element_by_class_name("introduction").text

In [None]:
browser.find_element_by_class_name("main-header").text

In [None]:
browser.find_element_by__tagname("div").text #.text

In [None]:
browser.find_element_by_tag_name("body").text

In [None]:
browser.find_element_by_id("homepage").text

In [None]:
browser.find_element_by_id("homepage").id # ID interno usado por Selenium.

In [None]:
browser.find_element_by_id("homepage").location # la localización del elemento en el canvas renderizado.

In [None]:
browser.find_element_by_id("homepage").size # tamaño del elemento.

In [None]:
browser.find_element_by_id("homepage").tag_name # nombre de etiqueta del elemento

In [None]:
elemento = browser.find_element_by_id("homepage")
elemento.get_attribute('class')

In [None]:
elemento.get_property("text_length")

In [None]:
browser.close()

### Interacción de Selenium con BeatifulSoup.

    Podemos utilizar el poder de Beautiful Soup en el contenido devuelto desde Selenium, usando page_source

In [None]:
from selenium import webdriver
from bs4 import BeautifulSoup

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.python.org/")
page = BeautifulSoup(browser.page_source,"html5lib")

links = page.findAll("a")

for link in links:
    print(link)
browser.close()

### Extraer el contenido de un iframe usando Selenium

    Las páginas HTML utilizan elementos <iframe> para embeber dinámicamente el contenido de otras páginas.  
    Por tanto, este contenido no está disponible directamente, sino que deberemos acceder a la fuente del iframe.

In [None]:
<iframe id="inlineFrameExample" title="Inline Frame Example" width="300" height="200" src="https://www.openstreetmap.org/export/embed.html?bbox=-0.004017949104309083%2C51.47612752641776%2C0.00030577182769775396%2C51.478569861898606&amp;layer=mapnik">
</iframe>

In [None]:
from selenium import webdriver
import platform

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://sites.google.com/view/programacin-con-python/p%C3%A1gina-principal") # https://developer.mozilla.org/en-US/docs/Web/HTML/Element/iframe

# Localizamos un iframe
seq = browser.find_elements_by_tag_name("iframe")
print("No of frames present in the web page are: ", len(seq))

# Nos movemos al contenido del iframe
browser.switch_to.default_content()
iframe = browser.find_elements_by_tag_name('iframe')[0]
browser.switch_to.frame(iframe)
iframe_source = browser.page_source

# Imprimimos el contenido del iframe
print(iframe_source) #returns iframe source

In [None]:
browser.title

In [None]:
# Imprimimos la URL del iframe
print(browser.current_url)

In [None]:
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError
from bs4 import BeautifulSoup

try:
    html = urlopen("https://developer.mozilla.org/en-US/docs/Web/HTML/Element/iframe")
except HTTPError as e:
    print(e)
except URLError:
    print("Servidor caído o dominio incorrecto.")
else:
    res = BeautifulSoup(html.read(), "html5lib")
    tag = res.find("iframe")
    uriIframe = tag['src']
    print(uriIframe) # la URl del iframe lista para scraping

### Gestionando las llamadas Ajax

    Comencemos definiendo ¿Qué es AJAX? Su nombre viene de Asynchronous JavaScript And XML.  
    AJAX no es un lenguaje de programación, sólo utiliza una combinación de:

    •	Un objeto XMLHttpRequest integrado del explorador (para solicitar datos de un servidor web)
    •	JavaScript y HTML DOM (para mostrar o utilizar los datos)
    
    AJAX permite que las páginas web se actualicen de forma asincrónica intercambiando datos con un servidor 
    web en segundo plano. Esto significa que es posible actualizar partes de una página web, sin volver a cargar 
    toda la página.
    
    Con JavaScript y técnicas AJAX, las páginas pueden cargar contenido dinámicamente realizando solicitudes 
    HTTP internas. Podemos usar Selenium para extraer contenido después de hacer llamadas AJAX.
    
    
![image.png](attachment:image.png)


In [None]:
from selenium import webdriver
import time
import platform

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.w3schools.com/xml/ajax_intro.asp")

# Localizamos el botón
boton = browser.find_elements_by_tag_name("button")[0] # trae todos los tags button

# Simulamos su pulsación y esperamos un tiempo a que se complete la solicitud Ajax
boton.click()
time.sleep(2)

# Recuperamos el contenido del bloque modificado
bloque = browser.find_element_by_id('demo')
print(bloque.text)
browser.close()

#### Código AJAX del botón Change Content

In [None]:
<!DOCTYPE html>
<html>
<body>

<div id="demo">
<h1>The XMLHttpRequest Object</h1>
<button type="button" onclick="loadDoc()">Change Content</button>
</div>

<script>
function loadDoc() {
  var xhttp = new XMLHttpRequest();
  xhttp.onreadystatechange = function() {
    if (this.readyState == 4 && this.status == 200) {
      document.getElementById("demo").innerHTML =
      this.responseText;
    }
  };
  xhttp.open("GET", "ajax_info.txt", true);
  xhttp.send();
}
</script>

</body>
</html>


In [None]:
import platform
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.w3schools.com/xml/ajax_intro.asp")

# Localizamos el botón
boton = browser.find_elements_by_tag_name("button")[0]

# Simulamos su pulsación y esperamos un tiempo a que se complete la solicitud Ajax
boton.click()

# Esperamos a que se complete la solicitud Ajax y exista el <h1>
try:
    WebDriverWait(browser, 20).until(EC.text_to_be_present_in_element((By.TAG_NAME, "h1"), "AJAX"))
    bloque = browser.find_element_by_id('demo')
    print(bloque.text)
except:
    pass
browser.close()

En la función WebDriverWait() 
    Se indica un tiempo máximo de espera de 10 segundos.
    El método until() permite bloquear el programa hasta que se cumpla la condición especificada.
    EC.text_to_be_present_in_element() se especifica la condición de que una etiqueta h1 contenga el texto "AJAX". 

### Manejando Cookies

In [None]:
from selenium import webdriver
import platform

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.python.org/")

print(browser.get_cookies())

In [None]:
from selenium import webdriver

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.w3schools.com/")

print(browser.get_cookies())

#### Borrar las cookies

In [None]:
from selenium import webdriver

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.python.org/")
browser.delete_all_cookies()

In [None]:
from selenium import webdriver

PATH = r"C:\Program Files (x86)\phantomjs-2.1.1-windows\bin\phantomjs.exe"

if (platform.system() == 'Windows'):
    browser = webdriver.PhantomJS(executable_path=PATH)
    
browser.get("https://www.w3schools.com/")
browser.delete_all_cookies()

#    Web Crawling 
    
El Crawling es todo el recorrido que realiza una araña o crawler, cualquier bot de indexación enviado por los motores     de búsqueda, con el fin de detectar, leer y analizar todo el contenido y el código que compone a una página web. 
    
Web crawling también lo podríamos definir como una forma de obtener un mapa. Para ello, necesitamos ir al sitio, evaluar y registrar todos los aspectos necesario. Los encargados de realizar este rastreo son los bots, y serán los  encargados de la creación de ese mapa. 

Su forma de trabajar consiste en escanear, indexar y registrar todos los sitios webs, incluidos páginas y subpáginas.  
    
Algunos rastreadores utilizados por grandes compañías son:
    
        •	Googlebot utilizado por Google 
        •	Bingbot utilizado por Bing de Microsoft 
        •	Slurp Bot utilizado por Yahoo 

## Rastreadores web con Scrapy

Scrapy es un framework de Python que simplifica el rastreo web. Entre sus características se encuentran:
    
        •	Permite descargar páginas web, procesarlas y guardarlas en archivos y bases de datos.
        •	Ofrece varias formas de rapar una página web. Su curva de aprendizaje es un poco 
            mayor que la de BeatifulSoup.
        •	Es muy rápido al rastrear URLs ya que utiliza técnicas asíncronas.
        
Scrapy proporciona un shell de rastreo web llamado **scrapy shell**.  Es útil para probar suposiciones sobre el comportamiento de un sitio.  


### Paso a Paso

1.	Instalar Scrapy con el comando:
    
            conda install -c conda-forge scrapy 
            
    o bien podemos usar la herramienta pip desde la terminal
    de Anaconda: 
        
            pip install scrapy
        
        
2.	Una vez instalado Scrapy, desde la terminal de Jupyter, por ejemplo, ejecutamos: 

            scrapy shell  
            
    Vamos a rastrear la página web de comercio electrónico de tabletas más vendidas de Amazon:

       “https://www.amazon.es/gp/bestsellers/computers/938010031”

3.	Se ejecuta el rastreador con el comando fetch(). Un rastreador recorre una página web descargando su texto y metadatos: 

                fetch("https://www.amazon.es/gp/bestsellers/computers/938010031/")


4.	El rastreador devuelve una respuesta que se puede ver mediante el comando 

            view(response) 
        
    De inmediato se abre la página con el navegador predeterminado.  

![image.png](attachment:image.png)


3.	Para ver en la consola el contenido HTML sin formato, se utiliza: 

            print(response.text)
            
4.	Abrimos la página web y podemos inspeccionar los elementos que nos interesan. Para este ejemplo 
recuperaremos: el nombre y precio de la tableta
        
5. Podemos comprobar que los nombres de las tabletas se muestran dentro de elementos: <div class="p13n-sc-truncate">

        <div class=" p13n-sc-truncated" aria-hidden="true" data-rows="4">2021 Apple iPad - Gris espacial</div>

    y el precio en elementos: 
    
        <span class="p13n-sc-price">
    
6. Podemos extraer los datos de la página usando los atributos de los elementos o usando selectores CSS. 
    
    * El método **extract_first()** recupera el primer elemento que cumple con el selector.
      
    * Para obtener todos los elementos, simplemente debemos usar el método **extract()**.  
    

NOTA: En ocasiones es necesario realizar una limpieza de los datos extraidos (eliminar los saltos de línea y espacios en blanco laterales). 

#### Búsqueda de etiquetas y atributos con CSS (extracción de datos)

In [None]:
response.css("._cDEzb_p13n-sc-css-line-clamp-3_g3dy1::text").extract_first()
response.css("._cDEzb_p13n-sc-css-line-clamp-3_g3dy1::text").extract()
response.css(".p13n-sc-price::text").extract()
response.css(".a-icon-alt::text").extract()

El método **css()** soporta el uso de la seudoclase **::attr()**. Con esta seudoclase podremos 
especificar un atributo del cual queremos recuperar el valor. Por ejemplo, cuando hacemos búsqueda 
de enlaces podemos utilizar el atributo href:

In [None]:
response.css("img::attr(alt)").extract()
response.css("a::attr(href)").extract()

#### Búsqueda de etiquetas y atributos con XPath (extracción de datos)

**XPath** es un lenguaje de consulta para seleccionar nodos en un documento XML. Podemos navegar por un documento XML utilizando XPath, de hecho, Scrapy usa Xpath para navegar por los elementos de documentos HTML. 

Consultaremos los nombres, precios y valoración de tabletas usando expresiones XPath. Las expresiones XPath 
no permiten filtrar por contenido parcial en un atributo. 

In [None]:
# XPath

response.xpath("//div[@class='_cDEzb_p13n-sc-css-line-clamp-3_g3dy1']/text()").extract()
response.xpath("//span[@class='p13n-sc-price']/text()").extract()
response.xpath("//span[@class='a-icon-alt']/text()").extract()

7. Para salir de esta consola interactiva podemos ejecutar el comando: **exit()**

### Creación de un proyecto Scrapy

Con las técnicas vistas con Scrapy, podemos rastrear las páginas de compra de tabletas y almacenarlas en un archivo 
en formato CSV. Para ello, vamos a crear una proyecto araña o crawler personalizado con Scrapy en el que se 
almacenarán los productos.

**Pasos:**

1. Abrir la consola y ubicarnos en el directorio **cd C:\Users\msierra\Desktop\ScrapApps**
2. Creamos el proyecto amazontabletas  **scrapy startproject amazontabletas**.  Se crea la estrctura del proyecto amazontabletas
3. Crear una araña: Nos ubicamos en el directorio spiders del proyecto
    **cd C:\Users\msierra\Desktop\ScrapApps\amazontabletas\amazontabletas\spiders**
4. Ejecutar el comando:
    **scrapy genspider amazon_tabletas "https://www.amazon.es/gp/bestsellers/computers/938010031/"**
5. Modificamos el archivo **amazon_tabletas.py** (spiders)

In [None]:
class AmazonTabletasSpider(scrapy.Spider):
    name = 'amazon_tabletas'
    allowed_domains = ['amazon.es']
    start_urls = ['https://www.amazon.es/gp/bestsellers/computers/938010031/']

Se define una clase **AmazonTabletasSpider(scrapy.Spider)** con atributos:
    
    * name: será el nombre de la araña. Cada nombre debe ser único,
        ya que se utilizarán para ejecutar la araña con el comando 
        scrapy crawl name.
    * allow_domains (opcional): es una lista de dominios que pueden
        rastrearse. No se rastrearán las solicitudes de URLs que no estén en
        esta lista. Aquí sólo se debe incluir el dominio del sitio web, no la
        URL completa.
    * start_urls: contiene las URLs por donde comenzará a rastrear la
        araña.
       
6.	Vamos a incluir en el método **parse()** del archivo **amazon_tabletas.py**, el código necesario para extraer los nombres y precios de tabletas:

    * El método **parse(self, response)** será invocado siempre que una URL se rastree correctamente. El parámetro response es el valor devuelto por el resultado del rastreo (el mismo tipo de objeto que obtuvimos en Scrapy Shell).


In [None]:
    def parse(self, response):
        print("procesando:", response.url)

        # Extraemos los datos usando selectores css
        nombres = response.css("._cDEzb_p13n-sc-css-line-clamp-3_g3dy1::text").extract()
        precios = response.xpath("//span[@class='p13n-sc-price']/text()").extract()

        # Normalizamos los datos

        for item in zip(nombres, precios):
            scraped_info = {
                'pagina': response.url,
                'tableta': item[0],
                'precio': item[1]
            }
            yield scraped_info

Con **yield** el método parse() retorna un generador que va sirviendo los datos en forma de diccionario.

7.	Ejecutamos la araña desde el directorio del proyecto: C:\Users\msierra\Desktop\ScrapApps\amazontabletas>     
        scrapy crawl amazon_tabletas
        
8. La araña creada sólo extrae la información de la primera página.  Para buscar la información 
en todas las páginas, debemos busca la opción "siguiente" al final de la pagina: 

        <ul class="a-pagination"> 

    donde podemos encontrar las etiquetas "a" con los enlaces posteriores. El último enlace se corresponde 
    con el de la página siguiente y está dentro de un elemento:

        <li class="a-last">

    Tendremos que obtener la última etiqueta "a" de cada página.  Vamos a modificar el fichero **amazon_tabletas.py** 
    para hacer un seguimientos de los enlaces siguientes.  El siguiente código agrega esta funcionalidad

In [None]:
NEXT_PAGE_SELECTOR = 'ul.a-pagination > li.a-last > a::attr(href)'
        next_page = response.css(NEXT_PAGE_SELECTOR).extract_first()
        if next_page:
            yield scrapy.Request(response.urljoin(next_page), callback=self.parse)

9. Exportar la salida a un fichero **.csv**

    Una alternativa para analizar los datos es exportarlos a un formato como CSV o JSON.  Para guardar 
    los datos en un fichero CSV, debemos abrir el archivo **settings.py** e insertar las siguientes líneas:

        FEED_FORMAT="csv"
        FEED_URI="amazontabletas.csv"
        
10. Abrimos con Pandas el fichero **amazontabletas.csv**

### Ejercicios para Ejecutar desde Scrapy Shell

Desde la terminal ejecutar: scrapy shell

In [None]:
# Ejemplo de Mil Anuncios

fetch("https://www.milanuncios.com/motos-de-segunda-mano/?stc=cs-vibbo-home-segundamano")
fetch("https://www.milanuncios.com/anuncios/?s=motos%20segunda%20mano&fromSearch=1&fromSuggester=1&suggest")

DEBUG: Crawled (403) 

response.xpath('//a[@class="ma-AdCard-titleLink"]/text()').extract()
response.css(".ma-AdCardV2-description::text").extract() # nombres
response.xpath('//p[@class="ma-AdCardV2-description"]/text()').extract()
response.xpath('//span[@class="ma-AdTag-label"]/text()').extract()
response.xpath('//span[@class="ma-AdPrice-value ma-AdPrice-value--default ma-AdPrice-value--heading--m"]/text()').extract()

exit()

403 suele ser una respuesta anti-bot (también 407, 408, 429, 502, 503, 504, 999). Algunos sitios web tienen diferentes protecciones anti-bot para diferentes páginas. 

In [None]:
#  Ejemplo de libros de Amazon

fetch('https://www.amazon.es/gp/bestsellers/books')

response.css("img::attr(alt)").extract()   # nombre
response.xpath('//a[@class="a-link-normal"]/span/div/text()').extract()
response.css("._cDEzb_p13n-sc-css-line-clamp-2_EWgCb::text").extract() 
response.css(".p13n-sc-price::text").extract() # precio
response.css(".a-icon-alt::text").extract()    #valoracion
response.xpath('//span[@class="a-size-small a-color-secondary a-text-normal"]/text()').extract()
response.xpath('//span[@class="a-size-small a-color-base"]/div/text()').extract()


### Ejercicio extraer libros desde Amazon

In [None]:
PATH = r"C:\Users\msierra\Desktop\ScrapApps\amazontabletas\amazontabletas\spiders\amazontabletas.csv"

import pandas as pd

df = pd.read_csv(PATH, usecols=[1,2], encoding = "utf-8")
df

In [None]:
### Ejercicio extraer libros desde Amazon

1. Abrir la consola y ubicarnos en el directorio cd C:\Users\msierra\Desktop\ScrapApps
2. Creamos el proyecto amazonlibros  scrapy startproject amazonlibros    
3. Crear una araña: cd C:\Users\msierra\Desktop\ScrapApps\amazonlibros\amazonlibros\spiders
        
        scrapy genspider amazon_libros "https://www.amazon.es/gp/bestsellers/books"
        
4. Modificamos el archivo amazon_libros.py (spiders)

import scrapy


class AmazonLibrosSpider(scrapy.Spider):
    name = 'amazon_libros'
    allowed_domains = ['amazon.es']
    start_urls = ['https://www.amazon.es/gp/bestsellers/books']

    def parse(self, response):
        print("procesando:", response.url)

        # Extraemos los datos usando selectores css

        nombres = response.xpath('//a[@class="a-link-normal"]/span/div/text()').extract()
        autores = response.xpath('//span[@class="a-size-small a-color-base"]/div/text()').extract()
        precios = response.css(".p13n-sc-price::text").extract()
        valoracion = response.css(".a-icon-alt::text").extract()

        # Normalizamos los datos

        for item in zip(nombres, autores, precios, valoracion):
            scraped_info = {
                'pagina': response.url,
                'libros': item[0],
                'autores': item[1],
                'precio': item[2],
                'valoracion':item[3]
            }
            print(scraped_info)
            yield scraped_info

        NEXT_PAGE_SELECTOR = 'ul.a-pagination > li.a-last > a::attr(href)'
        next_page = response.css(NEXT_PAGE_SELECTOR).extract_first()
        if next_page:
            yield scrapy.Request(response.urljoin(next_page), callback=self.parse)

            
Insertar las lineas en settings.py

FEED_FORMAT="csv"
FEED_URI="amazonlibros.csv"

5. Ejecutamos la araña desde la terminal scrapy crawl amazon_libros

### Ejecutar la araña desde un programa

In [None]:
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
import os

os.chdir("C:\\Users\\msierra\\Desktop\\ScrapApps\\amazonlibros\\amazonlibros\\spiders\\")


process = CrawlerProcess(get_project_settings())

process.crawl('amazon_libros')
process.start() # the script will block here until the crawling is finished

In [None]:
PATH = r"C:\Users\msierra\Desktop\ScrapApps\amazonlibros\amazonlibros\spiders\amazonlibros.csv"

import pandas as pd

df = pd.read_csv(PATH, usecols=[1,2,3,4], encoding = "utf-8")
df

In [None]:
df.info()

In [None]:
df.groupby(["autores"]).size().sort_values(ascending=False)

In [None]:
df.groupby(["valoracion"]).size().sort_values(ascending=False)

In [None]:
df.sort_values(by="libros", ascending=False)